본문 바로가기

인공지능

Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation https://github.com/fudan-generative-vision/hallo GitHub - fudan-generative-vision/hallo: Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image AnimationHallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation - fudan-generative-vision/hallogithub.com시작전 알아두면 좋을 것종단 간 확산 모델(End-to-End Diffusion Model)은 최신 인공지능 기술 중 하나로, 이미지와 같은 데이터를 생성하거나 복원하는 데 사용됩니다. 이 모델은 데.. 더보기
Will we run out of data? Limits of LLM scaling based on human-generated data 요약우리는 공개된 인간 생성 텍스트 데이터의 가용성이 대규모 언어 모델(LLM) 확장에 미치는 잠재적 제약을 조사합니다. 현재 추세에 기반하여 훈련 데이터에 대한 수요 증가를 예측하고, 공개된 인간 텍스트 데이터의 총량을 추정합니다. 우리의 연구 결과에 따르면, 현재의 LLM 개발 추세가 계속된다면, 2026년에서 2032년 사이에 모델들이 공개된 인간 텍스트 데이터의 총량과 대략 비슷한 크기의 데이터셋으로 훈련될 것이며, 모델이 과도하게 훈련된다면 이보다 약간 더 이르게 도달할 수 있습니다. 우리는 인간 생성 텍스트 데이터셋을 더 이상 확장할 수 없을 때 언어 모델링의 발전이 어떻게 지속될 수 있는지 탐구합니다. 우리는 합성 데이터 생성, 데이터가 풍부한 도메인에서의 전이 학습, 데이터 효율성 향상 등.. 더보기
xLSTM: Extended Long Short-Term Memory 요약 1990년대에 Long Short-Term Memory(LSTM)의 핵심 아이디어로 지속적인 오류 회전목마와 게이팅이 도입되었습니다. 그 이후로 LSTM은 시간의 시험을 견디며 많은 딥러닝 성공 사례에 기여했으며, 특히 첫 번째 대형 언어 모델(LLM)을 구성했습니다. 그러나 병렬화 가능한 자기 주의를 핵심으로 하는 트랜스포머 기술의 출현은 새로운 시대의 도래를 알렸고, 대규모에서 LSTM을 능가했습니다. 이제 우리는 간단한 질문을 제기합니다: 최신 LLM의 기술을 활용하되 LSTM의 알려진 한계를 완화하면서 LSTM을 수십억 개의 매개변수로 확장하면 언어 모델링에서 얼마나 멀리 갈 수 있을까요? 첫째, 적절한 정규화 및 안정화 기법을 사용한 지수 게이팅을 도입합니다. 둘째, LSTM 메모리 구조를.. 더보기
ToonCrafter: Generative Cartoon Interpolation https://doubiiu.github.io/projects/ToonCrafter   -->   --> Teaser video Input starting frame Input ending frame Traditional synthesis interpolation (EISAI) Our generative interpolation --> Showcases produced by our ToonCrafte" data-og-host="doubiiu.github.io" data-og-source-url="https://doubiiu.github.io/projects/ToonCrafter" data-og-url="https://doubiiu.github.io/projects/ToonCrafter/" data-og-.. 더보기
AlphaGeometry: Solving olympiad geometry without human demonstrations https://www.nature.com/articles/s41586-023-06747-5 문제를 입력받아 다음과 같은 도메인으로 1차 처리 이후에 이를 바탕으로 이게 되는지 안되는지 계속 tree search후, 정답 조건식들을 만족하게 되면 정답을 맞추는 방식 trial and error를 계속 사용하되 그것이 llm을 사용하게 하는 것으로 오히려 강화학습에 가깝지 않나 싶음 결국 무한의 도메인을 더 좁은 도메인으로 좁히는 방식으로 푸는 것 하지만 무한한 trial and error도 풀지 못한 5개가 존재하는데, 이에 대해서 알려주었다면 더 좋겠음 좋은 발전이지만 아직 논리는 이해한다고 보긴 어려워보임 더보기
Mixtral of Experts https://arxiv.org/abs/2401.04088 Mixtral of Experts We introduce Mixtral 8x7B, a Sparse Mixture of Experts (SMoE) language model. Mixtral has the same architecture as Mistral 7B, with the difference that each layer is composed of 8 feedforward blocks (i.e. experts). For every token, at each layer, a router arxiv.org 간단하게 표현하면 x개의 모델이 존재하며 앞에 FFN을 추가해서 그중 높은 점수 2개를 결합하여 사용하는 방식 Routing에 대한 인공지능을 .. 더보기
Generative Agents: Interactive Simulacra of Human Behavior https://arxiv.org/abs/2304.03442 Generative Agents: Interactive Simulacra of Human Behavior Believable proxies of human behavior can empower interactive applications ranging from immersive environments to rehearsal spaces for interpersonal communication to prototyping tools. In this paper, we introduce generative agents--computational software ag arxiv.org LLM 자가 학습 더보기
LLaMA Pro: Progressive LLaMA with Block Expansion (Paper Explained) https://arxiv.org/html/2401.02415v1 LLaMA Pro: Progressive LLaMA with Block Expansion HTML conversions sometimes display errors due to content that did not convert correctly from the source. This paper uses the following packages that are not yet supported by the HTML conversion tool. Feedback on these issues are not necessary; they are kno arxiv.org 짧은 요약 LLaMA Pro는 기존 LLaMA 언어 모델을 기반으로 새로운 블록 .. 더보기