본문 바로가기

전체 글

Diffusion On Syntax Trees For Program Synthesis https://arxiv.org/abs/2405.20519 Diffusion On Syntax Trees For Program SynthesisLarge language models generate code one token at a time. Their autoregressive generation process lacks the feedback of observing the program's output. Training LLMs to suggest edits directly can be challenging due to the scarcity of rich edit data. To addrarxiv.org 대형 언어 모델(LLM)은 코드를 하나의 토큰씩 생성합니다. 이들의 자기회귀 생성 과정은 프로.. 더보기
Relightable Gaussian Codec Avatars https://shunsukesaito.github.io/rgca/ Relightable Gaussian Codec AvatarsRelightable Gaussian Codec Avatars are conditioned with a latent expression code, gaze information, and a target view direction. The underlying geometry is parameterized by 3D Gaussians and can be efficiently rendered with the Gaussian Splatting technique.shunsukesaito.github.io 요약재조명의 충실도는 기하학적 및 외관 표현 모두에 의해 제한됩니다. 기하학적인 측.. 더보기
Nymeria: A Massive Collection of Multimodal Egocentric Daily Motion in the Wild https://www.projectaria.com/datasets/nymeria/ Nymeria DatasetA massive collection of multimodal egocentric dataset for human motion in the wildwww.projectaria.com 요약. 우리는 Nymeria를 소개합니다. 이는 여러 다중모달 자가 중심 장치를 사용하여 자연 상태에서 수집된 대규모, 다양하고 풍부하게 주석이 달린 인간 동작 데이터셋입니다. 이 데이터셋은 다음과 같은 내용을 포함합니다: a) 전신 3D 동작 기준 진실; b) Project Aria 장치의 자가 중심 다중모달 녹화 데이터(RGB, 그레이스케일, 시선 추적 카메라, IMU, 자력계, 기압계 및 마이크 포함); c) 제.. 더보기
PlatoNeRF: 3D Reconstruction in Plato's Cave via Single-View Two-Bounce Lidar https://platonerf.github.io/ PlatoNeRF: 3D Reconstruction in Plato's Cave via Single-View Two-Bounce LidarPlatoNeRF: 3D Reconstruction in Plato's Cave via Single-View Two-Bounce Lidarplatonerf.github.io 요약단일 뷰에서 3D 재구성은 단안 단서의 모호성과 가려진 영역에 대한 정보 부족으로 인해 어려운 과제입니다. 뉴럴 방사 필드(NeRF)는 뷰 합성 및 3D 재구성에 널리 사용되지만, 일반적으로 다중 뷰 이미지를 필요로 합니다. 단일 뷰 3D 재구성을 위한 기존의 NeRF 방법들은 가려진 영역의 뷰를 상상하기 위해 데이터 사전 지식을 사용하거나, .. 더보기
Direct Preference Optimization: Your Language Model is Secretly a Reward Model https://arxiv.org/abs/2305.18290 Direct Preference Optimization: Your Language Model is Secretly a Reward ModelWhile large-scale unsupervised language models (LMs) learn broad world knowledge and some reasoning skills, achieving precise control of their behavior is difficult due to the completely unsupervised nature of their training. Existing methods for gaining sarxiv.org 초록대규모 비지도 언어 모델(LMs)은.. 더보기
Nemotron-4 340B Technical Report https://blogs.nvidia.com/blog/nemotron-4-synthetic-data-generation-llm-training/ NVIDIA Releases Open Synthetic Data Generation Pipeline for Training Large Language ModelsNemotron-4 340B, a family of models optimized for NVIDIA NeMo and NVIDIA TensorRT-LLM, includes cutting-edge instruct and reward models, and a dataset for generative AI training.blogs.nvidia.com 요약우리는 Nemotron-4 340B 모델 패밀리를 공개.. 더보기
Mixture-of-Agents Enhances Large Language ModelCapabilities https://github.com/togethercomputer/MoA?tab=readme-ov-file GitHub - togethercomputer/MoAContribute to togethercomputer/MoA development by creating an account on GitHub.github.com  초록최근 대형 언어 모델(LLM)의 발전은 자연어 이해 및 생성 작업에서 상당한 능력을 보여주고 있다. 증가하는 LLM의 수와 함께 여러 LLM의 집합적 전문 지식을 활용하는 방법은 흥미로운 개방적 방향이다. 이를 목표로 우리는 다중 LLM의 집합적 강점을 활용하는 Mixture-of-Agents (MoA) 방법론을 제안한다. 우리의 접근법에서 우리는 각 계층이 여러 LLM 에이전트로 구.. 더보기
Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation https://github.com/fudan-generative-vision/hallo GitHub - fudan-generative-vision/hallo: Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image AnimationHallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation - fudan-generative-vision/hallogithub.com시작전 알아두면 좋을 것종단 간 확산 모델(End-to-End Diffusion Model)은 최신 인공지능 기술 중 하나로, 이미지와 같은 데이터를 생성하거나 복원하는 데 사용됩니다. 이 모델은 데.. 더보기