본문 바로가기

전체 글

ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders https://arxiv.org/abs/2301.00808 ConvNeXt V2: Co-designing and Scaling ConvNets with Masked AutoencodersDriven by improved architectures and better representation learning frameworks, the field of visual recognition has enjoyed rapid modernization and performance boost in the early 2020s. For example, modern ConvNets, represented by ConvNeXt, have demonstratarxiv.org 다른 분야의 일을하면서 논문을 읽다보니 정신이 없다.. 더보기
이미지 prompt 추축 우리가 받은 ai 이미지의 단어를 추측해주는 사이트 https://replicate.com/methexis-inc/img2prompt methexis-inc/img2prompt – Run with an API on ReplicateRun time and cost This model runs on Nvidia T4 GPU hardware. Predictions typically complete within 27 seconds. The predict time for this model varies significantly based on the inputs. Readme Model description Provides approximate text prompts that can bereplicate.com 더보기
인공지능 분야 모델 분석 https://www.salesforceairesearch.com/crm-benchmark Generative AI Benchmark for CRM | Salesforce AI ResearchPowering the world's smartest CRM by embedding state-of-the-art deep learning technology into the Salesforce Platform.www.salesforceairesearch.com 더보기
FIFO-Diffusion: Generating Infinite Videos from Text without Training https://arxiv.org/abs/2405.11473 FIFO-Diffusion: Generating Infinite Videos from Text without TrainingWe propose a novel inference technique based on a pretrained diffusion model for text-conditional video generation. Our approach, called FIFO-Diffusion, is conceptually capable of generating infinitely long videos without additional training. This is achiearxiv.org 초록 우리는 텍스트 조건 비디오 생성을 위한 사전 학습.. 더보기
Diffusion On Syntax Trees For Program Synthesis https://arxiv.org/abs/2405.20519 Diffusion On Syntax Trees For Program SynthesisLarge language models generate code one token at a time. Their autoregressive generation process lacks the feedback of observing the program's output. Training LLMs to suggest edits directly can be challenging due to the scarcity of rich edit data. To addrarxiv.org 대형 언어 모델(LLM)은 코드를 하나의 토큰씩 생성합니다. 이들의 자기회귀 생성 과정은 프로.. 더보기
Relightable Gaussian Codec Avatars https://shunsukesaito.github.io/rgca/ Relightable Gaussian Codec AvatarsRelightable Gaussian Codec Avatars are conditioned with a latent expression code, gaze information, and a target view direction. The underlying geometry is parameterized by 3D Gaussians and can be efficiently rendered with the Gaussian Splatting technique.shunsukesaito.github.io 요약재조명의 충실도는 기하학적 및 외관 표현 모두에 의해 제한됩니다. 기하학적인 측.. 더보기
Nymeria: A Massive Collection of Multimodal Egocentric Daily Motion in the Wild https://www.projectaria.com/datasets/nymeria/ Nymeria DatasetA massive collection of multimodal egocentric dataset for human motion in the wildwww.projectaria.com 요약. 우리는 Nymeria를 소개합니다. 이는 여러 다중모달 자가 중심 장치를 사용하여 자연 상태에서 수집된 대규모, 다양하고 풍부하게 주석이 달린 인간 동작 데이터셋입니다. 이 데이터셋은 다음과 같은 내용을 포함합니다: a) 전신 3D 동작 기준 진실; b) Project Aria 장치의 자가 중심 다중모달 녹화 데이터(RGB, 그레이스케일, 시선 추적 카메라, IMU, 자력계, 기압계 및 마이크 포함); c) 제.. 더보기
PlatoNeRF: 3D Reconstruction in Plato's Cave via Single-View Two-Bounce Lidar https://platonerf.github.io/ PlatoNeRF: 3D Reconstruction in Plato's Cave via Single-View Two-Bounce LidarPlatoNeRF: 3D Reconstruction in Plato's Cave via Single-View Two-Bounce Lidarplatonerf.github.io 요약단일 뷰에서 3D 재구성은 단안 단서의 모호성과 가려진 영역에 대한 정보 부족으로 인해 어려운 과제입니다. 뉴럴 방사 필드(NeRF)는 뷰 합성 및 3D 재구성에 널리 사용되지만, 일반적으로 다중 뷰 이미지를 필요로 합니다. 단일 뷰 3D 재구성을 위한 기존의 NeRF 방법들은 가려진 영역의 뷰를 상상하기 위해 데이터 사전 지식을 사용하거나, .. 더보기