https://github.com/etched-ai/open-oasis
우리는 Oasis를 발표하게 되어 매우 기쁩니다. Oasis는 최초의 플레이 가능한 실시간 오픈 월드 AI 모델로, 프레임별로 생성되는 인터랙티브 비디오 게임입니다. Oasis는 사용자 키보드와 마우스 입력을 받아 실시간으로 게임 플레이를 생성하며, 내부적으로 물리 법칙, 게임 규칙, 그래픽 등을 시뮬레이션합니다. 이 모델은 사용자가 이동하고, 점프하고, 아이템을 집고, 블록을 부수는 등의 행동을 가능하게 하기 위해 직접 게임 플레이를 관찰함으로써 학습되었습니다. 우리는 Oasis를 더 복잡한 상호작용 세계를 시뮬레이션하는 기초 모델 연구의 첫 단계로 보고 있으며, 이는 AI가 주도하는 미래의 게임 엔진을 대체할 수 있는 가능성을 시사합니다.
Oasis를 달성하기 위해 두 가지 근본적인 발전이 필요했습니다. 하나는 모델이 전체 세계를 포착하고 이를 시뮬레이션할 수 있도록 하기 위한 모델 아키텍처의 개선이며, 다른 하나는 사용자가 모델과 실시간으로 상호작용할 때 최소한의 지연으로 가능하게 하는 모델 추론 기술의 혁신입니다. 전자의 경우, 우리는 대규모 언어 모델(LLMs)에서 영감을 받아 확산 훈련(diffusion training)과 트랜스포머 모델을 결합한 최신 상태의 접근 방식을 채택하여 사용자의 행동에 의해 순간적으로 조건화된 프레임별 비디오를 생성할 수 있는 오토리그레시브 모델을 훈련했습니다. 후자의 경우, 우리는 NVIDIA H100 Tensor Core GPU의 트랜스포머 작업 부하에 대해 최대 활용률을 제공하도록 설계된 Decart의 독점 추론 프레임워크를 사용하고 있으며, 곧 출시될 Etched의 Sohu 칩도 지원할 수 있도록 모델을 설계했습니다.
우리는 Oasis의 코드와 로컬에서 실행할 수 있는 모델 가중치를 공개하며, 더 큰 체크포인트의 라이브 플레이 가능한 데모도 제공합니다. 오늘날 Decart의 독점 추론 플랫폼을 사용하여 실시간 트랜스포머 기반 비디오가 가능하며, 웹을 통해 라이브 게임 플레이로 스트리밍할 수 있음을 보여줍니다. Etched의 트랜스포머 ASIC인 Sohu가 출시되면, Oasis 같은 모델을 4K 해상도로 실행할 수 있을 것입니다. 우리는 빠른 트랜스포머 추론이 고품질, 합리적인 가격의 실시간 생성 비디오를 새로운 기본 인터페이스로 만드는 데 있어 중요한 연결 고리라고 믿습니다.
Oasis는 인상적인 기술 데모이지만, 우리는 이 연구가 새로운 여정의 시작에 불과하다고 믿습니다. 이 여정은 새로운 수준의 실시간 인간-AI 상호작용을 가능하게 하는 더 복잡한 기초 모델을 포함합니다. 이는 사용자의 손에 제어권을 제공하는 인터랙티브 비디오 인터페이스를 통해 다양한 경험을 혁신할 수 있을 것입니다. 예를 들어, 이러한 통합이 매우 긴밀하여 기초 모델이 사용자의 선호도에 따라 실시간으로 콘텐츠를 생성함으로써 현대 엔터테인먼트 플랫폼을 확장하는 세상을 상상해 보십시오. 또는 텍스트와 오디오 프롬프트를 통해 게임 플레이를 안내하는 새로운 사용자 상호작용 가능성을 제공하는 게임 경험(예: "핑크색 코끼리가 나를 쫓아오는 것을 상상해봐")을 상상해 보십시오.
-----
Decart와 Etched는 인공지능(AI) 분야에서 혁신적인 기술을 개발하는 두 기업입니다.
Decart는 2023년 9월에 설립된 이스라엘 기반의 AI 스타트업으로, 샌프란시스코에도 사무실을 두고 있습니다. 이 회사는 대규모 언어 모델(LLM) 추론 엔진을 NVIDIA CUDA와 C++를 활용하여 자체 개발하였으며, H100 GPU를 활용한 고성능 AI 모델 운영 기술을 보유하고 있습니다. 2024년 10월 31일, Decart는 Etched와 협력하여 'Oasis'라는 AI 기반의 실시간 오픈 월드 게임을 공개하였습니다.
Etched는 AI 칩 설계 전문 기업으로, 트랜스포머 아키텍처를 위한 전용 칩을 개발하고 있습니다. 이 칩은 대규모 AI 모델의 고해상도 렌더링과 실시간 추론을 지원하며, 'Sohu'라는 이름의 트랜스포머 ASIC을 통해 4K 해상도에서 초당 20프레임의 속도를 구현할 수 있습니다.
두 회사는 협력하여 'Oasis'라는 AI 기반의 실시간 오픈 월드 게임을 개발하였으며, 이는 전통적인 게임 엔진 없이 AI 모델을 통해 사용자 입력에 따라 실시간으로 게임플레이를 생성하는 혁신적인 접근 방식을 보여줍니다.
-----
게임플레이 결과
아키텍처
확산 모델(diffusion models)은 최근 기대를 초과하며 생성 이미지 및 비디오 모델 분야에서 최신 기술 수준(state-of-the-art)으로 급부상하고 있습니다. 본질적으로, 확산 모델은 입력에 가우시안 노이즈를 반복적으로 추가하는 과정을 역으로 학습하여, 노이즈를 주어 새로운 샘플을 생성할 수 있게 합니다. 이 접근 방식은 모델 아키텍처에 시간적 레이어(temporal layers)를 추가하여 비디오 생성으로 확장될 수 있으며, 이는 이전에 생성된 프레임들의 맥락을 포함합니다 (예: 오토리그레시브 방식으로).
최근 연구들은 트랜스포머 아키텍처의 일반화가 대규모 언어 모델(LLM) 이외의 다른 분야에서도 최첨단 결과를 이끌어낼 수 있음을 보여주었습니다. 이를 통해 우리는 확산 훈련에서 노이즈 예측 과정을 위해 트랜스포머 모델을 활용하기로 결정했습니다 (확산-포싱(diffusion-forcing)을 사용하여). 아키텍처를 수정해 시간적 주의(attention) 레이어를 공간적 주의 레이어 사이에 삽입함으로써 이전 프레임의 맥락을 제공할 수 있도록 하였습니다. 확산은 ViT VAE [1]에 의해 생성된 잠재 차원(latent dimension)에서 수행되어 이미지 크기를 압축하고 확산이 상위 수준의 특성에 집중할 수 있게 합니다. Sora [3]와 같은 양방향 모델과 달리, Oasis는 프레임을 오토리그레시브하게 생성하며, 각 프레임을 게임 입력에 조건화할 수 있습니다 — 이를 통해 사용자는 세계와 실시간으로 상호작용할 수 있으며, 단순히 비디오를 사후 렌더링하는 것에 그치지 않습니다.
성능
이처럼 큰 트랜스포머 기반 확산 모델의 실시간 추론을 제공하는 어려운 작업은 GPU와 서버의 하드웨어 특성을 최대한 활용하기 위해 시스템 수준의 최적화에 엄청난 노력이 필요합니다. 유사한 DiT [2] 아키텍처를 사용하는 현재의 최신 텍스트-비디오 모델들(예: Sora [3], Mochi-1 [6], Runway [7])은 여러 GPU를 사용하더라도 단 1초의 비디오를 생성하는 데 10~20초가 걸립니다. 전통적인 대규모 언어 모델(LLM) 추론 분야에서는 수많은 오픈 소스 커널과 기술들이 개발되었지만, 우리는 이러한 공개된 기술들의 대다수가 우리의 목표 모델 아키텍처와는 덜 관련이 있으며, 그 결과 하드웨어 아키텍처의 저활용 또는 불필요한 연산을 야기한다는 것을 발견했습니다. 따라서 우리는 대신 지난 1년간 Decart에서 개발한 독점 최적화 인프라를 활용하여 모델 추론의 일환으로 사용되는 모든 기본 연산의 가속화에 광범위한 노력을 기울였습니다. 이를 통해 기본적인 PyTorch 원시 연산부터 고급 연산 조합까지 모든 커널에서 성능 향상을 이룰 수 있었습니다.
이미지 생성 지연 시간의 중요한 경로에 영향을 미치는 커널에서 GPU 활용도를 최적화하려는 이 광범위한 노력 외에도, 우리는 GPU를 넘어 서버 아키텍처를 최대한 활용하기 위해 Decart에서 개발한 최적화된 통신 원시 연산을 사용합니다 (예: NVIDIA NVLink, PCIe Gen 5, NUMA 등). 이를 통해 지연 시간을 더욱 줄일 수 있었습니다. 이러한 전략을 통해 우리는 단일 GPU 추론을 넘어서는 실시간 다중 GPU 추론으로 확장할 수 있었으며, GPU 간 데이터 전송을 초과하는 통신을 도입할 때 발생할 수 있는 잠재적 병목현상을 최소화할 수 있었습니다.
전체적으로
Decart의 이 광범위한 최적화 노력은 이전 모델들과 비교하여 더 발전된 메커니즘을 모델링할 수 있는 확산-트랜스포머 모델의 실시간 추론 도입에 매우 중요한 역할을 했습니다. 그 결과 프레임당 47ms의 추론 시간과 훈련 시 반복당 단 150ms의 성능을 달성했습니다! 그러나 모델을 추가로 10배 더 빠르게 하고, 대규모로 실행할 때 비용 효율적으로 만들기 위해서는 새로운 하드웨어가 필요합니다. Oasis는 Etched에서 출시될 예정인 Transformer ASIC, Sohu에 최적화되어 있습니다. 현재 NVIDIA H100에서는 모델이 360p 해상도로 20fps로 실행될 수 있지만, Sohu에서는 동일한 모델을 최대 4K 해상도로 실행할 수 있습니다. 또한, Oasis의 엔드 투 엔드 트랜스포머 아키텍처는 Sohu에서 매우 효율적입니다 — 같은 가격과 전력 소비량에서, Sohu에서 실행되는 Oasis는 H100 GPU와 비교해 10배 더 많은 사용자를 지원할 수 있습니다. 우리는 Oasis와 같은 모델을 서비스하는 비용이 생성형 비디오를 실제 제품으로 출시하는 데 숨겨진 병목이라고 믿습니다. 더 많은 성능 수치와 Oasis 및 Sohu에 대한 추가 정보를 Etched의 블로그에서 확인하세요.
미래 탐색
이렇게 많은 흥미로운 결과에도 불구하고, 모델의 몇 가지 측면은 여전히 개선될 수 있는 여지가 있습니다:
- 특정 상황에서는 모델이 흐릿한 출력을 생성한 후 복구하는 현상이 발생합니다.
- 모델의 메모리를 개선하여 여러 프레임 이전의 세부 정보를 기억할 수 있도록 합니다.
- 모델의 분포 밖의 초기 이미지를 제공하면 불명확한 결과가 나타날 수 있습니다.
아키텍처의 다양한 구성과 데이터 및 모델 크기에 대한 심도 있는 민감도 분석을 통해, 이러한 대부분의 문제들은 모델과 데이터셋의 확장을 통해 해결할 수 있을 것이라고 가정하고 있습니다. 따라서 우리는 이 방향으로 추가 최적화 기술과 함께 개발을 진행하고 있으며, 이러한 대규모 훈련을 효율적으로 가능하게 하고자 합니다. 또한, 이러한 더 큰 모델이 개발되면, 지속 가능한 지연 시간과 비용 간의 균형을 확보하기 위해 새로운 추론 기술의 돌파구가 필요할 것입니다.
우리는 최초의 플레이 가능한 AI 모델인 Oasis를 출시하게 되어 매우 기쁩니다. Oasis는 오픈 월드 게임을 생성하는 AI 모델로, 텍스트에서 비디오를 생성하는 기존의 많은 AI 비디오 모델들과 달리, 키보드와 마우스 입력을 통해 프레임별로 비디오를 생성합니다. Oasis는 Etched와 Decart의 연구 파트너십을 통해 개발된 첫 번째 모델로, 두 회사는 새로운 생성 경험을 만드는 데 집중하는 AI 연구소입니다.
우리는 Oasis의 아키텍처를 Sohu, 곧 출시될 우리의 트랜스포머 ASIC에 최적화하도록 설계했습니다. Oasis는 Diffusion Transformer 백본, 새로운 트랜스포머 기반 오토인코더 등을 특징으로 합니다. 모델 아키텍처에 대해 더 알고 싶다면, 우리의 기술 보고서, 모델 가중치, 코드, 그리고 플레이 가능한 데모를 확인하세요.
오늘날 H100 GPU에서 Oasis 모델을 360p 해상도로 플레이할 수 있습니다. Sohu에서는 차세대 1000억 개 이상의 파라미터 모델을 4K 비디오로 서비스하며, H100보다 10배 이상 많은 사용자에게 확장할 수 있습니다.
인터넷의 미래는 인터랙티브 비디오
10년 이내에 인터넷 콘텐츠의 대부분이 AI에 의해 생성될 것이라고 믿습니다. 현재, 인터넷 트래픽의 70% 이상이 비디오이며, 이는 소셜 미디어, 영상 통화, 스트리밍 등으로 이루어져 있습니다. 비디오는 데이터 집약적이며, 비디오를 생성하는 데는 텍스트나 이미지보다 10배 이상의 FLOP(연산량)이 필요합니다. 따라서 AI 추론 작업의 대부분이 비디오가 될 것이라고 믿습니다.
비디오 모델이 확장되기 시작하면서, 이들은 전체 물리적 세계와 게임을 표현하는 법을 배우고 있으며, 이는 완전히 새로운 제품 카테고리를 가능하게 하고 있습니다. 게임, 생성 콘텐츠, 교육 등 어떤 경우든, 우리는 대규모, 저지연, 인터랙티브 비디오 모델이 다음 AI 제품의 물결의 중심이 될 것이라고 믿습니다.
오늘날의 인터랙티브 비디오 모델은 프로덕션에서 실행하기에는 너무 느리고 비용이 많이 듭니다. Sohu와 같은 특수 칩을 통해 우리는 비디오 모델을 고해상도로, 플레이 가능한 프레임 속도로, 동시에 많은 사용자에게 실행할 수 있습니다 — 이러한 모든 요건들은 이러한 새로운 사용 사례를 대규모로 실현하는 데 필수적입니다.
새로운 인터랙티브 아키텍처 구축
우리는 빠른 오토리그레시브 인터랙티브 비디오 생성을 위한 최적의 아키텍처를 식별하기 위해 수백 가지의 아키텍처 및 데이터 실험을 수행했습니다. 우리는 트랜스포머 기반 아키텍처를 선택했으며 (놀랍지 않게도), 트랜스포머 기반 변분 오토인코더, 가속화된 축형(axial), 인과적 시공간 주의 메커니즘, 그리고 긴 시퀀스 모델 발산 문제를 극복하기 위한 새로운 전략을 특징으로 합니다.
OpenAI의 Sora가 텍스트로부터 60초씩 비디오를 생성하는 것과 달리, Oasis는 한 프레임씩 생성합니다. 이로 인해 Oasis는 매우 조작 가능하며, 사용자가 입력을 통해 생성 과정을 제어할 수 있습니다.
Oasis는 플레이어가 블록을 부수고, 구조물을 만들고, 게임을 탐험할 수 있도록 물리적 이해를 보여줍니다. 우리는 앞으로 몇 분 동안의 맥락을 다룰 수 있는 스케일, 더 깊은 세계 모델, 그리고 궁극적으로 게임을 넘어 완전한 상호작용 멀티모달 비디오 생성으로 전환하는 것을 탐구하게 되어 매우 기대하고 있습니다.
데모에는 추론 시간에 동적 노이즈를 사용해 안정성을 높이거나, 최적화된 추론 커널과 같은 수많은 작은 혁신들이 포함되어 있습니다. 더 자세한 내용이 궁금하시다면 기술 보고서를 확인하시거나 HuggingFace에서 가중치를 확인해보세요.
Sohu는 대규모에서 실시간 AI 비디오를 가능하게 합니다
오늘날의 텍스트-비디오 모델들은 뛰어난 비디오를 생성하지만, 매우 느립니다. 최고 모델들도 초당 한 프레임 미만의 속도를 내며, 사용자당 분당 최대 1달러의 비용이 들 수 있습니다.
비디오 모델이 GPU에서 매우 저조한 성능을 보이는 이유는 계산량이 많기 때문입니다. 각 프레임에는 수백 개에서 수천 개의 토큰이 포함되며, 이 토큰들은 프레임을 완전히 디노이즈하기 위해 병렬로 여러 번 처리되어야 합니다. 바로 이 문제가 Sohu가 해결하도록 설계된 문제입니다.
Sohu는 큰 배치 크기로 대규모 모델을 매우 효율적으로 병렬화할 수 있어, 4K 해상도에서 대규모 모델을 지원합니다:
Sohu는 또한 한 차원 더 많은 동시 사용자를 지원할 수 있어, 생성형 비디오 모델을 전 세계적으로 서비스할 수 있도록 합니다:
모델과 하드웨어를 함께 구축하기
곧 AI 모델과 제품은 맞춤형 칩과 함께 설계될 것입니다. Sohu의 개발 초기 단계에 있지만, Sohu에서 훨씬 빠르고, 저렴하고, 실현 가능한 제품을 만드는 새로운 연구 방향을 탐구하게 되어 기쁩니다. 특히 실시간 비디오, 음성, 추론 시점의 논리 처리, 에이전트, 검색 등 분야에 관심이 있습니다.
이 방향에서의 첫 번째 공개 연구 파트너십이며, 프로젝트 협력에 대한 Decart에 감사드립니다. 그들의 추론 엔진은 Oasis를 GPU에서 실시간으로 실행할 수 있게 하는 데 중요한 역할을 했으며, 여러분도 라이브 데모를 통해 직접 체험하실 수 있습니다.
Sohu에 대한 초기 접근 권한, 추론과 Sohu 관련 연구를 위한 컴퓨팅 지원, 또는 연구 파트너십에 관심이 있으시다면, 여기에 있는 양식을 작성해 주세요.