https://dl.acm.org/doi/10.1145/3680528.3687691
1. 간단한 요약 및 소개
LTT Tracking은 입술, 치아, 혀를 포함한 구강 구조의 디지털 모델링을 위한 혁신적인 시스템입니다. 이 시스템은 3D 데이터와 이미지 데이터를 조합하여 고정밀의 구강 및 얼굴 모델을 생성하며, 특히 복잡한 혀 움직임까지 통합적으로 처리하는 데 초점을 맞추고 있습니다.
2. 기존 문제점
- 복잡한 구강 구조: 혀와 치아는 조명이 부족하거나 겹쳐져 있는 경우가 많아, 기존의 비전 기반 모델로는 정확한 재구성이 어려웠습니다.
- 제한된 데이터: 구강 내부를 디지털화하려면 대규모 데이터가 필요하지만, 기존 데이터셋은 품질이 낮거나 한정적입니다.
- 일관된 모델 부족: 치아, 혀, 입술 간의 상호작용을 통합적으로 다룬 모델은 거의 없었습니다.
3. 해결법
- 3D 데이터 및 멀티뷰 캡처:
- 8,000개의 익명 치아 스캔과 200명의 멀티뷰 캡처 데이터를 활용해 모델의 다양성을 확보.
- 치아, 잇몸, 혀의 위치를 자동으로 조정하는 세분화된 이미지 세분화 네트워크를 도입.
- 지오메트릭 치아 모델:
- VAE(Variational Autoencoder)를 사용하여 각 치아와 잇몸의 변형을 압축된 잠재 공간에서 모델링.
- 인버스 렌더링을 통해 치아와 잇몸의 위치를 최적화.
- LTT 통합 시스템:
- 입술, 치아, 혀의 움직임을 통합적으로 처리하며, 관찰되지 않은 데이터를 예측하여 모델을 보강.
4. 기여
- 다양한 데이터 소스 활용: 치아와 혀의 복잡한 움직임을 포괄적으로 처리 가능.
- 정확한 디지털 아바타 생성: 새로운 주제를 빠르게 학습하여 높은 품질의 결과를 생성.
- 효율적 학습 프로세스: 다중 데이터를 활용해 모델을 더욱 정교하게 학습하며, 새로운 대상에 대해 빠른 튜닝 가능.
- 다양한 응용 가능성: 얼굴 애니메이션, AR/VR, 디지털 헬스케어 등에서 활용 가능.
5. 한계 및 개인적 생각
- 혀 움직임의 제한성: 혀가 완전히 보이지 않는 경우 정확도가 떨어질 수 있음.
- 데이터 처리 비용: 고해상도 모델링과 추론을 위해 고성능 하드웨어가 필요.
- 복잡한 상호작용 문제: 혀와 뺨의 상호작용과 같은 특수 상황에서 성능 저하 가능.
- 개인적 의견: 해당 모델은 구강 구조의 정밀한 재구성을 위해 강력한 잠재력을 보여줍니다. 하지만 실제 응용에서 연산 시간과 자원 소모를 줄이는 최적화가 필요해 보입니다.
6. Takeaway
LTT Tracking은 구강 구조 모델링의 새로운 기준을 제시하며, 디지털 아바타, 의료 응용 등 다양한 분야에서 중요한 기여를 할 수 있는 가능성을 보였습니다. 혀, 치아, 입술의 통합 모델링이라는 혁신은 특히 AR/VR 및 의료 분야에서의 응용이 기대됩니다.
논문 요약: The Lips, the Teeth, the tip of the Tongue: LTT Tracking 이 논문은 사람의 입 내부 구조(입술, 치아, 혀)의 정확한 디지털 재구성을 목표로 하는 LTT (Lips, Teeth, Tongue) Tracking 시스템을 제안합니다. 다음은 주요 내용입니다: 1. 목적: * 디지털 아바타와 같은 애플리케이션에서 개인의 구강 특성을 충실히 반영한 고품질 3D 모델 생성. * 입 내부(치아, 잇몸, 혀)와 얼굴의 움직임을 통합적으로 모델링. 2. 기여: * 다중 데이터 소스 활용: 8,000개의 익명화된 치아 스캔 데이터와 200명의 멀티뷰 캡처 데이터 사용. * 자동화된 치아 모델 생성: 3D 치아 데이터로부터 변형 가능한 기하학적 모델을 학습. * 구강 시스템의 통합적 재구성: 입술, 치아, 혀의 움직임과 배치를 이미지 데이터만으로 정확히 복원. * 딥러닝 기반 세분화 및 최적화: 입 내부 영역(치아, 혀 등)을 정밀하게 분할하여 자동으로 조정. 3. 결과: * 다른 최신 기술(PICA 등) 대비 더 정확한 치아 및 혀의 메쉬 품질을 제공. * 단일 이미지에서도 높은 재구성 품질을 달성하며, 여러 사람의 표정 데이터를 변환(retargeting)할 수 있음. 강점 1. 고품질 디지털 재구성: * 입 내부의 복잡한 구조(치아, 잇몸, 혀)를 세밀하게 모델링하여 현실감 있는 결과를 제공. 2. 확장 가능성: * 단일 이미지와 다중 뷰 데이터 모두에서 작동 가능하며, 새로운 피사체에 신속하게 적응. 3. 자동화된 데이터 처리: * 수작업 없이 대규모 데이터를 활용하여 모델을 학습 및 최적화. 4. 통합적 모델링: * 입술, 치아, 혀의 움직임과 배치를 통합적으로 처리하여 얼굴 애니메이션의 품질을 향상.
약점 1. **혀 움직임의 한계:** * 이미지 데이터에서 관찰되지 않는 혀의 움직임을 정확히 추정하지 못하는 경우가 있음. 2. **복잡한 표정 및 음성 상호작용 부족:** * 얼굴의 복잡한 표정 변화나 음성 데이터와의 결합은 다루지 않음. 3. **연산 비용:** * 고품질 모델을 학습하고 추론하는 데 시간이 오래 걸리며, 고성능 하드웨어가 필요. 4. **특정 상황에서의 제한:** * 치아와 혀가 겹치거나 볼 안쪽과의 상호작용 같은 복잡한 상황에서 성능 저하 발생. 발표자에게 질문할 거리 1. **혀 추정의 정확도 향상:** * 관찰되지 않은 혀의 움직임을 더 정확히 추정하기 위해 어떤 추가적인 데이터를 활용할 계획이 있나요? 2. **음성 데이터 통합 가능성:** * 음성 데이터를 활용하여 구강 내부 모델의 정확도를 높일 수 있는 방안이 있을까요? 3. **단일 이미지 성능 한계:** * 단일 이미지로 작업할 때 복잡한 표정이나 가려진 혀 움직임에서 모델이 가지는 한계는 무엇인가요? 4. **적용 분야 확장:**
스캔 후, 세그멘테이션 함 아직 미스 아큐멘테이션이 있어. 따라서 이를 랜더링해서 정상화시킴 자동화 시키는 것 나왔고 이를바탕으로 결국 오토 인코더라고 만드는 거지 각각의 이빨에 대해서 만들 수 있지만, 이건 말이안되니 까 한번에 해야겠지 각 이빨에, latent을 바탕으로 만들어야됨 반대편도 영향을 받는것으로 보아 시메트리가 있어보 여 2개의 latent를 만들고 이를 바탕으로 디코드들을 만들 고 새롭게 랜더링시킴