https://arxiv.org/abs/2311.16493
초록
최근 3D Gaussian Splatting은 놀라운 새로운 뷰 합성 결과를 보여주며 높은 충실도와 효율성을 달성했습니다. 그러나 샘플링 비율을 변경할 때(예: 초점 거리나 카메라 거리 변경) 강한 왜곡 현상이 나타납니다. 이러한 현상의 원인은 3D 주파수 제약의 부족과 2D 확장 필터의 사용에 있다고 판단됩니다. 이 문제를 해결하기 위해 입력 뷰에 의해 유도된 최대 샘플링 주파수를 기반으로 3D Gaussian 원시 요소의 크기를 제약하는 3D 평활화 필터를 도입합니다. 이는 확대 시 고주파 왜곡을 제거합니다. 게다가 2D 확장을 2D Mip 필터로 대체함으로써, 이는 2D 상자 필터를 모사하여 앨리어싱 및 확장 문제를 효과적으로 완화합니다. 단일 스케일 이미지에서의 학습과 다중 스케일에서의 테스트를 포함한 평가에서 우리의 접근 방식의 효과를 검증합니다.
그림 1 3D Gaussian Splatting [18]은 3D 객체를 3D Gaussian으로 표현하고, 이를 이미지 평면에 투영한 후 화면 공간에서 2D 확장을 통해 이미지를 렌더링합니다 (a). 내재된 축소 편향으로 인해 3D Gaussian이 샘플링 한계를 초과하는 퇴화가 발생하며, 이는 δ 함수로 설명됩니다 (b). 그러나 샘플링 비율을 변경할 때(초점 거리나 카메라 거리) 강한 확장 효과 (c)와 고주파 왜곡 (d)이 나타납니다.
1. 서론
새로운 뷰 합성(Novel View Synthesis, NVS)은 컴퓨터 그래픽스와 컴퓨터 비전에서 중요한 역할을 하며, 가상 현실, 영화 제작, 로봇 공학 등 다양한 응용 분야에 사용됩니다. 이 분야에서 특히 중요한 진보는 2020년 Mildenhall 등이 도입한 Neural Radiance Field(NeRF) [28]입니다. NeRF는 다층 퍼셉트론(MLP)을 사용하여 기하학과 뷰 종속적인 외관을 효과적으로 표현하며, 놀라운 새로운 뷰 렌더링 품질을 보여줍니다. 최근에는 3D Gaussian Splatting(3DGS) [18]이 MLP [28] 및 특징 격자 기반 표현 [4, 11, 24, 32, 46]에 대한 매력적인 대안으로 주목받고 있습니다. 3DGS는 인상적인 새로운 뷰 합성 결과를 보여주며, 높은 해상도에서 실시간 렌더링을 달성합니다. 이 효율성과 GPU의 표준 래스터라이제이션 파이프라인에 통합될 가능성은 NVS 방법의 실용적인 사용을 향한 중요한 진전을 나타냅니다.
구체적으로, 3DGS는 복잡한 장면을 3D Gaussian 세트로 표현하며, 이를 스플래팅 기반 래스터라이제이션을 통해 화면 공간에 렌더링합니다. 각 3D Gaussian의 속성, 즉 위치, 크기, 방향, 불투명도, 색상은 다중 뷰 포토메트릭 손실을 통해 최적화됩니다. 그 후, 화면 공간에서 저역 통과 필터링을 위해 2D 확장 연산이 적용됩니다. 비록 3DGS가 인상적인 NVS 결과를 보여주었지만, 카메라 뷰가 학습 중에 본 것과 다를 때(예: 줌 인 및 줌 아웃), 왜곡이 발생합니다. 이러한 현상의 원인은 3D 주파수 제약의 부족과 2D 확장 필터의 사용에 있다고 판단됩니다. 구체적으로, 줌 아웃 시에는 화면 공간에서 투영된 2D Gaussian의 크기가 감소하며, 동일한 양의 확장을 적용하면 확장 왜곡이 발생합니다. 반대로, 줌 인 시에는 투영된 2D Gaussian이 확장되지만, 확장은 일정하게 유지되어 침식 왜곡이 발생하고 2D 투영에서 Gaussian 사이에 잘못된 간격이 생깁니다.
그림 2 모든 모델을 단일 스케일(여기서 전체 해상도) 이미지로 학습하고 초점 거리를 변경하여 다양한 해상도의 이미지를 렌더링했습니다. 모든 방법이 학습 스케일에서 유사한 성능을 보였지만, 이전 작업 [18, 59]에서는 샘플링 비율을 변경할 때 강한 왜곡이 관찰되었습니다. 반면, 우리의 Mip-Splatting은 다양한 스케일에서 충실한 이미지를 렌더링합니다.
이 문제를 해결하기 위해 우리는 3D 공간에서 3D 표현을 정규화할 것을 제안합니다. 우리의 주요 통찰력은 3D 장면의 재구성 가능한 최고 주파수가 입력 이미지의 샘플링 비율에 의해 본질적으로 제한된다는 것입니다. 먼저, Nyquist-Shannon 샘플링 정리 [33, 45]에 따라 각 Gaussian 원시의 다중 뷰 주파수 한계를 도출합니다. 최적화 중에 3D 공간에서 3D Gaussian 원시에 저역 통과 필터를 적용하여 3D 표현의 최대 주파수를 Nyquist 한도에 맞추어 효과적으로 제한합니다. 학습 후, 이 필터는 장면 표현의 본질적인 부분이 되어, 뷰포인트 변경과 관계없이 일정하게 유지됩니다. 따라서, 우리의 방법은 줌 인 시 3DGS [18]에서 발생하는 왜곡을 제거하며, 이는 그림 2에서 8배 높은 해상도의 이미지로 보여줍니다.
그럼에도 불구하고, 낮은 샘플링 비율로 재구성된 장면을 렌더링하면(예: 줌 아웃) 앨리어싱이 발생합니다. 이전 작업 [1–3, 17]은 콘 트레이싱을 사용하고 입력 위치 또는 특징 인코딩에 사전 필터링을 적용하여 앨리어싱을 해결하지만, 이는 3DGS에 적용할 수 없습니다. 따라서, 우리는 다양한 스케일에서 앨리어싱 없는 재구성 및 렌더링을 보장하기 위해 특별히 설계된 2D Mip 필터("mipmap" 방식)를 도입합니다. 우리의 2D Mip 필터는 실제 물리적 이미지 처리 과정에 내재된 2D 상자 필터를 모사하여 2D Gaussian 저역 통과 필터로 근사합니다. 다중 스케일 이미지로 학습하면서 다중 스케일 신호를 보간하는 MLP의 능력에 의존하는 이전 작업 [1–3, 17]과 달리, 우리의 3D Gaussian 표현에 대한 명시적 수정은 탁월한 분포 외 일반화를 결과로 제공합니다. 단일 샘플링 비율로 학습하면, 학습 중 사용된 것과 다른 다양한 샘플링 비율에서 충실한 렌더링이 가능합니다. 이는 그림 2에서 1/4배 다운 샘플링된 이미지로 입증되었습니다.
요약하자면, 우리는 다음과 같은 기여를 합니다:
- 샘플링 비율 변경 시 3DGS의 왜곡 원인을 분석하고 식별했습니다.
- 3DGS의 3D Gaussian 원시 요소의 최대 주파수를 효과적으로 정규화하는 3D 평활화 필터를 도입하여 이전 방법 [18, 59]에서 관찰된 분포 외 렌더링의 왜곡을 해결했습니다.
- 앨리어싱 및 확장 왜곡 문제를 해결하기 위해 2D 확장 필터를 2D Mip 필터로 교체했습니다.
- 샘플링 비율을 변경할 때 Mip-Splatting의 효과를 입증하는 도전적인 벤치마크 데이터셋 [2, 28]에 대한 실험을 수행했습니다.
2. 관련 연구
새로운 뷰 합성: NVS는 원본 촬영 지점과 다른 시점에서 새로운 이미지를 생성하는 과정입니다 [12, 22]. NeRF [28]는 볼륨 렌더링 [10, 21, 25, 26]을 활용하여 이 분야에서 표준 기술로 자리 잡았습니다. NeRF는 MLP [5, 27, 34]를 사용하여 장면을 연속 함수로 모델링하지만, 압축된 표현에도 불구하고 각 광선 포인트에 대해 MLP 평가가 필요하여 렌더링 속도를 저해합니다. 이후의 방법들 [16, 40, 41, 52, 54]은 미리 학습된 NeRF를 희소 표현으로 증류하여 NeRF의 실시간 렌더링을 가능하게 합니다. NeRF의 학습 및 렌더링을 개선하기 위해 고급 장면 표현 [4, 6, 11, 18, 19, 24, 32, 46, 51]을 사용하는 추가 발전도 이루어졌습니다. 특히, 3D Gaussian Splatting(3DGS) [18]은 인상적인 새로운 뷰 합성 결과를 보여주며, 고해상도에서 실시간 렌더링을 달성했습니다. 중요한 점은 3DGS가 장면을 명시적으로 3D Gaussian의 집합으로 표현하고, 레이 트레이싱 대신 래스터라이제이션을 사용한다는 것입니다. 그럼에도 불구하고, 3DGS는 훈련과 테스트가 유사한 샘플링 비율(초점 거리/장면 거리)에서 수행되는 분포 내 평가에 중점을 둡니다. 이 논문에서는 단일 스케일에서 모델을 훈련시키고 여러 스케일에 걸쳐 평가하여 3DGS의 분포 외 일반화를 연구합니다.
원시 기반 미분 렌더링: 원시 기반 렌더링 기술은 기하학적 원시를 이미지 평면에 래스터화하는 방법으로, 효율성 때문에 광범위하게 연구되었습니다 [13, 14, 38, 44, 59, 60]. 미분 가능 포인트 기반 렌더링 방법 [20, 36, 39, 43, 49, 53, 57]은 복잡한 구조를 표현하는 데 큰 유연성을 제공하여 새로운 뷰 합성에 적합합니다. 특히 Pulsar [20]는 효율적인 구형 래스터화로 주목받고 있습니다. 최근의 3D Gaussian Splatting(3DGS) 연구 [18]는 이방성 Gaussian [59]을 활용하고, 타일 기반 정렬을 도입하여 렌더링에서 놀라운 프레임 속도를 달성합니다. 인상적인 결과에도 불구하고, 3DGS는 다른 샘플링 비율로 렌더링할 때 강한 왜곡을 보입니다. 우리는 3D Gaussian 원시 표현의 최대 주파수를 제약하기 위해 3D 평활화 필터와 앨리어싱 없는 렌더링을 위해 물리적 이미지 처리 과정의 상자 필터를 근사하는 2D Mip 필터를 도입하여 이 문제를 해결합니다.
-----------------------------------------------------------------------------------------------------------------------------------------------------------------
래스터화(Rasterization)는 컴퓨터 그래픽스에서 3D 모델을 2D 화면에 렌더링하는 과정입니다. 간단히 말해, 복잡한 3D 객체를 화면에 표시하기 위해 화면의 각 픽셀에 해당하는 색상 값을 계산하는 것입니다. 이 과정은 주로 다음 단계로 이루어집니다:
- 모델 변환(Model Transformation): 3D 모델의 좌표를 월드 좌표계로 변환합니다.
- 뷰 변환(View Transformation): 월드 좌표계에서 카메라 좌표계로 변환합니다.
- 투영(Projection): 카메라 좌표계를 클립 좌표계로 변환한 후, 이를 정규화된 장치 좌표(Normalized Device Coordinates, NDC)로 변환합니다. 이 과정에서 3D 좌표가 2D 평면으로 투영됩니다.
- 클리핑(Clipping): 보이는 부분만 남기고 화면 밖의 요소를 제거합니다.
- 래스터화(Rasterization): 정규화된 2D 좌표를 실제 화면 픽셀에 대응시키고, 각 픽셀의 색상을 결정합니다.
이 과정에서 사용되는 주요 기술은 다음과 같습니다:
- 삼각형 세분화(Triangle Tessellation): 대부분의 3D 모델은 삼각형으로 구성되며, 이 삼각형을 픽셀로 변환하는 과정입니다.
- 셰이딩(Shading): 각 픽셀의 색상을 계산합니다. 이는 조명, 텍스처, 반사율 등 다양한 요인을 고려하여 결정됩니다.
- 안티앨리어싱(Anti-Aliasing): 경계선이 거칠게 보이는 현상을 줄이기 위해 부드럽게 처리합니다.
래스터화는 비교적 빠르며, 실시간 렌더링에 주로 사용됩니다. 그러나 모든 픽셀을 개별적으로 계산하므로 복잡한 장면에서는 성능이 저하될 수 있습니다. 이를 보완하기 위해 최근에는 레이 트레이싱(Ray Tracing)과 같은 고급 기술이 사용되기도 합니다.
-----------------------------------------------------------------------------------------------------------------------------------------------------------------
앤티앨리어싱(Anti-aliasing) in Rendering: 앨리어싱을 방지하기 위한 두 가지 주요 전략이 있습니다: 샘플 수를 늘리는 슈퍼샘플링(Super-sampling) [7]과 신호에 저역 통과 필터를 적용하여 나이퀴스트 한계를 만족시키는 프리필터링(Prefiltering) [8, 15, 31, 47, 50, 59]입니다. 예를 들어, EWA 스플래팅(EWA Splatting) [59]은 화면 공간에서 투영된 2D Gaussian에 Gaussian 저역 통과 필터를 적용하여 나이퀴스트 주파수를 준수하는 대역 제한 출력을 생성합니다. 우리는 Gaussian 원시에 대역 제한 필터를 적용하지만, 우리의 대역 제한 필터는 3D 공간에서 적용되며 필터 크기는 렌더링할 이미지가 아닌 학습 이미지에 의해 완전히 결정됩니다. 우리의 2D Mip 필터 역시 화면 공간에서 Gaussian 저역 통과 필터지만, 물리적 이미지 처리 과정의 상자 필터를 근사하여 단일 픽셀을 근사합니다. 반대로 EWA 필터는 렌더링된 이미지의 주파수 신호 대역폭을 제한하며, 필터 크기는 경험적으로 선택됩니다. [59]와의 중요한 차이점은 우리는 재구성 문제를 해결하고, 역 렌더링을 통해 3D Gaussian 표현을 최적화하는 반면, EWA 스플래팅은 렌더링 문제만 고려한다는 것입니다.
최근의 신경 렌더링 방법은 앨리어싱을 완화하기 위해 프리필터링을 통합합니다 [1–3, 17, 58]. 예를 들어, Mip-NeRF [1]은 고주파 디테일을 약화시키기 위해 통합 위치 인코딩(IPE)을 도입했습니다. 유사한 아이디어는 특징 격자 기반 표현에도 적용됩니다 [3, 17, 58]. 이러한 접근법은 원본 데이터에서 추출한 다중 스케일 이미지를 감독하기 위해 필요로 한다는 점을 주목하세요. 반면, 우리의 접근법은 3DGS [18]에 기반을 두며, 픽셀 크기를 기준으로 필요한 저역 통과 필터 크기를 결정하여 학습 중에 관찰되지 않은 스케일에서도 앨리어싱 없는 렌더링을 가능하게 합니다.
3. 예비 지식
이 섹션에서는 먼저 샘플링 정리에 대해 검토하여 앨리어싱 문제를 이해하는 기초를 다집니다. 이후, 3D Gaussian Splatting(3DGS) [18] 및 그 렌더링 과정을 소개합니다.
3.1. 샘플링 정리
샘플링 정리(Sampling Theorem), 또한 나이퀴스트-섀넌 샘플링 정리(Nyquist-Shannon Sampling Theorem) [33, 45]로 알려진 이 정리는 신호 처리 및 디지털 통신에서 중요한 개념으로, 연속 신호가 이산 샘플로부터 정확하게 표현되거나 재구성될 수 있는 조건을 설명합니다. 연속 신호를 이산 샘플로부터 정보 손실 없이 정확하게 재구성하기 위해 다음 조건이 충족되어야 합니다:
- 샘플링 주파수는 신호의 최고 주파수의 두 배 이상이어야 합니다.
- 샘플링된 데이터는 앨리어싱 없이 신호를 재구성할 수 있는 충분한 정보를 포함해야 합니다.
Condition 1
연속 신호는 대역 제한(band-limited) 되어야 하며, 특정 최대 주파수 ν를 초과하는 주파수 성분을 포함하지 않아야 합니다.
재구성 (Reconstruction): 렌더링 과정은 빠르고 미분 가능하므로, 3D Gaussian 매개변수는 다중 뷰 손실을 사용하여 효율적으로 최적화될 수 있습니다. 최적화 중에, 3D Gaussian은 장면을 더 잘 표현하기 위해 적응적으로 추가되거나 삭제됩니다. 자세한 내용은 [18]을 참조하세요.
이것은 유사한 샘플링 비율에서 렌더링에 영향을 미치지 않지만 (그림 1 (a)와 (b) 참조), 줌 인하거나 카메라를 더 가까이 이동할 때 침식 효과를 초래합니다. 이는 화면 공간에서 확장된 2D Gaussian이 더 작아지기 때문입니다. 이 경우, 렌더링된 이미지는 고주파 왜곡을 나타내며, 그림 1 (d)에 설명된 것처럼 객체 구조가 실제보다 더 얇게 나타납니다.
반대로, 화면 공간 확장은 샘플링 비율을 줄일 때에도 렌더링에 부정적인 영향을 미칩니다. 이는 그림 1 (c)에 설명된 것처럼 (a)의 줌 아웃 버전을 보여줍니다. 이 경우, 확장은 픽셀 간에 물리적으로 부정확한 방식으로 방사선을 퍼뜨립니다. (c)에서 3D 객체의 투영이 덮는 영역은 픽셀보다 작지만, 확장된 Gaussian은 약화되지 않아 픽셀에 물리적으로 도달하는 것보다 더 많은 빛을 축적합니다. 이는 밝기 증가와 확장 왜곡을 초래하여 자전거 바퀴의 스포크의 외관을 크게 저하합니다.
앞서 언급한 스케일 모호성은 수백만 개의 Gaussian을 포함하는 표현에서 특히 문제가 됩니다. 그러나 화면 공간 확장을 단순히 폐기하면, 복잡한 장면의 최적화 문제를 초래합니다. 예를 들어 Mip-NeRF 360 데이터셋 [2]에서는 밀도 제어 메커니즘 [18]에 의해 생성된 많은 수의 작은 Gaussian이 GPU 용량을 초과합니다. 게다가, 모델이 확장 없이 성공적으로 훈련될 수 있다 해도, 샘플링 비율을 줄이면 앨리어싱 효과가 발생합니다. 이는 앨리어싱 방지가 없기 때문입니다 [59].
5. Mip Gaussian Splatting 이러한 문제를 극복하기 위해, 우리는 원래 3DGS 모델에 두 가지 수정을 가합니다. 특히, 우리는 학습 이미지에 의해 결정된 최대 샘플링 비율의 절반 이하로 3D 표현의 주파수를 제한하는 3D 평활화 필터를 도입하여, 줌 인할 때 고주파 왜곡을 제거합니다. 또한, 물리적 이미지 처리 과정에 내재된 상자 필터를 근사하는 2D Mip 필터로 2D 화면 공간 확장을 대체하여 앨리어싱 및 확장 문제를 효과적으로 완화합니다. 이들을 결합하면, Mip-Splatting은 다양한 샘플링 비율에서 앨리어싱 없는 렌더링을 가능하게 합니다. 이제 우리는 3D 평활화 필터와 2D Mip 필터에 대해 자세히 논의하겠습니다.
5.1. 3D 평활화 필터 다중 뷰 관찰로부터 3D 방사 필드를 재구성하는 것은 잘 알려진 비정형 문제로, 서로 다른 여러 재구성이 동일한 2D 투영을 초래할 수 있습니다 [2, 55, 56]. 우리의 주요 통찰력은 재구성된 3D 장면의 최고 주파수가 학습 뷰에 의해 정의된 샘플링 비율에 의해 제한된다는 것입니다. 나이퀴스트 정리 3.1에 따라, 우리는 최적화 동안 3D 표현의 최대 주파수를 제한하는 것을 목표로 합니다.
표 1. Blender 데이터셋 [28]에서 다중 스케일 학습 및 다중 스케일 테스트. 우리의 접근법은 대부분의 지표에서 최신 성능을 달성합니다. 이는 3DGS [18] 및 3DGS + EWA [59]를 크게 능가합니다. ∗는 우리가 모델을 재학습했음을 나타냅니다.
6. 실험
우리는 먼저 Mip-Splatting의 구현 세부 사항을 소개합니다. 그런 다음 Blender 데이터셋 [28]과 도전적인 Mip-NeRF 360 데이터셋 [2]에서 성능을 평가합니다. 마지막으로, 우리 접근법의 한계를 논의합니다.
6.1. 구현
우리는 인기 있는 오픈 소스 3DGS 코드 베이스 [18]를 기반으로 우리의 방법을 구축합니다. [18]을 따르며, 모든 장면에서 모델을 30,000번 반복하여 훈련하고 동일한 손실 함수, Gaussian 밀도 제어 전략, 일정 및 하이퍼파라미터를 사용합니다. 효율성을 위해, 우리는 100번 반복마다 각 3D Gaussian의 샘플링 비율을 다시 계산합니다. 2D Mip 필터의 분산을 단일 픽셀을 근사하는 값인 0.1로 선택하고, 3D 평활화 필터의 분산을 0.2로 설정하여 3DGS [18]와 3DGS + EWA [59]와 공정하게 비교합니다. 여기서 3DGS + EWA [59]는 3DGS의 확장을 EWA 필터로 대체합니다.
6.2. Blender 데이터셋에서의 평가 다중 스케일 학습 및 다중 스케일 테스트:
이전 연구 [1, 17]을 따르며, 우리는 다중 스케일 데이터로 모델을 학습시키고 다중 스케일 데이터로 평가합니다. [1, 17]에서 전체 해상도 이미지의 광선을 낮은 해상도 이미지보다 더 자주 샘플링하는 것과 유사하게, 우리는 전체 해상도 이미지의 40%와 다른 해상도 이미지의 각 20%를 샘플링합니다. 정량적 평가는 표 1에 나와 있습니다. 우리의 접근법은 Mip-NeRF [1] 및 Tri-MipRF [17]와 같은 최신 방법과 비교할 때 비슷하거나 더 우수한 성능을 보입니다. 특히, 우리의 방법은 2D Mip 필터 덕분에 3DGS [18] 및 3DGS + EWA [59]를 크게 능가합니다.
단일 스케일 학습 및 다중 스케일 테스트: 단일 스케일 데이터에서 학습된 모델을 동일한 스케일에서 평가하는 이전 연구와 달리, 우리는 전체 해상도 이미지로 학습하고 다양한 해상도(즉, 1×, 1/2, 1/4, 1/8)에서 렌더링하는 중요한 새로운 설정을 고려하여 줌 아웃 효과를 모방합니다. 이 설정에 대한 공개 벤치마크가 없는 상황에서, 우리는 모든 기본 방법을 직접 훈련시켰습니다. 우리는 NeRF [28], Instant-NGP [32] 및 TensoRF [4]의 효율성을 위해 NeRFAcc [23]의 구현을 사용했습니다. Mip-NeRF [1], Tri-MipRF [17], 3DGS [18]의 공식 구현을 사용했습니다. 표 2에 제시된 정량적 결과는 우리의 방법이 기존 최신 방법들을 크게 능가함을 나타냅니다. 그림 4에 제공된 질적 비교에서는 3DGS [18] 기반 방법이 Mip-NeRF [1] 및 Tri-MipRF [17]보다 학습 스케일에서 세부 사항을 더 잘 포착하는 것을 보여줍니다. 특히, 우리의 방법은 낮은 해상도에서 3DGS [18] 및 3DGS + EWA [59]보다 렌더링 품질이 뛰어납니다. 특히, 3DGS [18]는 확장 왜곡을 나타냅니다. EWA 스플래팅 [59]은 렌더링된 이미지의 주파수를 제한하기 위해 큰 저역 통과 필터를 사용하여, 낮은 해상도에서 과도하게 부드러운 이미지를 초래합니다.
그림 4. Blender 데이터셋 [28]에서 단일 스케일 학습 및 다중 스케일 테스트. 모든 방법은 전체 해상도에서 학습되고 줌 아웃을 모방하기 위해 다양한(더 작은) 해상도에서 평가됩니다. 3DGS 기반 방법은 학습 해상도에서 Mip-NeRF [1] 및 Tri-MipRF [17]보다 세부 사항을 더 잘 포착합니다. Mip-Splatting은 낮은 해상도에서 3DGS [18] 및 3DGS + EWA [59]를 능가합니다.
표 2. Blender 데이터셋 [28]에서 단일 스케일 학습 및 다중 스케일 테스트. 모든 방법은 전체 해상도 이미지에서 학습되고, 네 가지 다른(더 작은) 해상도에서 평가되어 줌 아웃 효과를 모방합니다. Mip-Splatting은 학습 해상도에서 유사한 결과를 나타내지만, 다른 모든 스케일에서 이전 작업을 크게 능가합니다.
6.3. Mip-NeRF 360 데이터셋에서의 평가
단일 스케일 학습 및 다중 스케일 테스트: 줌 인 효과를 시뮬레이션하기 위해, 우리는 데이터를 8배 다운샘플링하여 모델을 학습시키고 점진적으로 더 높은 해상도(1×, 2×, 4×, 8×)로 렌더링합니다. 이 설정에 대한 공개 벤치마크가 없기 때문에, 모든 기본 방법을 직접 훈련했습니다. Mip-NeRF 360 [1]과 3DGS [18]의 공식 구현을 사용하고, Zip-NeRF [3]의 코드가 제공되지 않아 커뮤니티 재구현을 사용했습니다. 표 3의 결과는 우리의 방법이 학습 스케일(1×)에서 기존 작업과 유사한 성능을 보이며, 더 높은 해상도에서는 모든 최신 방법을 크게 능가함을 보여줍니다. 그림 5에 나타난 바와 같이, 우리의 방법은 고주파 왜곡 없이 고충실도의 이미지를 생성합니다. 특히, Mip-NeRF 360 [2]와 Zip-NeRF [3]는 해상도가 증가할수록 성능이 떨어지며, 이는 MLP가 분포 외 주파수로 외삽할 수 없기 때문일 가능성이 큽니다. 3DGS [18]는 확장 연산으로 인해 침식 왜곡이 발생하지만, 3DGS + EWA [59]는 더 나은 성능을 보이지만 여전히 고주파 왜곡을 나타냅니다. 반면, 우리의 방법은 이러한 왜곡을 피하여, 실제에 더 가까운 미학적으로 만족스러운 이미지를 생성합니다. 높은 해상도에서 렌더링하는 것은 초해상도 작업이며, 모델은 학습 데이터에 없는 고주파 세부 사항을 생성해서는 안 됩니다.
단일 스케일 학습 및 동일 스케일 테스트: 우리는 또한 Mip-NeRF 360 데이터셋 [2]에서 널리 사용되는 설정을 따라 모델을 동일한 스케일에서 학습 및 테스트하여 우리의 방법을 추가로 평가합니다. 실내 장면은 두 배 다운샘플링하고, 실외 장면은 네 배 다운샘플링합니다. 표 4에 나타난 바와 같이, 우리의 방법은 이 도전적인 벤치마크에서 3DGS [18]와 3DGS + EWA [59]와 동등한 성능을 보이며, 성능 저하 없이 다양한 설정을 처리할 수 있는 효과를 확인합니다.
6.4. 한계 우리의 방법은 효율성을 위해 상자 필터를 Gaussian 필터로 근사하여 사용합니다. 그러나 이 근사는 특히 Gaussian이 화면 공간에서 작을 때 오류를 유발합니다. 이는 표 2에서 입증된 바와 같이, 줌 아웃이 증가할수록 더 큰 오류로 이어지는 우리의 실험 결과와 상관관계가 있습니다. 또한, 각 3D Gaussian의 샘플링 비율을 100번 반복마다 계산해야 하기 때문에 훈련 오버헤드가 약간 증가합니다. 현재 이 계산은 PyTorch [35]를 사용하여 수행되며, 더 효율적인 CUDA 구현이 이 오버헤드를 줄일 수 있을 것입니다. 샘플링 비율이 카메라 위치와 내재적 요소에만 의존하기 때문에 이를 사전 계산하고 저장하기 위한 더 나은 데이터 구조를 설계하는 것이 향후 연구 방향입니다. 앞서 언급한 바와 같이, 샘플링 비율 계산은 학습 중에 필요한 유일한 사전 조건이며, 3D 평활화 필터는 방정식 9에 따라 Gaussian 원시 요소와 융합되어 렌더링 중에 추가 오버헤드를 제거할 수 있습니다.
그림 5. Mip-NeRF 360 데이터셋 [2]에서 단일 스케일 학습 및 다중 스케일 테스트 모든 모델은 8배 다운샘플링된 이미지로 학습되고 줌 인/가까워지는 효과를 시연하기 위해 전체 해상도로 렌더링됩니다. 이전 연구와 달리, Mip-Splatting은 실제와 매우 유사한 이미지를 렌더링합니다. 3DGS + EWA [59]의 고주파 왜곡에도 주목해 주세요.
표 3. Mip-NeRF 360 데이터셋 [2]에서 단일 스케일 학습 및 다중 스케일 테스트 모든 방법은 가장 작은 스케일(1×)에서 학습되고 네 가지 스케일(1×, 2×, 4×, 8×)에서 평가되어 높은 샘플링 비율에서 줌 인 효과를 모방합니다. 우리의 방법은 학습 해상도에서 유사한 결과를 나타내지만, 다른 모든 스케일에서 이전 작업을 크게 능가합니다.
7. 결론
우리는 3DGS를 향상시키기 위해 3D 평활화 필터와 2D Mip 필터를 사용하여 어떤 스케일에서도 앨리어싱 없는 렌더링을 가능하게 하는 Mip-Splatting 기술을 소개했습니다. 우리의 3D 평활화 필터는 Gaussian 원시 요소의 최대 주파수를 학습 이미지에 의해 부과된 샘플링 제약에 맞추어 효과적으로 제한하며, 2D Mip 필터는 물리적 이미지 처리 과정을 모방하기 위해 상자 필터를 근사합니다. Mip-Splatting은 학습과 다른 샘플링 비율로 테스트할 때 분포 외 시나리오에서 최신 방법보다 크게 뛰어나며, 분포 외 카메라 위치와 줌 요소에 대한 일반화를 개선합니다.
감사의 말
ZY, AC 및 AG는 ERC Starting Grant LEGO-3D (850533) 및 DFG EXC 번호 2064/1 - 프로젝트 번호 390727645의 지원을 받습니다. TS는 체코 과학 재단 (GACR) EXPRO 연구비 (UNI-3D, 연구비 번호 23-07973X)의 지원을 받습니다. 또한, 초안 준비 과정에서 유익한 토론을 해주신 Christian Reiser에게 감사드립니다.
전문 분야가 아니라 항상 어려운듯
'인공지능' 카테고리의 다른 글
Better & Faster Large Language Models via Multi-token Prediction (2) | 2024.07.09 |
---|---|
BioCLIP: A Vision Foundation Model for the Tree of Life (1) | 2024.07.08 |
Rich Human Feedback for Text-to-Image Generation (1) | 2024.07.06 |
Generative Image Dynamics (1) | 2024.07.05 |
Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration In the Wild (2) | 2024.07.04 |