https://dl.acm.org/doi/full/10.1145/3680528.3687570
SD-πXL: 픽셀 이미지 생성의 새로운 시도
이번 시그라프 아시아 2024에서 다룬 SD-πXL는 픽셀 이미지 생성에 집중한 논문으로, Diffusion 기반의 Score Distillation Sampling (SDS)과 Discrete Quantization이 결합된 점이 특징이었습니다.
핵심 아이디어: 픽셀 단위 양자화와 SDS
- Condition 기반 생성
- 입력으로 Canny Edge, Depth Map과 같은 보조 정보를 활용해 구조적 특성을 유지합니다.
- 이를 통해 디노이징 과정이 픽셀 팔레트의 양자화된 색상 정보를 조건으로 활용할 수 있습니다.
- Softmax → Gumbel-Softmax → Convex Sum
- Softmax: 연속적인 확률 분포를 예측합니다.
- Gumbel-Softmax: 샘플링을 통해 연속 값을 Discrete Representation으로 변환합니다.
- Convex Sum: 최종적으로 팔레트의 색상 중 가장 적합한 값을 결합해 픽셀 단위로 색을 결정합니다.
- 개별 픽셀 최적화
- 각 픽셀 단위로 색상 정보를 양자화(Quantization)하는 구조이기 때문에 정교한 결과를 얻을 수 있습니다.
한계: 속도의 문제
SD-πXL은 옵티마이제이션 중심 접근법이기 때문에 속도가 매우 느리다는 단점이 있습니다. 발표에서도 한 장의 이미지 생성에 3시간이나 걸렸다고 언급되었는데, 이는 SDS 과정이 반복적이기 때문입니다.
느낀 점
논문의 Softmax → Argmax 흐름이 픽셀 단위로 양자화된 색상을 결정한다는 점이 흥미로웠습니다. 다만, 속도 개선이 이루어지지 않는다면 실용적으로 사용되기엔 한계가 명확해 보입니다.
Takeaway
SD-πXL은 픽셀 이미지 생성에 대한 새로운 시도이자, Discrete Quantization과 Diffusion을 결합한 독특한 접근법입니다. 느리다는 단점이 있지만, 정확한 팔레트 기반 생성이 필요할 때는 강력한 도구가 될 수 있을 것입니다.