본문 바로가기

컨퍼런스/ASIA SIGGRAPH 2024

[Design it all: font, paint, and colors] Colorful Diffuse Intrinsic Image Decomposition in the Wild

https://arxiv.org/abs/2409.13690

 

Colorful Diffuse Intrinsic Image Decomposition in the Wild

Intrinsic image decomposition aims to separate the surface reflectance and the effects from the illumination given a single photograph. Due to the complexity of the problem, most prior works assume a single-color illumination and a Lambertian world, which

arxiv.org

LVCD: 시간적 일관성을 잡아낸 라인아트 비디오 컬러화

시그라프 아시아 2024에서 들었던 **"LVCD: Reference-based Lineart Video Colorization with Diffusion Models"**는 디퓨전 모델을 기반으로 라인아트 비디오를 채색하는 새로운 접근법을 제안했습니다.


핵심 아이디어

  1. Reference Attention
    • 기준 프레임의 색상 정보를 Cross-Attention을 통해 다음 프레임에 자연스럽게 전파합니다.
    • 이를 통해 프레임 간 색상 일관성을 유지하면서 고품질의 채색이 가능합니다.
  2. Sketch-Guided ControlNet
    • 라인아트의 구조를 유지하며 세밀한 채색을 가능하게 합니다.
    • ControlNet 구조를 활용해 색상 정보와 스케치를 효과적으로 결합합니다.
  3. Overlapped Blending
    • 프레임 경계를 겹쳐서 생성함으로써 에러 누적을 완화하고 부드러운 연결을 제공합니다.

느낀 점과 한계

  1. 속도의 한계
    • 한 프레임당 2초 정도 소요되며, 긴 비디오(200프레임 이상)에서는 시간이 오래 걸립니다.
    • 속도 개선이 이루어진다면 실용화 가능성이 높아질 것입니다.
  2. 기술적 완성도
    • Reference Attention과 Overlapped Blending의 결합은 기존 방법 대비 큰 발전이지만, 프레임 간 세부적인 일관성은 여전히 개선의 여지가 있어 보였습니다.

총평

LVCD는 시간적 일관성을 갖춘 라인아트 비디오 컬러화에서 큰 진전을 보여준 연구입니다. 특히 Reference Attention과 ControlNet의 결합은 비디오 컬러화의 품질을 한층 끌어올렸습니다. 다만 속도 최적화는 여전히 남은 과제이며, 실시간 시스템으로 확장된다면 애니메이션 제작의 혁신적인 도구가 될 것입니다.