https://dl.acm.org/doi/10.1145/3680528.3687604
PALP: 데이터 확보의 중요성과 아쉬운 설명
이번 시그라프 아시아 2024에서 흥미롭게 들었던 논문 중 하나는 PALP: Prompt Aligned Personalization of Text-to-Image Models입니다. 하지만 발표를 들을 당시에는 데이터 확보의 중요성에 대한 설명이 부족하다는 느낌이 들었습니다.
데이터 확보와 모델의 한계
PALP는 기존 Text-to-Image Personalization 기법들이 겪는 문제, 즉 **주제의 보존(subject fidelity)**과 텍스트 프롬프트 정렬(prompt alignment) 사이의 트레이드오프를 해결하는 데 초점을 맞추고 있습니다.
- 기존 방식은 주제를 학습하는 과정에서 복잡한 프롬프트와의 정렬이 무너지는 경우가 많습니다.
- PALP는 이러한 문제를 해결하기 위해 Score Distillation Sampling (SDS)과 Prompt-Aligned Loss를 결합했습니다.
그러나 당시 발표에서는 어떤 데이터를 활용해 모델을 학습했는지에 대한 설명이 부족했고, 오히려 Loss 구조만을 강조하는 경향이 있었습니다.
발표 이후 찾아본 내용
발표 후 논문을 직접 찾아보며 알게 된 것은, PALP가 데이터를 효율적으로 활용하는 스마트한 학습 전략을 사용했다는 점입니다.
- 데이터셋 최적화: PALP는 단일 프롬프트에 최적화되기 때문에 대규모 데이터셋이 필요하지 않음을 강조합니다.
- Pre-trained Model 활용: 기존 Stable Diffusion의 지식을 활용하고, 주제에만 초점을 맞춤으로써 오버피팅을 방지합니다.
이 접근 덕분에 PALP는 복잡한 프롬프트에서도 주제와 텍스트 정렬을 동시에 만족시키는 결과를 보여줍니다.
개인적인 시사점
PALP는 단순한 Loss 설계를 넘어서 데이터를 어떻게 활용할 것인가에 대한 고민이 담긴 논문입니다. 발표에서는 아쉬웠지만, 논문을 자세히 살펴보니 모델의 한계를 인식하고 이를 해결하기 위해 데이터와 지식 활용에 집중한 점이 인상적이었습니다.