https://arxiv.org/abs/2410.06488
HFH-Font: 복잡한 한자를 위한 고해상도 폰트 생성
시그라프 아시아 2024에서 흥미롭게 들었던 논문 중 하나는 HFH-Font: Few-shot Chinese Font Synthesis with Higher Quality, Faster Speed, and Higher Resolution입니다. 복잡한 한자를 다루는 중국화 문화권에서 특히 필요할 법한 기술로, 기존의 한계들을 정교하게 해결한 연구였습니다.
기존 폰트 생성의 한계
한자는 획이 많고 구조가 복잡해 폰트를 제작하는 과정이 상당히 까다롭습니다. 기존 방법들은 단순히 해상도를 올리거나 스타일만 복제하는 데 그쳤고, 실제 고품질 폰트를 생성하려면 수작업이 필수였습니다. 특히 몇 개의 예시 폰트만으로 새로운 글자를 생성하려고 하면, 콘텐츠(글자의 구조)와 스타일이 섞이거나 저해상도로 제한되는 문제가 발생했습니다.
HFH-Font의 접근법
이 논문은 Few-Shot Learning을 기반으로 저해상도 이미지에서 고해상도 폰트를 생성하는 혁신적인 방법을 제시했습니다.
핵심은 크게 두 가지 단계로 나뉩니다:
1단계: 64x64 저해상도 폰트 생성
HFH-Font는 먼저 64x64 저해상도 이미지를 생성합니다. 이 과정에서 Component-Aware Conditioning을 활용해 글자의 구조(Content)와 스타일을 학습합니다.
- Content Encoder: 입력 한자의 구조를 학습
- Style Encoder: 스타일 이미지를 학습
- 두 정보를 Transformer Cross-Attention을 통해 결합
흥미로운 점은 Transformer 구조에서 Content가 Query(Q) 역할을, Style이 Key(K)와 Value(V) 역할을 한다는 것입니다. 이 방식 덕분에 다양한 글자 구조에도 스타일을 일관되게 적용할 수 있었습니다.
2단계: Score Distillation Sampling (SDS)과 Super-Resolution
HFH-Font는 생성된 64x64 이미지를 256x256을 거쳐 1024x1024까지 업스케일링합니다.
- Score Distillation Sampling (SDS): 저해상도에서 고해상도로 빠르게 확장하기 위한 기법입니다.
- Super-Resolution: 고해상도 폰트를 위해 Component-Aware Super-Resolution을 적용했습니다.
기존의 ESRGAN처럼 별도의 모델이 아니라 Diffusion 모델 기반의 업스케일링이므로 성능이 더 정교하고 자연스럽습니다.
벡터화와 확장성
HFH-Font는 단순히 이미지 생성에 그치지 않고, 결과물을 벡터화할 수 있습니다. Adobe Illustrator의 Image Trace 기능을 통해 벡터로 변환하면 폰트 디자인에 바로 사용할 수 있을 정도의 품질이 나옵니다.
게다가 Fine-tuning도 지원해 더 세밀하게 스타일을 조정할 수 있는 확장성도 갖추고 있습니다.
발표를 듣고 느낀 점
이 논문은 복잡한 한자의 스타일과 구조를 정교하게 학습하면서도 빠르게 고해상도 이미지를 생성할 수 있는 점이 인상적이었습니다. 특히 Transformer의 Cross-Attention 구조를 Content와 Style로 분리해서 적용한 접근은 참신했습니다.
한 가지 더 흥미로웠던 점은 Score Distillation Sampling이었는데, 처음에는 생소했지만 저해상도에서 고해상도로 빠르게 학습할 수 있다는 점에서 실용적이었습니다.
총평: 추천할 만한 논문
HFH-Font는 단순한 폰트 생성 연구를 넘어 복잡한 글자 구조와 스타일 일관성 문제를 해결한 점에서 큰 의미가 있습니다. Few-Shot 학습으로 고품질 고해상도 폰트를 빠르게 생성할 수 있다는 점에서, 앞으로 실용적인 폰트 디자인 툴로 확장될 가능성이 커 보입니다.
Takeaway: 복잡한 한자와 같은 폰트 문제에 고민이 많다면, HFH-Font는 반드시 참고해야 할 연구입니다.