https://dl.acm.org/doi/10.1145/3680528.3687582
Hairmony: 공정성을 고려한 헤어스타일 분류
1. 간단한 요약 및 소개
Hairmony는 단일 이미지로부터 다양한 헤어스타일을 정확히 분류하는 시스템입니다. 기존 모델들이 편향되거나 특정 스타일에 한정되었던 한계를 극복하기 위해, 공정성과 다양성을 강조한 데이터셋과 새로운 분류 체계를 도입했습니다. Hairmony는 합성 데이터를 활용해 다양한 스타일을 학습하고, DINOv2 백본을 활용해 분류 성능을 향상시켰습니다.
2. 기존 문제점
- 데이터 편향: 기존 데이터셋은 특정 스타일(예: 직모)에 편중되어 있어 다양한 헤어스타일을 공정하게 학습하지 못함.
- 분류의 한계: 꼬임 머리나 포니테일과 같은 복잡한 스타일을 구분하기 어려움.
- 현실 데이터 레이블링의 어려움: 현실 세계에서 모든 이미지를 정확히 라벨링하는 것은 비용과 시간이 많이 소요됨.
- 조명 및 시야 제한: 강한 조명 아래 또는 특정 각도의 이미지는 분류 정확도를 떨어뜨림.
3. 해결법
Hairmony는 다음과 같은 혁신적인 접근 방식을 제안합니다:
- 합성 데이터셋 생성:
- 합성 데이터로 구성된 대규모 데이터셋을 통해 텍스처, 길이, 컬 타입 등 다양한 속성을 학습.
- 데이터셋 속성을 균형 있게 조정해 공정성을 강화.
- 새로운 헤어스타일 택소노미 설계:
- 헤어스타일의 텍스처, 길이, 스타일링을 세분화하여 총 74개의 속성으로 분류.
- DINOv2 백본 활용:
- ResNet 기반 모델보다 실제 데이터에 더 잘 일반화되는 DINOv2를 사용.
- 보조 태스크 추가:
- 분류 성능을 높이기 위해 헤어스타일 속성을 예측하는 태스크를 추가.
4. 기여
- 다양한 헤어스타일 지원:
- 직모부터 꼬임 머리, 브레이드, 포니테일까지 폭넓은 스타일을 공정하게 분류.
- 합성 데이터 활용:
- 현실 데이터를 대체할 수 있는 합성 데이터셋으로 노이즈 없는 라벨링과 공정한 데이터 분포를 제공.
- 공정성 개선:
- 성별, 연령, 인종 간 성능 격차를 최소화하여 신뢰도 높은 분류 모델 개발.
- 확장 가능성:
- 택소노미가 유연하게 설계되어 새로운 속성을 쉽게 추가 가능.
5. 한계 및 개인적 생각
- 조명과 시야의 제한:
- 특정 각도나 조명 조건에서는 성능 저하 가능성.
- 합성 데이터의 일반화 문제:
- 합성 데이터로 학습한 모델이 현실 데이터를 다룰 때 일부 손실 발생.
- 연산 비용:
- 높은 하드웨어 자원을 요구해 실시간 추론이 어려울 수 있음.
개인적 생각: Hairmony는 공정성과 다양성을 강조하며 기존 헤어스타일 분류 모델의 한계를 극복한 훌륭한 시스템입니다. 특히, 합성 데이터를 기반으로 한 공정한 학습과 새로운 택소노미 도입이 돋보였습니다. 다만, 현실 데이터에서의 일반화와 효율성을 높이는 연구가 뒷받침된다면 더 큰 응용 가능성을 열어줄 것 같습니다.
논문 요약: Hairmony: Fairness-aware Hairstyle Classification 이 논문은 단일 이미지로부터 다양한 헤어스타일을 분류하는 Hairmony라는 시스템을 소개합니다. 기존의 헤어스타일 분류와 재구성 방법이 직면한 문제를 해결하기 위해, 다음과 같은 주요 기여를 합니다: 1. 새로운 헤어스타일 분류 방식: * 기존의 매개변수 기반 모델이 처리하기 어려운 꼬임, 코일리 헤어, 그리고 복잡한 스타일(브레이드, 포니테일 등)을 지원. * 헤어스타일을 구체적이고 공정하게 분류하기 위해 새로운 헤어스타일 분류 체계(택소노미)를 설계. 2. 합성 데이터 기반 학습: * 합성 데이터를 사용하여 다양한 헤어스타일과 속성(텍스처, 길이, 컬 타입 등)을 조합한 데이터셋 생성. * 공정성을 높이기 위해 데이터셋 속성을 균형 있게 조정. 3. 모델 아키텍처: * DINOv2 백본을 사용하여 실제 데이터에서 학습된 일반적인 특징을 활용. * 보조 작업으로 헤어스타일 속성을 예측하도록 설계하여 분류 정확도를 개선. 4. 평가: * 실제 이미지에서 모델 성능을 평가하고, 공정성과 정확성을 측정하는 새로운 메트릭스를 제안. * 기존 방법 대비 짧은 머리, 꼬임 머리, 모아진 헤어스타일에서도 뛰어난 성능을 입증. 강점 1. 포괄성: * 직모부터 꼬임 머리까지 다양한 스타일을 지원하여 공정하고 포괄적인 모델 제공. 2. 합성 데이터 활용: * 합성 데이터셋을 통해 노이즈 없는 정확한 라벨링과 공정한 데이터 분포를 보장. 3. 공정성 강조: * 모델이 성별, 연령, 인종 간 성능 격차를 최소화하도록 설계. 4. 확장 가능성: * 택소노미가 유연하게 설계되어 새로운 헤어스타일 속성을 추가하거나 수정 가능.
약점 1. **조명과 시야 제한:** * 강한 조명이나 뒷모습이 포함되지 않은 경우 모아진 머리(gathered hair)를 정확히 분류하지 못할 수 있음. 2. **합성 데이터 한계:** * 합성 데이터셋으로 학습했기 때문에 현실 세계의 복잡한 변수에서 성능 저하 가능성. 3. **디테일 부족:** * 실제 헤어스타일의 물리적 디테일(머리카락의 개별 섬유 수준)을 직접 재구성하지 못함. 4. **연산 비용:** * 모델 훈련 및 추론에 높은 하드웨어 자원 필요. 발표자에게 질문할 거리 1. **합성 데이터 일반화 문제:** * 합성 데이터로 학습한 모델이 현실 데이터에 더 잘 일반화되도록 어떤 추가적인 조정이 이루어졌나요? 2. **공정성 평가 메트릭:** * 공정성을 측정하기 위해 사용된 메트릭스의 한계와 개선 가능성은 무엇인가요? 3. **헤어스타일 디테일:** * 개별 헤어 섬유 수준의 세부 사항을 재구성하는 방향으로의 확장 가능성이 있나요? 4. **추론 최적화:** * 낮은 사양의 장치에서도 실시간 분류가 가능하도록 최적화할 계획이 있나요? 5. **미래 확장:** * 이 기술이 AR/VR 외에 의료, 미용, 혹은 패션 산업에서 어떻게 활용될 수 있을까요?
맨처음 정면만 본다면, 동일해보이지만, 뒤에는 다를 수 있음 가장 맞는 헤어를 맞추기 합성 데이터에 정보들을 다 입력해줌 레이블을 모든 real image에 다는 것은 말이 안됨 -> ai로 이걸 만드는 걸로 함 resent 기반 backbone을 사용함 dinov2보다 좋데 합성에서는 리얼에서는 Dino v2 그래서 Dino v2를 사용한데 마지막 여자의 꼬리머리 못잡아 내던데 분포도 age, 이런 부분들이 정말 좋았어. 아바타 만드는것도 메인으로 하고 있군 재미있어