최근에 텍스트를 읽어주던 인공지능에서 음성이 변조가 가능한 인공지능으로 음성 인공지능이 발달하고 있다.
https://www.youtube.com/watch?v=JMCxsc-kJ24
위의 유튜브 동영상처럼 30분과 12시간의 학습이면 자신의 목소리로 노래하고 랩을 할 수 있는 세상이 온 것이다. 이는 보이스 피싱에 이용될 가능성이 충분히 보이며, 어쩌면 근시일내에 해당 음성변조를 통해 일어날 수 있다. Chat-Gpt를 잡아내는 Gpt-zero와 같이 전화통화시 상대의 음성변조를 잡아내는 방법을 고안해보자.
Diffsinger는 Diffusion 모델을 사용한 모델인 만큼 그림에 기반해 두고 있다. 즉, 소리의 파형 학습시켰다는 이야기와 동일하다. 해당 파형을 학습시킨 후, 2개의 데이터를 Concate한 것에 기반을 둘 것이니 우리는 반대로 음성을 받아들여서 해당 파형이 Denoising되었는 가를 판별하면 될 것 같다.
일반적인 Neural Net과 같은 형태로 만들면 되겠지만,Diffsinger를 통해 생성된 데이터와 유튜브와 같은 실제 음악의 파형을 가져와 학습시키는 형식으로 진행하여 labeling을 통한 학습이 진행되면 간단한 Diffsinger-zero(?)를 탄생시킬 수 있을 것 같다.
'프로젝트' 카테고리의 다른 글
RL Drone Challenge (0) | 2023.02.22 |
---|---|
Lux AI Season 2 (0) | 2023.02.21 |
Pytorch based DQN (0) | 2023.02.13 |
일간이긴 하지만 오픈 어시스턴트 1위 달성 (0) | 2023.02.10 |
일간이긴 하지만 오픈 어시스턴트 19위 달성 (0) | 2023.02.09 |