
음성 탐지, Voice Activity Detection 작업 일지
Cori
회의록 서비스 성능 고도화 프로젝트의 일환으로, 이전 포스트에서 설명한 화자 구분 프로세스 중 Voice Activity Detection 적용 과정을 여기에 기록한다. 사실, 해당 파트는 허깅페이스에 공개되어 있는 모델을 사용하고 있어 정리할 내용이 많이 없다. 그래서 여기서는 VAD 자체 내용 보다는, VAD를 STT 및 화자 구분에 어떻게 사용하고 있는지 소개하는 내용을 주로 다룬다. 0. VAD 모델VAD는 음성 파일에서 음성 구간이 존재하는 지점을 탐지하는 작업으로, 여러 오픈 소스 모델들이 공개되어 있다. 현재 사용중인 모델은 Hugging Face에 올라와있는 Pyannote 모델이다. Pyannote 에서 화자 구분 파이프라인을 공개해두었는데, 해당 파이프라인을 사용중이기 때문에 다른 모델..