화자 구분 후처리, Post Processing 작업 일지
Cori
회의록 서비스 성능 고도화 프로젝트의 일환으로, 이전 포스트에서 설명한 화자 구분 프로세스 중 Post Processing 과정을 여기에 기록한다. Post Processing은 화자 구분 결과값을 후처리하는 역할을 수행하며, 오디오 파일에서의 잡음 필터링, 화자별 순수 발화 추출, 화자 재레이블링, 청크별 화자 대표 임베딩 계산 및 전체 병합하는 부분을 다룬다. 1. 잡음 필터링화자 구분 모델을 적용해보면, 발화 시간이 매우 짧은 구간조차도 특정 화자로 분류되는 경우를 자주 확인할 수 있다. 해당 구간의 오디오를 실제로 들어보면, 대부분은 단순한 추임새나 잡음에 가까운 경우가 많으며, 이러한 발화는 전체 대화 흐름에서 중요한 정보로 작용하지 않는 경우가 대부분이다. 또한 발화 길이가 짧을수록, 화자 구..