화자 임베딩, Speaker Embedding 작업 일지
Cori
회의록 서비스 성능 고도화 프로젝트의 일환으로, 이전 포스트에서 설명한 화자 구분 프로세스 중 Speaker Embedding 적용 과정을 여기에 기록한다. 프로젝트를 진행하며 2가지 임베딩 모델(Wespeaker, Speechbrain)을 사용해 보았으며, 여기서는 두 모델 간 차이점을 비교 분석하고, 임베딩 모델을 화자 구분 파이프라인에 어떻게 적용하는지 설명한다.0. Speaker Embedding 모델프로젝트를 진행하며 2가지 Speaker Embedding 모델을 사용해보았다. 첫 번째 모델은 화자 구분 파이프라인에서 주축을 이루는 Pyannote에서 사용하는 임베딩 모델로, 'Wespeaker/wespeaker-voxceleb-resnet34-LM'이다. ResNet34-LM 모델은 r-vec..