Spacy를 활용한 나만의 한국어 NER 모델 만들기 (1)
Cori
사용자 쿼리에 대해, 증권 종목 관련 질문인지 아닌지 1차적으로 분류하고, 증권 종목 관련 쿼리인 경우 어떤 증권 종목인지를 추출하는 업무를 진행하게 되었다. 증권 종목을 인식하기 위해서는 NER 모델을 사용해야겠다고 판단했고, 이 중 Spacy 모델을 사용하여 엔티티 추출하는 과정을 정리해두려 한다.Step 1. 학습 데이터 생성증권 종목 학습 데이터를 만들기 위해서, 증권사 어플을 사용하여 대화한 로그 파일을 사용했다.해당 파일은 다음과 같이 구성되어 있다. 대화날짜Q/A텍스트User_id 이 중, 텍스트에 증권 종목이 포함된 경우, 해당 부분을 STOCK으로 레이블링 진행했다. * 다음 포스트에서 살펴보겠지만, 위와 같은 패턴으로만 구성한 데이터세트의 경우, 생각보다성능이 좋지 않게 나온다. ..