Spacy를 활용한 나만의 한국어 NER 모델 만들기 (2)
Cori
지난 시간에 만든 NER 모델의 경우, 학습 과정에서의 성능 평가 결과는 좋았으나, 실 사용 결과, 좋지 못한 성능을보였다. 해당 모델을 개선하기 위해, 데이터세트 구축부터 다시 시작해보려 한다. Step 1. 기존 데이터세트 문제점 분석 발견한 문제점 첫번째. 학습 데이터세트의 불균형기존 데이터세트의 경우 증권 종목이 포함되어 있는 텍스트로만 구성되어 있었다. 정확히는, 구축해둔 증권 종목 사전을 GPT에 전달 후, 각 종목들을 포함하고 있는 텍스트 쌍을 생성하도록 시켰다. 이 경우, 증권 종목이 포함되어 있지 않은 데이터와 여러 증권 종목이 들어간 텍스트는 얻을 수 없게 된다.이를 개선하기 위해, 인공지능 챗봇과 사용자의 대화 로그를 학습 데이터세트 구축에 활용하였다. 발견한 문제점 두번째. 증권 ..