Exploring Semantic Chunking (이론)
Cori
해당 포스트는 Medium 'Florian June'이 작성한 Advanced RAG 포스트 시리즈 그 다섯번째 내용을 정리하며, 이 글에서는 의미 기반 청킹 방법을 탐구하고, 그 원리와 응용에 대해 다루고 있다.가장 일반적으로 사용되는 청킹 방법은 규칙 기반 청킹 방법으로, 고정된 청크 크기나 인접 청크의 중첩등이 있다. 다중 레벨 문서의 경우, Langchain에서 제공하는 RecursiveCharacterTextSplitter를 사용할 수 있다. 실제 응용에서는 미리 정의된 규칙(청크 크기 또는 중첩 부분의 크기)이 엄격하기 때문에 규칙 기반 청킹 방법은 불완전한 검색 문맥 혹은 잡음이 포함된 과도한 청크 크기와 같은 문제를 일으키기 쉽다. 이러한 문제로 인해 의미 기반으로 청킹하는 것이 보다 성능..