[1 Paper 2 Week] HALoGEN : Fantastic LLM Hallucinations and Where to Find Them
by Cori새해가 밝았다. 2025년 처음으로 읽어볼 논문은 'HALOGEN : Fantastic LLM Hallucinationsand Where to Find Them'이다. 해당 논문은 2025년 1월 14일, arxiv에 개제된 논문으로, LLM 모델의 환각 현상에 대해 다루고 있다. 여기서는 해당 논문의 Introduction, Dataset, Evaluation Metrics, Result, Limitation 및 Conclusion 파트를 간단하게 정리해본다.
Abstract
"환각(Hallucination)"이란 생성된 텍스트가 세계 지식이나 입력된 맥락과 일치하지 않는 잘못된 사실을 포함하는 현상을 말한다. 해당 논문의 저자들은 환각 현상을 측정하고 해결하기 위해 다음과 같은 기여를 한다.
1. HALOGEN 벤치마크 개발
- 10,923개의 프롬프트로 구성된 데이터셋을 통해 LLM 환각을 9개 도메인(프로그래밍, 요약 등)에 걸쳐 분석
- 각 도메일별로 LLM 생성물을 원자적 단위로 분해하고, 고품질의 지식 소스를 활용해 검증하는 자동화 도구 개발
2. LLM 평가
- 14개의 언어 모델에서 약 150,000개의 생성물을 분석한 결과, ChatGPT를 비롯한 최고 성능을 보이는 모델조차 특정 도메인에서는 생성된 원자적 사실의 최대 86%가 환각으로 판명됨
3. 환각 오류 분류 (총 3가지 환각 오류 정의)
- Type A: 훈련 데이터에 올바른 정보가 존재하지만 환각이 발생한 경우
- Type B: 훈련 데이터에 잘못된 정보가 포함되었거나 문맥이 왜곡된 경우
- Type C: 훈련 데이터에 관련 정보가 전혀 없고, 모델이 과잉 일반화를 통해 환각을 생성한 경우
Chap 01. Introduction
상업적 대규모 언어 모델(LLMs)을 배포하는 데 실질적인 어려움 중 하나는 허위 사실(Halluicination)을 출력하는 경향이다. LLM이 허위 사실을 생성하는 문제는 실제 사용자에게 잠재적으로 심각한 영향을 미칠 수 있는 하위 문제를 초래할 수 있으나, 이를 생성하는 이유는 여전히 밝혀지지 않은 상황이다. 또한, 모델 생성 결과가 개방형(open-ended)이라는 특성을 가지기에 모델이 허위 사실을 얼마나 많이 생성하는지 측정하는 것 또한 어렵다는 문제가 존재한다. 논문의 저자들은 다양한 도메인에 걸쳐 언어 모델의 허위 사실 생성 행동을 대규모로 측정할 수 있는 포괄적인 벤치마크(HALoGEN)를 생성하고, 이 다양한 벤치마크를 활용하여 언어 모델의 허위 생성의 잠재적인 원인을 여러 시나리오에서 조사한다.
HALoGEN은 9가지 사용 사례에 걸친 프롬프트로 구성되어 있으며, 여기에는 모델의 응답이 예상되는 과제(response-based)와 모델이 답변을 거부해야 하는 과제(refusal-based)가 포함된다. 각 사용 사례에 대해, HALOGEN은 모델 생성 결과를 사례별 의미 있는 원자 단위로 분해하고, 외부 도구, 프로그램 혹은 LLM 기반 분류기를 활용하여 각 원자 단위의 사실성을 검증한다. 저자들은 해당 벤치마크를 사용하여 14개의 LLM에서 15만개의 생성 결과를 평가했다. 실험 결과, 가장 성능이 뛰어난 LLM 응답 조차도 Hallucination으로 가득차 있으며, 특정 도메인이 다른 도메인에서의 허위 생성 정도를 예측하는데 크게 도움이 되지 않는다는 점을 발견했다. 뿐만 아니라, LLM이 답변을 거부해야 하는 상황에서도 자주 허위 응답을 생성하는 경향이 있음을 확인했으며, 이는 모델의 캘리브레이션(calibration)을 개선해야 할 필요성을 부각시킨다 (Brahman et al., 2024).
이들은 구축한 데이터세트를 바탕으로 허위 생성이 모델의 사전 학습 데이터에서 기반했는지를 추적했으며, 식별된 허위 생성 사례를 대상으로 일련의 사례 연구를 수행하여 3가지 오류 유형을 정의했다(Abstract에서 소개). 분석 결과 허위 사실 생성은 도메인에 따라 다양한 시나리오에서 기인하는 것을 확인했다(e.g. 코드 생성 작업에서는 허위 생성된 소프트웨어 패키지가 종종 사전 학습 데이터에 그대로 존재 - Type B, 미국 상원의원의 학력 정보와 같은 작업에서는 정확한 정보가 사전 학습 데이터에 존재하지만 허위 사실을 생성하는 경우가 흔함 - Type A). 저자들은 허위 생성의 잠재적 원인을 식별할 수 있는 프레임워크를 제공함으로써, 신뢰할 수 있는 LLM 기반 마련에 기여한다.
Chap 02. Building a Benchmark for Hallucinated Content
Dataset
D#01. Code Package
코드 생성 시 모델이 라이브러리를 환각하는 정도를 측정한다. (라이브러리 이름이 실존하는지 등)
- Prompt: Stack Overflow에서 50개의 다양한 주제 영역의 게시물을 기반으로 질문을 가져옴
- 분해 및 검증: 생성된 코드에서 import 된 각 패키지를 원자적 단위로 추출하고, 각 패키지를 PyPi 인덱스와 비교하여 검증함
D#02. Summarization
모델이 생성한 정보가 실제로 제공된 텍스트에 근거하고 있는지 분석하기 위해, 생성된 요약을 세부적인 사실 단위로 나누고, 각 단위가 원문과. 일치하는지 확인한다.
- Prompt: CNN/DailyMail 데이터세트(Hermann et al, 2015)에서 1278개의 사례를 사용하며, 지침은 테이블에 제시된 내용을 따름
- 분해 및 검증: GPT-3.5를 사용하여 모델이 생성한 요약을 '다음 문장을 독립적인 사실들로 분리해주세요'라는 프롬프트로 분해하고, 분해된 각각의 사실에 대해 GPT-3.5를 사용하여 포함 여부를 판단함
D#03. Simplification
모델이 텍스트를 단순화하는 과정에서 원래 의미를 유지하면서 쉽게 변환하는지 평가하며, 환각 발생 여부를 분석한다.
- 프롬프트: WikiLarge 데이터세트(Zhang and Lapata, 2017)에서 1000개의 샘플을 추출하여 프롬프트 구성
- 분해 및 검증: 요약 작업과 동일한 방법으로 생성한 단순화된 텍스트를 독립적인 사실들로 분해한 후, 각 단위가 원문과 일치하는지 검증한다.
D#04. Biographics
모델이 특정 인물에 대한 전기(biography)를 생성할 때, 해당 정보가 신뢰할 수 있는지를 FactScore의 자동화된 도구를 이용해 평가한다.
- 프롬프트: 'Tell me a bio of.' 형식으로 구성되며, FactScore 데이터세트(Min et al., 2023)에서 682개의 엔터티를 사용함
- 분해 및 검증: 모델이 생성한 전기를 평가하기 위해, FactScore 분해 엔진과 검증기를 활용한다.
D#05. Rationalization (Binary)
정답이 명확한 질문들을 활용해 모델이 올바른 답을 생성하는지 평가하며, 정답과 다른 답변을 생성하면 이를 환각으로 간주한다.
- 프롬프트: Zhang et al.(2024)의 연구에서 제시된 세 가지 작업(소수 판별, 상원의원 검색, 그래프 연결성)을 사용함
- 분해 및 검증: 소수 판별의 모든 질문의 정답은 Yes이고, 상원의원 검색과 그래프 연결성 모든 질문의 정답은 No이다. 모델이 정답과 반대되는 답변을 생성할 경우, 환각으로 간주한다.
D#06. Rationalization (Numerical)
프롬프트는 특정 조건을 만족하는. 개체의 개수를 묻는 수치형 질문으로 구성되며, 모델은 먼저 숫자로 된 정답을 제시한 후 해당 정답을 뒷받침하는 개체 목록을 제공해야 한다.
- 프롬프트: 13개의 개체 리스트와 3가지 조건 유형을 사용하여 1014개의 프롬프트를 생성하며, 이들은 각각 단 하나의 정답 세트를 가짐
- 분해 및 검증: Llama-2-70B 모델을 사용하여 모델이 생성한 개체 목록을 추출하고 ,추출된 개체를 사전 구축된 개체 리스트와 비교하여정답 여부를 검증한다.
D#07. Scientific Attribution
모델이 과학적 참고문헌을 환각하는 정도를 분석하며, 특히 잘못된 주장이 포함된 시나리오에서 이를 조사한다. 대형 언어 모델은 정보 검색에서 자주 사용되며, 잘못된 주장에 정확해 보이는 과학적 인용을 제공하면 거짓 정보가 더욱 신뢰성 있어 보일 수 있기에 이를 이해하는 것은 중요하다고 할 수 있다.
- 프롬프트: 모델이 잘못된 주장에 대한 참고문헌을 찾도록 유도하는 프롬프트를 생성하며, 4가지 출처(Hetionet 지식 그래프, SciFact 데이터세트, TruthfulQA 벤치마크,COVID-19 Lies 데이터세트)에서 데이터를 수집한다.
- 분해 및 검증: 모델이 생성한 응답을 원자적 단위(참고문헌 제목)로 분해하고, Semantic Scholar 인덱스를 사용해 해당 참고문헌이 실제로 존재하는지 검증한다.
D#08. Historical Events
역사적으로 불가능한 만남을 요청하는 질문을 통해, 모델이 존재하지 않는 사건을 만들어내는지 검증하고, 이를 위해 Llama2-70B 모델을 사용하여 응답의 진위를 판별한다.
- 프롬프트: 400명의 역사적으로 중요한 인물을 선정하고, 서로 생존 시기가 겹치지 않는 인물들을 쌍으로 구성하여 총 1500여개의 불가능한 만남 시나리오를 생성한다. 이후, 모델에게 '이 두 유명한 인물 사이에서 일어난 유명한 만남을 설명해주세요'라고 요청한다.
- 분해 및 검증: Llama2-70B를 판정 기준(Judge)로 사용하여, 모델의 응답이 해당 만남이 실제로 일어났다고 주장하는지 평가한다. 모델이 만남을 긍정하거나, 명확하게 부정하지 않고 답변을 생성하면 이를 환각으로 분류한다.
D#09. False Presuppositions
존재하지 않는 개체를 더 많이 요구하는 질문을 던짐으로써, 모델이 이를 인식하고 거부하는지를 평가하며, 거부하지 않고 임의로 개체를 생성하면 환각으로 판정한다.
- 프롬프트: 모델에게 특정 조건을 만족하는 N개의 개체를 나열하도록 요청하며, N의 값은 실제로 해당 조건을 만족하는 개체 수보다 크다(모델이 요청을 충족할 수 없는 상황을 만들고, 어떻게 대응하는지 확인).
- 분해 및 검증: 모델이 질문이 잘못되었음을 인정하지 않고 답변을 생성하는 경우 환각으로 간주하고, 환각된 원자적 단위는 응답 내에서 주어진 조건을 충족하지 않는 개체들로 정의한다.
Evaluation Metrics
생성형 대형 언어 모델(LLMs)은 응답이 임의적으로 유연하며, 형식이 서로 크게 다를 수 있고 응답을 거부하는 경우도 존재하는 등으로 인해 평가 과정에서 어려움이 존재한다. 해당 논문에서는 생성형 LLM의 환각을 측정하는 세가지 새로운 지표(RESPONSE RATIO, HALLUCINATION SCORE, UTILITY SCORE)를 도입한다. 모델이 응답을 생성한 경우(R(y) = 1), 다음 수식들을 사용하여 값을 계산한다.
D: 분해 엔진, 모델 응답을 원자적 사실로 나눔
V: 검증기, 각 원자적 사실의 정확성을 평가함
R: 거부 분류기, 모델이 응답을 생성했는지 또는 거부했는지 결정
X: 평가할 프롬프트의 집합
M: 평가할 언어 모델
y: 프롬프트 x ∈ X에 대한 모델의 응답
Py: 분해 엔진 D에 의해 y에서 추출된 원자적 사실들의 리스트
Chap 03. Results
논문의 연구진들은 대형 언어 모델(LLMs)이 환각을 발생시키는 경향에 대한 평가를 진행하며, 총 8개의 모델 계열에서 14개의 LLM을 평가한다.
환각 비율 정량화
표 2와 표 3은 응답 기반 및 거부 기반 작업에서 14개의 LLM에 대한 환각 비율, 응답 비율, 유용성 점수를 보여준다. 평가 결과, 모든 LLM에서 상당한 수준의 사실 오류(factual errors)가 관찰되었으며, 가장 성능이 좋은 모델조차도 도메인에 따라 생성된 사실의 4~86%에서 환각을 보인다. 또한, GPT-3.5와 GPT-4를 비교해봤을 때 응답 기반 작업에서는 두 모델이 비슷한 수준으로 사실적인 응답을 생성했으나 GPT-4 모델이 비교적 거부 기반 작업에서 더 적절한 거부 행동을 보이는 것을 확인할 수 있었다.
도메인별 환각 패턴
모델의 유용성 점수를 기준으로 각 범주별로 모델 순위를 계산하고, 시나리오 간 모델 순위의 상관관계를 비교한 결과는 그림과 같다.
내용 기반 작업(content-grounded) 작업에서는 요약과 단순화 작업의 성능에 높은 상관 관계가 있는 것을 볼 수 있고, 전기 작업의 경우 다른 도메인과 긍정적인 상관 관계를 보이지만 완벽히 예측 가능하지는 않는다. 코딩 도메인에서는 Mistral 7B 모델의 환각 패키지 수가 가장 적었으며, Alphaca 7B 모델은 환각이 적으나 유용하지 않은 라이브러리를 반환한다. 과학적 출처에서는, GPT-4와 Alphaca 7B 모델이 가장 드물게 잘못된 참고문헌을 생성하였고, 요약, 단순화, 전기 작업에서는 GPT-3.5와 GPT-4가 가장 사실적인 행동을 보였다. 이를 통해 우리는 모델이 도메인마다 다른 환각 패턴을 보일 수 있고, 다양한 도메인을 포함한 사실성 평가 벤치마크의 중요성을 알 수 있다.
거부 행동(Refusal Behavior)
연구에 따르면, Llama 모델과 GPT-3.5/4는 거부해야 할 요청에 대해 높은 거부율을 보인다. 반면, Mistral 7B, Mistral-8X7B 및 OLMo는 이러한 요청을 자주 수락하며, 결과적으로 환각을 생성하는 경향이 있다.
오픈 소스 vs 폐쇄형 모델
논문의 저자들은 오픈 소스 모델 중에서도 2가지 모델 유형(오픈 가중치 모델 - 모델 가중치 공개, 오픈 파이프라인 모델 - OLMo와 같이 가중치뿐 아니라 훈련 데이터도 공개)을 전부 비교에 사용했다. 폐쇄형 모델의 경우, GPT-3.5와 GPT-4는 응답 기분 및 거부 기반 작업에서 가장 우수한 성능을 보였으며, 이를 통해 폐쇄형 모델이 여전히 오픈 모델보다 우위에 있음을 보인다. 오픈 소스 모델의 경우, Llama-3-70B가 오픈 소스 모델 중에서 가장 뛰어난 성능을 보였지만 여전히 폐쇄형 모델과의 차이가 존재했다.
더 큰 모델은 환각이 적은가 ?
해당 문제는 응답 기반 작업과 거부 기반 작업에서 각각 다른 경향을 보였다. 응답 기반 작업의 경우, 일반적으로 더 큰 모델이 더 작은 모델보다 환각을 덜 발생시킨다. Llama-2에서는 70B < 13B < 7B순으로 많은 환각을 생성했고, Llama-3에서는 70B < 8B 순으로 많은 환각을 생성했다. 반면, 거부 기반 작업에서는 일관되지 않은 경향을 보였는데, 더 큰 모델이 항상 더 적은 환각을 보이는 것은 아니었다. 여러 언어 모델들 중 활성 파라미터 7B를 사용하는 MoE모델인 Mixtral 8x7B 모델은 응답 기반과 거부 기반 작업 모두에서 Mistral 7B보다 평균적으로 낮은 환각 발생률을 보였다.
Chap 04. Conclusion
HALoGEN : Fantastic LLM Hallucinations and Where to Find Them 논문은 생성형 대형 언어 모델의 환각을 분석한다. 저자들은 HALoGEN이라는 고품질 자원을 제공하여 다양한 시나리오에서 모델 환각을 측정하고 식별할 수 있는 프레임워크를 제안하며, 기여한 바는 다음과 같다.
1. HALoGEN을 활용해 14개의 서로 다른 언어 모델에서 생성된 150,000개의 모델 응답을 기반으로 한 대규모 환각 데이터세트 구축
2. 환각 데이터를 체계적으로 분석하여 모델 환각을 훈련 데이터와 연결짓고, 환각 오류를 3가지 유형으로 분류하는 분류 체계 제안
3. 모델이 발생시키는 오류 유형에 따라 환각을 완화할 수 있는 잠재적 전략을 논의함
마지막 3번에 대해서는 이 포스트에서 다루지 않았으며, 좀 더 자세한 내용을 읽고 싶다면 논문 원문을 참고하길 바랍니다.
블로그의 정보
코딩하는 오리
Cori