[1 Paper 2 Week] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

요즘 갑자기 등장한, DeepSeek라는 모델. 오픈소스 모델이면서 ChatGTP4-o의 성능을 뛰어넘고, 모델 학습에 들어간 비용은 훨씬 저렴하다는 주장과 함께 뜨거운 감자로 부상하고 있다. 플레이스토어 및 앱 스토어에서도 사용 가능하고, 실제 써 본 사람 말에 의하면 괜찮다고 한다.. (2월 6일 현재 ChatGPT를 표절하고 있다는 이야기가 떠돌고 있지만..) 어떻게 저렴한 비용으로 ChatGPT4-o와 비슷한, 혹은 더 뛰어난 성능을 보일 수 있는지 궁금해져 해당 논문 'DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning'을 살펴보고, 간단하게 정리해보려 한다.

Abstract

해당 논문은 DeepSeek-R1-Zero와 DeepSeek-R1이라는 두 가지 1세대 추론 모델을 소개한다.

DeepSeek-R1-Zero

사전 감독 학습(Supervised Fine-Tuning, SFT) 없이 대규모 순수 강화 학습(Reinforcement Learning, RL)으로만 훈련한 모델이다. 강화 학습으로 인해 다양한 형태의 고급 추론 행동(자기 검증, 반석 등)이 발견되었으나, 가독성이 떨어지고 언어 혼합 문제가 발생하는 등의 문제가 발생한다.

DeepSeek-R1

DeepSeek-R1-Zero에서 발견된 문제점을 보완하고 추론 능력을 향상시킨 모델(Qwen, Llama 기반)로, 초기에는 수천개의 Cold-Start Chain-of-Thought (CoT)데이터로 미세조정한 후, 최종적으로 RL과 SFT를 결합했다. 이를 통해 해당 모델의 추론 능력은 Openai-o1-1217 모델과 비슷한 성능을 보였으며, Distilation을 통해 해당 모델을 1.5B ~ 70B 크기로 다양화했다.

Chap 01. Introduction

OpenAI의 o1 시리즈 모델은 처음으로 추론 과정(Chain-of-Thought, CoT)의 길이를 동적으로 조절하는 추론 시점 확장(inference-time scaling) 방식을 도입했다. 이러한 접근법은 단순한 정답 예측이 아니라, 문제 유형에 따라 추론 깊이를 확장하는 방식으로 수학, 코딩, 과학적 추론 등의 다양한 작업에서 성능 향상을 이끌었다. 그러나 기존 RL 및 검색 기반 알고리즘보다 뛰어난 추론 능력을 보여줬음에도 불구하고, 효과적인 테스트 시점 확장(test-time scaling) 문제는 여전히 해결되지 않은 과제로 남아 있다.

논문의 연구진들은 순수 강화 학습(pure RL)만으로 모델이 자기 진화(self-evolution)를 통해 추론 능력을 향상시킬 수 있는 가능성을 탐색하고자 했다. 이를 위해 DeepSeek-V3-Base 모델을 기반으로 GRPO(Group Relative Policy Optimization) 알고리즘을 적용하여 DeepSeek-R1-Zero를 개발했다. 해당 모델은 RL을 통해 사전 지시 없이 자율적으로 학습하며 자기 검증(self-verification), 반석(reflection), 장문의 CoT 활용 등의 행동을 스스로 터득했으며, AIME 2024 추론 벤치마크에서 15.6%에서 71%까지 성능이 향상되었다. 하지만, 가독성이 떨어지고 언어 혼합 문제가 발생하는 한계가 있었다.

이러한 문제를 해결하고 보다 강력한 추론 능력을 갖춘 모델을 개발하기 위해 연구진은 DeepSeek-R1을 도입하였다. 해당 모델은 다음과 같은 다단계 학습 과정을 거친다.

Step 1. 수천 개의 Cold-Start 데이터를 수집하여 DeepSeek-V3-Base 모델을 미세 조정(fine-tuning)

Step 2. DeepSeek-R1-Zero와 동일한 방식으로 추론 지향 강화 학습(reasoning-oriented RL) 수행

Step 3. 강화 학습이 수렴(convergence) 단계에 가까워지면 Rejection Sampling 기법을 사용하여 RL 체크포인트에서 새로운 SFT(Supervised Fine-Tuning) 데이터 생성

Step 4. DeepSeek-V3에서 쓰기(writing), 사실성 질의(factual QA), 자기 인식(self-cognition) 등 다양한 도메인 데이터를 결합하여 모델 재학습

Step 5. 모든 시나리오에 대응하는 프롬프트를 고려한 추가 RL 과정 수행

연구진들은 확보한 DeepSeek-R1을 기반으로 Distillation을 수행하여 더 작은 모델들(1.5B ~ 70B)로 추론 능력을 이식하였다. 특히 QWEN2.5-32B 모델을 기반으로 DeepSeek-R1에서 Distillation을 수행한 결과, RL만 수행한 모델보다 더 뛰어난 성능을 보였다. 이 과정에서 대형 모델이 학습한 추론 패턴을 보다 작은 모델로 효과적으로 전달할 수 있음이 확인되었으며, Distillation된 14B 모델이 기존 최첨단 오픈소스 모델(QwQ-32B-Preview)보다 성능이 뛰어난 결과를 보였다. 또한, Distillation된 32B 및 70B 모델은 밀집 모델(denser models) 간의 추론 벤치마크에서 새로운 기록을 세웠다.

결론적으로, 이 연구는 다음 두 가지 핵심 기여를 한다. 저자들은 추론, 지식 등의 평가 결과를 논문에서 상세히 설명하고 있으며, 관심있는 분들은 이를 참고하기 바란다.

Post-Training: Large-Scale Reinforcement Learning on the Base Model
- 사전 감독 학습(SFT) 없이 순수 강화 학습만으로도 LLM의 강력한 추론 능력을 이끌어낼 수 있음을 검증
Distillation: Smaller Models Can Be Powerful Too
- 대형 모델의 추론 능력이 Distillation을 통해 보다 작은 모델에도 효과적으로 전이될 수 있음을 실험적으로 입증

Chap 02. Approach

해당 섹션에서는 DeepSeek-R1-Zero와 DeepSeek-R1의 학습 과정 및 기법을 설명하며, 최종적으로 Distillation을 통한 작은 모델로의 지식 이전 방법까지 다룬다. 이곳에서는 복잡한 수식이나 내용은 최대한 간소화하고 설명하려 한다.

Approach #01. DeepSeek-R1-Zero

DeepSeek-R1-Zero는 사전 감독 학습(SFT) 없이 순수 강화 학습만으로 학습된 모델이다.

2.1 Reinforcement Learning Algorithm

저자들은 일반적인 RL 기법과 달리 비교적 적은 연산 비용으로 효과적인 학습이 가능한 GRPO(Group Relative Policy Optimization) 기법을 사용하여 강화 학습을 수행했다. 기존 PPO (Proximal Policy Optimization) 기법과 달리, 별도의 Critic 네트워크 없이 그룹 내 상대적인 보상값을 사용하여 학습을 진행한다. 이를 통해 훈련 비용을 줄이면서도 강화 학습 성능을 최적화할 수 있었다.

2.2 Reward Modeling (보상 모델링)

해당 모델의 강화 학습에서 사용된 보상 함수는 다음과 같이 구성되었다.

#01. 정확도 보상(Accuracy Rewards)

모델의 응답이 정답과 일치하는지 평가한다. 수학 문제의 경우, 정답을 박스로 감싸는 등의 특정 형식을 따르게 하여 규칙 기반 평가를 적용하고, LeetCode 문제의 경우, 컴파일러를 사용해 자동으로 평가하게 하는 방식 등 사용

#02. 적용 형식 보상(Format Rewards)

응답이 논리적인 형식을 따르는지 평가 모델의 **추론 과정(reasoning process)**을 <think> </think> 태그로 감싸도록 유도. 이를 통해 CoT(Chain-of-Thought)의 논리적인 전개를 강화

2.3 Training Template

학습 과정에서 논리적인 사고 방식을 자연스럽게 발전시키도록 하기 위해 일관된 응답 형식을 유지하도록 했다.

 <think> (추론 과정) </think>
<answer> (최종 정답) </answer>

2.4 Performance & Self-Evolution Process

DeepSeek-R1-Zero는 AIME 2024 벤치마크에서 Pass@1 점수를 15.6% → 71.0%로 향상시키는 데 성공하였고, 모델이 자기 검증, 반성 등의 고급 추론 행동을 스스로 학습하는 모습을 보였다. 하지만, 가독성 저하 및 언어 혼합 문제(language mixing issue)가 발생하는 한계가 존재했다.

DeepSeek-R1-Zero의 훈련 과정에서 흥미로운 현상 또한 관측되었는데, 바로 "aha moment"(아하 순간)의 발생이다. 이는 모델의 중간 학습 단계에서 관찰되었으며, DeepSeek-R1-Zero가 스스로 문제 해결 시간을 더 많이 할당하면서 초기 접근 방식을 재평가했다. 이러한 행동은 단순한 성능 향상이 아니라, 모델의 추론 능력이 점진적으로 성장하고 있다는 증거이며, 강화 학습(RL)이 예상치 못한 정교한 사고 패턴을 유도할 수 있음을 보여주는 사례이다.

Approach #02. DeepSeek-R1

DeepSeek-R1 모델은 DeepSeek-R1-Zero에서 나타난 문제를 해결하고, Cold-Start를 활용한 다단계 학습 과정을 적용하여 추론 성능을 향상시켰다.

3.1 Cold Start

논문의 저자들은 모델에 강화학습 적용 시 초기에는 학습 과정이 불안정하기에, 수천개의 Cold-Start 데이터를 활용해 미세조정했다. 미세 조정에 사용한 Cold-Start 데이터는 다음과 같은 방식으로 수집했다.

Step 1. Few-Shot Prompting을 통한 장문의 CoT 데이터 생성

Step 2. DeepSeek-R1-Zero를 활용하여 생성한 데이터를 사람이 수정하여 학습

Step 3. 가독성이 높은(CoT가 명확한) 응답을 선별하여 데이터로 사용

3.2 Reasoning-Oriented RL(추론 지향 강화 학습)

Cold-Start 학습 이후, DeepSeek-R1-Zero와 동일한 방식으로 강화 학습을 적용한다. 이전과의 차이점은, 언어 혼합 문제(language mixing issue)를 해결하기 위해 특정 언어 사용 비율을 조정하는 보상 함수를 추가한 것이다. 응답 내에서 영어, 중국어 등의 타겟 언어 비율을 높이도록 유도하는 보상 모델을 적용하였지만, 이를 적용하면 모델의 절대적인 성능이 다소 낮아지는 문제가 존재했다.

3.3 Rejection Sampling & SFT(샘플링 및 감독 학습 데이터 생성)

강화 학습이 거의 수렴한 이후, Rejection Sampling* 기법을 사용하여 새로운 SFT(Supervised Fine-Tuning) 데이터를 생성하고, 이를 활용해 이전 RL 단계에서 부족했던 다양한 도메인 데이터**를 추가로 학습했다.

e.g) **쓰기(Writing), 사실성 질의(Factual QA), 자기 인식(Self-Cognition) 등

* Rejection Sampling

샘플을 생성할 때, 원하는 기준을 만족하지 않는 샘플을 거부하고 다시 샘플링하는 기법이다. 우선 특정 분포에서 데이터를 무작위로 샘플링하고, 검증 단계에서 샘플이 특정 기준(정확도, 논리적 일관성 등)을 충족하는지 평가한다. 기준을 충족하면 해당 데이터를 선택하고, 아닌 경우 거부 후 다시 샘플링한다.

연구진들은 강화 학습 체크포인트에서 Rejection Sampling 기법을 사용해 60만개(600k)의 추론 관련 학습 샘플(Reasoning data)을 확보했다. 이 과정에서 일부 데이터는 생성형 보상 모델을 사용해 평가했으며, 모델이 생성한 응답을 DeepSeek-V3에 입력하여 정답을 비교하는 방식으로 품질을 판단했다. 또한, 다국어가 혼합된 CoT 응답, 너무 긴 문단, 코드 블록이 포함된 응답들은 필터링함으로써 모델 출력이 혼란스럽거나 가독성이 떨어지는 상황을 최소화했다.

글쓰기(writing), 사실성 질의(factual QA), 자기 인식(self-cognition), 번역(translation)와 같은 비추론 데이터의 경우, DeepSeek-V3의 기존 지도 학습 데이터세트를 재사용하여 20만개(200k)를 수집했다. 특정한 비추론 작업에서는 DeepSeek-V3을 활용해 CoT 예시를 먼저 생성하고, 이후 답변을 생성하도록 유도했다. 반면, '안녕'과 같은 단순한 질문에 대해서는 CoT를 포함하지 않고 즉시 응답을 생성했다.

3.4 Final RL for All Scenarios

모델이 사용자의 선호를 더 잘 반영하도록 하기 위해, 추론 능력을 개선하면서 동시에 유용성(helpfulness)과 무해성(harmlessness)을 향상시키는 2차 강화 학습 단계(secondary reinforcement learning stage)를 구현했다. 이 과정에서 다양한 보상 신호(reward signals)와 프롬프트 분포(prompt distributions)를 결합하여 모델을 학습하였으며, 보다 자세한 내용은 본 논문을 참고하기 바란다.

Approach #03. Distilation

저자들은 DeepSeek-R1의 강력한 추론 능력을 더 작은 모델(1.5B ~ 70B)에 적용하기 위해 Distillation 기법을 사용한다. Qwen 2.5-32B를 베이스 모델로 선택하여 DeepSeek-R1의 출력을 학습시켰으며, 결과적으로 Distillation된 모델이 RL-only 모델보다 더 뛰어난 성능을 보였다. 특히, 14B 모델이 QwQ-32B-Preview보다 성능이 우수했고, 32B 및 70B 모델은 새로운 최고 성능 기록을 달성했다.

Chap 03. Experiment

논문의 Experiments(실험 결과) 섹션에서는 DeepSeek-R1의 성능 평가 및 Distilled 모델들의 성능 비교를 다룬다. 특히, 다양한 벤치마크 평가를 통해 DeepSeek-R1이 기존 모델(OpenAI-o1 시리즈 포함)과 비교해 어느 정도의 성능을 보이는지를 분석한다. 평가 영역별 사용한 벤치마크는 다음과 같다.

일반 지식 평가 (General Knowledge Evaluation)
- MMLU (Massive Multitask Language Understanding)
- MMLU-Pro, MMLU-Redux (확장된 MMLU 평가)
- GPQA Diamond (구글 프루프 질의응답 평가)
수학 및 논리 추론 (Mathematical & Logical Reasoning)
- AIME 2024 (미국 수학 경시대회 문제)
- MATH-500 (고난이도 수학 문제)
- CNMO 2024 (중국 수학 올림피아드)
코딩 능력 평가 (Code & Engineering Tasks)
- LiveCodeBench (실제 프로그래밍 문제 해결 능력)
- Codeforces (경쟁 프로그래밍 플랫폼 성능 평가)
- SWE-Bench Verified (소프트웨어 엔지니어링 관련 문제 해결 능력)
텍스트 생성 및 자연어 처리 (Language Generation & Instruction Following)
- AlpacaEval 2.0 (GPT-4 기반 텍스트 생성 평가)
- ArenaHard (GPT-4 기반 어려운 문제에 대한 응답 품질 평가)

해당 챕터에서는 각 영역별 DeepSeek-R1 모델과 o1 모델, DeepSeek V3 (이전 버전) 모델과의 성능을 비교하여 보여주고 있으며, Distiled 모델인 14B, 32B, 70B 모델 간 성능 평가 결과 또한 서술한다. 평가 결과, DeepSeek-R1은 OpenAI-o1-1217과 동급 성능을 보이며, DeepSeek-V3보다 뛰어난 성능을 달성했다. 특히 코딩, 수학, 논리 추론에서 강력한 성능을 보였으며, Distillation된 모델(14B, 32B, 70B)이 기존 공개된 최첨단 모델(QwQ-32B-Preview), RL-only 모델보다 훨씬 우수한 능력을 보였다. 보다 자세한 성능 평가 결과를 알고 싶은 분들은 논문을 참고하기 바란다.

Chap 04. Discussion

해당 섹션에서는 DeepSeek-R1의 학습 전략(특히 Distillation과 RL의 비교)과 실험 과정에서 실패한 시도들, 향후 개선 방향을 다룬다.

1. Distilation을 진행한 모델의 성능이 RL-Only보다 우수한 이유

큰 모델이 학습한 고급 추론 패턴을 작은 모델로 직접 전이 가능
작은 모델에서 RL을 수행하는 것은 비용이 많이 들고 학습이 불안정함
Distilation은 추론 능력을 유지하면서도 학습 비용을 절감할 수 있음

강화 학습 자체는 강력한 방법이 맞으나, 작은 모델에서는 Distilation을 활용하는 것이 훨씬 더 효율적이라 할 수 있다.

2. 실패한 시도들

Process Reward Model (PRM, 프로세스 보상 모델)
Monte Carlo Tree Search (MCTS, 몬테카를로 트리 탐색)

PRM의 경우 실제 문제 해결 능력을 향상시키기보다, 보상 모델이 선호하는 방식으로 출력을 조작할 가능성이 있기 때문에 CoT 평가에는 적절할 수 있지만, 대규모 RL 학습 과정에서는 비효율적이다. MCTS의 경우 AlphaGo는 상대적으로 유한한 선택지(예: 361개 바둑판 칸) 내에서 탐색 가능 반면, LLM은 사실상 무한한 토큰 조합을 탐색해야 하므로 매우 비효율적이다. MCTS를 제대로 활용하려면 "가치 모델(Value Model)"이 필요하지만, 이를 정확히 학습하기 어렵다.

3. 향후 개선 방향

모델의 일반적인 능력 향상 (General Capability)
다국어 지원 및 언어 혼합 문제 해결
프롬프트 엔지니어링 개선

DeepSeek-R1은 추론 능력(reasoning)은 강력하지만, 다중 턴 대화, 복잡한 역할 수행(role-playing), JSON 출력 등에서는 OpenAI 모델보다 부족하다. 또한 해당 모델이 중국어와 영어에 최적화되어 있어, 다른 언어에서는 성능이 불안정하다. 특히, 비영어권 언어에서 질문을 입력하면 영어로 응답하는 경우가 많다. 뿐만 아니라 Few-Shot 프롬프트를 입력했을 때 성능이 감소하는 경향을 보이는데, 연구진은 Few-Shot 학습이 모델의 예측 패턴을 방해할 가능성이 있다고 분석했다.

Chap 05. Conclusion

DeepSeek-R1은 강력한 추론 능력을 갖춘 모델로, OpenAI-o1-1217과 동등한 성능을 달성하고, Distillation을 활용하여 소형 모델에서도 높은 성능을 유지할 수 있음을 증명하였다. 하지만 다국어 지원, 소프트웨어 엔지니어링, Few-Shot Prompting 등의 개선이 필요하다.

Reference

[1] Guo, Daya, et al. "Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning." arXiv preprint arXiv:2501.12948 (2025).

저작자표시 비영리 변경금지

블로그의 정보

코딩하는 오리

Cori

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

	<think> (추론 과정) </think>
	<answer> (최종 정답) </answer>