DeepSeek-R1大模型論文詳細(xì)解讀

發(fā)布時(shí)間：2025-02-20作者來源：薩科微瀏覽：1407

一、引子

最近拜讀了《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs viaReinforcement Learning》，該論文討論了DeepSeek-R1模型，該模型旨在通過強(qiáng)化學(xué)習(xí)（RL）提升大語言模型（LLM）的推理能力。

二、論文的關(guān)鍵要點(diǎn)總結(jié)

DeepSeek-R1 和 DeepSeek-R1-Zero 模型：

DeepSeek-R1-Zero 通過純強(qiáng)化學(xué)習(xí)訓(xùn)練，完全不依賴于監(jiān)督微調(diào)（SFT）。該模型展示了令人印象深刻的推理能力，如自我驗(yàn)證和反思，但存在可讀性差和語言混合等問題。
為了解決這些問題，DeepSeek-R1 引入了多階段訓(xùn)練流程，首先使用冷啟動(dòng)數(shù)據(jù)對(duì)基礎(chǔ)模型進(jìn)行微調(diào)，然后使用推理導(dǎo)向的強(qiáng)化學(xué)習(xí)（RL）和監(jiān)督微調(diào)（SFT）。這種方法提高了模型的可讀性和性能，使其在推理任務(wù)上達(dá)到與OpenAI模型（如OpenAI-o1-1217）相當(dāng)?shù)乃健?/span>

推理能力的蒸餾：

論文探索了如何將大模型（如DeepSeek-R1）學(xué)到的推理模式蒸餾到小模型中。這一蒸餾方法使得小模型在推理任務(wù)上表現(xiàn)出色，超越了一些[敏感詞]的模型。
從DeepSeek-R1蒸餾出的較小模型（1.5B、7B、14B、32B、70B）在AIME 2024和MATH-500等基準(zhǔn)測(cè)試上表現(xiàn)良好，為小模型提供了增強(qiáng)推理能力的有效方法，而不需要直接進(jìn)行RL訓(xùn)練。

模型評(píng)估與基準(zhǔn)測(cè)試：

DeepSeek-R1在多個(gè)推理任務(wù)上的表現(xiàn)進(jìn)行了評(píng)估，包括AIME 2024、MATH-500、Codeforces等。DeepSeek-R1在數(shù)學(xué)推理和編程任務(wù)中表現(xiàn)出色，在多個(gè)任務(wù)中超過了現(xiàn)有的OpenAI模型（如o1-1217）。
蒸餾后的模型在這些基準(zhǔn)測(cè)試上也取得了競(jìng)爭(zhēng)力的成績(jī)，像DeepSeek-R1-Distill-Qwen-7B這樣的較小模型超過了QwQ-32B-Preview等模型。

挑戰(zhàn)與未來工作：

盡管DeepSeek-R1取得了成功，但它仍面臨一些挑戰(zhàn)，如語言混合問題以及對(duì)提示結(jié)構(gòu)（尤其是少量樣本提示）的敏感性。此外，模型在軟件工程任務(wù)上的能力仍然有限，因?yàn)樵诖祟愵I(lǐng)域進(jìn)行RL訓(xùn)練效率較低。
未來的工作將集中在改善語言一致性、增強(qiáng)非推理任務(wù)的表現(xiàn)，并優(yōu)化RL應(yīng)用以提高在軟件工程任務(wù)中的性能。

該論文的關(guān)鍵創(chuàng)新點(diǎn)在于使用強(qiáng)化學(xué)習(xí)直接訓(xùn)練大語言模型的推理能力，繞過了監(jiān)督數(shù)據(jù)的需求，同時(shí)成功地將推理能力蒸餾到較小的模型中。

三、摘要

論文摘要：簡(jiǎn)潔地介紹了兩款推理模型：DeepSeek-R1-Zero 和 DeepSeek-R1，它們的主要特點(diǎn)和發(fā)展過程如下：

DeepSeek-R1-Zero：
這是[敏感詞]代推理模型，采用了大規(guī)模的強(qiáng)化學(xué)習(xí)（RL）進(jìn)行訓(xùn)練，而沒有使用監(jiān)督微調(diào)（SFT）作為前期步驟。通過強(qiáng)化學(xué)習(xí)，DeepSeek-R1-Zero 自然地展現(xiàn)出了強(qiáng)大的推理能力，能夠完成許多復(fù)雜的推理任務(wù)。但它也存在一些問題，比如可讀性差，且有時(shí)會(huì)出現(xiàn)語言混合的問題。
DeepSeek-R1：
為了解決 DeepSeek-R1-Zero 中的這些問題，作者引入了 DeepSeek-R1，這款模型在強(qiáng)化學(xué)習(xí)之前加入了多階段訓(xùn)練和冷啟動(dòng)數(shù)據(jù)（即使用一些初步的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練），從而提高了推理能力和模型的可讀性。最終，DeepSeek-R1 的推理表現(xiàn)與 OpenAI-o1-1217 相當(dāng)。
開源貢獻(xiàn)：為了支持科研社區(qū)，作者開源了DeepSeek-R1-Zero、DeepSeek-R1 以及從 DeepSeek-R1 蒸餾出來的六個(gè)較小模型（參數(shù)規(guī)模分別為 1.5B、7B、8B、14B、32B 和 70B），這些模型基于 Qwen 和 Llama。

四：目錄和正文

①Introduction：簡(jiǎn)要說明了近年來大型語言模型（LLMs）的發(fā)展，特別是推理能力的提升。

語言模型的快速發(fā)展：

近年來，大型語言模型（LLMs）在不斷更新迭代，逐漸縮小了與人工通用智能（AGI）的差距。AGI指的是可以像人類一樣處理任何任務(wù)的智能系統(tǒng)。

后期訓(xùn)練（Post-training）：

后期訓(xùn)練已成為模型訓(xùn)練流程中的一個(gè)重要環(huán)節(jié)。它能夠提升模型在推理任務(wù)上的準(zhǔn)確性，同時(shí)與社會(huì)價(jià)值對(duì)齊，適應(yīng)用戶的需求，而且相對(duì)于前期訓(xùn)練所需的計(jì)算資源要少得多。

推理能力的挑戰(zhàn)：

OpenAI的模型通過增加“思維鏈”（Chain-of-Thought, CoT）的長(zhǎng)度，在推理任務(wù)中取得了顯著的進(jìn)展。這種方法幫助模型在數(shù)學(xué)、編程和科學(xué)推理等領(lǐng)域取得了顯著成效。但如何在測(cè)試時(shí)擴(kuò)展推理能力仍然是一個(gè)開放的問題。

提出的創(chuàng)新方法：

該論文提出了一種通過強(qiáng)化學(xué)習(xí)（RL）直接提升語言模型推理能力的方法，不依賴于任何監(jiān)督數(shù)據(jù)（即不使用標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練）。他們使用一個(gè)名為DeepSeek-V3-Base的基礎(chǔ)模型，并用GRPO（一種強(qiáng)化學(xué)習(xí)算法）框架來提升推理表現(xiàn)。
在訓(xùn)練過程中，DeepSeek-R1-Zero（該模型的[敏感詞]個(gè)版本）表現(xiàn)出強(qiáng)大的推理行為，經(jīng)過數(shù)千次的強(qiáng)化學(xué)習(xí)訓(xùn)練，它在推理任務(wù)上的表現(xiàn)顯著提升。例如，在AIME 2024基準(zhǔn)測(cè)試中的得分從最初的15.6%提升到71.0%，通過多數(shù)投票后，得分進(jìn)一步提升至86.7%，達(dá)到了與OpenAI的模型o1-0912相當(dāng)?shù)乃健?/span>

遇到的挑戰(zhàn)和優(yōu)化：

盡管DeepSeek-R1-Zero表現(xiàn)優(yōu)秀，但它的可讀性較差，且有時(shí)會(huì)出現(xiàn)語言混合的問題。為了改善這些問題，論文作者引入了DeepSeek-R1模型，采用了多階段訓(xùn)練和冷啟動(dòng)數(shù)據(jù)（即使用一些初步數(shù)據(jù)進(jìn)行訓(xùn)練）來進(jìn)一步提高推理能力。
訓(xùn)練過程中，首先使用冷啟動(dòng)數(shù)據(jù)對(duì)基礎(chǔ)模型進(jìn)行微調(diào)，然后進(jìn)行推理導(dǎo)向的強(qiáng)化學(xué)習(xí)（與DeepSeek-R1-Zero類似）。接著，創(chuàng)建新的數(shù)據(jù)集來進(jìn)行監(jiān)督微調(diào)，并將其用于訓(xùn)練模型，最后再進(jìn)行一次強(qiáng)化學(xué)習(xí)訓(xùn)練，從而得到DeepSeek-R1，其推理能力與OpenAI的模型相當(dāng)。

蒸餾技術(shù)的探索：

論文還探討了從DeepSeek-R1蒸餾（提?。┩评砟芰Φ礁〉哪Ｐ汀Ｍㄟ^直接蒸餾，使用較小的基礎(chǔ)模型（例如Qwen2.5-32B）獲得的效果比直接應(yīng)用強(qiáng)化學(xué)習(xí)更好。
通過這種蒸餾方法，作者成功提升了較小模型（如14B和32B）的推理能力，并在推理基準(zhǔn)測(cè)試中創(chuàng)下了新紀(jì)錄。

Contributions：總結(jié)了模型在各類任務(wù)中的評(píng)估結(jié)果。以下是對(duì)該部分的解讀：

1. 主要貢獻(xiàn)

后期訓(xùn)練與強(qiáng)化學(xué)習(xí)（RL）應(yīng)用：

論文的一個(gè)關(guān)鍵創(chuàng)新是，DeepSeek-R1 通過直接應(yīng)用強(qiáng)化學(xué)習(xí)（RL）在基礎(chǔ)模型上進(jìn)行訓(xùn)練，而不依賴傳統(tǒng)的監(jiān)督微調(diào)（SFT）。這種方法允許模型通過“思維鏈”（Chain-of-Thought, CoT）來解決復(fù)雜問題，推動(dòng)了 DeepSeek-R1-Zero 的發(fā)展。
DeepSeek-R1-Zero 展現(xiàn)了自我驗(yàn)證、反思能力和生成長(zhǎng)思維鏈的能力，這標(biāo)志著在推理任務(wù)中的一個(gè)重要進(jìn)步。
這是首次通過純粹的RL方法提升大語言模型的推理能力，而不需要監(jiān)督微調(diào)（SFT），為未來的研究開辟了新方向。

DeepSeek-R1模型的改進(jìn)：

DeepSeek-R1 在 DeepSeek-R1-Zero 的基礎(chǔ)上進(jìn)行了進(jìn)一步改進(jìn)，引入了多階段訓(xùn)練和冷啟動(dòng)數(shù)據(jù)，優(yōu)化了模型的推理能力，并且增加了與人類偏好對(duì)齊的強(qiáng)化學(xué)習(xí)階段，同時(shí)繼續(xù)使用 SFT 階段來優(yōu)化模型的推理和非推理能力。
這個(gè)改進(jìn)的流程能夠?yàn)闃I(yè)界帶來更好的推理能力，提升模型的普適性和效果。

蒸餾技術(shù)的應(yīng)用：

論文還展示了如何將較大模型的推理模式蒸餾到更小的模型中，并證明蒸餾出的較小模型在推理任務(wù)中比直接通過RL訓(xùn)練的小模型表現(xiàn)更好。
使用 DeepSeek-R1 生成的推理數(shù)據(jù)，作者對(duì)多個(gè)常用的稠密模型進(jìn)行了微調(diào)，結(jié)果顯示這些蒸餾后的模型在基準(zhǔn)測(cè)試中表現(xiàn)異常優(yōu)秀，超過了之前一些開放源代碼模型的表現(xiàn)。
比如，DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 基準(zhǔn)測(cè)試中達(dá)到了 55.5% 的 Pass@1，超越了 QwQ-32B-Preview。另外，DeepSeek-R1-Distill-Qwen-32B 在多個(gè)測(cè)試中也有很好的表現(xiàn)，分別在 AIME 2024 和 MATH-500 上取得了 72.6% 和 94.3%的成績(jī)。

評(píng)估結(jié)果概述

推理任務(wù)：

DeepSeek-R1 在 AIME 2024 上取得了 79.8% 的 Pass@1，略微超過了 OpenAI 的 o1-1217。在 MATH-500 上，表現(xiàn)十分出色，達(dá)到了 97.3%，與 OpenAI 的 o1-1217 相當(dāng)。
在編程相關(guān)任務(wù)上，DeepSeek-R1 的表現(xiàn)堪稱專家級(jí)，在 Codeforces 上達(dá)到了 2029 的 Elo 評(píng)分，超越了 96.3%的參賽者。

知識(shí)處理能力：

在多個(gè)知識(shí)類基準(zhǔn)測(cè)試（如 MMLU、MMLU-Pro 和 GPQA Diamond）中，DeepSeek-R1 的表現(xiàn)超過了 DeepSeek-V3，在 MMLU 上得分為 90.8%，在 GPQA Diamond 上為 71.5%。雖然在這些基準(zhǔn)測(cè)試上稍微遜色于 OpenAI-o1-1217，但 DeepSeek-R1 的表現(xiàn)仍然優(yōu)于其他閉源模型，顯示出它在教育任務(wù)上的競(jìng)爭(zhēng)力。
在事實(shí)性問題的基準(zhǔn)測(cè)試 SimpleQA 上，DeepSeek-R1 超越了 DeepSeek-V3，展現(xiàn)了其處理事實(shí)性問題的能力。

其他任務(wù)：

DeepSeek-R1 在創(chuàng)意寫作、問答、編輯、總結(jié)等任務(wù)中也表現(xiàn)出色，特別是在非考試類任務(wù)上，展示了其強(qiáng)大的處理能力。比如，在 AlpacaEval 2.0 上，它以 87.6%的長(zhǎng)度控制勝率表現(xiàn)出色，在 ArenaHard 上的勝率為 92.3%。
另外，DeepSeek-R1 在需要長(zhǎng)上下文理解的任務(wù)中，顯著超越了 DeepSeek-V3，表現(xiàn)出了它在處理長(zhǎng)文本方面的優(yōu)勢(shì)。小結(jié)

DeepSeek-R1 模型通過引入強(qiáng)化學(xué)習(xí)（RL）和蒸餾技術(shù)，顯著提升了推理能力，并且在多個(gè)任務(wù)中超過了之前的模型，尤其是在數(shù)學(xué)、編程和知識(shí)處理等領(lǐng)域。
論文中展示的多階段訓(xùn)練方法和冷啟動(dòng)數(shù)據(jù)的結(jié)合，以及推理能力的蒸餾方法，為未來語言模型的發(fā)展提供了新的思路和技術(shù)路徑。

②Approach：詳細(xì)闡述了 DeepSeek-R1 和 DeepSeek-R1-Zero 的訓(xùn)練方法和過程，尤其是通過強(qiáng)化學(xué)習(xí)（RL）提升推理能力的具體步驟。以下是該部分的解讀：

1. 方法概述：

過去的工作通常依賴大量的監(jiān)督數(shù)據(jù)來提升模型性能，而本文展示了即使沒有監(jiān)督微調(diào)（SFT）數(shù)據(jù)，通過大規(guī)模的強(qiáng)化學(xué)習(xí)（RL）也能顯著提升推理能力。
通過這種方法，模型能夠自我演化，并通過強(qiáng)化學(xué)習(xí)學(xué)習(xí)到推理模式。具體來說，本文介紹了以下三個(gè)關(guān)鍵步驟：

DeepSeek-R1-Zero：直接對(duì)基礎(chǔ)模型應(yīng)用強(qiáng)化學(xué)習(xí)（RL），而不使用任何監(jiān)督微調(diào)數(shù)據(jù)。
DeepSeek-R1：在經(jīng)過長(zhǎng)鏈思維（Chain-of-Thought，CoT）示例微調(diào)的檢查點(diǎn)基礎(chǔ)上應(yīng)用RL。
蒸餾：將 DeepSeek-R1 的推理能力蒸餾到較小的稠密模型中。

2. DeepSeek-R1-Zero：基礎(chǔ)模型上的強(qiáng)化學(xué)習(xí)

2.2.1 強(qiáng)化學(xué)習(xí)算法：

為了節(jié)省訓(xùn)練成本，作者采用了 Group Relative Policy Optimization (GRPO) 算法。這種算法避免了使用與策略模型大小相同的評(píng)論模型（critic model），而是通過對(duì)一組輸出結(jié)果進(jìn)行評(píng)分來估計(jì)基線。
具體來說，GRPO 對(duì)每個(gè)問題通過從舊的策略模型中抽取一組輸出進(jìn)行優(yōu)化，并通過[敏感詞]化預(yù)設(shè)目標(biāo)來優(yōu)化策略模型。

2.2.2 獎(jiǎng)勵(lì)建模：

獎(jiǎng)勵(lì)系統(tǒng) 是強(qiáng)化學(xué)習(xí)中的核心，決定了優(yōu)化方向。為了訓(xùn)練 DeepSeek-R1-Zero，作者設(shè)計(jì)了兩種獎(jiǎng)勵(lì)：

準(zhǔn)確度獎(jiǎng)勵(lì)（Accuracy rewards）：評(píng)估模型的回答是否正確。例如，對(duì)于數(shù)學(xué)題，模型必須以特定格式給出最終答案，以便通過規(guī)則驗(yàn)證其正確性。
格式獎(jiǎng)勵(lì)（Format rewards）：強(qiáng)制模型將其思維過程置于 <think> 和 </think> 標(biāo)簽之間，這有助于結(jié)構(gòu)化推理過程并保持格式一致性。

作者沒有使用基于神經(jīng)網(wǎng)絡(luò)的獎(jiǎng)勵(lì)模型，因?yàn)檫@可能導(dǎo)致獎(jiǎng)勵(lì)作弊（reward hacking），而且重新訓(xùn)練獎(jiǎng)勵(lì)模型會(huì)消耗大量計(jì)算資源。

2.2.3 訓(xùn)練模板：

在訓(xùn)練 DeepSeek-R1-Zero 時(shí)，作者設(shè)計(jì)了一個(gè)簡(jiǎn)單的模板，要求模型首先生成思維過程，然后給出最終答案。這個(gè)模板避免了內(nèi)容特定的偏見，如強(qiáng)制要求反思性推理或采用特定的解題策略，目的是準(zhǔn)確地觀察模型在強(qiáng)化學(xué)習(xí)過程中的自然進(jìn)展。

2.2.4 性能、自我演化過程與“頓悟時(shí)刻”：

DeepSeek-R1-Zero 在 AIME 2024 基準(zhǔn)測(cè)試中的表現(xiàn)逐步提升，Pass@1 分?jǐn)?shù)從 15.6% 提升到 71.0%，并最終通過多數(shù)投票進(jìn)一步提高到 86.7%，超越了 OpenAI-o1-0912 的表現(xiàn)。
DeepSeek-R1-Zero 展示了在沒有監(jiān)督微調(diào)數(shù)據(jù)的情況下，通過強(qiáng)化學(xué)習(xí)（RL）獲得強(qiáng)大推理能力的能力，這證明了其自我學(xué)習(xí)和推廣的潛力。
強(qiáng)化學(xué)習(xí)通過增強(qiáng) DeepSeek-R1-Zero 的推理能力，使其能夠有效解決各種復(fù)雜問題。此外，通過使用多數(shù)投票，模型的推理結(jié)果變得更加可靠，進(jìn)一步提高了其性能。

小結(jié)。這一部分介紹了 DeepSeek-R1-Zero 的訓(xùn)練過程，突出了強(qiáng)化學(xué)習(xí)在提升大語言模型（LLMs）推理能力中的應(yīng)用。通過采用 GRPO 算法和規(guī)則獎(jiǎng)勵(lì)系統(tǒng)，DeepSeek-R1-Zero 在沒有監(jiān)督微調(diào)的情況下成功地通過強(qiáng)化學(xué)習(xí)自我演化，并在多個(gè)推理任務(wù)上表現(xiàn)出色。這個(gè)過程的一個(gè)關(guān)鍵突破是，DeepSeek-R1-Zero 不僅通過強(qiáng)化學(xué)習(xí)提升了推理能力，還能夠通過投票進(jìn)一步增強(qiáng)其性能，標(biāo)志著推理能力的進(jìn)一步發(fā)展。

解讀 DeepSeek-R1-Zero 的自我進(jìn)化過程

1. 自我進(jìn)化過程（Self-evolution Process of DeepSeek-R1-Zero）

這一部分展示了 DeepSeek-R1-Zero 如何通過強(qiáng)化學(xué)習(xí)（RL）自主提高其推理能力，而無需監(jiān)督微調(diào)（SFT）。
由于強(qiáng)化學(xué)習(xí)直接從基礎(chǔ)模型開始，我們可以清晰地觀察模型在訓(xùn)練過程中的變化，特別是在處理復(fù)雜推理任務(wù)方面的進(jìn)展。

關(guān)鍵發(fā)現(xiàn)

模型思考時(shí)間的增加：

隨著訓(xùn)練的進(jìn)行，DeepSeek-R1-Zero 在回答問題時(shí)的推理時(shí)間（即生成的推理步驟長(zhǎng)度）逐步增加。
這表明模型在處理推理任務(wù)時(shí)，會(huì)主動(dòng)延長(zhǎng)思考時(shí)間，以解決更復(fù)雜的問題。
這種增長(zhǎng)并不是通過人為調(diào)整參數(shù)實(shí)現(xiàn)的，而是模型在強(qiáng)化學(xué)習(xí)環(huán)境中自主發(fā)展的能力。

自發(fā)行為的出現(xiàn)：

反思（Reflection）：模型會(huì)回顧并重新評(píng)估自己的推理步驟，類似于人類在解題時(shí)發(fā)現(xiàn)錯(cuò)誤后進(jìn)行修正的行為。
探索不同解法：模型會(huì)嘗試多種方法來解決同一個(gè)問題，而不是只遵循固定的套路。
這些行為并不是人為編碼的規(guī)則，而是模型在強(qiáng)化學(xué)習(xí)過程中自發(fā)涌現(xiàn)的能力，這也是強(qiáng)化學(xué)習(xí)的強(qiáng)大之處。

2. “頓悟時(shí)刻”（Aha Moment of DeepSeek-R1-Zero）

論文提到了訓(xùn)練過程中出現(xiàn)的一個(gè)有趣現(xiàn)象，被稱為 "Aha Moment"（頓悟時(shí)刻）。
在某個(gè)訓(xùn)練階段，DeepSeek-R1-Zero 突然學(xué)會(huì)了重新審視自己的解題過程，并在必要時(shí)調(diào)整思維策略。
這一行為類似于人類在解題時(shí)，突然意識(shí)到之前的思路可能有問題，從而停下來重新思考。

“頓悟時(shí)刻”的意義

這種行為表明，強(qiáng)化學(xué)習(xí)不僅可以提高模型的推理能力，還可以讓模型在沒有明確指導(dǎo)的情況下，自主發(fā)展出更高級(jí)的解題策略。
這種能力不是通過硬編碼規(guī)則實(shí)現(xiàn)的，而是模型在強(qiáng)化學(xué)習(xí)環(huán)境中通過試錯(cuò)學(xué)習(xí)到的，這說明強(qiáng)化學(xué)習(xí)有助于推動(dòng)人工智能向更高級(jí)的智能水平發(fā)展。
研究人員在觀察到這個(gè)現(xiàn)象時(shí)，也感到驚喜，因?yàn)檫@表明強(qiáng)化學(xué)習(xí)能夠引導(dǎo) AI 發(fā)展出意想不到的智能行為。

3. DeepSeek-R1-Zero 的局限性

盡管 DeepSeek-R1-Zero 展示了強(qiáng)大的推理能力，并能夠自主發(fā)展復(fù)雜的思維模式，但它仍然存在一些問題：

可讀性差：

由于模型主要關(guān)注推理能力，而不是語言表達(dá)，最終生成的推理過程可能不夠清晰，難以閱讀和理解。

語言混合：

由于訓(xùn)練過程中涉及多種語言，DeepSeek-R1-Zero 可能會(huì)在推理過程中混合使用不同的語言，使得輸出內(nèi)容難以解析。

4. 解決方案：DeepSeek-R1

為了解決 DeepSeek-R1-Zero 在可讀性和語言混合方面的問題，研究團(tuán)隊(duì)開發(fā)了 DeepSeek-R1。
DeepSeek-R1 結(jié)合了強(qiáng)化學(xué)習(xí)和人類友好的冷啟動(dòng)數(shù)據(jù)（cold-start data），使得推理過程更加清晰，輸出更易閱讀，同時(shí)減少語言混合的問題。

小結(jié)

DeepSeek-R1-Zero 通過強(qiáng)化學(xué)習(xí)自主提升推理能力，能夠在沒有監(jiān)督數(shù)據(jù)的情況下發(fā)展出復(fù)雜的推理策略，如反思和多種解題方法。
“頓悟時(shí)刻” 證明了 AI 在強(qiáng)化學(xué)習(xí)的引導(dǎo)下可以產(chǎn)生自發(fā)的智能行為，進(jìn)一步提升了 AI 在推理任務(wù)中的表現(xiàn)。
DeepSeek-R1-Zero 的局限性：可讀性較差，且在推理過程中可能會(huì)混用多種語言，影響理解。
解決方案：DeepSeek-R1 采用更友好的冷啟動(dòng)數(shù)據(jù)，以提高可讀性并減少語言混合問題。

這部分內(nèi)容突出了強(qiáng)化學(xué)習(xí)的潛力，以及 AI 在無監(jiān)督環(huán)境下如何通過試錯(cuò)進(jìn)化出更強(qiáng)的推理能力，同時(shí)也展現(xiàn)了強(qiáng)化學(xué)習(xí)在 AI 研究中的突破性貢獻(xiàn)。

這部分內(nèi)容詳細(xì)介紹了 DeepSeek-R1 模型的訓(xùn)練方法，特別是通過冷啟動(dòng)數(shù)據(jù)（cold start）和強(qiáng)化學(xué)習(xí)（RL）來提升推理能力的過程。以下是該部分的詳細(xì)解讀：

1. DeepSeek-R1: 強(qiáng)化學(xué)習(xí)與冷啟動(dòng)

1.1 引入冷啟動(dòng)數(shù)據(jù)的目的

在 DeepSeek-R1-Zero 的基礎(chǔ)上，研究者提出了通過引入冷啟動(dòng)數(shù)據(jù)來加速推理性能的提升。兩大關(guān)鍵問題是：

如何通過引入少量高質(zhì)量數(shù)據(jù)來加速推理性能的提高或訓(xùn)練收斂的速度？
如何訓(xùn)練一個(gè)既能清晰表達(dá)推理過程（CoT），又具備強(qiáng)大通用能力的用戶友好模型？

為了回答這些問題，作者設(shè)計(jì)了一個(gè)包含四個(gè)階段的訓(xùn)練流程，用于訓(xùn)練 DeepSeek-R1。

1.2 Cold Start - 冷啟動(dòng)

在 DeepSeek-R1 的訓(xùn)練中，冷啟動(dòng)數(shù)據(jù)的引入起到了關(guān)鍵作用，尤其是在 DeepSeek-R1-Zero 的早期不穩(wěn)定訓(xùn)練階段。研究者收集了一些長(zhǎng)鏈思維（CoT）數(shù)據(jù)，并用這些數(shù)據(jù)對(duì)基礎(chǔ)模型進(jìn)行微調(diào)，作為強(qiáng)化學(xué)習(xí)的初始步驟。
冷啟動(dòng)數(shù)據(jù)的收集方式：

使用少量示例提示（few-shot prompting）生成長(zhǎng)鏈思維。
直接提示模型生成詳細(xì)的答案，并加入反思和驗(yàn)證步驟。
從 DeepSeek-R1-Zero 的輸出中收集數(shù)據(jù)，并通過人工后處理優(yōu)化結(jié)果。

冷啟動(dòng)數(shù)據(jù)的優(yōu)勢(shì)：

可讀性：相比 DeepSeek-R1-Zero 生成的難以閱讀的推理過程，DeepSeek-R1 在生成冷啟動(dòng)數(shù)據(jù)時(shí)，設(shè)計(jì)了更易讀的格式，每個(gè)回答結(jié)尾都有一個(gè)總結(jié)部分，并過濾掉不易閱讀的內(nèi)容。
潛力：通過精心設(shè)計(jì)冷啟動(dòng)數(shù)據(jù)模式，DeepSeek-R1 在性能上優(yōu)于 DeepSeek-R1-Zero，證明了這種迭代訓(xùn)練方法的有效性。

1.3 Reasoning-oriented Reinforcement Learning - 推理導(dǎo)向的強(qiáng)化學(xué)習(xí)

在對(duì)基礎(chǔ)模型進(jìn)行冷啟動(dòng)微調(diào)后，作者使用與 DeepSeek-R1-Zero 相同的大規(guī)模強(qiáng)化學(xué)習(xí)（RL）訓(xùn)練方法，進(jìn)一步提升推理能力，尤其在數(shù)學(xué)、編程、科學(xué)和邏輯推理等任務(wù)上。
語言混合問題：在強(qiáng)化學(xué)習(xí)訓(xùn)練過程中，常常出現(xiàn)語言混合的問題，尤其是在多語言提示的情況下。為了解決這個(gè)問題，研究者引入了語言一致性獎(jiǎng)勵(lì)，即在推理過程中鼓勵(lì)模型保持目標(biāo)語言的一致性。
獎(jiǎng)勵(lì)機(jī)制：通過結(jié)合推理任務(wù)的準(zhǔn)確度獎(jiǎng)勵(lì)和語言一致性獎(jiǎng)勵(lì)，模型不斷優(yōu)化，最終達(dá)到了在推理任務(wù)上的收斂。

1.4 Rejection Sampling 和監(jiān)督微調(diào)

拒絕采樣（Rejection Sampling）：當(dāng)推理導(dǎo)向的強(qiáng)化學(xué)習(xí)訓(xùn)練收斂后，研究者使用該檢查點(diǎn)收集監(jiān)督微調(diào)（SFT）數(shù)據(jù)，進(jìn)一步改進(jìn)模型的表現(xiàn)。

推理數(shù)據(jù)：通過拒絕采樣從 RL 訓(xùn)練的檢查點(diǎn)生成推理數(shù)據(jù)，并對(duì)生成的數(shù)據(jù)進(jìn)行人工篩選，確保數(shù)據(jù)的高質(zhì)量。
非推理數(shù)據(jù)：包括寫作、事實(shí)性問答、自我認(rèn)知和翻譯等任務(wù)，結(jié)合 DeepSeek-V3 的數(shù)據(jù)進(jìn)行微調(diào)。

1.5 Reinforcement Learning for all Scenarios - 全場(chǎng)景強(qiáng)化學(xué)習(xí)

為了進(jìn)一步提高模型對(duì)人類偏好的適應(yīng)性，作者實(shí)施了第二階段的強(qiáng)化學(xué)習(xí)，旨在優(yōu)化模型的有用性和無害性，同時(shí)繼續(xù)完善推理能力。

有用性：重點(diǎn)確保模型的回答對(duì)用戶有實(shí)際幫助，評(píng)估時(shí)僅關(guān)注最終總結(jié)部分。
無害性：評(píng)估整個(gè)回答的內(nèi)容，識(shí)別并消除潛在的偏見或有害內(nèi)容。

2. 蒸餾技術(shù)：賦能小模型推理能力

2.1 蒸餾技術(shù)

為了讓更小的模型具備推理能力，作者采用了蒸餾方法，將 DeepSeek-R1 的推理能力傳遞給更小的模型。
研究者將 DeepSeek-R1 用來微調(diào)開源的模型如 Qwen 和 Llama，并使用約 80 萬個(gè)訓(xùn)練樣本進(jìn)行蒸餾。實(shí)驗(yàn)表明，這種蒸餾方法顯著提升了小模型的推理能力。

2.2 蒸餾過程

通過簡(jiǎn)單的蒸餾方法，小模型如 Qwen 和 Llama 的推理能力得到了極大的增強(qiáng)。雖然作者并未在蒸餾后的模型中使用強(qiáng)化學(xué)習(xí)（RL），但他們認(rèn)為這項(xiàng)工作展示了蒸餾技術(shù)的有效性，并為未來的強(qiáng)化學(xué)習(xí)探索留給了廣泛的研究社區(qū)。

小結(jié)。這部分介紹了 DeepSeek-R1 的訓(xùn)練流程，強(qiáng)調(diào)了通過引入冷啟動(dòng)數(shù)據(jù)和強(qiáng)化學(xué)習(xí)（RL）來提升推理能力的重要性。通過設(shè)計(jì)冷啟動(dòng)數(shù)據(jù)，解決了 DeepSeek-R1-Zero 中的可讀性問題，并通過強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化模型的推理能力和語言一致性。此外，作者還展示了將 DeepSeek-R1 的推理能力蒸餾到更小模型中的有效性，這一過程證明了蒸餾技術(shù)在提升推理能力方面的巨大潛力。

③Experiment：詳細(xì)介紹了 DeepSeek-R1 和蒸餾后的模型在多個(gè)基準(zhǔn)測(cè)試上的評(píng)估方法和實(shí)驗(yàn)設(shè)置。

1. 基準(zhǔn)測(cè)試（Benchmarks）

評(píng)估任務(wù)：作者在多個(gè)標(biāo)準(zhǔn)基準(zhǔn)測(cè)試上評(píng)估了模型的表現(xiàn)，涵蓋了不同領(lǐng)域的任務(wù)，包括推理、編程、數(shù)學(xué)、問答等。具體的測(cè)試基準(zhǔn)包括：

MMLU、MMLU-Redux、MMLU-Pro、C-Eval、CMMLU、SimpleQA、AIME 2024、Codeforces 等。
開放式生成任務(wù)：如 AlpacaEval 2.0 和 Arena-Hard，這些任務(wù)使用 GPT-4-Turbo-1106 作為評(píng)估判定者，進(jìn)行對(duì)比分析。

數(shù)據(jù)集：對(duì)于代碼和數(shù)學(xué)相關(guān)的基準(zhǔn)測(cè)試，使用了 HumanEval-Mul 數(shù)據(jù)集，涵蓋了包括 Python、Java、C++、JavaScript 等在內(nèi)的八種主流編程語言。
評(píng)價(jià)方法：實(shí)驗(yàn)中對(duì)不同模型進(jìn)行了廣泛的評(píng)估，主要包括推理任務(wù)（如數(shù)學(xué)、編程和科學(xué)推理）以及開放生成任務(wù)。蒸餾模型的表現(xiàn)也在 AIME 2024、MATH-500、Codeforces 等基準(zhǔn)上進(jìn)行了測(cè)試。

2. 評(píng)估提示（Evaluation Prompts）

標(biāo)準(zhǔn)基準(zhǔn)測(cè)試的評(píng)估設(shè)置：使用了 DeepSeek-V3 中的提示，并結(jié)合 simpleevals 框架進(jìn)行標(biāo)準(zhǔn)基準(zhǔn)測(cè)試的評(píng)估。針對(duì)一些特殊的基準(zhǔn)（如 MMLU-Redux 和 MMLU-Pr），作者修改了原始的提示格式，使用零樣本（zero-shot）設(shè)置進(jìn)行評(píng)估。
推理任務(wù)的評(píng)估：對(duì)于推理任務(wù)（如數(shù)學(xué)、編程等），評(píng)估使用了基于 Chain-of-Thought（CoT）格式的提示。不同任務(wù)根據(jù)其特點(diǎn)調(diào)整了提示格式，以確保能夠準(zhǔn)確評(píng)估模型的推理能力。

3. 評(píng)估設(shè)置（Evaluation Setup）

生成長(zhǎng)度限制：設(shè)置了[敏感詞]生成長(zhǎng)度為 32,768 個(gè)標(biāo)記（tokens），確保模型在生成長(zhǎng)文本時(shí)不會(huì)被截?cái)唷?/span>
解碼方法：為了避免使用貪婪解碼（greedy decoding）導(dǎo)致的高重復(fù)率和不同檢查點(diǎn)之間的顯著變化，實(shí)驗(yàn)中采用了 pass@k 評(píng)估方法。具體來說，使用了非零溫度（temperature = 0.6）和top-p 采樣（top-p = 0.95）來生成多個(gè)（通常是 4 到 64 個(gè)）響應(yīng)，并計(jì)算 pass@1 的得分。
結(jié)果評(píng)估：

Pass@k：對(duì)于每個(gè)問題，生成多個(gè)響應(yīng)，計(jì)算其中正確響應(yīng)的比例（pass@1），這種方法可以提供更可靠的性能估計(jì)。
共識(shí)投票（Consensus Voting）：對(duì)于 AIME 2024 基準(zhǔn)測(cè)試，使用 64 個(gè)樣本進(jìn)行多數(shù)投票（cons@64）計(jì)算，從而提高評(píng)估的穩(wěn)定性和可靠性。

4. 基準(zhǔn)測(cè)試的比較與結(jié)果

基準(zhǔn)比較：作者與多個(gè)強(qiáng)基準(zhǔn)模型進(jìn)行了比較，包括 DeepSeek-V3、Claude-Sonnet-3.5、GT-40-0513、OpenAI-o1-mini、OpenAI-o1-1217 等，展示了 DeepSeek-R1 和蒸餾模型的表現(xiàn)。
蒸餾模型的表現(xiàn)：對(duì)于蒸餾模型（如 Qwen 和 Llama），在 AIME 2024、MATH-500、Codeforces 等基準(zhǔn)上報(bào)告了代表性的結(jié)果。

5. 結(jié)果的意義

Pass@1 和共識(shí)投票：通過使用 pass@1 和 cons@64 評(píng)估方法，模型在多個(gè)推理任務(wù)中的表現(xiàn)得到了更加穩(wěn)定和可靠的評(píng)估。
基準(zhǔn)測(cè)試的綜合評(píng)估：通過多種標(biāo)準(zhǔn)的推理基準(zhǔn)測(cè)試，證明了 DeepSeek-R1 及其蒸餾模型在推理任務(wù)中的強(qiáng)大能力，特別是在數(shù)學(xué)、編程、邏輯推理等任務(wù)上表現(xiàn)突出。

小結(jié)。這部分描述了 DeepSeek-R1 和蒸餾模型在多個(gè)基準(zhǔn)測(cè)試上的評(píng)估過程。通過采用 pass@1 和共識(shí)投票等評(píng)估方法，確保了模型在復(fù)雜推理任務(wù)中的表現(xiàn)可靠且穩(wěn)定。此外，作者還通過與多個(gè)強(qiáng)基準(zhǔn)模型的比較，驗(yàn)證了 DeepSeek-R1 在推理任務(wù)中的優(yōu)勢(shì)，并進(jìn)一步證明了蒸餾技術(shù)在提升小模型推理能力方面的有效性。

這部分內(nèi)容展示了 DeepSeek-R1 模型在多個(gè)基準(zhǔn)測(cè)試中的評(píng)估結(jié)果，并與其他代表性模型進(jìn)行了比較。以下是詳細(xì)解讀：

1. DeepSeek-R1 評(píng)估結(jié)果

1.1 教育相關(guān)基準(zhǔn)測(cè)試（如 MMLU, MMLU-Pro, GPOA Diamond）

DeepSeek-R1 在與 DeepSeek-V3 的比較中，顯示出顯著的性能提升，尤其是在 STEM（科學(xué)、技術(shù)、工程和數(shù)學(xué)） 相關(guān)問題上。通過大規(guī)模強(qiáng)化學(xué)習(xí)（RL）訓(xùn)練，模型在這些領(lǐng)域取得了顯著的準(zhǔn)確性提高。
FRAMES 基準(zhǔn)：這是一個(gè)長(zhǎng)上下文依賴的問答任務(wù)，DeepSeek-R1 在此任務(wù)中表現(xiàn)出色，展示了其強(qiáng)大的文檔分析能力，表明推理模型在 AI 驅(qū)動(dòng)的搜索和數(shù)據(jù)分析任務(wù)中具有潛力。

1.2 事實(shí)性基準(zhǔn)（如 SimpleQA）

在 SimpleQA 這一基準(zhǔn)測(cè)試上，DeepSeek-R1 超過了 DeepSeek-V3，證明了其在處理事實(shí)性查詢方面的能力。類似地，OpenAI的 o1 系列模型在這一基準(zhǔn)測(cè)試上也優(yōu)于 GPT-4o。
然而，DeepSeek-R1 在中文版本的 SimpleQA 測(cè)試中表現(xiàn)不佳，原因是它在安全強(qiáng)化學(xué)習(xí)（RL）后傾向于拒絕回答某些查詢。沒有應(yīng)用安全 RL 時(shí)，DeepSeek-R1 的準(zhǔn)確率可以超過 70%。

1.3 IF-Eval 和 AlpacaEval 2.0 等任務(wù)

IF-Eval 基準(zhǔn)測(cè)試衡量了模型執(zhí)行格式指令的能力，DeepSeek-R1 在此基準(zhǔn)上表現(xiàn)優(yōu)秀。其提升與最終階段的監(jiān)督微調(diào)（SFT）和強(qiáng)化學(xué)習(xí)（RL）數(shù)據(jù)的加入密切相關(guān)。
在 AlpacaEval 2.0 和 ArenaHard 等開放領(lǐng)域問題回答任務(wù)中，DeepSeek-R1 同樣展現(xiàn)了強(qiáng)大的寫作能力和開放領(lǐng)域問答能力，遠(yuǎn)超 DeepSeek-V3，并且其生成的總結(jié)文本避免了長(zhǎng)度偏差，生成的平均長(zhǎng)度為 689 tokens（ArenaHard）和 2,218 characters（AlpacaEval 2.0）。

1.4 數(shù)學(xué)和編程任務(wù)

在數(shù)學(xué)任務(wù)中，DeepSeek-R1 的表現(xiàn)與 OpenAI-o1-1217 相當(dāng)，顯著超過了其他模型。
在編程算法任務(wù)上（如 LiveCodeBench 和 Codeforces），推理導(dǎo)向的模型（如 DeepSeek-R1）主導(dǎo)了這些基準(zhǔn)測(cè)試，證明了推理能力對(duì)編程任務(wù)的有效支持。
在面向工程的編程任務(wù)（如 Aider 和 SWE Verified）中，OpenAI-o1-1217 在 Aider 上表現(xiàn)優(yōu)于 DeepSeek-R1，但在 SWE Verified 上與 DeepSeek-R1 的表現(xiàn)相當(dāng)。隨著更多相關(guān)的強(qiáng)化學(xué)習(xí)訓(xùn)練數(shù)據(jù)的加入，預(yù)計(jì) DeepSeek-R1 在工程任務(wù)中的表現(xiàn)將進(jìn)一步提升。

2. 蒸餾模型評(píng)估

2.1 蒸餾模型的比較

DeepSeek-R1 蒸餾模型（如 DeepSeek-R1-7B, DeepSeek-R1-14B, DeepSeek-R1-32B, 和 DeepSeek-R1-70B）在推理相關(guān)的基準(zhǔn)測(cè)試中表現(xiàn)突出，超越了非推理導(dǎo)向模型（如 GPT-4-0513）以及其他一些強(qiáng)基準(zhǔn)模型：

DeepSeek-R1-7B 超過了 GPT-4-0513。
DeepSeek-R1-14B 在所有評(píng)估指標(biāo)上超越了 QwQ-32B-Preview。
DeepSeek-R1-32B 和 DeepSeek-R1-70B 在大多數(shù)基準(zhǔn)上顯著超過了 OpenAI-o1-mini。

2.2 蒸餾與強(qiáng)化學(xué)習(xí)的結(jié)合

研究還發(fā)現(xiàn)，將強(qiáng)化學(xué)習(xí)（RL）應(yīng)用于蒸餾后的模型，會(huì)帶來顯著的性能提升。盡管目前的實(shí)驗(yàn)只展示了簡(jiǎn)單的 SFT 蒸餾 結(jié)果，作者認(rèn)為這為進(jìn)一步探索 RL 在蒸餾模型中的應(yīng)用提供了一個(gè)重要的研究方向。
DeepSeek-R1 在多個(gè)教育和推理基準(zhǔn)上表現(xiàn)出色，特別是在 STEM 領(lǐng)域、長(zhǎng)文檔分析（FRAMES）和事實(shí)性問答（SimpleQA）方面相較于 DeepSeek-V3 提升顯著。
在數(shù)學(xué)、編程和開放領(lǐng)域問題回答任務(wù)中，DeepSeek-R1 展現(xiàn)了強(qiáng)大的推理能力，特別是在 LiveCodeBench 和 Codeforces 等編程基準(zhǔn)測(cè)試中表現(xiàn)突出。
蒸餾技術(shù)在小模型中表現(xiàn)出色，DeepSeek-R1 的蒸餾模型超越了許多傳統(tǒng)非推理模型，并通過進(jìn)一步結(jié)合強(qiáng)化學(xué)習(xí)，進(jìn)一步提升了推理能力。

這表明，通過強(qiáng)化學(xué)習(xí)的應(yīng)用和蒸餾技術(shù)，DeepSeek-R1 在多任務(wù)和多個(gè)領(lǐng)域中展示了廣泛的適用性和強(qiáng)大的性能。

④Discussion：討論了 DeepSeek-R1 在開發(fā)過程中遇到的一些挑戰(zhàn)、嘗試的失敗方法以及與蒸餾技術(shù)和強(qiáng)化學(xué)習(xí)（RL）之間的對(duì)比。以下是詳細(xì)解讀：

1. 蒸餾 vs 強(qiáng)化學(xué)習(xí)（Distillation vs. Reinforcement Learning）

1.1 蒸餾和強(qiáng)化學(xué)習(xí)的對(duì)比

在 DeepSeek-R1 的開發(fā)過程中，作者探索了兩種主要的提升模型推理能力的方法：蒸餾（Distillation）和 強(qiáng)化學(xué)習(xí)（RL）。
通過對(duì) Qwen-32B-Base 進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練，作者開發(fā)了 DeepSeek-R1-Zero-Qwen-32B，并進(jìn)行了評(píng)估。實(shí)驗(yàn)結(jié)果表明，雖然強(qiáng)化學(xué)習(xí)訓(xùn)練的 DeepSeek-R1-Zero-Qwen-32B 在推理基準(zhǔn)測(cè)試中的表現(xiàn)與 QwQ-32B-Preview 相當(dāng)，但通過蒸餾得到的 DeepSeek-R1-Distill-Qwen-32B 在所有基準(zhǔn)測(cè)試中表現(xiàn)更好，遠(yuǎn)超強(qiáng)化學(xué)習(xí)訓(xùn)練得到的版本。
結(jié)論：

蒸餾較強(qiáng)大的模型到較小模型中能夠產(chǎn)生優(yōu)異的結(jié)果，而僅依靠大規(guī)模強(qiáng)化學(xué)習(xí)的小模型需要巨大的計(jì)算資源，并且可能無法達(dá)到蒸餾方法的效果。
盡管蒸餾策略既經(jīng)濟(jì)又有效，但如果要進(jìn)一步推動(dòng)智能水平的發(fā)展，可能還需要更強(qiáng)大的基礎(chǔ)模型和更大規(guī)模的強(qiáng)化學(xué)習(xí)訓(xùn)練。

2. 未成功的嘗試（Unsuccessful Attempts）

2.1 過程獎(jiǎng)勵(lì)模型（PRM）

過程獎(jiǎng)勵(lì)模型（PRM） 是一種引導(dǎo)模型解決推理任務(wù)的合理方法，通過獎(jiǎng)勵(lì)模型來促進(jìn)模型的推理過程。然而，實(shí)踐中存在一些主要限制：

步驟定義困難：很難為一般推理任務(wù)明確地定義每個(gè)小步驟。
正確性判定困難：判斷當(dāng)前步驟是否正確是一項(xiàng)具有挑戰(zhàn)性的任務(wù)，尤其是自動(dòng)注釋可能無法得到令人滿意的結(jié)果，而人工標(biāo)注又難以擴(kuò)展。
獎(jiǎng)勵(lì)作弊問題：引入基于模型的獎(jiǎng)勵(lì)模型不可避免地會(huì)導(dǎo)致“獎(jiǎng)勵(lì)作弊”（reward hacking），即模型會(huì)利用獎(jiǎng)勵(lì)機(jī)制本身的漏洞來優(yōu)化結(jié)果，而這需要額外的訓(xùn)練資源，并且會(huì)使訓(xùn)練流程更加復(fù)雜。
結(jié)論：盡管PRM可以幫助重新排序模型生成的前N個(gè)響應(yīng)，或輔助引導(dǎo)搜索，但與在大規(guī)模強(qiáng)化學(xué)習(xí)過程中引入的額外計(jì)算開銷相比，其優(yōu)勢(shì)是有限的。

2.2 蒙特卡洛樹搜索（MCTS）

蒙特卡洛樹搜索（MCTS） 是受 AlphaGo 和 AlphaZero 啟發(fā)的方法，目的是通過系統(tǒng)地探索解空間來提升推理能力。

挑戰(zhàn)：

與棋類游戲不同，MCTS 在文本生成中的搜索空間大得多，因此在擴(kuò)展每個(gè)節(jié)點(diǎn)時(shí)會(huì)遇到困難，容易導(dǎo)致模型陷入局部最優(yōu)解。
價(jià)值模型的訓(xùn)練難度：在 AlphaGo 中，通過訓(xùn)練價(jià)值模型不斷提升模型性能，但在 MCTS 的文本生成任務(wù)中，訓(xùn)練一個(gè)細(xì)粒度的價(jià)值模型非常困難，這使得模型難以迭代提升性能。
訓(xùn)練過程：通過引導(dǎo)模型生成多個(gè)標(biāo)簽來對(duì)應(yīng)每個(gè)推理步驟，使用收集的提示進(jìn)行 MCTS 搜索，然后通過生成的問答對(duì)訓(xùn)練模型。

結(jié)論：

MCTS 可以在推理時(shí)提升性能，尤其是在與預(yù)訓(xùn)練的價(jià)值模型配對(duì)時(shí)。然而，要通過自我搜索不斷提升模型性能仍然是一個(gè)巨大的挑戰(zhàn)，尤其是在文本生成任務(wù)中的復(fù)雜性更高。小結(jié)如下：
蒸餾 vs 強(qiáng)化學(xué)習(xí)：雖然蒸餾在將強(qiáng)大模型的推理能力傳遞到較小模型中表現(xiàn)非常好，但大規(guī)模強(qiáng)化學(xué)習(xí)仍然需要大量計(jì)算資源，且不一定能達(dá)到蒸餾的效果。為了進(jìn)一步推動(dòng)智能的發(fā)展，可能還需要更強(qiáng)的基礎(chǔ)模型和更大規(guī)模的強(qiáng)化學(xué)習(xí)。
失敗的嘗試：

過程獎(jiǎng)勵(lì)模型（PRM） 在實(shí)際應(yīng)用中面臨定義困難、正確性判斷問題以及獎(jiǎng)勵(lì)作弊等問題，導(dǎo)致其在大規(guī)模強(qiáng)化學(xué)習(xí)中表現(xiàn)不佳。
蒙特卡洛樹搜索（MCTS） 盡管在理論上有提升潛力，但在文本生成任務(wù)中，由于生成空間龐大、價(jià)值模型訓(xùn)練困難，最終在模型性能提升上仍面臨挑戰(zhàn)。

⑤Conclusion, Limitations, and Future Work（結(jié)論、局限性與未來工作）

1. 結(jié)論

本研究展示了通過強(qiáng)化學(xué)習(xí)（RL）增強(qiáng)大語言模型推理能力的過程：

DeepSeek-R1-Zero：這是一種純粹的 RL 方法，無需冷啟動(dòng)數(shù)據(jù)，能夠在多個(gè)任務(wù)上實(shí)現(xiàn)強(qiáng)大的性能。
DeepSeek-R1：相比于 DeepSeek-R1-Zero，DeepSeek-R1 在利用冷啟動(dòng)數(shù)據(jù)和迭代的 RL 微調(diào)后，表現(xiàn)更為強(qiáng)大，最終在多個(gè)任務(wù)上達(dá)到了與 OpenAI-o1-1217 相當(dāng)?shù)男阅芩健?/span>

此外，論文還探索了將推理能力蒸餾到小型稠密模型中：

DeepSeek-R1 作為教師模型生成了 80 萬個(gè)訓(xùn)練樣本，并對(duì)多個(gè)小型稠密模型進(jìn)行了微調(diào)，結(jié)果非常有希望：例如 DeepSeek-R1-Distill-Qwen-1.5B 在數(shù)學(xué)基準(zhǔn)測(cè)試上超越了 GPT-4o 和 Claude-3.5-Sonnet，在 AIME 上達(dá)到了 28.9%，在 MATH 上達(dá)到了 83.9% 的成績(jī)。

這些結(jié)果表明，蒸餾技術(shù)在小模型中取得了顯著的推理能力提升。

2. 局限性

盡管 DeepSeek-R1 取得了令人印象深刻的進(jìn)展，但仍存在一些局限性：

通用能力不足：目前 DeepSeek-R1 在某些任務(wù)上（如函數(shù)調(diào)用、多輪復(fù)雜角色扮演和 JSON 輸出等）能力仍不及 DeepSeek-V3。未來計(jì)劃通過使用長(zhǎng)鏈思維（CoT）來提升這些領(lǐng)域的任務(wù)表現(xiàn)。
語言混合問題：DeepSeek-R1 目前對(duì)中文和英文進(jìn)行了優(yōu)化，但在處理其他語言的查詢時(shí)可能會(huì)出現(xiàn)語言混合的問題。例如，在處理非英語或中文的查詢時(shí)，推理和回應(yīng)可能會(huì)不自覺地使用英語。未來將致力于解決這一問題。
提示工程問題：在評(píng)估 DeepSeek-R1 時(shí)，發(fā)現(xiàn)模型對(duì)提示非常敏感。特別是在使用少量樣本提示（few-shot prompting）時(shí)，性能會(huì)顯著下降。因此，建議用戶使用零樣本設(shè)置（zero-shot setting），直接描述問題并明確指定輸出格式，以獲得[敏感詞]效果。
軟件工程任務(wù)：由于 RL 訓(xùn)練過程中的長(zhǎng)時(shí)間評(píng)估影響了效率，DeepSeek-R1 在軟件工程任務(wù)中的應(yīng)用仍然有限。盡管如此，模型在這類基準(zhǔn)測(cè)試中的表現(xiàn)未能超越 DeepSeek-V3。未來版本將通過實(shí)施軟件工程數(shù)據(jù)上的拒絕采樣（rejection sampling）或在 RL 過程中的異步評(píng)估（asynchronous evaluations）來提高效率，從而解決這一問題。

3. 未來工作

在未來，研究團(tuán)隊(duì)計(jì)劃在以下幾個(gè)方面進(jìn)一步改進(jìn) DeepSeek-R1：

通用能力提升：探索如何通過長(zhǎng)鏈思維（CoT）來增強(qiáng) DeepSeek-R1 在復(fù)雜角色扮演和其他多輪交互任務(wù)中的表現(xiàn)。
解決語言混合問題：提高 DeepSeek-R1 在多語言環(huán)境中的穩(wěn)定性和一致性，避免語言混合的情況。
優(yōu)化提示工程：進(jìn)一步研究不同提示（如零樣本和少樣本設(shè)置）對(duì)模型表現(xiàn)的影響，并制定優(yōu)化策略，特別是在用戶實(shí)際應(yīng)用時(shí)確保其更高的準(zhǔn)確性。
增強(qiáng)軟件工程任務(wù)能力：通過提高 RL 訓(xùn)練的效率，例如應(yīng)用拒絕采樣或異步評(píng)估，解決 DeepSeek-R1 在軟件工程任務(wù)中的限制。

五、總結(jié)

DeepSeek-R1 在推理任務(wù)中的表現(xiàn)顯著提升，尤其是在通過強(qiáng)化學(xué)習(xí)（RL）和冷啟動(dòng)數(shù)據(jù)的結(jié)合下，其推理能力超越了傳統(tǒng)模型。蒸餾技術(shù)的成功也證明了較小模型同樣可以獲得強(qiáng)大的推理能力。
然而，DeepSeek-R1 在一些高級(jí)任務(wù)（如復(fù)雜角色扮演和軟件工程任務(wù)）上仍有不足，未來研究將集中在提高其通用能力和多語言處理能力。
通過進(jìn)一步優(yōu)化 RL 過程，解決現(xiàn)有局限性，DeepSeek-R1 有潛力在更多實(shí)際應(yīng)用中取得更大的突破。

免責(zé)聲明：本文采摘自“老虎說芯”，本文僅代表作者個(gè)人觀點(diǎn)，不代表薩科微及行業(yè)觀點(diǎn)，只為轉(zhuǎn)載與分享，支持保護(hù)知識(shí)產(chǎn)權(quán)，轉(zhuǎn)載請(qǐng)注明原出處及作者，如有侵權(quán)請(qǐng)聯(lián)系我們刪除。

上一條：如何理解數(shù)字芯片設(shè)計(jì)中的RTL（Register Transfer Level）
下一條：半導(dǎo)體制造中有哪些有毒化學(xué)物質(zhì)？