服務(wù)熱線
0755-83044319
發(fā)布時(shí)間:2025-02-20作者來源:薩科微瀏覽:1407
一、引子
最近拜讀了《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs viaReinforcement Learning》,該論文討論了DeepSeek-R1模型,該模型旨在通過強(qiáng)化學(xué)習(xí)(RL)提升大語言模型(LLM)的推理能力。
DeepSeek-R1 和 DeepSeek-R1-Zero 模型:
DeepSeek-R1-Zero 通過純強(qiáng)化學(xué)習(xí)訓(xùn)練,完全不依賴于監(jiān)督微調(diào)(SFT)。該模型展示了令人印象深刻的推理能力,如自我驗(yàn)證和反思,但存在可讀性差和語言混合等問題。
為了解決這些問題,DeepSeek-R1 引入了多階段訓(xùn)練流程,首先使用冷啟動(dòng)數(shù)據(jù)對(duì)基礎(chǔ)模型進(jìn)行微調(diào),然后使用推理導(dǎo)向的強(qiáng)化學(xué)習(xí)(RL)和監(jiān)督微調(diào)(SFT)。這種方法提高了模型的可讀性和性能,使其在推理任務(wù)上達(dá)到與OpenAI模型(如OpenAI-o1-1217)相當(dāng)?shù)乃健?/span>
推理能力的蒸餾:
論文探索了如何將大模型(如DeepSeek-R1)學(xué)到的推理模式蒸餾到小模型中。這一蒸餾方法使得小模型在推理任務(wù)上表現(xiàn)出色,超越了一些[敏感詞]的模型。
從DeepSeek-R1蒸餾出的較小模型(1.5B、7B、14B、32B、70B)在AIME 2024和MATH-500等基準(zhǔn)測(cè)試上表現(xiàn)良好,為小模型提供了增強(qiáng)推理能力的有效方法,而不需要直接進(jìn)行RL訓(xùn)練。
模型評(píng)估與基準(zhǔn)測(cè)試:
DeepSeek-R1在多個(gè)推理任務(wù)上的表現(xiàn)進(jìn)行了評(píng)估,包括AIME 2024、MATH-500、Codeforces等。DeepSeek-R1在數(shù)學(xué)推理和編程任務(wù)中表現(xiàn)出色,在多個(gè)任務(wù)中超過了現(xiàn)有的OpenAI模型(如o1-1217)。
蒸餾后的模型在這些基準(zhǔn)測(cè)試上也取得了競(jìng)爭(zhēng)力的成績(jī),像DeepSeek-R1-Distill-Qwen-7B這樣的較小模型超過了QwQ-32B-Preview等模型。
挑戰(zhàn)與未來工作:
盡管DeepSeek-R1取得了成功,但它仍面臨一些挑戰(zhàn),如語言混合問題以及對(duì)提示結(jié)構(gòu)(尤其是少量樣本提示)的敏感性。此外,模型在軟件工程任務(wù)上的能力仍然有限,因?yàn)樵诖祟愵I(lǐng)域進(jìn)行RL訓(xùn)練效率較低。
未來的工作將集中在改善語言一致性、增強(qiáng)非推理任務(wù)的表現(xiàn),并優(yōu)化RL應(yīng)用以提高在軟件工程任務(wù)中的性能。
該論文的關(guān)鍵創(chuàng)新點(diǎn)在于使用強(qiáng)化學(xué)習(xí)直接訓(xùn)練大語言模型的推理能力,繞過了監(jiān)督數(shù)據(jù)的需求,同時(shí)成功地將推理能力蒸餾到較小的模型中。
三、摘要
論文摘要:簡(jiǎn)潔地介紹了兩款推理模型:DeepSeek-R1-Zero 和 DeepSeek-R1,它們的主要特點(diǎn)和發(fā)展過程如下:
DeepSeek-R1-Zero:
這是[敏感詞]代推理模型,采用了大規(guī)模的強(qiáng)化學(xué)習(xí)(RL)進(jìn)行訓(xùn)練,而沒有使用監(jiān)督微調(diào)(SFT)作為前期步驟。通過強(qiáng)化學(xué)習(xí),DeepSeek-R1-Zero 自然地展現(xiàn)出了強(qiáng)大的推理能力,能夠完成許多復(fù)雜的推理任務(wù)。但它也存在一些問題,比如可讀性差,且有時(shí)會(huì)出現(xiàn)語言混合的問題。
DeepSeek-R1:
為了解決 DeepSeek-R1-Zero 中的這些問題,作者引入了 DeepSeek-R1,這款模型在強(qiáng)化學(xué)習(xí)之前加入了多階段訓(xùn)練和冷啟動(dòng)數(shù)據(jù)(即使用一些初步的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練),從而提高了推理能力和模型的可讀性。最終,DeepSeek-R1 的推理表現(xiàn)與 OpenAI-o1-1217 相當(dāng)。
開源貢獻(xiàn):為了支持科研社區(qū),作者開源了DeepSeek-R1-Zero、DeepSeek-R1 以及從 DeepSeek-R1 蒸餾出來的六個(gè)較小模型(參數(shù)規(guī)模分別為 1.5B、7B、8B、14B、32B 和 70B),這些模型基于 Qwen 和 Llama。
四:目錄和正文
①Introduction:簡(jiǎn)要說明了近年來大型語言模型(LLMs)的發(fā)展,特別是推理能力的提升。
語言模型的快速發(fā)展:
近年來,大型語言模型(LLMs)在不斷更新迭代,逐漸縮小了與人工通用智能(AGI)的差距。AGI指的是可以像人類一樣處理任何任務(wù)的智能系統(tǒng)。
后期訓(xùn)練(Post-training):
后期訓(xùn)練已成為模型訓(xùn)練流程中的一個(gè)重要環(huán)節(jié)。它能夠提升模型在推理任務(wù)上的準(zhǔn)確性,同時(shí)與社會(huì)價(jià)值對(duì)齊,適應(yīng)用戶的需求,而且相對(duì)于前期訓(xùn)練所需的計(jì)算資源要少得多。
推理能力的挑戰(zhàn):
OpenAI的模型通過增加“思維鏈”(Chain-of-Thought, CoT)的長(zhǎng)度,在推理任務(wù)中取得了顯著的進(jìn)展。這種方法幫助模型在數(shù)學(xué)、編程和科學(xué)推理等領(lǐng)域取得了顯著成效。但如何在測(cè)試時(shí)擴(kuò)展推理能力仍然是一個(gè)開放的問題。
提出的創(chuàng)新方法:
該論文提出了一種通過強(qiáng)化學(xué)習(xí)(RL)直接提升語言模型推理能力的方法,不依賴于任何監(jiān)督數(shù)據(jù)(即不使用標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練)。他們使用一個(gè)名為DeepSeek-V3-Base的基礎(chǔ)模型,并用GRPO(一種強(qiáng)化學(xué)習(xí)算法)框架來提升推理表現(xiàn)。
在訓(xùn)練過程中,DeepSeek-R1-Zero(該模型的[敏感詞]個(gè)版本)表現(xiàn)出強(qiáng)大的推理行為,經(jīng)過數(shù)千次的強(qiáng)化學(xué)習(xí)訓(xùn)練,它在推理任務(wù)上的表現(xiàn)顯著提升。例如,在AIME 2024基準(zhǔn)測(cè)試中的得分從最初的15.6%提升到71.0%,通過多數(shù)投票后,得分進(jìn)一步提升至86.7%,達(dá)到了與OpenAI的模型o1-0912相當(dāng)?shù)乃健?/span>
遇到的挑戰(zhàn)和優(yōu)化:
盡管DeepSeek-R1-Zero表現(xiàn)優(yōu)秀,但它的可讀性較差,且有時(shí)會(huì)出現(xiàn)語言混合的問題。為了改善這些問題,論文作者引入了DeepSeek-R1模型,采用了多階段訓(xùn)練和冷啟動(dòng)數(shù)據(jù)(即使用一些初步數(shù)據(jù)進(jìn)行訓(xùn)練)來進(jìn)一步提高推理能力。
訓(xùn)練過程中,首先使用冷啟動(dòng)數(shù)據(jù)對(duì)基礎(chǔ)模型進(jìn)行微調(diào),然后進(jìn)行推理導(dǎo)向的強(qiáng)化學(xué)習(xí)(與DeepSeek-R1-Zero類似)。接著,創(chuàng)建新的數(shù)據(jù)集來進(jìn)行監(jiān)督微調(diào),并將其用于訓(xùn)練模型,最后再進(jìn)行一次強(qiáng)化學(xué)習(xí)訓(xùn)練,從而得到DeepSeek-R1,其推理能力與OpenAI的模型相當(dāng)。
蒸餾技術(shù)的探索:
論文還探討了從DeepSeek-R1蒸餾(提?。┩评砟芰Φ礁〉哪P汀Mㄟ^直接蒸餾,使用較小的基礎(chǔ)模型(例如Qwen2.5-32B)獲得的效果比直接應(yīng)用強(qiáng)化學(xué)習(xí)更好。
通過這種蒸餾方法,作者成功提升了較小模型(如14B和32B)的推理能力,并在推理基準(zhǔn)測(cè)試中創(chuàng)下了新紀(jì)錄。
Contributions:總結(jié)了模型在各類任務(wù)中的評(píng)估結(jié)果。以下是對(duì)該部分的解讀:
后期訓(xùn)練與強(qiáng)化學(xué)習(xí)(RL)應(yīng)用:
論文的一個(gè)關(guān)鍵創(chuàng)新是,DeepSeek-R1 通過直接應(yīng)用強(qiáng)化學(xué)習(xí)(RL)在基礎(chǔ)模型上進(jìn)行訓(xùn)練,而不依賴傳統(tǒng)的監(jiān)督微調(diào)(SFT)。這種方法允許模型通過“思維鏈”(Chain-of-Thought, CoT)來解決復(fù)雜問題,推動(dòng)了 DeepSeek-R1-Zero 的發(fā)展。
DeepSeek-R1-Zero 展現(xiàn)了自我驗(yàn)證、反思能力和生成長(zhǎng)思維鏈的能力,這標(biāo)志著在推理任務(wù)中的一個(gè)重要進(jìn)步。
這是首次通過純粹的RL方法提升大語言模型的推理能力,而不需要監(jiān)督微調(diào)(SFT),為未來的研究開辟了新方向。
DeepSeek-R1模型的改進(jìn):
DeepSeek-R1 在 DeepSeek-R1-Zero 的基礎(chǔ)上進(jìn)行了進(jìn)一步改進(jìn),引入了多階段訓(xùn)練和冷啟動(dòng)數(shù)據(jù),優(yōu)化了模型的推理能力,并且增加了與人類偏好對(duì)齊的強(qiáng)化學(xué)習(xí)階段,同時(shí)繼續(xù)使用 SFT 階段來優(yōu)化模型的推理和非推理能力。
這個(gè)改進(jìn)的流程能夠?yàn)闃I(yè)界帶來更好的推理能力,提升模型的普適性和效果。
蒸餾技術(shù)的應(yīng)用:
論文還展示了如何將較大模型的推理模式蒸餾到更小的模型中,并證明蒸餾出的較小模型在推理任務(wù)中比直接通過RL訓(xùn)練的小模型表現(xiàn)更好。
使用 DeepSeek-R1 生成的推理數(shù)據(jù),作者對(duì)多個(gè)常用的稠密模型進(jìn)行了微調(diào),結(jié)果顯示這些蒸餾后的模型在基準(zhǔn)測(cè)試中表現(xiàn)異常優(yōu)秀,超過了之前一些開放源代碼模型的表現(xiàn)。
比如,DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 基準(zhǔn)測(cè)試中達(dá)到了 55.5% 的 Pass@1,超越了 QwQ-32B-Preview。另外,DeepSeek-R1-Distill-Qwen-32B 在多個(gè)測(cè)試中也有很好的表現(xiàn),分別在 AIME 2024 和 MATH-500 上取得了 72.6% 和 94.3%的成績(jī)。
推理任務(wù):
DeepSeek-R1 在 AIME 2024 上取得了 79.8% 的 Pass@1,略微超過了 OpenAI 的 o1-1217。在 MATH-500 上,表現(xiàn)十分出色,達(dá)到了 97.3%,與 OpenAI 的 o1-1217 相當(dāng)。
在編程相關(guān)任務(wù)上,DeepSeek-R1 的表現(xiàn)堪稱專家級(jí),在 Codeforces 上達(dá)到了 2029 的 Elo 評(píng)分,超越了 96.3%的參賽者。
知識(shí)處理能力:
在多個(gè)知識(shí)類基準(zhǔn)測(cè)試(如 MMLU、MMLU-Pro 和 GPQA Diamond)中,DeepSeek-R1 的表現(xiàn)超過了 DeepSeek-V3,在 MMLU 上得分為 90.8%,在 GPQA Diamond 上為 71.5%。雖然在這些基準(zhǔn)測(cè)試上稍微遜色于 OpenAI-o1-1217,但 DeepSeek-R1 的表現(xiàn)仍然優(yōu)于其他閉源模型,顯示出它在教育任務(wù)上的競(jìng)爭(zhēng)力。
在事實(shí)性問題的基準(zhǔn)測(cè)試 SimpleQA 上,DeepSeek-R1 超越了 DeepSeek-V3,展現(xiàn)了其處理事實(shí)性問題的能力。
其他任務(wù):
DeepSeek-R1 在創(chuàng)意寫作、問答、編輯、總結(jié)等任務(wù)中也表現(xiàn)出色,特別是在非考試類任務(wù)上,展示了其強(qiáng)大的處理能力。比如,在 AlpacaEval 2.0 上,它以 87.6%的長(zhǎng)度控制勝率表現(xiàn)出色,在 ArenaHard 上的勝率為 92.3%。
另外,DeepSeek-R1 在需要長(zhǎng)上下文理解的任務(wù)中,顯著超越了 DeepSeek-V3,表現(xiàn)出了它在處理長(zhǎng)文本方面的優(yōu)勢(shì)。小結(jié)
DeepSeek-R1 模型通過引入強(qiáng)化學(xué)習(xí)(RL)和蒸餾技術(shù),顯著提升了推理能力,并且在多個(gè)任務(wù)中超過了之前的模型,尤其是在數(shù)學(xué)、編程和知識(shí)處理等領(lǐng)域。
論文中展示的多階段訓(xùn)練方法和冷啟動(dòng)數(shù)據(jù)的結(jié)合,以及推理能力的蒸餾方法,為未來語言模型的發(fā)展提供了新的思路和技術(shù)路徑。
②Approach:詳細(xì)闡述了 DeepSeek-R1 和 DeepSeek-R1-Zero 的訓(xùn)練方法和過程,尤其是通過強(qiáng)化學(xué)習(xí)(RL)提升推理能力的具體步驟。以下是該部分的解讀:
過去的工作通常依賴大量的監(jiān)督數(shù)據(jù)來提升模型性能,而本文展示了即使沒有監(jiān)督微調(diào)(SFT)數(shù)據(jù),通過大規(guī)模的強(qiáng)化學(xué)習(xí)(RL)也能顯著提升推理能力。
通過這種方法,模型能夠自我演化,并通過強(qiáng)化學(xué)習(xí)學(xué)習(xí)到推理模式。具體來說,本文介紹了以下三個(gè)關(guān)鍵步驟:
DeepSeek-R1-Zero:直接對(duì)基礎(chǔ)模型應(yīng)用強(qiáng)化學(xué)習(xí)(RL),而不使用任何監(jiān)督微調(diào)數(shù)據(jù)。
DeepSeek-R1:在經(jīng)過長(zhǎng)鏈思維(Chain-of-Thought,CoT)示例微調(diào)的檢查點(diǎn)基礎(chǔ)上應(yīng)用RL。
蒸餾:將 DeepSeek-R1 的推理能力蒸餾到較小的稠密模型中。
為了節(jié)省訓(xùn)練成本,作者采用了 Group Relative Policy Optimization (GRPO) 算法。這種算法避免了使用與策略模型大小相同的評(píng)論模型(critic model),而是通過對(duì)一組輸出結(jié)果進(jìn)行評(píng)分來估計(jì)基線。
具體來說,GRPO 對(duì)每個(gè)問題通過從舊的策略模型中抽取一組輸出進(jìn)行優(yōu)化,并通過[敏感詞]化預(yù)設(shè)目標(biāo)來優(yōu)化策略模型。
獎(jiǎng)勵(lì)系統(tǒng) 是強(qiáng)化學(xué)習(xí)中的核心,決定了優(yōu)化方向。為了訓(xùn)練 DeepSeek-R1-Zero,作者設(shè)計(jì)了兩種獎(jiǎng)勵(lì):
準(zhǔn)確度獎(jiǎng)勵(lì)(Accuracy rewards):評(píng)估模型的回答是否正確。例如,對(duì)于數(shù)學(xué)題,模型必須以特定格式給出最終答案,以便通過規(guī)則驗(yàn)證其正確性。
格式獎(jiǎng)勵(lì)(Format rewards):強(qiáng)制模型將其思維過程置于 <think>
和 </think>
標(biāo)簽之間,這有助于結(jié)構(gòu)化推理過程并保持格式一致性。
作者沒有使用基于神經(jīng)網(wǎng)絡(luò)的獎(jiǎng)勵(lì)模型,因?yàn)檫@可能導(dǎo)致獎(jiǎng)勵(lì)作弊(reward hacking),而且重新訓(xùn)練獎(jiǎng)勵(lì)模型會(huì)消耗大量計(jì)算資源。
在訓(xùn)練 DeepSeek-R1-Zero 時(shí),作者設(shè)計(jì)了一個(gè)簡(jiǎn)單的模板,要求模型首先生成思維過程,然后給出最終答案。這個(gè)模板避免了內(nèi)容特定的偏見,如強(qiáng)制要求反思性推理或采用特定的解題策略,目的是準(zhǔn)確地觀察模型在強(qiáng)化學(xué)習(xí)過程中的自然進(jìn)展。
DeepSeek-R1-Zero 在 AIME 2024 基準(zhǔn)測(cè)試中的表現(xiàn)逐步提升,Pass@1 分?jǐn)?shù)從 15.6% 提升到 71.0%,并最終通過多數(shù)投票進(jìn)一步提高到 86.7%,超越了 OpenAI-o1-0912 的表現(xiàn)。
DeepSeek-R1-Zero 展示了在沒有監(jiān)督微調(diào)數(shù)據(jù)的情況下,通過強(qiáng)化學(xué)習(xí)(RL)獲得強(qiáng)大推理能力的能力,這證明了其自我學(xué)習(xí)和推廣的潛力。
強(qiáng)化學(xué)習(xí)通過增強(qiáng) DeepSeek-R1-Zero 的推理能力,使其能夠有效解決各種復(fù)雜問題。此外,通過使用多數(shù)投票,模型的推理結(jié)果變得更加可靠,進(jìn)一步提高了其性能。
這一部分展示了 DeepSeek-R1-Zero 如何通過強(qiáng)化學(xué)習(xí)(RL)自主提高其推理能力,而無需監(jiān)督微調(diào)(SFT)。
由于強(qiáng)化學(xué)習(xí)直接從基礎(chǔ)模型開始,我們可以清晰地觀察模型在訓(xùn)練過程中的變化,特別是在處理復(fù)雜推理任務(wù)方面的進(jìn)展。
模型思考時(shí)間的增加:
隨著訓(xùn)練的進(jìn)行,DeepSeek-R1-Zero 在回答問題時(shí)的推理時(shí)間(即生成的推理步驟長(zhǎng)度)逐步增加。
這表明模型在處理推理任務(wù)時(shí),會(huì)主動(dòng)延長(zhǎng)思考時(shí)間,以解決更復(fù)雜的問題。
這種增長(zhǎng)并不是通過人為調(diào)整參數(shù)實(shí)現(xiàn)的,而是模型在強(qiáng)化學(xué)習(xí)環(huán)境中自主發(fā)展的能力。
自發(fā)行為的出現(xiàn):
反思(Reflection):模型會(huì)回顧并重新評(píng)估自己的推理步驟,類似于人類在解題時(shí)發(fā)現(xiàn)錯(cuò)誤后進(jìn)行修正的行為。
探索不同解法:模型會(huì)嘗試多種方法來解決同一個(gè)問題,而不是只遵循固定的套路。
這些行為并不是人為編碼的規(guī)則,而是模型在強(qiáng)化學(xué)習(xí)過程中自發(fā)涌現(xiàn)的能力,這也是強(qiáng)化學(xué)習(xí)的強(qiáng)大之處。
論文提到了訓(xùn)練過程中出現(xiàn)的一個(gè)有趣現(xiàn)象,被稱為 "Aha Moment"(頓悟時(shí)刻)。
在某個(gè)訓(xùn)練階段,DeepSeek-R1-Zero 突然學(xué)會(huì)了重新審視自己的解題過程,并在必要時(shí)調(diào)整思維策略。
這一行為類似于人類在解題時(shí),突然意識(shí)到之前的思路可能有問題,從而停下來重新思考。
這種行為表明,強(qiáng)化學(xué)習(xí)不僅可以提高模型的推理能力,還可以讓模型在沒有明確指導(dǎo)的情況下,自主發(fā)展出更高級(jí)的解題策略。
這種能力不是通過硬編碼規(guī)則實(shí)現(xiàn)的,而是模型在強(qiáng)化學(xué)習(xí)環(huán)境中通過試錯(cuò)學(xué)習(xí)到的,這說明強(qiáng)化學(xué)習(xí)有助于推動(dòng)人工智能向更高級(jí)的智能水平發(fā)展。
研究人員在觀察到這個(gè)現(xiàn)象時(shí),也感到驚喜,因?yàn)檫@表明強(qiáng)化學(xué)習(xí)能夠引導(dǎo) AI 發(fā)展出意想不到的智能行為。
盡管 DeepSeek-R1-Zero 展示了強(qiáng)大的推理能力,并能夠自主發(fā)展復(fù)雜的思維模式,但它仍然存在一些問題:
可讀性差:
由于模型主要關(guān)注推理能力,而不是語言表達(dá),最終生成的推理過程可能不夠清晰,難以閱讀和理解。
語言混合:
由于訓(xùn)練過程中涉及多種語言,DeepSeek-R1-Zero 可能會(huì)在推理過程中混合使用不同的語言,使得輸出內(nèi)容難以解析。
為了解決 DeepSeek-R1-Zero 在可讀性和語言混合方面的問題,研究團(tuán)隊(duì)開發(fā)了 DeepSeek-R1。
DeepSeek-R1 結(jié)合了強(qiáng)化學(xué)習(xí)和人類友好的冷啟動(dòng)數(shù)據(jù)(cold-start data),使得推理過程更加清晰,輸出更易閱讀,同時(shí)減少語言混合的問題。
DeepSeek-R1-Zero 通過強(qiáng)化學(xué)習(xí)自主提升推理能力,能夠在沒有監(jiān)督數(shù)據(jù)的情況下發(fā)展出復(fù)雜的推理策略,如反思和多種解題方法。
“頓悟時(shí)刻” 證明了 AI 在強(qiáng)化學(xué)習(xí)的引導(dǎo)下可以產(chǎn)生自發(fā)的智能行為,進(jìn)一步提升了 AI 在推理任務(wù)中的表現(xiàn)。
DeepSeek-R1-Zero 的局限性:可讀性較差,且在推理過程中可能會(huì)混用多種語言,影響理解。
解決方案:DeepSeek-R1 采用更友好的冷啟動(dòng)數(shù)據(jù),以提高可讀性并減少語言混合問題。
這部分內(nèi)容突出了強(qiáng)化學(xué)習(xí)的潛力,以及 AI 在無監(jiān)督環(huán)境下如何通過試錯(cuò)進(jìn)化出更強(qiáng)的推理能力,同時(shí)也展現(xiàn)了強(qiáng)化學(xué)習(xí)在 AI 研究中的突破性貢獻(xiàn)。
這部分內(nèi)容詳細(xì)介紹了 DeepSeek-R1 模型的訓(xùn)練方法,特別是通過冷啟動(dòng)數(shù)據(jù)(cold start)和強(qiáng)化學(xué)習(xí)(RL)來提升推理能力的過程。以下是該部分的詳細(xì)解讀:
在 DeepSeek-R1-Zero 的基礎(chǔ)上,研究者提出了通過引入冷啟動(dòng)數(shù)據(jù)來加速推理性能的提升。兩大關(guān)鍵問題是:
如何通過引入少量高質(zhì)量數(shù)據(jù)來加速推理性能的提高或訓(xùn)練收斂的速度?
如何訓(xùn)練一個(gè)既能清晰表達(dá)推理過程(CoT),又具備強(qiáng)大通用能力的用戶友好模型?
為了回答這些問題,作者設(shè)計(jì)了一個(gè)包含四個(gè)階段的訓(xùn)練流程,用于訓(xùn)練 DeepSeek-R1。
在 DeepSeek-R1 的訓(xùn)練中,冷啟動(dòng)數(shù)據(jù)的引入起到了關(guān)鍵作用,尤其是在 DeepSeek-R1-Zero 的早期不穩(wěn)定訓(xùn)練階段。研究者收集了一些長(zhǎng)鏈思維(CoT)數(shù)據(jù),并用這些數(shù)據(jù)對(duì)基礎(chǔ)模型進(jìn)行微調(diào),作為強(qiáng)化學(xué)習(xí)的初始步驟。
冷啟動(dòng)數(shù)據(jù)的收集方式:
使用少量示例提示(few-shot prompting)生成長(zhǎng)鏈思維。
直接提示模型生成詳細(xì)的答案,并加入反思和驗(yàn)證步驟。
從 DeepSeek-R1-Zero 的輸出中收集數(shù)據(jù),并通過人工后處理優(yōu)化結(jié)果。
冷啟動(dòng)數(shù)據(jù)的優(yōu)勢(shì):
可讀性:相比 DeepSeek-R1-Zero 生成的難以閱讀的推理過程,DeepSeek-R1 在生成冷啟動(dòng)數(shù)據(jù)時(shí),設(shè)計(jì)了更易讀的格式,每個(gè)回答結(jié)尾都有一個(gè)總結(jié)部分,并過濾掉不易閱讀的內(nèi)容。
潛力:通過精心設(shè)計(jì)冷啟動(dòng)數(shù)據(jù)模式,DeepSeek-R1 在性能上優(yōu)于 DeepSeek-R1-Zero,證明了這種迭代訓(xùn)練方法的有效性。
在對(duì)基礎(chǔ)模型進(jìn)行冷啟動(dòng)微調(diào)后,作者使用與 DeepSeek-R1-Zero 相同的大規(guī)模強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練方法,進(jìn)一步提升推理能力,尤其在數(shù)學(xué)、編程、科學(xué)和邏輯推理等任務(wù)上。
語言混合問題:在強(qiáng)化學(xué)習(xí)訓(xùn)練過程中,常常出現(xiàn)語言混合的問題,尤其是在多語言提示的情況下。為了解決這個(gè)問題,研究者引入了語言一致性獎(jiǎng)勵(lì),即在推理過程中鼓勵(lì)模型保持目標(biāo)語言的一致性。
獎(jiǎng)勵(lì)機(jī)制:通過結(jié)合推理任務(wù)的準(zhǔn)確度獎(jiǎng)勵(lì)和語言一致性獎(jiǎng)勵(lì),模型不斷優(yōu)化,最終達(dá)到了在推理任務(wù)上的收斂。
拒絕采樣(Rejection Sampling):當(dāng)推理導(dǎo)向的強(qiáng)化學(xué)習(xí)訓(xùn)練收斂后,研究者使用該檢查點(diǎn)收集監(jiān)督微調(diào)(SFT)數(shù)據(jù),進(jìn)一步改進(jìn)模型的表現(xiàn)。
推理數(shù)據(jù):通過拒絕采樣從 RL 訓(xùn)練的檢查點(diǎn)生成推理數(shù)據(jù),并對(duì)生成的數(shù)據(jù)進(jìn)行人工篩選,確保數(shù)據(jù)的高質(zhì)量。
非推理數(shù)據(jù):包括寫作、事實(shí)性問答、自我認(rèn)知和翻譯等任務(wù),結(jié)合 DeepSeek-V3 的數(shù)據(jù)進(jìn)行微調(diào)。
為了進(jìn)一步提高模型對(duì)人類偏好的適應(yīng)性,作者實(shí)施了第二階段的強(qiáng)化學(xué)習(xí),旨在優(yōu)化模型的有用性和無害性,同時(shí)繼續(xù)完善推理能力。
有用性:重點(diǎn)確保模型的回答對(duì)用戶有實(shí)際幫助,評(píng)估時(shí)僅關(guān)注最終總結(jié)部分。
無害性:評(píng)估整個(gè)回答的內(nèi)容,識(shí)別并消除潛在的偏見或有害內(nèi)容。
為了讓更小的模型具備推理能力,作者采用了蒸餾方法,將 DeepSeek-R1 的推理能力傳遞給更小的模型。
研究者將 DeepSeek-R1 用來微調(diào)開源的模型如 Qwen 和 Llama,并使用約 80 萬個(gè)訓(xùn)練樣本進(jìn)行蒸餾。實(shí)驗(yàn)表明,這種蒸餾方法顯著提升了小模型的推理能力。
通過簡(jiǎn)單的蒸餾方法,小模型如 Qwen 和 Llama 的推理能力得到了極大的增強(qiáng)。雖然作者并未在蒸餾后的模型中使用強(qiáng)化學(xué)習(xí)(RL),但他們認(rèn)為這項(xiàng)工作展示了蒸餾技術(shù)的有效性,并為未來的強(qiáng)化學(xué)習(xí)探索留給了廣泛的研究社區(qū)。
小結(jié)。這部分介紹了 DeepSeek-R1 的訓(xùn)練流程,強(qiáng)調(diào)了通過引入冷啟動(dòng)數(shù)據(jù)和強(qiáng)化學(xué)習(xí)(RL)來提升推理能力的重要性。通過設(shè)計(jì)冷啟動(dòng)數(shù)據(jù),解決了 DeepSeek-R1-Zero 中的可讀性問題,并通過強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化模型的推理能力和語言一致性。此外,作者還展示了將 DeepSeek-R1 的推理能力蒸餾到更小模型中的有效性,這一過程證明了蒸餾技術(shù)在提升推理能力方面的巨大潛力。
③Experiment:詳細(xì)介紹了 DeepSeek-R1 和蒸餾后的模型在多個(gè)基準(zhǔn)測(cè)試上的評(píng)估方法和實(shí)驗(yàn)設(shè)置。
評(píng)估任務(wù):作者在多個(gè)標(biāo)準(zhǔn)基準(zhǔn)測(cè)試上評(píng)估了模型的表現(xiàn),涵蓋了不同領(lǐng)域的任務(wù),包括推理、編程、數(shù)學(xué)、問答等。具體的測(cè)試基準(zhǔn)包括:
MMLU、MMLU-Redux、MMLU-Pro、C-Eval、CMMLU、SimpleQA、AIME 2024、Codeforces 等。
開放式生成任務(wù):如 AlpacaEval 2.0 和 Arena-Hard,這些任務(wù)使用 GPT-4-Turbo-1106 作為評(píng)估判定者,進(jìn)行對(duì)比分析。
數(shù)據(jù)集:對(duì)于代碼和數(shù)學(xué)相關(guān)的基準(zhǔn)測(cè)試,使用了 HumanEval-Mul 數(shù)據(jù)集,涵蓋了包括 Python、Java、C++、JavaScript 等在內(nèi)的八種主流編程語言。
評(píng)價(jià)方法:實(shí)驗(yàn)中對(duì)不同模型進(jìn)行了廣泛的評(píng)估,主要包括推理任務(wù)(如數(shù)學(xué)、編程和科學(xué)推理)以及開放生成任務(wù)。蒸餾模型的表現(xiàn)也在 AIME 2024、MATH-500、Codeforces 等基準(zhǔn)上進(jìn)行了測(cè)試。
標(biāo)準(zhǔn)基準(zhǔn)測(cè)試的評(píng)估設(shè)置:使用了 DeepSeek-V3 中的提示,并結(jié)合 simpleevals 框架進(jìn)行標(biāo)準(zhǔn)基準(zhǔn)測(cè)試的評(píng)估。針對(duì)一些特殊的基準(zhǔn)(如 MMLU-Redux 和 MMLU-Pr),作者修改了原始的提示格式,使用零樣本(zero-shot)設(shè)置進(jìn)行評(píng)估。
推理任務(wù)的評(píng)估:對(duì)于推理任務(wù)(如數(shù)學(xué)、編程等),評(píng)估使用了基于 Chain-of-Thought(CoT)格式的提示。不同任務(wù)根據(jù)其特點(diǎn)調(diào)整了提示格式,以確保能夠準(zhǔn)確評(píng)估模型的推理能力。
生成長(zhǎng)度限制:設(shè)置了[敏感詞]生成長(zhǎng)度為 32,768 個(gè)標(biāo)記(tokens),確保模型在生成長(zhǎng)文本時(shí)不會(huì)被截?cái)唷?/span>
解碼方法:為了避免使用貪婪解碼(greedy decoding)導(dǎo)致的高重復(fù)率和不同檢查點(diǎn)之間的顯著變化,實(shí)驗(yàn)中采用了 pass@k 評(píng)估方法。具體來說,使用了非零溫度(temperature = 0.6)和top-p 采樣(top-p = 0.95)來生成多個(gè)(通常是 4 到 64 個(gè))響應(yīng),并計(jì)算 pass@1 的得分。
結(jié)果評(píng)估:
Pass@k:對(duì)于每個(gè)問題,生成多個(gè)響應(yīng),計(jì)算其中正確響應(yīng)的比例(pass@1),這種方法可以提供更可靠的性能估計(jì)。
共識(shí)投票(Consensus Voting):對(duì)于 AIME 2024 基準(zhǔn)測(cè)試,使用 64 個(gè)樣本進(jìn)行多數(shù)投票(cons@64)計(jì)算,從而提高評(píng)估的穩(wěn)定性和可靠性。
基準(zhǔn)比較:作者與多個(gè)強(qiáng)基準(zhǔn)模型進(jìn)行了比較,包括 DeepSeek-V3、Claude-Sonnet-3.5、GT-40-0513、OpenAI-o1-mini、OpenAI-o1-1217 等,展示了 DeepSeek-R1 和蒸餾模型的表現(xiàn)。
蒸餾模型的表現(xiàn):對(duì)于蒸餾模型(如 Qwen 和 Llama),在 AIME 2024、MATH-500、Codeforces 等基準(zhǔn)上報(bào)告了代表性的結(jié)果。
Pass@1 和共識(shí)投票:通過使用 pass@1 和 cons@64 評(píng)估方法,模型在多個(gè)推理任務(wù)中的表現(xiàn)得到了更加穩(wěn)定和可靠的評(píng)估。
基準(zhǔn)測(cè)試的綜合評(píng)估:通過多種標(biāo)準(zhǔn)的推理基準(zhǔn)測(cè)試,證明了 DeepSeek-R1 及其蒸餾模型在推理任務(wù)中的強(qiáng)大能力,特別是在數(shù)學(xué)、編程、邏輯推理等任務(wù)上表現(xiàn)突出。
這部分內(nèi)容展示了 DeepSeek-R1 模型在多個(gè)基準(zhǔn)測(cè)試中的評(píng)估結(jié)果,并與其他代表性模型進(jìn)行了比較。以下是詳細(xì)解讀:
DeepSeek-R1 在與 DeepSeek-V3 的比較中,顯示出顯著的性能提升,尤其是在 STEM(科學(xué)、技術(shù)、工程和數(shù)學(xué)) 相關(guān)問題上。通過大規(guī)模強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練,模型在這些領(lǐng)域取得了顯著的準(zhǔn)確性提高。
FRAMES 基準(zhǔn):這是一個(gè)長(zhǎng)上下文依賴的問答任務(wù),DeepSeek-R1 在此任務(wù)中表現(xiàn)出色,展示了其強(qiáng)大的文檔分析能力,表明推理模型在 AI 驅(qū)動(dòng)的搜索和數(shù)據(jù)分析任務(wù)中具有潛力。
在 SimpleQA 這一基準(zhǔn)測(cè)試上,DeepSeek-R1 超過了 DeepSeek-V3,證明了其在處理事實(shí)性查詢方面的能力。類似地,OpenAI的 o1 系列模型在這一基準(zhǔn)測(cè)試上也優(yōu)于 GPT-4o。
然而,DeepSeek-R1 在中文版本的 SimpleQA 測(cè)試中表現(xiàn)不佳,原因是它在安全強(qiáng)化學(xué)習(xí)(RL)后傾向于拒絕回答某些查詢。沒有應(yīng)用安全 RL 時(shí),DeepSeek-R1 的準(zhǔn)確率可以超過 70%。
IF-Eval 基準(zhǔn)測(cè)試衡量了模型執(zhí)行格式指令的能力,DeepSeek-R1 在此基準(zhǔn)上表現(xiàn)優(yōu)秀。其提升與最終階段的監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)數(shù)據(jù)的加入密切相關(guān)。
在 AlpacaEval 2.0 和 ArenaHard 等開放領(lǐng)域問題回答任務(wù)中,DeepSeek-R1 同樣展現(xiàn)了強(qiáng)大的寫作能力和開放領(lǐng)域問答能力,遠(yuǎn)超 DeepSeek-V3,并且其生成的總結(jié)文本避免了長(zhǎng)度偏差,生成的平均長(zhǎng)度為 689 tokens(ArenaHard)和 2,218 characters(AlpacaEval 2.0)。
在數(shù)學(xué)任務(wù)中,DeepSeek-R1 的表現(xiàn)與 OpenAI-o1-1217 相當(dāng),顯著超過了其他模型。
在編程算法任務(wù)上(如 LiveCodeBench 和 Codeforces),推理導(dǎo)向的模型(如 DeepSeek-R1)主導(dǎo)了這些基準(zhǔn)測(cè)試,證明了推理能力對(duì)編程任務(wù)的有效支持。
在面向工程的編程任務(wù)(如 Aider 和 SWE Verified)中,OpenAI-o1-1217 在 Aider 上表現(xiàn)優(yōu)于 DeepSeek-R1,但在 SWE Verified 上與 DeepSeek-R1 的表現(xiàn)相當(dāng)。隨著更多相關(guān)的強(qiáng)化學(xué)習(xí)訓(xùn)練數(shù)據(jù)的加入,預(yù)計(jì) DeepSeek-R1 在工程任務(wù)中的表現(xiàn)將進(jìn)一步提升。
DeepSeek-R1 蒸餾模型(如 DeepSeek-R1-7B, DeepSeek-R1-14B, DeepSeek-R1-32B, 和 DeepSeek-R1-70B)在推理相關(guān)的基準(zhǔn)測(cè)試中表現(xiàn)突出,超越了非推理導(dǎo)向模型(如 GPT-4-0513)以及其他一些強(qiáng)基準(zhǔn)模型:
DeepSeek-R1-7B 超過了 GPT-4-0513。
DeepSeek-R1-14B 在所有評(píng)估指標(biāo)上超越了 QwQ-32B-Preview。
DeepSeek-R1-32B 和 DeepSeek-R1-70B 在大多數(shù)基準(zhǔn)上顯著超過了 OpenAI-o1-mini。
研究還發(fā)現(xiàn),將強(qiáng)化學(xué)習(xí)(RL)應(yīng)用于蒸餾后的模型,會(huì)帶來顯著的性能提升。盡管目前的實(shí)驗(yàn)只展示了簡(jiǎn)單的 SFT 蒸餾 結(jié)果,作者認(rèn)為這為進(jìn)一步探索 RL 在蒸餾模型中的應(yīng)用提供了一個(gè)重要的研究方向。
DeepSeek-R1 在多個(gè)教育和推理基準(zhǔn)上表現(xiàn)出色,特別是在 STEM 領(lǐng)域、長(zhǎng)文檔分析(FRAMES)和事實(shí)性問答(SimpleQA)方面相較于 DeepSeek-V3 提升顯著。
在數(shù)學(xué)、編程和開放領(lǐng)域問題回答任務(wù)中,DeepSeek-R1 展現(xiàn)了強(qiáng)大的推理能力,特別是在 LiveCodeBench 和 Codeforces 等編程基準(zhǔn)測(cè)試中表現(xiàn)突出。
蒸餾技術(shù)在小模型中表現(xiàn)出色,DeepSeek-R1 的蒸餾模型超越了許多傳統(tǒng)非推理模型,并通過進(jìn)一步結(jié)合強(qiáng)化學(xué)習(xí),進(jìn)一步提升了推理能力。
這表明,通過強(qiáng)化學(xué)習(xí)的應(yīng)用和蒸餾技術(shù),DeepSeek-R1 在多任務(wù)和多個(gè)領(lǐng)域中展示了廣泛的適用性和強(qiáng)大的性能。
④Discussion:討論了 DeepSeek-R1 在開發(fā)過程中遇到的一些挑戰(zhàn)、嘗試的失敗方法以及與蒸餾技術(shù)和強(qiáng)化學(xué)習(xí)(RL)之間的對(duì)比。以下是詳細(xì)解讀:
在 DeepSeek-R1 的開發(fā)過程中,作者探索了兩種主要的提升模型推理能力的方法:蒸餾(Distillation)和 強(qiáng)化學(xué)習(xí)(RL)。
通過對(duì) Qwen-32B-Base 進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練,作者開發(fā)了 DeepSeek-R1-Zero-Qwen-32B,并進(jìn)行了評(píng)估。實(shí)驗(yàn)結(jié)果表明,雖然強(qiáng)化學(xué)習(xí)訓(xùn)練的 DeepSeek-R1-Zero-Qwen-32B 在推理基準(zhǔn)測(cè)試中的表現(xiàn)與 QwQ-32B-Preview 相當(dāng),但通過蒸餾得到的 DeepSeek-R1-Distill-Qwen-32B 在所有基準(zhǔn)測(cè)試中表現(xiàn)更好,遠(yuǎn)超強(qiáng)化學(xué)習(xí)訓(xùn)練得到的版本。
結(jié)論:
蒸餾較強(qiáng)大的模型到較小模型中能夠產(chǎn)生優(yōu)異的結(jié)果,而僅依靠大規(guī)模強(qiáng)化學(xué)習(xí)的小模型需要巨大的計(jì)算資源,并且可能無法達(dá)到蒸餾方法的效果。
盡管蒸餾策略既經(jīng)濟(jì)又有效,但如果要進(jìn)一步推動(dòng)智能水平的發(fā)展,可能還需要更強(qiáng)大的基礎(chǔ)模型和更大規(guī)模的強(qiáng)化學(xué)習(xí)訓(xùn)練。
過程獎(jiǎng)勵(lì)模型(PRM) 是一種引導(dǎo)模型解決推理任務(wù)的合理方法,通過獎(jiǎng)勵(lì)模型來促進(jìn)模型的推理過程。然而,實(shí)踐中存在一些主要限制:
步驟定義困難:很難為一般推理任務(wù)明確地定義每個(gè)小步驟。
正確性判定困難:判斷當(dāng)前步驟是否正確是一項(xiàng)具有挑戰(zhàn)性的任務(wù),尤其是自動(dòng)注釋可能無法得到令人滿意的結(jié)果,而人工標(biāo)注又難以擴(kuò)展。
獎(jiǎng)勵(lì)作弊問題:引入基于模型的獎(jiǎng)勵(lì)模型不可避免地會(huì)導(dǎo)致“獎(jiǎng)勵(lì)作弊”(reward hacking),即模型會(huì)利用獎(jiǎng)勵(lì)機(jī)制本身的漏洞來優(yōu)化結(jié)果,而這需要額外的訓(xùn)練資源,并且會(huì)使訓(xùn)練流程更加復(fù)雜。
結(jié)論:盡管PRM可以幫助重新排序模型生成的前N個(gè)響應(yīng),或輔助引導(dǎo)搜索,但與在大規(guī)模強(qiáng)化學(xué)習(xí)過程中引入的額外計(jì)算開銷相比,其優(yōu)勢(shì)是有限的。
蒙特卡洛樹搜索(MCTS) 是受 AlphaGo 和 AlphaZero 啟發(fā)的方法,目的是通過系統(tǒng)地探索解空間來提升推理能力。
挑戰(zhàn):
與棋類游戲不同,MCTS 在文本生成中的搜索空間大得多,因此在擴(kuò)展每個(gè)節(jié)點(diǎn)時(shí)會(huì)遇到困難,容易導(dǎo)致模型陷入局部最優(yōu)解。
價(jià)值模型的訓(xùn)練難度:在 AlphaGo 中,通過訓(xùn)練價(jià)值模型不斷提升模型性能,但在 MCTS 的文本生成任務(wù)中,訓(xùn)練一個(gè)細(xì)粒度的價(jià)值模型非常困難,這使得模型難以迭代提升性能。
訓(xùn)練過程:通過引導(dǎo)模型生成多個(gè)標(biāo)簽來對(duì)應(yīng)每個(gè)推理步驟,使用收集的提示進(jìn)行 MCTS 搜索,然后通過生成的問答對(duì)訓(xùn)練模型。
結(jié)論:
MCTS 可以在推理時(shí)提升性能,尤其是在與預(yù)訓(xùn)練的價(jià)值模型配對(duì)時(shí)。然而,要通過自我搜索不斷提升模型性能仍然是一個(gè)巨大的挑戰(zhàn),尤其是在文本生成任務(wù)中的復(fù)雜性更高。小結(jié)如下:
蒸餾 vs 強(qiáng)化學(xué)習(xí):雖然 蒸餾 在將強(qiáng)大模型的推理能力傳遞到較小模型中表現(xiàn)非常好,但大規(guī)模強(qiáng)化學(xué)習(xí)仍然需要大量計(jì)算資源,且不一定能達(dá)到蒸餾的效果。為了進(jìn)一步推動(dòng)智能的發(fā)展,可能還需要更強(qiáng)的基礎(chǔ)模型和更大規(guī)模的強(qiáng)化學(xué)習(xí)。
失敗的嘗試:
過程獎(jiǎng)勵(lì)模型(PRM) 在實(shí)際應(yīng)用中面臨定義困難、正確性判斷問題以及獎(jiǎng)勵(lì)作弊等問題,導(dǎo)致其在大規(guī)模強(qiáng)化學(xué)習(xí)中表現(xiàn)不佳。
蒙特卡洛樹搜索(MCTS) 盡管在理論上有提升潛力,但在文本生成任務(wù)中,由于生成空間龐大、價(jià)值模型訓(xùn)練困難,最終在模型性能提升上仍面臨挑戰(zhàn)。
本研究展示了通過強(qiáng)化學(xué)習(xí)(RL)增強(qiáng)大語言模型推理能力的過程:
DeepSeek-R1-Zero:這是一種純粹的 RL 方法,無需冷啟動(dòng)數(shù)據(jù),能夠在多個(gè)任務(wù)上實(shí)現(xiàn)強(qiáng)大的性能。
DeepSeek-R1:相比于 DeepSeek-R1-Zero,DeepSeek-R1 在利用冷啟動(dòng)數(shù)據(jù)和迭代的 RL 微調(diào)后,表現(xiàn)更為強(qiáng)大,最終在多個(gè)任務(wù)上達(dá)到了與 OpenAI-o1-1217 相當(dāng)?shù)男阅芩健?/span>
此外,論文還探索了將推理能力蒸餾到小型稠密模型中:
DeepSeek-R1 作為教師模型生成了 80 萬個(gè)訓(xùn)練樣本,并對(duì)多個(gè)小型稠密模型進(jìn)行了微調(diào),結(jié)果非常有希望:例如 DeepSeek-R1-Distill-Qwen-1.5B 在數(shù)學(xué)基準(zhǔn)測(cè)試上超越了 GPT-4o 和 Claude-3.5-Sonnet,在 AIME 上達(dá)到了 28.9%,在 MATH 上達(dá)到了 83.9% 的成績(jī)。
這些結(jié)果表明,蒸餾技術(shù)在小模型中取得了顯著的推理能力提升。
盡管 DeepSeek-R1 取得了令人印象深刻的進(jìn)展,但仍存在一些局限性:
通用能力不足:目前 DeepSeek-R1 在某些任務(wù)上(如函數(shù)調(diào)用、多輪復(fù)雜角色扮演和 JSON 輸出等)能力仍不及 DeepSeek-V3。未來計(jì)劃通過使用長(zhǎng)鏈思維(CoT)來提升這些領(lǐng)域的任務(wù)表現(xiàn)。
語言混合問題:DeepSeek-R1 目前對(duì)中文和英文進(jìn)行了優(yōu)化,但在處理其他語言的查詢時(shí)可能會(huì)出現(xiàn)語言混合的問題。例如,在處理非英語或中文的查詢時(shí),推理和回應(yīng)可能會(huì)不自覺地使用英語。未來將致力于解決這一問題。
提示工程問題:在評(píng)估 DeepSeek-R1 時(shí),發(fā)現(xiàn)模型對(duì)提示非常敏感。特別是在使用少量樣本提示(few-shot prompting)時(shí),性能會(huì)顯著下降。因此,建議用戶使用零樣本設(shè)置(zero-shot setting),直接描述問題并明確指定輸出格式,以獲得[敏感詞]效果。
軟件工程任務(wù):由于 RL 訓(xùn)練過程中的長(zhǎng)時(shí)間評(píng)估影響了效率,DeepSeek-R1 在軟件工程任務(wù)中的應(yīng)用仍然有限。盡管如此,模型在這類基準(zhǔn)測(cè)試中的表現(xiàn)未能超越 DeepSeek-V3。未來版本將通過實(shí)施軟件工程數(shù)據(jù)上的拒絕采樣(rejection sampling)或在 RL 過程中的異步評(píng)估(asynchronous evaluations)來提高效率,從而解決這一問題。
在未來,研究團(tuán)隊(duì)計(jì)劃在以下幾個(gè)方面進(jìn)一步改進(jìn) DeepSeek-R1:
通用能力提升:探索如何通過長(zhǎng)鏈思維(CoT)來增強(qiáng) DeepSeek-R1 在復(fù)雜角色扮演和其他多輪交互任務(wù)中的表現(xiàn)。
解決語言混合問題:提高 DeepSeek-R1 在多語言環(huán)境中的穩(wěn)定性和一致性,避免語言混合的情況。
優(yōu)化提示工程:進(jìn)一步研究不同提示(如零樣本和少樣本設(shè)置)對(duì)模型表現(xiàn)的影響,并制定優(yōu)化策略,特別是在用戶實(shí)際應(yīng)用時(shí)確保其更高的準(zhǔn)確性。
增強(qiáng)軟件工程任務(wù)能力:通過提高 RL 訓(xùn)練的效率,例如應(yīng)用拒絕采樣或異步評(píng)估,解決 DeepSeek-R1 在軟件工程任務(wù)中的限制。
DeepSeek-R1 在推理任務(wù)中的表現(xiàn)顯著提升,尤其是在通過強(qiáng)化學(xué)習(xí)(RL)和冷啟動(dòng)數(shù)據(jù)的結(jié)合下,其推理能力超越了傳統(tǒng)模型。蒸餾技術(shù)的成功也證明了較小模型同樣可以獲得強(qiáng)大的推理能力。
然而,DeepSeek-R1 在一些高級(jí)任務(wù)(如復(fù)雜角色扮演和軟件工程任務(wù))上仍有不足,未來研究將集中在提高其通用能力和多語言處理能力。
通過進(jìn)一步優(yōu)化 RL 過程,解決現(xiàn)有局限性,DeepSeek-R1 有潛力在更多實(shí)際應(yīng)用中取得更大的突破。
免責(zé)聲明:本文采摘自“老虎說芯”,本文僅代表作者個(gè)人觀點(diǎn),不代表薩科微及行業(yè)觀點(diǎn),只為轉(zhuǎn)載與分享,支持保護(hù)知識(shí)產(chǎn)權(quán),轉(zhuǎn)載請(qǐng)注明原出處及作者,如有侵權(quán)請(qǐng)聯(lián)系我們刪除。
友情鏈接:站點(diǎn)地圖 薩科微官方微博 立創(chuàng)商城-薩科微專賣 金航標(biāo)官網(wǎng) 金航標(biāo)英文站
Copyright ?2015-2025 深圳薩科微半導(dǎo)體有限公司 版權(quán)所有 粵ICP備20017602號(hào)