國內首個對標o1的推理模型發布：DeepSeek-R1-Lite初體驗！

石南13082024-11-21 17:03:20

2024年9月12日，OpenAI的首個推理模型o1重磅發布。從該模型的命名也可以看出，o1走的路和GPT系列模型不是同一條，否則它就應該被命名為GPT-5了。

推理模型的推理二字，是指模型在回答問題前會主動思考，將一個復雜問題拆解為多個子問題，逐個擊破，再生成最終答案。這種方式和我們人類解決難題的過程是一樣的，回想如果我們面對一道數學難題，是不是也是同樣的思路，先思考，然后一步步解答。這個思考過程被稱為內部思維鏈（internal chAIn of thought）。關于思維鏈更詳細的介紹，可以看我這篇文章：《思維鏈(Chain-of-Thought)技術的背后，是人類思考問題的方式！》。

o1模型經過了思維鏈的加持后，在物理、化學和生物學等復雜學科的高難度基準任務上，表現幾乎與博士生相當。在數學和編碼領域則更加出色。在國際數學奧林匹克(IMO)資格考試中，o1模型的正確率達到了驚人的83%，作為對比，GPT-4o的正確率為13%。在Codeforces編程競賽中，o1的表現達到了第89百分位(即表現超過了89%的評估對象，排名前11%)。

在接下來的幾個月里，國內的不少AI公司也在紛紛嘗試，但更多的是在應用方面，如Kimi、智譜、天工和360的推理型AI搜索。單就推理模型而言，除了上周月之暗面(Kimi)官宣的數學推理模型k0-math，并沒有太多的更新。但由于k0-math還處于PPT階段，并未真正開放使用，真實體驗如何還未可知。

國內首個對標o1的推理模型發布：DeepSeek-R1-Lite初體驗！第1張

然而，今天文章的主角并不是月之暗面的k0-math，而是DeepSeek(中文名：深度求索)的DeepSeek-R1-Lite。和k0-math的宣傳預熱階段不同，DeepSeek-R1-Lite是已經切切實實發布了的對標o1的國產推理模型。

關于DeepSeek

DeepSeek由知名量化私募幻方量化于2023年成立的AI初創公司，專注于開發通用人工智能(AGI)底層模型和技術。DeepSeek的產品和技術以開源為主，包括多個百億級參數的模型，如DeepSeek-LLM、DeepSeek-Coder，以及混合專家模型(MoE)DeepSeek-V2和V2.5.值得一提的是，該公司以高性價比和性能著稱，被稱為“AI界的拼多多”。比如，DeepSeek-V2的API定價為每百萬Tokens輸入1元、輸出2元。

在LMSYS聊天機器人競技場排名榜中，目前DeepSeek-V2.5模型綜合排名為22名。

國內首個對標o1的推理模型發布：DeepSeek-R1-Lite初體驗！第2張

關于DeepSeek-R1-Lite

DeepSeek-R1-Lite是DeepSeek于2024年11月20日發布的推理模型，目前已經發布的為預覽版(和OpenAI的o1一樣)。根據DeepSeek官方介紹，R1系列模型使用強化學習訓練，推理過程包含大量反思和驗證，思維鏈長度可達數萬字。該系列模型在數學、代碼以及各種復雜邏輯推理任務上，取得了媲美o1-preview的推理效果，并為用戶展現了o1沒有公開的完整思考過程。

下面是DeepSeek官方放出的基準測試對比圖。

國內首個對標o1的推理模型發布：DeepSeek-R1-Lite初體驗！第3張

DeepSeek-R1-Lite初體驗

目前DeepSeek-R1-Lite在DeepSeek官網上免費可用，每用戶每天使用數量限制為50次。在這里不得不吐槽Kimi探索版，每人每天只能用5次，我做個測試還得分幾天才能測試完。

DeepSeek官網：https://chat.DeepSeek.com/

國內首個對標o1的推理模型發布：DeepSeek-R1-Lite初體驗！第4張

另外需要指出的是，和o1一樣，DeepSeek-R1-Lite也是個純文本模型，目前不支持解析文件。

1. 幾何推理

一個圓的半徑為10.在其內部隨機選擇兩點，計算這兩點之間的平均距離。

先上結果。這道需要用到積分的題目結果完全正確。

國內首個對標o1的推理模型發布：DeepSeek-R1-Lite初體驗！第5張

附上DeepSeek-R1-Lite長達61秒的思考過程。

國內首個對標o1的推理模型發布：DeepSeek-R1-Lite初體驗！第6張

2. 組合數學

一個班有12名男生和10名女生，要從中選出6人組成一個小組，要求至少有2名女生，問有多少種不同的選法?

19秒就得到了答案65769.完全正確。并且還附上了一個反向思考的驗證過程，有點厲害。

國內首個對標o1的推理模型發布：DeepSeek-R1-Lite初體驗！第7張

3. 邏輯推理

觀察以下數列，推斷規律并預測下一個數字：2.6.15.31.56

這道題目，相鄰數字的差值為遞增的平方數4.9.16.25.所以下一個數字應該是56加36.92.回答正確。

國內首個對標o1的推理模型發布：DeepSeek-R1-Lite初體驗！第8張

4. 真假話推理

三個囚犯 A、B 和 C，分別戴著紅帽或藍帽(但無法看到自己的帽子)。守衛說：“至少有一個囚犯戴著紅帽。” A 說：“我不知道我的帽子顏色。” B 說：“我也不知道。” C 說：“我知道了。” 問 C 的帽子是什么顏色?

總算有一道題難倒DeepSeek-R1-Lite了，回答錯誤。這道題其實可以簡單思考，只有A藍B藍的情況下，C才能根據“至少有一個紅帽”來斷定自己的帽子顏色。所以C應該是紅色。

經過檢查DeepSeek-R1-Lite的思維鏈，我發現它把自己繞進去了，直到最后也沒能繞出來，屬于“過度思考”了。

國內首個對標o1的推理模型發布：DeepSeek-R1-Lite初體驗！第9張

作為對比，附上o1-preview的答案。

國內首個對標o1的推理模型發布：DeepSeek-R1-Lite初體驗！第10張

結語

在測試過程中，我還遇到了中英文思考、輸出混亂的問題。但綜合來看，DeepSeek-R1-Lite已經展現出了一個推理模型應有的推理能力，并且還是免費使用，值得嘗試。

DeepSeek

本文鏈接：http://www.tondou.cn/post/1801.html ,轉載需注明文章鏈接來源：http://www.tondou.cn/

分享到：

標簽：DeepSeek AI

喜歡（11）
不喜歡（3）

本文轉載自互聯網，具體來源未知，或在文章中已說明來源，若有權利人發現，請聯系我們更正。本站尊重原創，轉載文章僅為傳遞更多信息之目的，并不意味著贊同其觀點或證實其內容的真實性。如其他媒體、網站或個人從本網站轉載使用，請保留本站注明的文章來源，并自負版權等法律責任。如有關于文章內容的疑問或投訴，請及時聯系我們。我們轉載此文的目的在于傳遞更多信息，同時也希望找到原作者，感謝各位讀者的支持！

本文鏈接：http://www.tondou.cn/post/1801.html