DeepSeek 版 o1,有消息了。
還未正式發(fā)布,已在代碼基準測試 LiveCodeBench 霸榜前三,表現與 OpenAI o1 的中檔推理設置相當。
注意了,這不是在 DeepSeek 官方 App 已經(jīng)能試玩的 DeepSeek-R1-Lite-Preview(輕量預覽版)。
而是摘掉了輕量版的帽子,稱(chēng)為 DeepSeek-R1-Preview(預覽版),意味著(zhù)替換了規模更大的基礎模型。
LiveCodeBench 團隊透露,他們正在與 DeepSeek 合作評估新模型的能力,在合作過(guò)程中,DeepSeek 團隊還幫他們找出并解決了評分系統的一些 bug。
與此同時(shí),他們還曬出了目前僅有的一張 DeepSeek-R1-Preview 的思考過(guò)程。
鑒于 DeepSeek 此前已宣布 R1 模型將開(kāi)源,有網(wǎng)友表示,與 OpenAI o1 編程能力相當的開(kāi)源模型即將發(fā)布,2025 年的編程就只剩下按 Tab 鍵了。
DeepSeek 推理大模型滿(mǎn)血版
兩個(gè)月前,DeepSeek 在官網(wǎng)上線(xiàn) DeepSeek-R1-Lite-Preview 時(shí)曾透露:
DeepSeek-R1-Lite-Preview 使用強化學(xué)習訓練,推理含大量反思和驗證,遵循新的 Scaling Laws——推理越長(cháng),表現越強。
在 AIME 測試基準中,隨著(zhù)推理長(cháng)度的增加,DeepSeek-R1-Lite-Preview 表現出穩定的得分提升。
DeepSeek-R1-Lite 推理的特點(diǎn)在網(wǎng)友們的后續測試中也得到了驗證:
在某些情況下,模型似乎能夠在生成推理步驟時(shí)自我糾正,表現出類(lèi)似原生“自我反思”的能力。不過(guò),沒(méi)有訓練數據、模型架構和技術(shù)報告 / 論文的細節,很難確認這一點(diǎn)。
期待未來(lái)的開(kāi)源模型和 API!
摘掉 Lite 的帽子,變成 DeepSeek-R1-Preview,意味著(zhù)換了更大的基礎模型。
之前 Lite 版就在難度較高數學(xué)和代碼任務(wù)上超越 o1-preview,大幅領(lǐng)先 GPT-4o。
Copyright 2025 //m.mrigadava.com/ 版權所有 豫ICP備2021037741號-1 網(wǎng)站地圖