DeepSeek-R1迎來(lái)升級(jí),性能接近Claude 4和o3 High
前言:
與先前的V3-0324模型類(lèi)似,本次更新也是在現(xiàn)有模型基礎(chǔ)上進(jìn)行的[小版本升級(jí)],直接回歸至推理模型的頂尖行列。
作者 | 方文三
圖片來(lái)源 | 網(wǎng) 絡(luò)
DeepSeek-R1升級(jí),性能接近Claude 4
近日,DeepSeek宣布其R1系列推理模型進(jìn)行了小版本升級(jí),最新版本DeepSeek-R1-0528參數(shù)量高達(dá)6850億,模型在思維深度和推理能力方面有顯著提升。
剛剛,DeepSeek公布了R1-0528在各類(lèi)基準(zhǔn)測(cè)評(píng)上的具體得分情況。
R1-0528在數(shù)學(xué)、編程與通用邏輯等多個(gè)基準(zhǔn)測(cè)評(píng)中成績(jī)突出,整體表現(xiàn)接近o3與Gemini-2.5-Pro。
本次更新的主要內(nèi)容涵蓋了上下文窗口的顯著擴(kuò)展,相較于先前版本R1,API文檔的標(biāo)注容量從64K提升至128K,實(shí)際測(cè)試中[0528]版本已開(kāi)放至128K。
根據(jù)最新的LiveCodeBench榜單,R1-0528僅次于OpenAI的o3、o4 mini,超越xAI Grok 3 mini與阿里Qwen 3;生成的網(wǎng)頁(yè)和交互界面更為美觀,執(zhí)行效率更高。
在LiveCodeBench上,DeepSeek-R1-0528的表現(xiàn)接近OpenAI的頂級(jí)模型,超越Claude 3.5 Sonnet與Qwen3-235B,緊隨其后的是OpenAI的O4-Mini(Medium配置)。
社區(qū)評(píng)測(cè)顯示,0528新模型在[語(yǔ)言自然度]和[對(duì)話(huà)邏輯]方面有顯著改善,不再呈現(xiàn)早期模型的[天馬行空]敘述風(fēng)格。
此外,R1-0528在Thematic Generalization Benchmark(主題概括)基準(zhǔn)測(cè)試中相較于前代R1有所改進(jìn)。
該基準(zhǔn)測(cè)試衡量各種LLM如何有效地從少量的例題和反例中推斷出一個(gè)狹窄或特定的[主題](類(lèi)別/規(guī)則),然后在一系列誤導(dǎo)性候選題中檢測(cè)出哪個(gè)項(xiàng)目真正符合該主題。
該基準(zhǔn)測(cè)試的整個(gè)過(guò)程包括生成主題、創(chuàng)建例題和反例、通過(guò)[雙重檢查]步驟過(guò)濾掉低質(zhì)量數(shù)據(jù),最后促使法學(xué)碩士(LLM)在多個(gè)干擾項(xiàng)中對(duì)真實(shí)的例子進(jìn)行評(píng)分,值越小表示性能越好,R1-0528的表現(xiàn)與Claude-4-Sonnet Thinking 64K和Gemini 2.5 Pro相媲美。
新模型升級(jí)支持128K超大上下文窗口,為處理復(fù)雜任務(wù)提供了更廣闊的空間,相較于前代,R1-0528在32K上下文窗口的文本回憶測(cè)試中表現(xiàn)出色,準(zhǔn)確率顯著提升,尤其適用于需要深度理解和精準(zhǔn)回答的場(chǎng)景。
成為開(kāi)源模型領(lǐng)域中的一股強(qiáng)勁競(jìng)爭(zhēng)力量
在Extended NYT Connections基準(zhǔn)測(cè)試中,新版本相較于原始DeepSeek R1有顯著改進(jìn),得分從38.6分提升至49.8分,該基準(zhǔn)使用651個(gè)NYT Connections謎題來(lái)評(píng)估大型語(yǔ)言模型的智能性。
依據(jù)AI評(píng)測(cè)機(jī)構(gòu)Artificial Analysis的報(bào)告,新版DeepSeek R1的[智慧指數(shù)]由60分提升至68分,這一成績(jī)使其超越了xAI、Meta、Anthropic等公司的模型。
與Google Gemini 2.5 Pro并列全球第二梯隊(duì),僅次于OpenAI的頂尖模型(例如o3及o4.mini高階版),成為開(kāi)源模型領(lǐng)域中的一股強(qiáng)勁競(jìng)爭(zhēng)力量。
評(píng)估者還指出,它在情感共鳴和文學(xué)復(fù)雜性方面的表現(xiàn)與谷歌旗艦?zāi)P虶emini 2.5 Pro非常接近。
有開(kāi)發(fā)者使用DeepSeek-R1-0528與Claude-4-Sonnet進(jìn)行了編碼測(cè)試的對(duì)比,結(jié)果顯示,在相同提示下,Claude-4-sonnet生成了542行代碼;
而DeepSeek-R1-0528生成了728行,無(wú)論是球體的漫反射控制還是控制面板的美觀程度,R1-0528生成的效果都絲毫不弱。
也有開(kāi)發(fā)者測(cè)試后表示,R1-0528編碼時(shí)雖然思考過(guò)程顯得有些復(fù)雜,但效果令人驚艷,能夠很好地完成Zig編程需求,并且在出錯(cuò)時(shí)能夠自我糾正。
R1-0528能夠深入理解并概括一篇論文的眾多細(xì)節(jié),答案邏輯性強(qiáng),全面且完整。
有開(kāi)發(fā)者在插件PapersGPT中接入R1-0528進(jìn)行了測(cè)試,其分析過(guò)程和輸出速度相較于上代模型有顯著進(jìn)步。
同時(shí),DeepSeek通過(guò)蒸餾DeepSeek-R1-0528的思維鏈后訓(xùn)練Qwen3-8B Base,得到了一個(gè)8B模型。
該模型在數(shù)學(xué)測(cè)試AIME 2024中僅次于DeepSeek-R1-0528,超越Qwen3-8B(+10.0%),與Qwen3-235B相當(dāng)。
此外,值得一提的是,DeepSeek對(duì)R1-0528版本的模型幻覺(jué)問(wèn)題進(jìn)行了優(yōu)化,相較于舊版,更新后的模型在改寫(xiě)潤(rùn)色、總結(jié)摘要、閱讀理解等場(chǎng)景中,幻覺(jué)率降低了45~50%左右。
目前,DeepSeek-R1-0528已在網(wǎng)頁(yè)端、APP和小程序中上線(xiàn),用戶(hù)開(kāi)啟「深度思考」功能即可體驗(yàn)最新版本。
有開(kāi)發(fā)者指出,這是[開(kāi)源的巨大勝利]。然而,可能由于測(cè)試速率的限制,目前在開(kāi)發(fā)者群體中公認(rèn)的編程能力最強(qiáng)的Claude-4系列模型并未出現(xiàn)在測(cè)試榜單上。
基于最新的DeepSeek-R1模型和Claude-4-Sonnet進(jìn)行測(cè)試,測(cè)試內(nèi)容是用一個(gè)橙色小球撞擊物體,從效果顯示,平面的橙色漫反射、撞擊效果方面是R1模型更勝一籌。
但有開(kāi)發(fā)者對(duì)表示,這類(lèi)能力看個(gè)例是不準(zhǔn)確的,或許要等評(píng)測(cè)榜單和一個(gè)月后的口碑見(jiàn)分曉。
除了代碼能力,有開(kāi)發(fā)者總結(jié)了DeepSeek這次更新其他亮點(diǎn),包括改進(jìn)了寫(xiě)作任務(wù),更自然、格式更好。
也有用戶(hù)反映,用最新模型寫(xiě)作正常很多,沒(méi)有強(qiáng)烈的[量子力學(xué)元素]了。
結(jié)尾:
有業(yè)內(nèi)人士猜測(cè),是否模型架構(gòu)不更新,只是增加或調(diào)整了訓(xùn)練數(shù)據(jù),DeepSeek就不將更新定義為大版本升級(jí),而業(yè)內(nèi)其他模型給出明顯的版本號(hào)迭代則是一種品牌營(yíng)銷(xiāo)需求。
此次升級(jí)標(biāo)志著DeepSeek-R1正式躋身全球第一梯隊(duì)AI模型,其在中文場(chǎng)景和特定專(zhuān)業(yè)領(lǐng)域的突破,為國(guó)產(chǎn)大模型的差異化競(jìng)爭(zhēng)提供了新范式。
盡管在多模態(tài)和生態(tài)整合上仍需追趕,但R1-0528已用實(shí)際表現(xiàn)證明:算法創(chuàng)新與開(kāi)源協(xié)作同樣能在算力壟斷的AI戰(zhàn)場(chǎng)開(kāi)辟出一條可行路徑。
部分資料參考:騰訊科技:《實(shí)測(cè)DeepSeek-R1小版本更新:三大場(chǎng)景梳理模型升級(jí)點(diǎn)和缺陷》,頭部科技:《DeepSeek更新刷榜!R1-0528改進(jìn)編碼性能,媲美o3 High和Claude 4》,硅星人Pro:《DeepSeek-R1 [小更新]:靠后訓(xùn)練改進(jìn)就能榨出如此多潛力》,:《DeepSeek上新,又一次[開(kāi)源的巨大勝利]》
原文標(biāo)題 : AI芯天下丨熱點(diǎn)丨DeepSeek-R1迎來(lái)升級(jí),性能接近Claude 4和o3 High

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
最新活動(dòng)更多
-
7月8日立即報(bào)名>> 【在線(xiàn)會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線(xiàn)下論壇】第三屆安富利汽車(chē)生態(tài)圈峰會(huì)
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動(dòng)力電池技術(shù)應(yīng)用大會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書(shū)》
推薦專(zhuān)題
- 1 AI 眼鏡讓百萬(wàn) APP「集體失業(yè)」?
- 2 豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
- 3 一文看懂視覺(jué)語(yǔ)言動(dòng)作模型(VLA)及其應(yīng)用
- 4 “支付+”時(shí)代,支付即生態(tài) | 2025中國(guó)跨境支付十大趨勢(shì)
- 5 中國(guó)最具實(shí)力AI公司TOP10
- 6 國(guó)家數(shù)據(jù)局局長(zhǎng)劉烈宏調(diào)研格創(chuàng)東智
- 7 特斯拉Robotaxi上路,馬斯克端上畫(huà)了十年的餅
- 8 AI的夏天:第四范式VS云從科技VS地平線(xiàn)機(jī)器人
- 9 深圳跑出40億超級(jí)隱形冠軍:賣(mài)機(jī)器人年入6.1億,港股上市
- 10 上海跑出80億超級(jí)獨(dú)角獸:獲上市公司戰(zhàn)投,干人形機(jī)器人