訂閱
糾錯
加入自媒體

狂舞的DeepSeek、會扭秧歌的AI機器人,這個春節(jié)不一般

2025-02-06 13:35
有點數
關注

有點數·數字經濟工作室原創(chuàng)

作   者 | 有 叔

微信ID | yds_sh

在辭舊迎新的蛇年春節(jié)假期,橫空出世的DeepSeek金蛇狂舞,AI機器人在春晚上扭起了秧歌,這些領先行業(yè)的“神秘東方力量”,給全球科技界帶來了“億點點”震撼。

憑一己之力,打壓了AI科技巨頭的估值

DeepSeek(深度求索)是量化巨頭幻方量化旗下大模型公司,1月20日,該公司正式發(fā)布推理大模型DeepSeek-R1。1月27日,DeepSeek應用登頂蘋果中國地區(qū)和美國地區(qū)應用商店免費APP下載排行榜。被DeepSeek壓在身后的,包括了OpenAI旗下的ChatGPT以及Google Gemini等AI產品。這是第一次,有中國科技產品APP實現雙榜登頂。

更震撼的還在后面,美國時間1月27日,英偉達(Nasdaq:NVDA)股價暴跌16.86%收于每股118.58美元,跌至過去10月以來的最低點;總市值2.90萬億美元,一日蒸發(fā)5900億美元(約合人民幣4.28萬億元),創(chuàng)史上最大單日個股市值蒸發(fā)紀錄。在英偉達的帶領下,美股半導體芯片板塊集體受挫,甲骨文下跌13.78%,超微電腦下跌12.49%,芯片制造商博通下跌17.4%,臺積電跌13%。

這些科技巨頭為何會在股市被“掀桌”呢?這是因為DeepSeek用開源的方式、更低的成本實現了高性能的大模型,從而引發(fā)了資本市場對AI科技巨頭估值的擔憂。

先說開源,由微軟、OpenAI、英偉達等公司構筑出的“美式AI生態(tài)有機體”,商業(yè)化的前提是“不能開源”——要通過AI模型本身收費或者將其納入付費產品之中完成商業(yè)閉環(huán)。而DeepSeek-R1則是一款開源推理大模型,基于相關的許可協議,DeepSeek-R1允許全球開發(fā)者自由地修改、使用、分發(fā)模型,甚至還可以進行衍生開發(fā)和商用。

除了商業(yè)化方面的考量,DeepSeek開源帶給OpenAI的另一個巨大挑戰(zhàn)是,當開源產品的“能力”和閉源產品接近甚至反超后者時,對閉源產品的沖擊將是巨大的。DeepSeek下載熱度的激增,背后的核心原因之一正是開源:用戶可以在自己的服務器或云端免費部署DeepSeek-R1,且大幅降低(甚至不需要)API調用費用。

DeepSeek第二個驚人之處,是其極低的預訓練成本。性能比肩GPT-4o的DeepSeek-V3,投入研發(fā)費用為558萬美元,訓練成本不到GPT-4o的1/20,且只用了2048張H100的GPU集群,用時僅53天。在同等水平下,哪怕是全球AI第一梯隊的頭部公司,至少也要用到1.6萬張以上的GPU進行訓練。

大幅降低了技術成本的DeepSeek,對算力市場形成了強大的沖擊。它背后的那個男人,也來到了聚光燈下。

量化私募大佬,一轉身大模型就掀起了價格戰(zhàn)

2025年1月20日,AI初創(chuàng)公司深度求索創(chuàng)始人梁文鋒受邀出席相關部門座談會,并做了相關發(fā)言。國內做AI通用大模型的大廠不下五個,但只邀請了梁文鋒作為AI領域的企業(yè)家代表。而就在這一天,發(fā)布了DeepSeek-R1,梁文鋒也隨即被社會大眾所關注。

1985年,梁文鋒出生在廣東湛江吳川市的一個普通家庭,父母都是小學語文老師。這個來自四線城市的少年,對數學特別感興趣,初中時期就學完了高中數學,甚至開始學大學的數學。

2002年,17歲的梁文鋒以全校第一的成績考上浙江大學本科電子信息工程專業(yè),于2007年考上浙江大學信息與通信工程專業(yè)研究生。在大學期間,他遇到了改變自己一生的兩件事:愛上了機器學習,迷上了量化交易。

畢業(yè)之后,梁文鋒與同學一起開始積累市場行情數據和探索全自動量化交易。2015年,當其他人還在為股市的跌宕起伏心驚膽戰(zhàn)時,30歲的梁文鋒在杭州創(chuàng)立了幻方科技,投身于全自動量化交易,立志成為世界頂級的量化對沖基金。

盡管當時公司只有10張GPU顯卡,但不久之后的2016年10月,幻方量化推出第一個AI模型,第一份由深度學習生成的交易倉位上線執(zhí)行。到2017年底,幾乎所有的量化策略都采用AI模型計算。有了AI加持助力,用了4年時間,公司就做到了百億規(guī)模,又用2年時間突破千億大關。

從一開始,投資賺錢就不是梁文鋒的唯一目的,反而是賺到了足夠多的錢,才能更好地去研究人工智能。2019年,幻方量化成立AI公司,其自研的深度學習訓練平臺“螢火一號”總投資近2億元,搭載了1100塊GPU;兩年后,“螢火二號”的投入增加到10億元,搭載了約1萬張英偉達A100顯卡。通常認為,1萬枚英偉達A100芯片是做自訓大模型的算力門檻,而單從算力角度看,幻方甚至比很多大廠都更早拿到了做ChatGPT的入場券。

有了這些積累,梁文鋒在2023年7月創(chuàng)立了深度求索(DeepSeek),要做AI大模型。"現在入場,怎么跟OpenAI這樣的行業(yè)巨頭競爭?" 面對質疑,篤信“人工智能一定會改變世界”的梁文鋒沒有多做解釋。不到一年的時間,所有人就都閉嘴了,只剩下了佩服。

2024年5月,DeepSeek發(fā)布了DeepSeek-V2,憑借創(chuàng)新的模型架構和史無前例的性價比,以"AI界的拼多多"迅速出圈。反卷大廠的梁文鋒,在AI領域復制了黃崢式“后來居上”的故事,并在國內掀起打到骨折的大模型價格戰(zhàn)。

DeepSeek-V2的關鍵開發(fā)者之一羅福莉曾在社交平臺撰文表示,“單論DeepSeek-V2模型的中文水平,是真實處在國內外閉源模型的第一梯隊”,“外加1元/百萬輸入Tokens的價格,只有GPT4價格的1/100,性價比之王”。這個羅福莉,就是此前傳聞小米創(chuàng)始人雷軍要開千萬年薪挖走的天才少女。

梁文鋒的用人之道也很有意思:不要海歸,只要本土工程師;不要老手,偏愛應屆生;沒有KPI,全憑興趣干活。他說:“一件激動人心的事,或許不能單純用錢衡量。就像家里買鋼琴,一來買得起,二來是因為有一群急于在上面彈奏樂曲的人。”

底層技術路線上的顛覆,實現了彎道趕超

從技術原理上來說,DeepSeek的崛起,尤其是最新一代deepseek R1的成功,來自于它所采用的RL強化學習策略,這是它以極低的成本卻可以實現和GPT-4o差不多效果的根本原因。

以GPT為代表的傳統(tǒng)AI,其策略的本質是"在人類選擇下的猜謎游戲"——GPT們其實并不會真正思考,而是通過數據訓練,生成一些"看似靠譜實則無法深究"的東西,比如早期繪畫AI會把人手畫出六個指頭,就是因為AI不知道人該有幾個指頭,只是通過大量的數據訓練,能生成一個"大概是這樣"的東西。之后再由人類進行篩選,把不靠譜的結果去除掉,才能得到最終的作品。

而對DeepSeek來說,它完全拋棄了這種"猜謎"的訓練方式,轉而采用了之前在圍棋和智能駕駛領域常用的RL策略(強化學習)。如果說以前的策略是人類告訴AI什么是對的什么是錯的,那么RL策略,就是真正地讓AI學會認識世界、了解事物規(guī)律,更加自主地去推理探索。

在傳統(tǒng)技術路徑下,90%的算力消耗在試錯過程中,而Deepseek的自主學習機制能將無效訓練降低60%。因為底層技術路線上的顛覆,deepseek R1也把運行成本大大降低——比起硅谷動輒數億數十億美金的投資和數萬張顯卡的超級集群,這個國產大模型僅僅靠著2000多張顯卡和600萬美元左右的成本就實現了近似乃至更好的效果。

對我國初創(chuàng)公司來說,更關鍵的一點是,RL策略對并行計算的需求較傳統(tǒng)架構下降40%,這直接打破了堆砌算力、數據的美國式AI道路,使得國產顯卡和國產芯片有機會實現對英偉達等海外巨頭的替代。

說到這里,DeepSeek的崛起,就不僅僅是技術側的意義了:一家誕生在中國的民營公司,不超過200人的本土青年工程師團隊,繞開了美國人所探索的“成功模式道路”,采取了創(chuàng)新的思路和開源的方式,以極低的成本創(chuàng)造了業(yè)界矚目的成就,實現了彎道趕超。

作為硅谷眼中“神秘的東方力量”,Scale AI創(chuàng)始人亞歷山大·王(Alexandr Wang)評價DeepSeek道,“過去十年來,美國可能一直在人工智能競賽中領先于中國,但DeepSeek的AI大模型發(fā)布可能會‘改變一切’。”

寫在最后……

DeepSeek的橫空出世,讓自詡領先至少10年以上的META和CHAT gpt有點不知該何去何從了。號稱“星球大戰(zhàn)”2.0版本,并計劃耗費天文數字的星際之門還沒打開好像就該關上了——美國總統(tǒng)特朗普在會議上提到DeepSeek的出現為美國的企業(yè)敲響了警鐘,“我們需要集中精力在競爭中獲勝”。相隔一天,據外媒報道,多名美國官員稱DeepSeek是“偷竊”,正對其展開國家安全調查。

在除夕這天震撼世界的,還有同樣是來自杭州的宇樹科技。在央視春晚現場,來自宇樹科技的人形機器人H1跳起了AI機器秧歌,還能多角度轉手絹。

這些機器人身上裝備了多套高科技設備,如高精度3D激光SLAM自主定位和導航、多智能體協同規(guī)劃、先進組網方案和全身AI運動控制,可以讓他們在舞臺上走得穩(wěn)穩(wěn)當當,動作整齊得就像復制粘貼一樣,這些技術不僅讓他們們定位超精準,連接超穩(wěn)定,還能應對各種突發(fā)狀況?梢哉f,這是人類歷史上首次大型全AI驅動的全自動集群人形機器。前些年不可一世的波士頓動力機器人,好像三下兩下,也被宇樹趕上了。

從大疆、宇樹再到石破天驚的六代機、DeepSeek,東方大國不斷涌現出改寫世界技術版圖的高科技企業(yè)。讓世界目不暇接,甚至逼得某些國家要采取并不光明正大的反制措施了。

“中國必然需要有人站到技術的前沿”,梁文鋒此前接受采訪時曾表示,回望過去30多年IT浪潮,中國基本沒有參與到真正的技術創(chuàng)新里。“我們覺得現在最重要的是參與到全球創(chuàng)新的浪潮里去。”被外界視為理想主義者的他說,“過去很多年,中國公司習慣了別人做技術創(chuàng)新,我們拿過來做應用變現,但這并非一種理所當然。這一波浪潮里,我們的出發(fā)點,就不是趁機賺一筆,而是走到技術的前沿,去推動整個生態(tài)發(fā)展。”

       原文標題 : 狂舞的DeepSeek、會扭秧歌的AI機器人,這個春節(jié)不一般

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號