侵權投訴
訂閱
糾錯
加入自媒體

端到端大模型席卷廣州車展,智駕行業(yè)的一次技術大躍遷

2024-11-22 08:51
XEV研究所
關注

作者 |德新 苗嶺

編輯 |德新

圖片

作為歲末壓軸的一場大型車展,沒有其他展會比廣州車展更能揭示未來一年汽車行業(yè)的趨勢。

除了新能源車滲透率繼續(xù)如火如荼地攀升之外,「端到端城區(qū)智駕」成為這屆車展上的核心主題。

如果說半年前的北京車展,端到端還只是頭部車企對新技術的探索,那到了廣州車展,包括外資與合資車企在內幾乎所有廠商都在擁抱這一技術路線。

汽車行業(yè)正迎來一次智駕技術的升級躍遷。

端到端大模型的本質是以參數規(guī)模更大的模型,取代過去「感知以小模型為主 + 決策規(guī)劃以規(guī)則代碼為主」的技術架構。它減少了小模型之間信息傳遞的損失,從而使系統(tǒng)能夠獲取更加豐富的動靜態(tài)目標信息,并且直接從駕駛數據中學習到合理的開車方法。

行業(yè)推動城市NOA量產已有兩三年時間。但衡量城市NOA的關鍵指標——MPI(平均接管里程),在今年上半年大概也只有10公里以內,也就是每行駛10公里至少需要用戶接管1次。用戶體驗不佳是城市NOA還沒有開始大規(guī)模普及的主要原因。

基于端到端與大模型的技術,成為過去一年提升智駕MPI的關鍵利器。

特斯拉在去年的FSD V12.3版本中首先引入了這一技術。國內汽車行業(yè)也很快展開探索,理想、小鵬等車企,以及博世、華為、地平線、Momenta、元戎、卓馭等廠商目前都在研發(fā)端到端智駕版本。

圖片

許多行業(yè)大咖如英偉達CEO黃仁勛、小鵬汽車CEO何小鵬、長城汽車CTO吳會肖、騰訊智慧出行副總裁劉澍泉、元戎啟行CEO周光等人在這年陸續(xù)體驗了特斯拉的V12版本,對FSD給出了高度評價。

理想、小鵬在近期的端到端版本上,也取得突飛猛進的進展。據理想官方數據,其從7月初到11月的「端到端智+VLM」智駕版本, MPI約有3.5倍提升;而小鵬也稱其智駕系統(tǒng)上了端到端不到半年, 擬人程度提升4倍以上。

在國內大舉投入高階智駕開發(fā)的博世,也將在今年底推出無圖城市NOA,并在明年上馬一段式端到端方案。

這家國際Tier 1巨頭剛剛在最近與騰訊簽署了深化合作,加速下一階段端到端大模型以及世界模型的開發(fā)。

圖片

眼下的時點,可以說國內外的頭部廠商都成功驗證了端到端大模型是提升城區(qū)智駕表現(xiàn)的正確路徑,并且行業(yè)還遠遠沒有觸及到「Scaling Law」——數據規(guī)模增長帶來性能提升——的上限。

一、冰山之下,汽車行業(yè)的研發(fā)挑戰(zhàn)

端到端大模型帶來的城市NOA體驗以及MPI的提升是顯性的。而新一代智駕的研發(fā)本身也發(fā)生了巨大的變化,并且95%以上是「隱藏在水面之下的冰山」。因此不少廠商今年在圍繞AI與大模型進行組織架構變革

首先,從驅動數據迭代的「燃料」——數據開始。

博世智能駕控事業(yè)部中國區(qū)總裁吳永橋認為,「從前融合、BEV + Transformer,到端到端,每一代技術對數據的需求都呈指數級增長!

目前國內頭部公司的端到端智駕版本,大約使用了數百萬條級別的短視頻進行訓練,并向千萬級的短視頻推進。這些短視頻時長在幾十秒 - 幾分鐘不等,往往包含了多個連續(xù)的場景和駕駛行為。

在開發(fā)城區(qū)智駕的3年中,博世在數據端「付出了巨大的代價」。

「包括自建采集車隊,包含司機與合規(guī)員。通過仿真生成的數據大部分只能用于一般性的測試場景。但真正有價值的、對用戶體驗有關鍵提升的數據數據,往往來自采集!箙怯罉蛘f。

這些數據如何采集、存儲、篩選、標注,尤其智駕相關的數據還涉及地理信息安全和個人隱私。

圖片

作為一家國際Tier 1,博世還需要考慮采集、存儲、訓練、仿真等數據鏈路全流程的合規(guī),并且在滿足合規(guī)的情況下盡可能提高研發(fā)效率。

從2020年開始,博世就決定與騰訊深度合作,將數據和工具鏈部署在騰訊云的汽車云專區(qū)上。汽車專有云是一個既能保障嚴苛的數據合規(guī)要求,同時滿足數據訓練高效存取需求的方案。

劉澍泉說,騰訊是第一家在國內建設自動駕駛專有云的企業(yè),機房與網絡獨立于公有云,但沿襲了公有云同樣的技術路線和架構,比公有云有更好的安全性,比私有云有更好的靈活性。同時,有著圖商資質的兜底,能夠保障數據全流程滿足最新的監(jiān)管要求。

博世是騰訊第一個自動駕駛專有云的客戶。因為與騰訊專有云的合作,博世才能在極其嚴苛的合規(guī)條件下,18個月就干成了城市NOA的交付,吳永橋說。

二、端到端是算力軍備賽,也是人才競賽

海量的數據隨后將投入到類似「煉金」的流程——訓練。

端到端基于模型訓練(而不是基于工程師代碼)的開發(fā)方式,決定了它可以進行大量并行的版本測試;加上模型訓練本身的數據量驚人,所以這種開發(fā)方式是「算力吞金獸」。

各個頭部廠商的云端算力都在快速增長:

華為ADS云端算力數據是7.5 EFLOPS(截止9月智界R7上市發(fā)布會);

理想當前的云端算力是6.83 EFLOPS,并計劃年底拉到10 EFLOPS(截止11月廣州車展);

小鵬規(guī)劃明年的云端算力是10 EFLOPS(截止11月小鵬P7+上市發(fā)布會);

小米智駕能從集團申請到的算力上限是8.1 EFLOPS(截止11月廣州車展);

百度智駕能從集團調度的算力規(guī)模是5 EFLOPS(截止8月成都車展);

騰訊云能提供的云端算力規(guī)模為16 EFLOPS(截止9月騰訊全球數字生態(tài)大會)。

此外,長安的自研團隊也儲備了數千張GPU卡(截止10月啟源E07上市),并計劃明年提升到萬卡規(guī)模;極氪今年也投入了大量資金采購訓練算力。

至于特斯拉的算力規(guī)劃,則是在100 EFLOPS級別。

今年幾家頭部公司的共識是,「在未來幾年內,用于智駕云端算力的年度算力支出,將達到10億美元級。

相比于云端算力,只要投入足夠多的資金就可以實現(xiàn)比較快速的擴張,車端的算力可以說是「捉襟見肘」。

當前行業(yè)中的高配算力方案——單片的OrinX,能夠運行的最大模型規(guī)模在20 - 30億參數。但如果考慮智駕需求的實時性,其運行幀率要達到10 - 20Hz,那它能運行的模型規(guī)模大概只有在10億參數以內。

因此尤其從車端算力制約的角度,并非完全是訓練的數據規(guī)模越大、云端算力越大,效果就越好。

騰訊智慧出行副總裁劉澍泉有一個比較代表性的觀點:「長期來看云端的算力需求始終會處于較大的缺口,但你是不是真的把每張卡都充分地利用起來了?以及真的要把所有的數據都投入到訓練中嗎,如何才能發(fā)揮數據真正的價值!

當前,使用云端大模型來做模型蒸餾部署到車端,已經接近成為行業(yè)共識。

而云端的模型架構、車端的模型架構如何設計,如何打造一條圍繞數據閉環(huán)的高效工具鏈,對全行業(yè)來說都是新課題。

端到端本質上是,資本、人才、工程化能力的集合體。」騰訊智慧出行副總裁劉澍泉說。

對主機廠來說,在端到端時代,是否要像過去一樣全棧自研,從零再搭地基?

劉澍泉的看法是,「大家越來越回歸理性,各自做各自擅長的事情,做增量性的創(chuàng)新!

三、解決端到端的安全底線:智駕地圖與視覺語言模型

過去半年內,HiEV體驗了幾乎市面上所有廠商的端到端智駕版本,智駕系統(tǒng)隨著數據量的增長,體驗提升是肉眼可見的。

但端到端也引入了新的問題——「上限很高,沒有下限」,一位智駕行業(yè)的研發(fā)朋友如此調侃。

目前行業(yè)的普遍做法是由模型來輸出軌跡規(guī)劃,而由基于規(guī)則的控制算法來輸出具體的油門開度、剎車力度以及方向盤轉角,由此來約束車輛不會出現(xiàn)極端的安全問題。

復雜路口的道路認知也是當前也是端到端智駕方案的「重災區(qū)」,目前HiEV體驗的多個車型智駕版本都非常容易出現(xiàn)選錯道或者壓實線的情況。

吳永橋認為,「這確是無圖方案普遍的難題。

第一,強大的感知是解決的基礎;

第二,全國一些特別復雜的路口,可能需要地圖做一些輕度掛接的元素,是非常有必要,而且極大改善用戶的體驗;

第三,真正做到大模型之后,需要大量的數據訓練,如果未來這個路口是不是能收集10萬個老司機開過的視頻,再以后可能就不需要了,它到了這個地方可能就知道怎么看,可能需要更長時間才能實現(xiàn)!

「今天來看,在純無圖完全只用SD和使用HD之間,還是有一個中間狀態(tài),要通過輕地圖進行過渡!箘J為,「為了增加安全冗余,城市路口的輕地圖可能會是中期來看更穩(wěn)健的方案。」

圖片

圖商開始提供更加開放的地圖數據服務,來滿足輕圖、無圖方案的需求。比如騰訊的智駕云圖,將地圖數據以云服務的形式提供給車企,來保障更高效、靈活的地圖更新。

圖片

探尋更高的上限和更高的下限,在2024年下半年,行業(yè)也逐漸形成共識,其中一種路徑是世界模型,另一種方式則是運行車端的雙系統(tǒng),比如視覺語言模型(VLM)或者視覺語言動作模型(VLA)。

吳永橋透露,博世將在明年推出一段式端到端的智駕方案,到2026年推出基于世界模型的版本。

「現(xiàn)在整個智駕行業(yè)路線已經很明確,需要更大的算力,一部分算力跑端到端,另一部分算力跑視覺語言模型,這肯定是必然的方向。

智駕就是算力、算法和數據。

算力我們和騰訊合作,同時博世在全球布局了很多的算力集群。算法,結合開源的論文和廣大的中國人才,可以學得很快。數據在端到端之后大模型是最復雜的,最難獲取高質量的數據,我們和大客戶合作,可以獲得高質量的數據。

因為很多企業(yè)都不一定有資金有雄厚的資本。博世沒有資本的裹脅,可以長期堅持自己的戰(zhàn)略定力。我認為未來最核心的比拼是高質量的數據,是端到端大模型能夠走得多遠多快最核心的因素。」

       原文標題 : 端到端大模型席卷廣州車展,智駕行業(yè)的一次技術大躍遷

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號