2025年,自動駕駛即將開“卷”的端到端大模型 2.0 - VLA (Vision Language Action)
太卷了,智能駕駛在國內的落地發(fā)展太迅速了,從體驗功能端,大家開城大戰(zhàn)打完了之后就進入點到點的落地戰(zhàn),點到點弄完了之后肯定Robotaxi大戰(zhàn);而在硬核的軟件技術端,端到端大模型戰(zhàn)在華為這個月宣布急攻端到端大模型的信息下,已經算是進入焦灼狀態(tài)。
那么端到端大模型之后呢?
或許最近不少苗頭已經透露 VLM (vision language model 具《智能駕駛技術演進與未來挑戰(zhàn):從目標物識別到大模型上車》體可以點擊之前文章了解)之后的VLA (vision language action)會是2025年國內的自動駕駛行業(yè)全面宣傳和競爭的重點,各家會開卷端到端大模型 2.0。
VLA其實不但可以應用于自動駕駛,它其實是自動駕駛車輛的大類 - 智能機器人,具身智能的基礎,那么也可以理解為什么現在人行機器人產業(yè)。具身智能會火起來了,其實機器人比汽車更容易,機器人出問題可能不會有生命危險,但汽車出問題是會有生命危險,甚至公共安全的生命危險。
本文整理 VLA 相關論文以及其在汽車行業(yè)發(fā)展和應用信息,希望能大家一些科普和前瞻信息。
什么是 VLA 模型?
VLA 有哪些優(yōu)點?
實驗室里面的 VLA 有哪些進展?
落地應用 VLA 有哪些挑戰(zhàn)?
目前有哪些車企在布局?VLA會是自動駕駛最終的歸宿嗎?
什么是 VLA 模型
首先,我們先回顧視覺語言模型 (VLM), 它是一種機器學習模型,可以處理視覺信息和自然語言。它們將一張或多張圖像作為輸入,并生成一系列標記,這些標記通常表示自然語言文本。
VLM 的奇妙之處是在人類智慧結晶互聯(lián)網上的圖像和文本數據上進行訓練的,VLM 類似于三體中的智子,吸收了人類語言文字的智慧,能看懂和推理圖片內容。
而 VLA 模型,就是在 VLM 基礎上利用機器人或者汽車運動軌跡數據,進一步訓練這些現有的 VLM,以輸出可用于機器人或者汽車控制的文本編碼動作。
這些經過進一步訓練的 VLM 被稱為視覺-語言-動作 (VLA) 模型。通過結合視覺和語言處理,VLA 模型可以解釋復雜的指令并在物理世界中執(zhí)行動作。
上面Google Deepmind RT-2的圖片,非常好的圖像化解釋VLA,VLA(RT-2) = VLM + 機器運動數據(RT-1)。
VLA 有哪些優(yōu)點首先,VLA是一個端到端大模型,所以大模型該有的優(yōu)點,他都有。另外,從視覺到執(zhí)行,類似可推理性,可解釋性都有非常大的優(yōu)勢,這個可以查看之前文章了解《采用 ChatGPT 類似大模型作為自動駕駛算法核心的 - Waymo 的端到端多模態(tài)算法 EMMA》。其次,它具有通用型,未來所有“智能機器設備”都可以統(tǒng)一采用這套大模型算法,通過微調可以實現,不管是汽車,飛行設備,乃至任何智能機器人都可以通用。
所以這就是為什么可以看到現在的新勢力,上天下地,機器人都搞的原因,他們明白通用AI可以加任何機械設備從而變成人工智能設備,實現phycial AI(也有人叫具身智能,我更愿意叫他phycial AI)而不是僅僅現在的digital AI。VLA這些通用系的模型在數據量、計算資源和模型復雜度的邊界上表現出持續(xù)的性能提升,因為有了自然文字語言的人類智慧為底座,所以可以極大的減少重復的數據,計算資源,同時降低模型復雜度。
實驗室里面的 VLA 有哪些進展當前AI的催生,基本都來自于著名學術機構高校和知名公司的創(chuàng)新實驗。2023年7月28日,谷歌DeepMind推出了全球首個用于控制機器人的視覺語言動作(VLA)模型 RT-2 也就是上文解釋 VLA 借用的那個圖片。RT-2 以 Google 的 VLM PaLI-X 和 PALM-E 為基礎,這些模型使用 DeepMinds 在開發(fā) RT-1 模型期間收集的機器人軌跡數據進行微調。該模型經過微調,通過將機器人動作表示為文本標記來輸出機器人動作。這種獨特的方法使模型能夠從自然語言響應和機器人動作中學習,從而使其能夠執(zhí)行各種任務。
RT-2 模型的令人印象深刻的泛化能力。該模型在新的物體、背景和環(huán)境中表現出顯著改善的性能。它可以解釋機器人訓練數據中不存在的命令,并根據用戶命令執(zhí)行基本的推理。推理能力是底層語言模型采用思路鏈推理能力的結果。該模型推理能力的例子包括弄清楚要拿起哪個物體用作臨時錘子(一塊石頭),或者哪種飲料最適合疲憊的人(能量飲料)。這種程度的泛化是機器人控制領域的一大進步。RT-2目前不是開源的,也就是大家無法基于他去創(chuàng)新和修改,但他的出現激勵了當前智能機器人行業(yè)的發(fā)展,給了大家信心。
另一個比較知名的是 OpenVLA 模型,它是由來自斯坦福大學、加州大學伯克利分校、谷歌 Deepmind 和豐田研究院的研究人員組成的團隊發(fā)起。他是一種基于 LLM/VLM 構建的視覺/語言動作模型,用于具身機器人和行為學習(此基礎模型是使用 Llama-7B、DINOv2 和 SigLIP 的 Prismatic VLM)。OpenVLA 模型不是使用圖像字幕或視覺問答,而是根據用于控制機器人的攝像頭圖像和自然語言指令生成動作標記。動作標記是從文本標記器詞匯表中保留的離散標記 ID,這些標記映射到連續(xù)值,并根據每個機器人的運動范圍進行歸一化。
通過微調預訓練的Prismatic-7B VLM 來訓練 OpenVLA 。模型由三個關鍵元素組成:融合視覺編碼器一般也叫ViT(Vision transformer),由 SigLIP 和 DinoV2 主干組成,其中DinoV2主要是為了增加對于空間的理解,將圖像輸入映射到多個“圖像塊嵌入”,可以簡單理解將視覺編碼成語言。投影儀MLP Projector,這個組件可以獲取視覺編碼器的輸出嵌入并將其映射到大型語言模型的輸入空間,可以理解為這是個中間人,他能將編碼的語言和大語言模型對接上。Llama 2 7B作為語言模型的主干,根據對接上的信息,預測標記化的輸出動作。這些標記被解碼為可直接在機器人上執(zhí)行的連續(xù)輸出動作。
OpenVLA 是開源的,目前不少公司應該都基于他在進行研究,來找VLA應用和商業(yè)落地的方法。以上兩個為影響比較大的,除了上面 VLA 還有不少其他的例如 Umass的3D-VLA,美的集團的Tiny-VLA等等。落地應用 VLA 有哪些挑戰(zhàn)VLA 那么好,是不是立馬可以在生活和商用中用起來?其實上面RT-2/Open VLA基本上和大模型一樣都是上Billions十億的參數。
模型大,需要邊緣算力大,就拿Open VLA 的7B 的參數模型來看,推理過程中速度很慢,需要對大量機器人數據進行大量預訓練,這使得實際部署變得困難。所以,實時運行大型 VLA 模型的計算成本很高,需要進行更多研究來優(yōu)化其推理速度。此外,目前可用于微調的開源 VLM 模型有限。未來的研究應側重于開發(fā)實現更高頻率控制的技術,并使更多 VLM 模型可用于訓練 VLA 模型。
Phycical AI 需要與人類世界互動,那么實時高頻精準的運動是必須的,機器人可能要求的響應可以低,但一般可用的都需要達到以 30-50 Hz 運行的執(zhí)行;而汽車智能汽車的電控底盤一般的執(zhí)行響應都達到100Hz。所以,這里還有很長的路要走。最后,其實 VLA 應用的難點還有匹配語言描述和駕駛行為或者機器人動作的訓練。
目前VLA 模型應用于自動駕駛的一個主要障礙是缺乏能夠有效結合視覺數據與語言描述和駕駛行為的大規(guī)模數據集,F有數據集往往在規(guī)模和全面注釋方面存在不足,尤其是對于語言,這通常需要費力的人工操作。這限制了能夠處理現實世界駕駛復雜性的穩(wěn)健 VLA 模型的開發(fā)和評估。所以這些都是目前 VLA 工程落地,需要攻克的問題。目前有哪些車企在布局?目前準確來講,應用VLA的應該屈指可數,甚至沒有,但大批車企以及自動駕駛企業(yè)布局中。
我們之前文章《采用 ChatGPT 類似大模型作為自動駕駛算法核心的 - Waymo 的端到端多模態(tài)算法 EMMA》中講到的EMMA,就是Waymo內部團隊在創(chuàng)新和測試探索的 VLA。國外的創(chuàng)業(yè)公司Wayve,他的主要投資方是微軟和軟銀,走的是提供L4軟件算法的路線,目前測試車隊已經從歐洲擴展到北美,與Uber達成合作協(xié)議,未來可能進入Uber平臺。他在開始就站位采用通用人工智能來解決自動駕駛,所以可以看到之前就采用LLM,之后采用VLM,目前有消息其正在采用類似于VLA的模型。
國內,元戎啟行在上個月宣布下一步計劃使用VLA,計劃在英偉達Thor芯片上進行開發(fā),不過Thor推遲到明年年中量產,高性能Thor估計年底,所以估計中國的VLA大概率在明年中旬聲量巨大,一起卷。
另外,就是理想,這個我們之前文章《智能駕駛技術演進與未來挑戰(zhàn):從目標物識別到大模型上車》中講過理想在上半年就開始推進VLM,現在其車上智駕已經采用VLM,那么接下來肯定是朝著VLA進發(fā)。
小鵬,目前沒有信息,但是看小鵬科技產品的布局,從機器人,汽車到飛行基本上也賭的是人工智能,如果不走通用人工智能的方向,那么顯然戰(zhàn)略失誤,所以估計在研發(fā)中或者布局中。
華為,比較特殊,有自己的閉環(huán)和中國特色發(fā)展,其200TOPs的MDC顯然在規(guī)則化,小模型的算法方面做的是一流,車輛運動控制遙遙領先,但最近估計也是感覺端到端是未來,這個月的動態(tài)顯示其急攻一段式端到端,那么估計其應用VLA也不會很長。
至于,蔚來汽車昨天搞了NIO Day發(fā)布了一大堆東西,由于沒有邀請我,我得說說蔚來的問題了,開玩笑,蔚來一直是我喜愛而且認為有格局和格調的品牌,但蔚來有點不像新勢力了,他反過頭來在追隨傳統(tǒng)汽車的末日黃昏,蔚來在硬件端是在準備,但是在智能駕駛軟件端,目前缺少相關信息。VLA 會是自動駕駛最終的歸宿嗎很難說,不過,自動駕駛采用AI的大方向是既定的,但是AI的發(fā)展太迅猛了,從采用CNN識別物體到Transformer BEV 構建時空關系應用大概也就是幾年,但從端到端大模型演化到采用通用人工智能的VLM卻是一年之內。那么對應的從文字LLM 到視覺的VLM再到未來是不是空間Spatial 人工智能的大力發(fā)展?AI 還是一個快速發(fā)展的小孩,都有可能!
*未經準許嚴禁轉載和摘錄-參考資料:
2024_Kira_ECCV_FOCUS.pdf -
Google deepmind RT-2 .pdf - Anthony Brohan, Noah Brown等
OPEN VLA .pdf - Moo Jin Kim∗,1 Karl Pertsch∗等
2024-IB-Introduction-Embodied-AI-Wayve.pdf
原文標題 : 2025年,自動駕駛即將開“卷”的端到端大模型 2.0 - VLA (Vision Language Action)

請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達AI統(tǒng)治的開始
- 2 北電數智主辦酒仙橋論壇,探索AI產業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關稅,能否乘機器人東風翻身?