智能駕駛技術(shù)演進(jìn)與未來(lái)挑戰(zhàn):從目標(biāo)物識(shí)別到大模型上車(chē)
智能駕駛自動(dòng)駕駛經(jīng)歷過(guò)去幾年的迅猛發(fā)展,技術(shù)底層雖然確立人工智能AI賦能發(fā)展的根基,但是方法路徑卻經(jīng)歷了巨大的變化。
例如,當(dāng)年的感知數(shù)據(jù)標(biāo)注量之爭(zhēng),2022年左右的HD高精地圖之爭(zhēng),再到2023年的真假無(wú)圖開(kāi)城大戰(zhàn),最后到2024端到端智能駕駛大模型上車(chē)。也引發(fā)了巨多的智能駕駛熱詞,數(shù)據(jù)標(biāo)注,地圖,BEV,Transformer,有無(wú)圖智駕,大模型上車(chē)等等;剡^(guò)頭來(lái)看,我們?cè)谟懻撨@些東西的時(shí)候,僅僅看到的是表面,然后基于表面再添加自己認(rèn)知去解讀。
但其實(shí)智能駕駛終究只是人工智能AI的應(yīng)用端,他的發(fā)展是跟隨人工智能的發(fā)展落地,所以看智能駕駛的發(fā)展必須緊盯AI的發(fā)展。最近在人工智能領(lǐng)域把控AI三大件中的重要的兩大件的英偉達(dá),在其GTC上分享了英偉達(dá)對(duì)于智能駕駛架構(gòu)發(fā)展的理解,本文將基于其理論整理和分析智能駕駛架構(gòu)的發(fā)展歷史以及趨勢(shì)。值得智能汽車(chē)產(chǎn)業(yè)內(nèi)管理,產(chǎn)品,技術(shù)人士,投資,科技愛(ài)好者了解和學(xué)習(xí),把握智能汽車(chē)特別是智能駕駛發(fā)展脈絡(luò)。智能駕駛技術(shù)架構(gòu)的發(fā)展可以分為四個(gè)部分:
AV1.0 - 目標(biāo)物識(shí)別
AV1.x - BEV+Transformer+......
AV2.0 - E2E大模型
AV2.0 - E2E大模型+LVM圖像語(yǔ)言模型
AV1.0 - 目標(biāo)物識(shí)別采用經(jīng)典的智能駕駛步驟,感知,定位,融合跟蹤,預(yù)測(cè),規(guī)劃,執(zhí)行。在智能駕駛開(kāi)發(fā)中也是嚴(yán)格劃定每個(gè)模塊的邊界,各司其職。
這時(shí),AI人工智能主要用在目標(biāo)物識(shí)別感知方面,以及少部分預(yù)測(cè)方面。感知主要是基于視覺(jué)的目標(biāo)物的識(shí)別,所以數(shù)據(jù)標(biāo)注量決定了感知的精準(zhǔn)度;預(yù)測(cè)采用決策樹(shù)等算法。規(guī)控算法主要采用經(jīng)典PID。基本配置主要靠前視覺(jué)攝像頭感知目標(biāo)物,所以大家看到的5V(5 vison 5個(gè)攝像頭,其中4個(gè)是環(huán)視)方案,大都屬于此類(lèi)。
新勢(shì)力第一代智能駕駛都采用這類(lèi)智能駕駛架構(gòu),例如,Tesla 特斯拉以及國(guó)內(nèi)新勢(shì)力 NIO 蔚來(lái),Xpeng 小鵬都是采用Mobileye提供感知的方式實(shí)現(xiàn),在國(guó)內(nèi)新勢(shì)力以及眾多其他推出的第一代高速領(lǐng)航輔助(什么是領(lǐng)航輔助點(diǎn)擊淺談高階智能駕駛-領(lǐng)航輔助的技術(shù)與發(fā)展)都是基于此類(lèi)感知方式配合HD高精地圖實(shí)現(xiàn)。但很快隨著智能駕駛功能以及覆蓋ODD的需求不斷擴(kuò)大,這種分布式模塊的智能駕駛架構(gòu),由于模塊復(fù)雜,嚴(yán)重依賴(lài)高精地圖,所以無(wú)法規(guī)模化,慢慢被主流拋棄。
AV1.x - BEV+Transformer+......當(dāng)國(guó)內(nèi),在頭痛數(shù)據(jù)標(biāo)注量,且依然無(wú)法破局智能駕駛場(chǎng)景長(zhǎng)尾場(chǎng)景時(shí)候;在討論怎么破局HD高精地圖的約束等無(wú)法規(guī);囊蜃訒r(shí)候;馬斯克的2021 AI day給行業(yè)透露了他技術(shù)的關(guān)鍵詞:鳥(niǎo)瞰圖(BEV):BEV主要基于車(chē)輛360視覺(jué)覆蓋的攝像頭,提供了一個(gè)從上方俯瞰車(chē)輛周?chē)h(huán)境的視角,它還可以合成多個(gè)傳感器(如攝像頭、雷達(dá)、激光雷達(dá)等)的數(shù)據(jù)來(lái)生成一個(gè)全面的視圖。這個(gè)視圖不僅包括車(chē)輛周?chē)奈矬w,如其他車(chē)輛、行人、障礙物等,還包括它們?cè)谌S空間中的位置信息。Transformer模型:Transformer是一種深度學(xué)習(xí)架構(gòu),最初用于自然語(yǔ)言處理(NLP)領(lǐng)域,因其強(qiáng)大的序列處理和關(guān)系建模能力而聞名。
在自動(dòng)駕駛中,Transformer被用來(lái)處理BEV數(shù)據(jù),以理解和預(yù)測(cè)不同物體之間的動(dòng)態(tài)關(guān)系和交互。基于這兩個(gè)關(guān)鍵技術(shù)因子,智能駕駛實(shí)現(xiàn)了三維空間感知加上時(shí)間維度的4D感知。在智能駕駛系統(tǒng)中,這意味著車(chē)輛不僅能夠?qū)崟r(shí)地檢測(cè)和跟蹤周?chē)奈矬w(3D感知),還能夠預(yù)測(cè)這些物體在未來(lái)一段時(shí)間內(nèi)的狀態(tài)和行為(時(shí)間維度)。這種4維感知能力對(duì)于自動(dòng)駕駛汽車(chē)在復(fù)雜和動(dòng)態(tài)的交通環(huán)境中進(jìn)行安全導(dǎo)航至關(guān)重要。
2022年特斯拉AI day又帶來(lái)了Occupancy占用網(wǎng)格Occupancy可以直接在BEV空間中完成動(dòng)態(tài)障礙物的3D檢測(cè)和靜態(tài)障礙物的識(shí)別建模;提供直接在3D空間中感知占用關(guān)系,為系統(tǒng)規(guī)劃提供可行駛空間。當(dāng)然占用網(wǎng)格挺吃算力,國(guó)內(nèi)目前有通過(guò)激光雷達(dá)等其他傳感器方式實(shí)現(xiàn),例如之前文章《遙遙領(lǐng)先的華為智駕硬件以及背后的GOD和RCR算法》講到的GOD。有了對(duì)于環(huán)境感知的全面理解,但是交通的另外兩個(gè)層面: 其他交通參與者的行動(dòng)軌跡以及道路之間的拓?fù)潢P(guān)系成了智能駕駛的難點(diǎn)。
這個(gè)時(shí)候Live Vector Space Topological Relationships"(實(shí)時(shí)向量空間拓?fù)潢P(guān)系)登場(chǎng)了實(shí)時(shí)向量空間:實(shí)時(shí)向量空間是指自動(dòng)駕駛汽車(chē)使用傳感器數(shù)據(jù)(如攝像頭、雷達(dá)、激光雷達(dá)等)實(shí)時(shí)生成的環(huán)境表示。這些數(shù)據(jù)被轉(zhuǎn)換成向量形式,每個(gè)向量代表環(huán)境中的一個(gè)特定對(duì)象或特征,例如其他車(chē)輛、行人、道路標(biāo)志或道路邊界。拓?fù)潢P(guān)系:拓?fù)潢P(guān)系描述了環(huán)境中對(duì)象之間的相對(duì)位置和相互關(guān)系。在自動(dòng)駕駛的上下文中,這包括了解車(chē)輛與其他車(chē)輛、行人以及道路基礎(chǔ)設(shè)施之間的空間關(guān)系。例如,一個(gè)車(chē)輛可能在另一個(gè)車(chē)輛的前面、后面或側(cè)面,而這些關(guān)系對(duì)于規(guī)劃安全行駛路徑至關(guān)重要。
這樣,智能駕駛汽車(chē)可以實(shí)時(shí)處理這些拓?fù)潢P(guān)系,快速做出決策和反應(yīng),實(shí)時(shí)調(diào)整其規(guī)劃和控制策略以應(yīng)對(duì)動(dòng)態(tài)變化。通過(guò)理解實(shí)時(shí)向量空間中的拓?fù)潢P(guān)系,智能駕駛汽車(chē)可以更準(zhǔn)確地預(yù)測(cè)其他道路使用者的行為,從而進(jìn)行有效的導(dǎo)航和決策制定。通過(guò)配合SD普通導(dǎo)航信息,可以決策車(chē)輛的路線跟隨。例如,如果一個(gè)車(chē)輛正在靠近并可能在交叉路口處轉(zhuǎn)彎,自動(dòng)駕駛汽車(chē)需要預(yù)測(cè)這一行為并相應(yīng)地調(diào)整速度和行駛路徑。有了環(huán)境的感知以及交通道路的拓?fù)潢P(guān)系,基本上智能駕駛汽車(chē)完成了對(duì)World模型的構(gòu)建,這個(gè)時(shí)候需要規(guī)控出馬了。Joint Prediction & Planning Network(聯(lián)合預(yù)測(cè)與規(guī)劃網(wǎng)絡(luò))傳統(tǒng)的自動(dòng)駕駛系統(tǒng)可能會(huì)將感知、預(yù)測(cè)和規(guī)劃作為分離的模塊來(lái)處理。然而,"Joint Prediction & Planning Network" 采用了一種集成的方法,將預(yù)測(cè)和規(guī)劃結(jié)合在一個(gè)統(tǒng)一的框架中。
這樣做的好處是能夠更流暢地處理從感知到行動(dòng)的轉(zhuǎn)換,并提高系統(tǒng)的整體效率和性能。聯(lián)合預(yù)測(cè)與規(guī)劃算法是一種基于 Transformer 的架構(gòu),通過(guò)學(xué)習(xí)人類(lèi)駕駛以及強(qiáng)化學(xué)習(xí)(RL)來(lái)實(shí)現(xiàn)。當(dāng)前國(guó)內(nèi)量產(chǎn)的主流智能駕駛架構(gòu)都或多或少采用以上方法和技術(shù)。AV2.0 - E2E大模型隨著生成式人工智能GPT的橫空出世,端到端模型也搬上車(chē)了。端到端模型,基本就是融合所有的AI model形成一個(gè)輸入駕駛環(huán)境,輸出車(chē)控的轉(zhuǎn)向,剎車(chē)加速等信號(hào)。
至于它的內(nèi)部結(jié)構(gòu),你可以把它當(dāng)作一個(gè)黑盒,它能夠記住你講過(guò)的所有場(chǎng)景,所有case以及你告訴他針對(duì)以上場(chǎng)景和case的反饋。在實(shí)際自動(dòng)駕駛中它會(huì)基于記憶的場(chǎng)景和反饋去實(shí)施。這個(gè)和當(dāng)前的 ChatGPT 類(lèi)似,它只能準(zhǔn)確回答他知道的東西,不知道的問(wèn)題,GPT可能會(huì)一本正經(jīng)的說(shuō)胡話,但如果自動(dòng)駕駛汽車(chē)沒(méi)見(jiàn)過(guò)的場(chǎng)景,自動(dòng)駕駛隨意開(kāi),那么就會(huì)造成安全事故。所以問(wèn)題來(lái)了,你必須要去喂這個(gè)大模型,足夠多的數(shù)據(jù),讓它學(xué)會(huì)應(yīng)對(duì)所有場(chǎng)景的駕駛。自動(dòng)駕駛交通信息數(shù)據(jù)獲取有兩種方法:
第一種方法是實(shí)際道路采集車(chē)采集。
第二種方法是基于實(shí)際場(chǎng)景采集的數(shù)據(jù)虛擬場(chǎng)景。自動(dòng)駕駛端到端算法基于上面的數(shù)據(jù)進(jìn)行訓(xùn)練,根據(jù)英偉達(dá)的 GTC 自駕駛車(chē)輛的演講:
智能駕駛大模型的參數(shù)的大小,1年之后會(huì)增加3倍,2年之后會(huì)增加7倍,3年之后增加13倍;
智能駕駛大模型訓(xùn)練的數(shù)據(jù)大小,1年之后會(huì)增加4倍,2年之后增加8倍,3年之后增加17倍。
算力當(dāng)前L2+的模型訓(xùn)練需要8000塊GPU,如果是基礎(chǔ)的智能駕駛大模型的訓(xùn)練算力需要24000塊GPU,標(biāo)準(zhǔn)的需要40000塊,最多的要高達(dá)80000萬(wàn)塊。
所以,大模型上車(chē)智能駕駛,主要是對(duì)于數(shù)據(jù)以及算力的渴求。數(shù)據(jù)以及算力為王。
AV2.0 - E2E大模型+VLM視覺(jué)語(yǔ)言模型這或許就是輪回了,輪回到當(dāng)年基于目標(biāo)物識(shí)別的感知,數(shù)據(jù)標(biāo)注量。
如何解決?英偉達(dá)拋出行業(yè)目前在做的添加 VLM (Vison Language Model) 方法。
視覺(jué)語(yǔ)言模型是一種結(jié)合了圖像和文本處理能力的機(jī)器學(xué)習(xí)模型,可以理解和解釋圖像與文本之間的關(guān)聯(lián),并根據(jù)圖像生成準(zhǔn)確、生動(dòng)的自然語(yǔ)言描述。這種模型通過(guò)分析圖像內(nèi)容和上下文來(lái)生成相關(guān)的文字描述,為計(jì)算機(jī)賦予了更接近人類(lèi)的視覺(jué)理解能力。例如我們之前文章《探秘美國(guó)加州自動(dòng)駕駛路試:豪橫競(jìng)逐、勤奮探索與技術(shù)挑戰(zhàn)》中講到的Ghost以及英國(guó)的Wayve應(yīng)該都采用類(lèi)似的技術(shù),識(shí)別某個(gè)場(chǎng)景時(shí)候,通過(guò)視覺(jué)語(yǔ)言模型解讀當(dāng)前的環(huán)境,然后結(jié)合語(yǔ)言知識(shí)輔助自動(dòng)駕駛。
打個(gè)比方,視覺(jué)語(yǔ)言模型識(shí)別到當(dāng)前智能駕駛為學(xué)校放學(xué)期間,那么自動(dòng)駕駛自然會(huì)明白這個(gè)場(chǎng)景需要更加謹(jǐn)慎的駕駛,從而可以更加人性的駕駛。寫(xiě)在最后 - 端到端大模型智能駕駛的挑戰(zhàn)大模型智能駕駛,也將自動(dòng)駕駛汽車(chē)帶回GPT一樣的困頓:數(shù)據(jù),數(shù)據(jù),算力,算力。但自動(dòng)駕駛汽車(chē)關(guān)系到人類(lèi)的安全,這就更需要大模型實(shí)現(xiàn)可靠、安全和高效,基于這些大模型的智能駕駛系統(tǒng),將面臨以下兩個(gè)主要挑戰(zhàn):可解釋性和透明度:復(fù)雜的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型,這些模型往往被認(rèn)為是“黑箱”操作,因?yàn)樗鼈兊臎Q策過(guò)程難以解釋和理解。在自動(dòng)駕駛汽車(chē)中,這種不透明性可能導(dǎo)致安全問(wèn)題,因?yàn)楫?dāng)發(fā)生錯(cuò)誤或事故時(shí),難以確定原因并采取糾正措施。此外,可解釋性對(duì)于建立用戶(hù)信任、滿足監(jiān)管要求以及在法律糾紛中證明決策過(guò)程是合理的也非常關(guān)鍵。
資源和計(jì)算效率:深度學(xué)習(xí)模型和算法通常需要大量的計(jì)算資源進(jìn)行訓(xùn)練和推理。這不僅增加了成本,還可能導(dǎo)致能源消耗和環(huán)境影響的增加。在自動(dòng)駕駛汽車(chē)中,這種資源密集型的計(jì)算需求需要通過(guò)優(yōu)化算法和硬件設(shè)計(jì)來(lái)解決,以實(shí)現(xiàn)高性能的同時(shí)保持能效。此外,隨著模型的不斷更新和迭代,如何有效地管理和存儲(chǔ)這些大型模型和相關(guān)數(shù)據(jù)也是一個(gè)挑戰(zhàn)。但不管如何,人工智能高速發(fā)展下的智能駕駛正在迅猛發(fā)展,發(fā)展以及技術(shù)能夠解決所有問(wèn)題。
*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-參考資料:
introduce autonomous vehicles - 英偉達(dá)
GAIA-1: A Generative World Model for Autonomous Driving - wayve
原文標(biāo)題 : 智能駕駛技術(shù)演進(jìn)與未來(lái)挑戰(zhàn):從目標(biāo)物識(shí)別到大模型上車(chē)
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
技術(shù)文庫(kù)
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車(chē)電子技術(shù)在線大會(huì)
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
-
精彩回顧立即查看>> 【線上直播】新能源汽車(chē)熱管理行業(yè)應(yīng)用新進(jìn)展
-
精彩回顧立即查看>> 【線上直播】西門(mén)子電池行業(yè)研討會(huì)-P4B如何加速電池開(kāi)發(fā)
-
精彩回顧立即查看>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 【線下論壇】華邦電子與萊迪思聯(lián)合技術(shù)論壇
推薦專(zhuān)題
-
9
- 1 2025上海車(chē)展看什么?看這一篇就夠了!
- 2 關(guān)稅大戰(zhàn),汽車(chē)芯片會(huì)漲價(jià)嗎
- 3 工信部召開(kāi)智能網(wǎng)聯(lián)汽車(chē)產(chǎn)品準(zhǔn)入及軟件在線升級(jí)管理工作推進(jìn)會(huì)提的內(nèi)容,將如何影響智駕行業(yè)發(fā)展?
- 4 地平線智駕方案軟硬結(jié)合,大眾、保時(shí)捷的合作紛至沓來(lái)
- 5 高呼的“全民智駕”真的做到“全民”了嗎?
- 6 一季度汽車(chē)產(chǎn)量省份排名大洗牌!誰(shuí)在異軍突起?
- 7 奇瑞的混動(dòng)技術(shù):厚積薄發(fā),從發(fā)動(dòng)機(jī)到混動(dòng)系統(tǒng)
- 8 中國(guó)汽車(chē)發(fā)展頂層設(shè)計(jì)思路 - 萬(wàn)鋼主席2025百人會(huì)核心內(nèi)容總結(jié)
- 9 東風(fēng)+華為,還是華為借東風(fēng)?華為ADS3.0技術(shù)詳解
- 10 工信部對(duì)浮躁的智駕說(shuō)“不”
