侵權(quán)投訴
訂閱
糾錯(cuò)
加入自媒體

通過(guò)視覺(jué)信號(hào)預(yù)測(cè)駕駛員意圖

本篇文章提出了一種利用深度神經(jīng)網(wǎng)絡(luò)來(lái)檢測(cè)視頻序列中信號(hào)的方法,采用該方法對(duì)超過(guò)一百萬(wàn)幀視頻資源進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,采用該方法,每幀的精度都很高。

ICRA(International Conference on Robotics and Automation) 是IEEE機(jī)器人與自動(dòng)化學(xué)會(huì)的旗艦會(huì)議。2019年的ICRA在加拿大蒙特利爾于當(dāng)?shù)貢r(shí)間5月20日盛大召開(kāi)。本次ICRA會(huì)議,有眾多行業(yè)大咖分享最新的學(xué)術(shù)成果,并設(shè)立一個(gè)行業(yè)論壇和IERA計(jì)劃、一個(gè)政府論壇和一個(gè)ICRA-X機(jī)器人藝術(shù)論壇。

圖片選自ICRA官方網(wǎng)站

往屆的ICRA,匯集世界頂尖研究人員和企業(yè),共同分享最新的研究成果,很多的機(jī)器人和自動(dòng)化領(lǐng)域的重要前沿科技均是在ICRA首度曝光。隨著機(jī)器人自動(dòng)化領(lǐng)域的不斷擴(kuò)大,以行業(yè)為中心的活動(dòng)不斷增加,今年的ICRA2019匯集了更多行業(yè)領(lǐng)軍人才及企業(yè)。

在每日的keynote演講嘉賓名單中,小編發(fā)現(xiàn)了Raquel Urtasun。Raquel Urtasun是優(yōu)步ATG首席科學(xué)家兼優(yōu)步ATG多倫多負(fù)責(zé)人,是多倫多大學(xué)計(jì)算機(jī)科學(xué)系的副教授,加拿大機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué)研究主席以及人工智能矢量研究所的聯(lián)合創(chuàng)始人。研究領(lǐng)域包括:自動(dòng)駕駛汽車(chē),計(jì)算機(jī)視覺(jué),機(jī)器學(xué)習(xí),遙感和機(jī)器人。她的實(shí)驗(yàn)室被選為NVIDIA NVAIL實(shí)驗(yàn)室。曾獲得NSERC EWR Steacie、NVIDIA AI獎(jiǎng),教育和創(chuàng)新早期研究員獎(jiǎng),三個(gè)Google Faculty Research獎(jiǎng)。

22日,Raquel Urtasun將為ICRA做主題為“A future affordable self-driving vehicles”的主旨演講。因?yàn)樗闹黝}還未發(fā)表,那么我們先來(lái)看看Raquel Urtasun實(shí)驗(yàn)室的投稿論文吧。

小編發(fā)現(xiàn),在Raquel Urtasun實(shí)驗(yàn)室主頁(yè)上顯示,有一篇題為“深度信號(hào):通過(guò)視覺(jué)信號(hào)預(yù)測(cè)駕駛員意圖 DeepSignals: Predicting Intent of Drivers Through Visual Signals”中投ICRA。本篇文章提出了一種利用深度神經(jīng)網(wǎng)絡(luò)來(lái)檢測(cè)視頻序列中信號(hào)的方法,采用該方法對(duì)超過(guò)一百萬(wàn)幀視頻資源進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,采用該方法,每幀的精度都很高。

文章詳情

自動(dòng)駕駛汽車(chē)成為常態(tài)之前,人類(lèi)和機(jī)器人將不得不共享道路。在這種共享的場(chǎng)景中,車(chē)輛之間的通信對(duì)于向其他車(chē)輛發(fā)出緊急或危險(xiǎn)的演習(xí)警報(bào)至關(guān)重要。因此,對(duì)人類(lèi)意圖的社會(huì)理解對(duì)自我驅(qū)動(dòng)的進(jìn)步至關(guān)重要。這給自動(dòng)駕駛系統(tǒng)帶來(lái)了額外的復(fù)雜性,因?yàn)檫@種交互通常很難學(xué)習(xí)模仿。司機(jī)們相互交流意圖,以便做出臨時(shí)決策的動(dòng)作,以便在更早的時(shí)候發(fā)出警告,而不是通過(guò)運(yùn)動(dòng)來(lái)推斷。雖然駕駛員的動(dòng)作傳達(dá)了意圖,例如,當(dāng)駕駛員減速以表示其他車(chē)輛可以并道,或接近車(chē)道邊界以表示所需的合并位置時(shí),駕駛員的動(dòng)作提示是微妙的、全動(dòng)作相關(guān)的、并且是短期瞬時(shí)的。相比之下,視覺(jué)信號(hào),尤其是信號(hào)燈,是清晰的,可以提前很長(zhǎng)時(shí)間發(fā)出警告,這種警告表示可能出現(xiàn)的意外動(dòng)作。

例如,如果沒(méi)有檢測(cè)到轉(zhuǎn)彎信號(hào),一輛停著的汽車(chē)在駛?cè)胗娑鴣?lái)的車(chē)流時(shí),同樣有可能保持停著不動(dòng)。類(lèi)似地,當(dāng)司機(jī)計(jì)劃在另一輛車(chē)前面停車(chē)時(shí),他們通常會(huì)提前發(fā)出安全信號(hào)。公共汽車(chē)在停車(chē)接送乘客時(shí)也會(huì)發(fā)出閃光信號(hào),允許從后面駛來(lái)的車(chē)輛改變車(chē)道,從而減少了延誤和擁堵。當(dāng)司機(jī)了解其他交通參與者的意圖,這些日常行為是安全的;但如果忽視視覺(jué)信號(hào)是危險(xiǎn)的。因此,人類(lèi)希望自動(dòng)駕駛汽車(chē)做出反應(yīng),通過(guò)視覺(jué)信號(hào)預(yù)測(cè)駕駛員意圖的問(wèn)題,并特別關(guān)注于解釋信號(hào)燈。

圖2 來(lái)自1,257,591個(gè)標(biāo)記幀的數(shù)據(jù)集的挑戰(zhàn)性場(chǎng)景。

研究人員在一個(gè)全新的、具有挑戰(zhàn)性的真實(shí)數(shù)據(jù)集上展示了他們的方法的有效性,該數(shù)據(jù)集包含來(lái)自他們實(shí)驗(yàn)室的自動(dòng)駕駛平臺(tái)的34小時(shí)視頻。該數(shù)據(jù)集包括在真實(shí)的(黑夜白天)城市駕駛場(chǎng)景中發(fā)現(xiàn)的不利條件,包括擁堵、遠(yuǎn)距離和不常見(jiàn)的車(chē)輛、惡劣天氣等各種場(chǎng)景(參見(jiàn)圖2)。

圖3 在這項(xiàng)工作中,研究人員建議使用一個(gè)卷積循環(huán)架構(gòu)來(lái)分類(lèi)車(chē)輛的轉(zhuǎn)彎信號(hào)狀態(tài)。對(duì)于每個(gè)輸入幀,使用全卷積網(wǎng)絡(luò)預(yù)測(cè)掩碼(a),然后使用原始輸入圖像獲取element-wise,并使用基于vgg16的CNN提取空間特征(b),然后合并使用卷積LSTM時(shí)序特性(c),從最終隱藏狀態(tài)出發(fā),預(yù)測(cè)了車(chē)輛轉(zhuǎn)彎信號(hào)狀態(tài)和視場(chǎng)面的概率分布(d)。

該模型的建立是為了解決三個(gè)問(wèn)題:attention意圖,識(shí)別行為人的信號(hào)燈; understanding語(yǔ)義理解,識(shí)別遮擋和觀察行動(dòng)者的方向; temporal reasoning時(shí)間推理,以區(qū)別閃爍燈和持久燈。針對(duì)這些問(wèn)題研究人員設(shè)計(jì)了一個(gè)深度學(xué)習(xí)體系結(jié)構(gòu)。請(qǐng)參考圖3以獲得詳細(xì)說(shuō)明。輸入幀首先由應(yīng)用空間掩碼的attention模塊進(jìn)行處理,然后使用深度卷積網(wǎng)絡(luò)恢復(fù)空間概念。然后,將每幀的信息輸入卷積LSTM,將轉(zhuǎn)彎信號(hào)和緊急閃光的時(shí)間模式與其他內(nèi)容區(qū)分開(kāi)來(lái)。生成的時(shí)空特征被傳遞到完全連接的層中進(jìn)行分類(lèi)。

研究人員使用多任務(wù)丟失來(lái)訓(xùn)練模型。具體來(lái)說(shuō),在任務(wù)上定義了加權(quán)交叉熵?fù)p失。給定模型輸入x,地面真值標(biāo)簽y,模型權(quán)值θ,任務(wù)權(quán)值γ,網(wǎng)絡(luò)函數(shù)σ,損失函數(shù)為:

其中每個(gè)任務(wù)損失使用交叉熵定義為:

由于沒(méi)有用于轉(zhuǎn)彎信號(hào)分類(lèi)的公共數(shù)據(jù)集,研究人員在自主駕駛平臺(tái)上記錄了超過(guò)10000條10赫茲下的車(chē)輛軌跡,并將其標(biāo)記為轉(zhuǎn)彎信號(hào)狀態(tài),總共標(biāo)記了1,257,591幀。每一幀都被標(biāo)記為左轉(zhuǎn)彎和右轉(zhuǎn)彎燈的ON打開(kāi),OFF關(guān)閉或UNKNOWN未知。注意,標(biāo)簽標(biāo)識(shí)了每盞燈的概念狀態(tài),ON表示即使燈泡沒(méi)有被點(diǎn)亮,信號(hào)也是活動(dòng)的。這些較低層次的標(biāo)簽被用來(lái)推斷高層次的動(dòng)作意圖:左轉(zhuǎn)、右轉(zhuǎn)、閃光、關(guān)閉和未知。圖4a顯示了標(biāo)簽的數(shù)量,它證明了數(shù)據(jù)集中對(duì)OFF類(lèi)有相當(dāng)大的偏向。還顯示了距離上的分布(圖4c)和視點(diǎn)(圖4d)。

比較FC-LSTM、ConvLSTM、cn-clstm以及文章提出的方法,上述指標(biāo)如表1所示。FC-LSTM性能最弱;這可以解釋為全連通層在提取空間特征時(shí)效率低下,只有通過(guò)網(wǎng)絡(luò)的大容量來(lái)平衡,這使得它可以學(xué)習(xí)更復(fù)雜的功能。ConvLSTM通過(guò)利用門(mén)的卷積實(shí)現(xiàn)了稍好一點(diǎn)的效果,這使得它更適合于空間特征提取。然而,它的內(nèi)存效率低下阻止了使用更深層次的架構(gòu),因此限制了模型的容量。結(jié)合這兩種方法,得到了一個(gè)CNNLSTM,它既能利用CNNs豐富的空間特征提取,又能利用LSTMs的時(shí)間特征表示,取得了比之前基線更好的效果。我們提出的方法在LSTM和注意機(jī)制中進(jìn)一步增加了卷積,得到了最好的結(jié)果。

混淆矩陣如表2所示。注意,OFF的檢測(cè)精度明顯較高,而FLASHERS的檢測(cè)精度較低,因?yàn)檫@兩個(gè)類(lèi)在數(shù)據(jù)集中分別表示過(guò)多和過(guò)少,即使使用分層抽樣方案,圖4d(a)這種不平衡自然會(huì)影響測(cè)試性能。

網(wǎng)絡(luò)故障模式。(a)夜間明亮的燈光被錯(cuò)誤地歸類(lèi)為左轉(zhuǎn)。(b)遠(yuǎn)處車(chē)輛右側(cè)的明亮反光被誤列為右轉(zhuǎn)彎。(c)一輛不常見(jiàn)的車(chē)輛識(shí)別結(jié)果為沒(méi)有發(fā)出右轉(zhuǎn)信號(hào)。(d)姿態(tài)解碼錯(cuò)誤,輸出翻轉(zhuǎn)。(e)在載有單車(chē)的車(chē)輛上作假性左轉(zhuǎn)。

結(jié)論

在自動(dòng)駕駛領(lǐng)域,檢測(cè)駕駛員的意圖是一項(xiàng)必不可少的任務(wù),是預(yù)測(cè)諸如變道和停車(chē)等突發(fā)事件的必要手段。在本文中,研究人員解決了轉(zhuǎn)彎信號(hào)分類(lèi)這一重要而尚未探索的問(wèn)題。提出了一種能夠端到端的訓(xùn)練方法,能夠處理車(chē)輛的不同視點(diǎn)。提出的神經(jīng)網(wǎng)絡(luò)通過(guò)意圖、卷積和遞歸來(lái)推斷空間和時(shí)間特征,從而在幀級(jí)對(duì)一系列觀測(cè)信號(hào)的轉(zhuǎn)彎信號(hào)狀態(tài)進(jìn)行分類(lèi)。該實(shí)驗(yàn)使用包含120多萬(wàn)張實(shí)況圖像的數(shù)據(jù)集來(lái)訓(xùn)練和評(píng)估的方法。未來(lái)在這個(gè)問(wèn)題上,研究領(lǐng)域?qū)?huì)擴(kuò)展到緊急車(chē)輛信號(hào),以及更多分類(lèi)的功能(例如來(lái)自曝光不足的相機(jī)的圖像)的識(shí)別問(wèn)題上。

參考:

[1] Frossard D, Kee E, Urtasun R.DeepSignals: Predicting Intent of Drivers Through Visual Signals[J]. arXivpreprint arXiv:1905.01333, 2019.

[2] icra2019.org

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)