訂閱
糾錯(cuò)
加入自媒體

對(duì)標(biāo)特斯拉Optimus,這家公司3年后要落地萬(wàn)臺(tái)人形機(jī)器人

作者 | 向欣

現(xiàn)下,端到端 VLA 已成為具身智能領(lǐng)域公認(rèn)的技術(shù)范式之一。

今年 2 月,一個(gè)可以控制人形機(jī)器人上半身,并使其識(shí)別、拾取幾乎所有家庭物品的端到端 VLA(視覺-語(yǔ)言-動(dòng)作模型)——Helix,讓其研發(fā)公司 Figure AI 獲得投資人的熱捧。該公司目前正在進(jìn)行一輪高達(dá) 15 億美元(約合人民幣108億)的融資。

其實(shí),有一家中國(guó)企業(yè)比 Figure AI 更早提出并應(yīng)用了端到端 VLA。

而且,他們最近還把 VLA 做了一次大升級(jí)。

這家企業(yè)是智平方科技。4 月 17 日,智平方科技發(fā)布了兩款新的技術(shù)成果:

具身大模型 Alpha Brain:VLA 模型全面進(jìn)化版,搭載了具備從桌面到開放環(huán)境,從單臂到全身協(xié)同,從簡(jiǎn)單任務(wù)到長(zhǎng)程推理能力的全域全身 VLA(GOVLA)。

通用智能機(jī)器人 AlphaBot 2(愛寶 2):全身自由度 34+,無(wú)需訓(xùn)練即可完成多種任務(wù)。

智平方新品最大的突破在于,把 VLA 拓展到了對(duì)人形機(jī)器人全身的控制,并且賦予了它應(yīng)對(duì)多場(chǎng)景、多任務(wù)的能力。

從這兩個(gè)新品的發(fā)布,不難看出智平方走的是軟硬一體的路線,他們既做大模型,也做人形機(jī)器人本體。

公司也是行業(yè)中最早強(qiáng)調(diào)并堅(jiān)持軟硬垂直整合的團(tuán)隊(duì),在技術(shù)研發(fā)方面有深度積累。

智平方成立于 2023 年 4 月,公司創(chuàng)始人郭彥東博士畢業(yè)于美國(guó)普渡大學(xué),曾任美國(guó)微軟總部研究員、小鵬汽車首席科學(xué)家、OPPO 首席科學(xué)家,完整經(jīng)歷了 PC、手機(jī)和汽車三大智能終端的創(chuàng)新周期,在 AI 與硬件的深度結(jié)合上擁有豐富的量產(chǎn)經(jīng)驗(yàn)。

在新品發(fā)布會(huì)上,智平方也提出了自己的商業(yè)化目標(biāo):2028 年實(shí)現(xiàn)機(jī)器人的萬(wàn)臺(tái)場(chǎng)景應(yīng)用,2033 年拓展至百萬(wàn)臺(tái)規(guī)模。

今年以來(lái),人形機(jī)器人商業(yè)化應(yīng)用的戰(zhàn)略價(jià)值持續(xù)凸顯。誰(shuí)能最先打通從模型到機(jī)器人的閉環(huán),誰(shuí)就掌握了主動(dòng)權(quán)。

智平方選擇了走難而正確的路——不是做 Demo,而是從一開始就向著「能用」的終局走去。

業(yè)內(nèi)首次突破

新模型可控制人形機(jī)器人全身

智平方在大模型方面有兩個(gè)研究方向:端到端 VLA、空間智能模型。

端到端 VLA 是一種視覺-語(yǔ)言-動(dòng)作模型,能夠?qū)⒁曈X輸入、語(yǔ)言指令直接輸出為動(dòng)作指令。

空間智能模型則專注于空間感知、建模與推理,解決機(jī)器人在 3D 環(huán)境中的定位、導(dǎo)航、交互等問題。

本次發(fā)布的大模型 Alpha Brain,是這兩個(gè)技術(shù)的融合體。

Alpha Brain 由智平方原有具身大模型品牌 AI2R Brain 升級(jí)而來(lái),它的核心構(gòu)成是智平方全棧自研的 GOVLA 大模型(GOVLA:Global & Omni-body Vision-Language-Action)。

可以用全域、全身這兩個(gè)關(guān)鍵詞理解 GOVLA 大模型,這也是該模型的兩個(gè)重要突破:

全域:具備空間和任務(wù)的泛化能力,可以執(zhí)行從桌面到開放環(huán)境、從簡(jiǎn)單任務(wù)到需要長(zhǎng)程復(fù)雜推理能力的任務(wù)。

全身:可以控制從單個(gè)機(jī)械臂到機(jī)器人全身的動(dòng)作。

其中,為了幫助機(jī)器人更好地實(shí)現(xiàn)對(duì)長(zhǎng)程復(fù)雜任務(wù)的理解和分析,智平方還將 DeepSeek 的技術(shù)融入到 VLA 大模型的構(gòu)建過程中。

在機(jī)器人領(lǐng)域,多數(shù) VLA 僅支持 6-7 自由度的單臂控制,動(dòng)作范圍固定,覆蓋桌面等單一場(chǎng)景,主要適配抓取、放下等簡(jiǎn)單的任務(wù)。

由于人形機(jī)器人自由度更高,一般為 20~60 個(gè),關(guān)節(jié)數(shù)量多,全身協(xié)同動(dòng)作復(fù)雜,運(yùn)動(dòng)控制難度更高,且獲取訓(xùn)練數(shù)據(jù)也更困難,如何將 VLA 模型部署于人形機(jī)器人,并進(jìn)行有效訓(xùn)練,使其具備完成任務(wù)的能力一直是具身大模型的難點(diǎn)。

此前美國(guó)人形機(jī)器人獨(dú)角獸 Figure AI 發(fā)布的 Helix 模型,就是實(shí)現(xiàn)了對(duì)人形機(jī)器人整個(gè)上半身的控制,可協(xié)調(diào) 35 個(gè)自由度,故而在具身智能領(lǐng)域引起轟動(dòng),也獲得了投資人的高度關(guān)注。

Helix 應(yīng)用于 Figure 人形機(jī)器人,整理家庭物品但 Figure AI 在視頻中展示的收納食品、分揀物流的操作任務(wù)也限于桌面,未能展現(xiàn)跨區(qū)域的移動(dòng)能力。

GOVLA 大模型更進(jìn)一步,首次提出了輸出全身控制和移動(dòng)軌跡。

意思就是,GOVLA 大模型可控制人形機(jī)器人全身的動(dòng)作,并根據(jù)任務(wù)需求在不同區(qū)域進(jìn)行移動(dòng),不僅限于桌面。

郭彥東博士舉了一個(gè)機(jī)器人做早餐的例子:

搭載常規(guī) VLA 大模型的機(jī)器人,需要人把食材放到桌面,放到機(jī)器人的可視范圍內(nèi),因?yàn)樗荒芸吹阶烂,只能在桌面操作,做完之后還需要人去給機(jī)器人提供服務(wù)。

而搭載 GOVLA 大模型的機(jī)器人能夠 360°感知周圍環(huán)境,可以自己去冰箱取食材,自己配比健康早餐,做完之后還可以送到餐桌,完成一個(gè)管家的全流程服務(wù)。這是一個(gè)機(jī)器人管家和一個(gè)自動(dòng)化設(shè)備的最大的區(qū)別。

在架構(gòu)層面,GOVLA 大模型由空間交互基礎(chǔ)模型、慢系統(tǒng)和快系統(tǒng)三部分組成,雙系統(tǒng)分工協(xié)作:

空間交互基礎(chǔ)模型:接收、處理環(huán)境信息;

慢系統(tǒng) System2:負(fù)責(zé)復(fù)雜邏輯推理、任務(wù)拆解,輸出語(yǔ)言交互內(nèi)容;

快系統(tǒng) System1:輸出機(jī)器人全身控制動(dòng)作與移動(dòng)軌跡,兼顧實(shí)時(shí)響應(yīng)與復(fù)雜決策能力。

這種架構(gòu)與 Figure AI 的 Helix 模型存在共通之處,Helix 由兩個(gè)系統(tǒng)組成:

系統(tǒng) 2 負(fù)責(zé)「慢思考」,理解場(chǎng)景和語(yǔ)言;

系統(tǒng) 1 負(fù)責(zé)「快反應(yīng)」,實(shí)時(shí)執(zhí)行和調(diào)整行動(dòng)。

Figure AI Helix 模型架構(gòu)

不同之處在于,智平方的 GOVLA 大模型將環(huán)境信息感知、處理這一功能分給了空間交互基礎(chǔ)模型,提升環(huán)境信息處理的獨(dú)立性,以應(yīng)對(duì)多樣化的復(fù)雜環(huán)境。

雖然 GOVLA 的架構(gòu)與 Helix 相似,但端到端 VLA 這一技術(shù)架構(gòu),其實(shí)由智平方更早提出。

其實(shí),在模型研發(fā)中,前瞻性是智平方一貫以來(lái)的特點(diǎn)。

端到端 VLA 成為具身智能領(lǐng)域的技術(shù)范式,由兩個(gè)關(guān)鍵性事件推動(dòng)。

一是 2024 年 6 月,美國(guó)具身智能公司 Physical Intelligence(PI)聯(lián)合斯坦福大學(xué)等高校與機(jī)構(gòu),發(fā)布了端到端 VLA 模型 OpenVLA。

OpenVLA 是一個(gè)開源模型,加速了技術(shù)的擴(kuò)散。

二是 2024 年 10 月,PI 發(fā)布了新模型π0,π0 讓機(jī)械臂成功執(zhí)行了疊衣服的任務(wù),實(shí)現(xiàn)了對(duì)衣物這種柔軟、易形變的復(fù)雜對(duì)象的操作,以及長(zhǎng)程任務(wù)的處理。

自此具身智能大模型的技術(shù)路線開始向端到端 VLA 方向收斂。

在端到端 VLA 方向上,智平方先于 PI 以及 Figure AI,聯(lián)合北京大學(xué),在 2024 年 6 月發(fā)布了端到端 VLA 模型 RoboMamba。

RoboMamba 不僅比 OpenVLA 更早發(fā)表并公開應(yīng)用,還在未見任務(wù)(指模型從未接觸過的全新任務(wù)類型或場(chǎng)景)的泛化能力上顯著超越 Google 的 RT 系列模型。

在智平方的另一模型研發(fā)方向:空間智能上,智平方也領(lǐng)先于行業(yè)。

空間智能這一技術(shù)是在 2024 年 4 月,「AI 教母」李飛飛成立了聚焦空間智能研發(fā)的 World Labs 后才獲得廣泛關(guān)注。

而智平方早在 2023 年初就開始布局,經(jīng)過一年多發(fā)展,其研發(fā)的空間感知基礎(chǔ)模型在多個(gè)任務(wù)上超越了硅谷頭部企業(yè)的 SOTA 模型。

憑借前瞻性布局與全棧自研能力,智平方正在把人形機(jī)器人從單一場(chǎng)景中的「能動(dòng)手」帶向多場(chǎng)景「會(huì)服務(wù)」的新階段。

機(jī)器人無(wú)需訓(xùn)練

即可干活 8 年后要落地百萬(wàn)臺(tái)

隨著機(jī)器人任務(wù)邊界持續(xù)拓展、應(yīng)用場(chǎng)景日益多元,各行業(yè)對(duì)其智能性、泛化能力與實(shí)時(shí)響應(yīng)提出了更高要求。

機(jī)器人系統(tǒng)復(fù)雜性不斷提升,軟硬件之間的協(xié)同程度也越來(lái)越高。

相比過去單項(xiàng)技術(shù)的獨(dú)立突破,如今的具身智能發(fā)展更依賴于軟硬件深度融合。「軟硬一體」正逐漸成為具身智能企業(yè)的發(fā)展趨勢(shì)。

一個(gè)典例就是,F(xiàn)igure AI 在今年 2 月宣布與為其提供模型方面技術(shù)支持的 Open AI 終止合作。

Figure AI 創(chuàng)始人表示,終止合作的原因之一是公司意識(shí)到必須要垂直整合機(jī)器人的軟硬件系統(tǒng),他們無(wú)法將模型交給外部企業(yè)來(lái)完成。

與自動(dòng)駕駛不同,只做軟件,對(duì)于尚未形成標(biāo)準(zhǔn)化產(chǎn)品的具身智能機(jī)器人,尤其是人形機(jī)器人來(lái)說,存在硬件適配、實(shí)時(shí)控制和數(shù)據(jù)閉環(huán)上的深度耦合問題。

實(shí)現(xiàn)軟硬件高度協(xié)同,不僅是提升性能的關(guān)鍵,也是企業(yè)實(shí)現(xiàn)規(guī);涞氐幕A(chǔ)。

因此,智平方在研發(fā)大模型時(shí),也同步研發(fā)人形機(jī)器人本體。

智平方一共推出過三代通用智能機(jī)器人,分別是 Alpha Bot、Alpha Bot 1S、AlphaBot 2,均為輪式可升降人形機(jī)器人。

在 2024 世界機(jī)器人大會(huì)期間,Alpha Bot 1S 在現(xiàn)場(chǎng)進(jìn)行了工作、生活場(chǎng)景的真實(shí)演示,能夠精準(zhǔn)放置零件、為人提供咖啡。

最新發(fā)布的 AlphaBot 2 較前代有了更大的提升:

靈活度:全身自由度 34+

續(xù)航:可連續(xù)工作 6h+

操作范圍:采用腰腿升降結(jié)構(gòu),垂直工作范圍 0-2.4m,單臂臂展 70cm(不含末端夾具)

感知能力:360°×360°全空間探測(cè)感知

AlphaBot 2 最大的亮點(diǎn)在于其操作、學(xué)習(xí)能力的提升。

機(jī)器人無(wú)需訓(xùn)練即可完成多種任務(wù),可快速掌握新任務(wù),適應(yīng)各種變化,適配汽車制造、半導(dǎo)體制造、公共服務(wù)、生物科技等多樣化任務(wù)。

在智平方發(fā)布的視頻中,AlphaBot 2 與人交流,并通過人類的肢體動(dòng)作理解其意圖,完成泡茶、準(zhǔn)備文房四寶等家庭場(chǎng)景中的任務(wù)。

例如當(dāng)人說「我渴了」,機(jī)器人會(huì)推薦喝茶,并且根據(jù)時(shí)令推薦茶品,或是通過人的搖頭、點(diǎn)頭動(dòng)作意識(shí)到肯定與否定的態(tài)度,從而改變自己的策略。

除了遠(yuǎn)期要落地的家庭場(chǎng)景,智平方的智能機(jī)器人目前主要面向「汽車+半導(dǎo)體+生物科技」三大核心制造場(chǎng)景。

在汽車制造場(chǎng)景,AlphaBot 直接對(duì)標(biāo)特斯拉 Optimus,拿下國(guó)際頭部車企訂單。

在半導(dǎo)體制造場(chǎng)景,今年 3 月,智平方與吉利科技旗下晶能微電子達(dá)成戰(zhàn)略合作,在晶能微電子的智能化半導(dǎo)體生產(chǎn)基地,AlphaBot 可執(zhí)行上下料、產(chǎn)線間物料轉(zhuǎn)運(yùn)等任務(wù)。今年雙方將推動(dòng) AlphaBot 系列在半導(dǎo)體制造場(chǎng)景的大規(guī)模使用。

在生物科技領(lǐng)域,智平方宣布與全球生物科技龍頭華熙生物戰(zhàn)略合作。智平方機(jī)器人未來(lái)將在華熙生物的工廠實(shí)現(xiàn)物料協(xié)同轉(zhuǎn)運(yùn)、智能拆包消毒、智能視覺檢驗(yàn)、多物料協(xié)同智能供料等操作。機(jī)器人可替代人工,避免交叉污染,降低微生物污染的風(fēng)險(xiǎn)。

智平方曾在今年 1 月宣布已獲得大量商業(yè)訂單,并于 2024 年實(shí)現(xiàn)數(shù)千萬(wàn)確認(rèn)收入,成為國(guó)內(nèi)最早進(jìn)行商業(yè)推廣的通用智能機(jī)器人公司。

此外,智平方機(jī)器人還計(jì)劃在今年第三、四季度分別進(jìn)入機(jī)場(chǎng)、社區(qū)(示范小區(qū))等公共服務(wù)場(chǎng)景,為大眾提供服務(wù)。

為了實(shí)現(xiàn)多場(chǎng)景落地的目標(biāo),智平方已啟動(dòng)自有產(chǎn)線建設(shè),并給出了一個(gè)具體的階段性商業(yè)化目標(biāo):

2028 年實(shí)現(xiàn)萬(wàn)臺(tái)場(chǎng)景應(yīng)用;

2030 年力爭(zhēng)為南山區(qū)產(chǎn)值貢獻(xiàn)一個(gè)百分點(diǎn);

2033 年拓展至百萬(wàn)臺(tái)規(guī)模,覆蓋工業(yè)、物流、家庭服務(wù)等多元化場(chǎng)景。

3 年后實(shí)現(xiàn)萬(wàn)臺(tái)落地,8 年后實(shí)現(xiàn)百萬(wàn)臺(tái)應(yīng)用,這樣的量產(chǎn)目標(biāo),不僅需要企業(yè)具備強(qiáng)大的制造與交付能力,也要擁有高效部署產(chǎn)品,搭建產(chǎn)品運(yùn)維體系的能力。

智平方團(tuán)隊(duì)在成熟的量產(chǎn)級(jí)端側(cè)部署經(jīng)驗(yàn)豐富,曾支撐數(shù)億智能終端(涵蓋車機(jī)、手機(jī)、IoT 等)的穩(wěn)定本地運(yùn)行,并與國(guó)內(nèi)外主流芯片廠商深度合作,具備跨平臺(tái)高性能部署能力,可適配不同算力的芯片環(huán)境。

近年來(lái),從國(guó)外 Figure AI 的高額融資到國(guó)內(nèi)各家展示機(jī)器人超強(qiáng)運(yùn)動(dòng)性能的視頻刷屏,具身智能正在成為全球科技圈的流量熱點(diǎn)。

具身智能并不缺熱鬧,缺的是系統(tǒng)性的解法。

智平方?jīng)]有停留在秀模型能力、或是硬件性能的階段,而是選擇同步構(gòu)建具身智能的底座,打造一套從感知到控制、從軟件到硬件的工程體系。

他們沒有被某一類示范效應(yīng)牽著走,而是用自研模型和機(jī)器人硬件的逐步提升,試著把人形機(jī)器人從設(shè)想推向現(xiàn)實(shí)。

從行業(yè)角度看,智平方不是最早進(jìn)入公眾視野的公司,卻可能是少數(shù)幾個(gè)走在正確軌道上的團(tuán)隊(duì)。

       原文標(biāo)題 : 對(duì)標(biāo)特斯拉Optimus,這家公司3年后要落地萬(wàn)臺(tái)人形機(jī)器人

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)