777米奇色狠狠888俺也去乱,无码国产69精品久久久久网站,亚洲色欲AV无码成人专区

當(dāng)前位置： OFweek 人工智能網(wǎng) > 正文

對(duì)標(biāo)特斯拉Optimus，這家公司3年后要落地萬(wàn)臺(tái)人形機(jī)器人

2025-04-29 14:49

星河頻率

關(guān)注

作者 | 向欣

現(xiàn)下，端到端 VLA 已成為具身智能領(lǐng)域公認(rèn)的技術(shù)范式之一。

今年 2 月，一個(gè)可以控制人形機(jī)器人上半身，并使其識(shí)別、拾取幾乎所有家庭物品的端到端 VLA（視覺-語(yǔ)言-動(dòng)作模型）——Helix，讓其研發(fā)公司 Figure AI 獲得投資人的熱捧。該公司目前正在進(jìn)行一輪高達(dá) 15 億美元（約合人民幣108億）的融資。

其實(shí)，有一家中國(guó)企業(yè)比 Figure AI 更早提出并應(yīng)用了端到端 VLA。

而且，他們最近還把 VLA 做了一次大升級(jí)。

這家企業(yè)是智平方科技。4 月 17 日，智平方科技發(fā)布了兩款新的技術(shù)成果：

具身大模型 Alpha Brain：VLA 模型全面進(jìn)化版，搭載了具備從桌面到開放環(huán)境，從單臂到全身協(xié)同，從簡(jiǎn)單任務(wù)到長(zhǎng)程推理能力的全域全身 VLA（GOVLA）。

通用智能機(jī)器人 AlphaBot 2（愛寶 2）：全身自由度 34+，無(wú)需訓(xùn)練即可完成多種任務(wù)。

智平方新品最大的突破在于，把 VLA 拓展到了對(duì)人形機(jī)器人全身的控制，并且賦予了它應(yīng)對(duì)多場(chǎng)景、多任務(wù)的能力。

從這兩個(gè)新品的發(fā)布，不難看出智平方走的是軟硬一體的路線，他們既做大模型，也做人形機(jī)器人本體。

公司也是行業(yè)中最早強(qiáng)調(diào)并堅(jiān)持軟硬垂直整合的團(tuán)隊(duì)，在技術(shù)研發(fā)方面有深度積累。

智平方成立于 2023 年 4 月，公司創(chuàng)始人郭彥東博士畢業(yè)于美國(guó)普渡大學(xué)，曾任美國(guó)微軟總部研究員、小鵬汽車首席科學(xué)家、OPPO 首席科學(xué)家，完整經(jīng)歷了 PC、手機(jī)和汽車三大智能終端的創(chuàng)新周期，在 AI 與硬件的深度結(jié)合上擁有豐富的量產(chǎn)經(jīng)驗(yàn)。

在新品發(fā)布會(huì)上，智平方也提出了自己的商業(yè)化目標(biāo)：2028 年實(shí)現(xiàn)機(jī)器人的萬(wàn)臺(tái)場(chǎng)景應(yīng)用，2033 年拓展至百萬(wàn)臺(tái)規(guī)模。

今年以來(lái)，人形機(jī)器人商業(yè)化應(yīng)用的戰(zhàn)略價(jià)值持續(xù)凸顯。誰(shuí)能最先打通從模型到機(jī)器人的閉環(huán)，誰(shuí)就掌握了主動(dòng)權(quán)。

智平方選擇了走難而正確的路——不是做 Demo，而是從一開始就向著「能用」的終局走去。

業(yè)內(nèi)首次突破

新模型可控制人形機(jī)器人全身

智平方在大模型方面有兩個(gè)研究方向：端到端 VLA、空間智能模型。

端到端 VLA 是一種視覺-語(yǔ)言-動(dòng)作模型，能夠?qū)⒁曈X輸入、語(yǔ)言指令直接輸出為動(dòng)作指令。

空間智能模型則專注于空間感知、建模與推理，解決機(jī)器人在 3D 環(huán)境中的定位、導(dǎo)航、交互等問題。

本次發(fā)布的大模型 Alpha Brain，是這兩個(gè)技術(shù)的融合體。

Alpha Brain 由智平方原有具身大模型品牌 AI2R Brain 升級(jí)而來(lái)，它的核心構(gòu)成是智平方全棧自研的 GOVLA 大模型（GOVLA：Global & Omni-body Vision-Language-Action）。

可以用全域、全身這兩個(gè)關(guān)鍵詞理解 GOVLA 大模型，這也是該模型的兩個(gè)重要突破：

全域：具備空間和任務(wù)的泛化能力，可以執(zhí)行從桌面到開放環(huán)境、從簡(jiǎn)單任務(wù)到需要長(zhǎng)程復(fù)雜推理能力的任務(wù)。

全身：可以控制從單個(gè)機(jī)械臂到機(jī)器人全身的動(dòng)作。

其中，為了幫助機(jī)器人更好地實(shí)現(xiàn)對(duì)長(zhǎng)程復(fù)雜任務(wù)的理解和分析，智平方還將 DeepSeek 的技術(shù)融入到 VLA 大模型的構(gòu)建過程中。

在機(jī)器人領(lǐng)域，多數(shù) VLA 僅支持 6-7 自由度的單臂控制，動(dòng)作范圍固定，覆蓋桌面等單一場(chǎng)景，主要適配抓取、放下等簡(jiǎn)單的任務(wù)。

由于人形機(jī)器人自由度更高，一般為 20~60 個(gè)，關(guān)節(jié)數(shù)量多，全身協(xié)同動(dòng)作復(fù)雜，運(yùn)動(dòng)控制難度更高，且獲取訓(xùn)練數(shù)據(jù)也更困難，如何將 VLA 模型部署于人形機(jī)器人，并進(jìn)行有效訓(xùn)練，使其具備完成任務(wù)的能力一直是具身大模型的難點(diǎn)。

此前美國(guó)人形機(jī)器人獨(dú)角獸 Figure AI 發(fā)布的 Helix 模型，就是實(shí)現(xiàn)了對(duì)人形機(jī)器人整個(gè)上半身的控制，可協(xié)調(diào) 35 個(gè)自由度，故而在具身智能領(lǐng)域引起轟動(dòng)，也獲得了投資人的高度關(guān)注。

Helix 應(yīng)用于 Figure 人形機(jī)器人，整理家庭物品但 Figure AI 在視頻中展示的收納食品、分揀物流的操作任務(wù)也限于桌面，未能展現(xiàn)跨區(qū)域的移動(dòng)能力。

GOVLA 大模型更進(jìn)一步，首次提出了輸出全身控制和移動(dòng)軌跡。

意思就是，GOVLA 大模型可控制人形機(jī)器人全身的動(dòng)作，并根據(jù)任務(wù)需求在不同區(qū)域進(jìn)行移動(dòng)，不僅限于桌面。

郭彥東博士舉了一個(gè)機(jī)器人做早餐的例子：

搭載常規(guī) VLA 大模型的機(jī)器人，需要人把食材放到桌面，放到機(jī)器人的可視范圍內(nèi)，因?yàn)樗荒芸吹阶烂�，只能在桌面操作，做完之后還需要人去給機(jī)器人提供服務(wù)。

而搭載 GOVLA 大模型的機(jī)器人能夠 360°感知周圍環(huán)境，可以自己去冰箱取食材，自己配比健康早餐，做完之后還可以送到餐桌，完成一個(gè)管家的全流程服務(wù)。這是一個(gè)機(jī)器人管家和一個(gè)自動(dòng)化設(shè)備的最大的區(qū)別。

在架構(gòu)層面，GOVLA 大模型由空間交互基礎(chǔ)模型、慢系統(tǒng)和快系統(tǒng)三部分組成，雙系統(tǒng)分工協(xié)作：

空間交互基礎(chǔ)模型：接收、處理環(huán)境信息；

慢系統(tǒng) System2：負(fù)責(zé)復(fù)雜邏輯推理、任務(wù)拆解，輸出語(yǔ)言交互內(nèi)容；

快系統(tǒng) System1：輸出機(jī)器人全身控制動(dòng)作與移動(dòng)軌跡，兼顧實(shí)時(shí)響應(yīng)與復(fù)雜決策能力。

這種架構(gòu)與 Figure AI 的 Helix 模型存在共通之處，Helix 由兩個(gè)系統(tǒng)組成：

系統(tǒng) 2 負(fù)責(zé)「慢思考」，理解場(chǎng)景和語(yǔ)言；

系統(tǒng) 1 負(fù)責(zé)「快反應(yīng)」，實(shí)時(shí)執(zhí)行和調(diào)整行動(dòng)。

Figure AI Helix 模型架構(gòu)

不同之處在于，智平方的 GOVLA 大模型將環(huán)境信息感知、處理這一功能分給了空間交互基礎(chǔ)模型，提升環(huán)境信息處理的獨(dú)立性，以應(yīng)對(duì)多樣化的復(fù)雜環(huán)境。

雖然 GOVLA 的架構(gòu)與 Helix 相似，但端到端 VLA 這一技術(shù)架構(gòu)，其實(shí)由智平方更早提出。

其實(shí)，在模型研發(fā)中，前瞻性是智平方一貫以來(lái)的特點(diǎn)。

端到端 VLA 成為具身智能領(lǐng)域的技術(shù)范式，由兩個(gè)關(guān)鍵性事件推動(dòng)。

一是 2024 年 6 月，美國(guó)具身智能公司 Physical Intelligence（PI）聯(lián)合斯坦福大學(xué)等高校與機(jī)構(gòu)，發(fā)布了端到端 VLA 模型 OpenVLA。

OpenVLA 是一個(gè)開源模型，加速了技術(shù)的擴(kuò)散。

二是 2024 年 10 月，PI 發(fā)布了新模型π0，π0 讓機(jī)械臂成功執(zhí)行了疊衣服的任務(wù)，實(shí)現(xiàn)了對(duì)衣物這種柔軟、易形變的復(fù)雜對(duì)象的操作，以及長(zhǎng)程任務(wù)的處理。

自此具身智能大模型的技術(shù)路線開始向端到端 VLA 方向收斂。

在端到端 VLA 方向上，智平方先于 PI 以及 Figure AI，聯(lián)合北京大學(xué)，在 2024 年 6 月發(fā)布了端到端 VLA 模型 RoboMamba。

RoboMamba 不僅比 OpenVLA 更早發(fā)表并公開應(yīng)用，還在未見任務(wù)（指模型從未接觸過的全新任務(wù)類型或場(chǎng)景）的泛化能力上顯著超越 Google 的 RT 系列模型。

在智平方的另一模型研發(fā)方向：空間智能上，智平方也領(lǐng)先于行業(yè)。

空間智能這一技術(shù)是在 2024 年 4 月，「AI 教母」李飛飛成立了聚焦空間智能研發(fā)的 World Labs 后才獲得廣泛關(guān)注。

而智平方早在 2023 年初就開始布局，經(jīng)過一年多發(fā)展，其研發(fā)的空間感知基礎(chǔ)模型在多個(gè)任務(wù)上超越了硅谷頭部企業(yè)的 SOTA 模型。

憑借前瞻性布局與全棧自研能力，智平方正在把人形機(jī)器人從單一場(chǎng)景中的「能動(dòng)手」帶向多場(chǎng)景「會(huì)服務(wù)」的新階段。

機(jī)器人無(wú)需訓(xùn)練

即可干活 8 年后要落地百萬(wàn)臺(tái)

隨著機(jī)器人任務(wù)邊界持續(xù)拓展、應(yīng)用場(chǎng)景日益多元，各行業(yè)對(duì)其智能性、泛化能力與實(shí)時(shí)響應(yīng)提出了更高要求。

機(jī)器人系統(tǒng)復(fù)雜性不斷提升，軟硬件之間的協(xié)同程度也越來(lái)越高。

相比過去單項(xiàng)技術(shù)的獨(dú)立突破，如今的具身智能發(fā)展更依賴于軟硬件深度融合。「軟硬一體」正逐漸成為具身智能企業(yè)的發(fā)展趨勢(shì)。

一個(gè)典例就是，F(xiàn)igure AI 在今年 2 月宣布與為其提供模型方面技術(shù)支持的 Open AI 終止合作。

Figure AI 創(chuàng)始人表示，終止合作的原因之一是公司意識(shí)到必須要垂直整合機(jī)器人的軟硬件系統(tǒng)，他們無(wú)法將模型交給外部企業(yè)來(lái)完成。

與自動(dòng)駕駛不同，只做軟件，對(duì)于尚未形成標(biāo)準(zhǔn)化產(chǎn)品的具身智能機(jī)器人，尤其是人形機(jī)器人來(lái)說，存在硬件適配、實(shí)時(shí)控制和數(shù)據(jù)閉環(huán)上的深度耦合問題。

實(shí)現(xiàn)軟硬件高度協(xié)同，不僅是提升性能的關(guān)鍵，也是企業(yè)實(shí)現(xiàn)規(guī)�；涞氐幕A(chǔ)。

因此，智平方在研發(fā)大模型時(shí)，也同步研發(fā)人形機(jī)器人本體。

智平方一共推出過三代通用智能機(jī)器人，分別是 Alpha Bot、Alpha Bot 1S、AlphaBot 2，均為輪式可升降人形機(jī)器人。

在 2024 世界機(jī)器人大會(huì)期間，Alpha Bot 1S 在現(xiàn)場(chǎng)進(jìn)行了工作、生活場(chǎng)景的真實(shí)演示，能夠精準(zhǔn)放置零件、為人提供咖啡。

最新發(fā)布的 AlphaBot 2 較前代有了更大的提升：

靈活度：全身自由度 34+

續(xù)航：可連續(xù)工作 6h+

操作范圍：采用腰腿升降結(jié)構(gòu)，垂直工作范圍 0-2.4m，單臂臂展 70cm（不含末端夾具）

感知能力：360°×360°全空間探測(cè)感知

AlphaBot 2 最大的亮點(diǎn)在于其操作、學(xué)習(xí)能力的提升。

機(jī)器人無(wú)需訓(xùn)練即可完成多種任務(wù)，可快速掌握新任務(wù)，適應(yīng)各種變化，適配汽車制造、半導(dǎo)體制造、公共服務(wù)、生物科技等多樣化任務(wù)。

在智平方發(fā)布的視頻中，AlphaBot 2 與人交流，并通過人類的肢體動(dòng)作理解其意圖，完成泡茶、準(zhǔn)備文房四寶等家庭場(chǎng)景中的任務(wù)。

例如當(dāng)人說「我渴了」，機(jī)器人會(huì)推薦喝茶，并且根據(jù)時(shí)令推薦茶品，或是通過人的搖頭、點(diǎn)頭動(dòng)作意識(shí)到肯定與否定的態(tài)度，從而改變自己的策略。

除了遠(yuǎn)期要落地的家庭場(chǎng)景，智平方的智能機(jī)器人目前主要面向「汽車+半導(dǎo)體+生物科技」三大核心制造場(chǎng)景。

在汽車制造場(chǎng)景，AlphaBot 直接對(duì)標(biāo)特斯拉 Optimus，拿下國(guó)際頭部車企訂單。

在半導(dǎo)體制造場(chǎng)景，今年 3 月，智平方與吉利科技旗下晶能微電子達(dá)成戰(zhàn)略合作，在晶能微電子的智能化半導(dǎo)體生產(chǎn)基地，AlphaBot 可執(zhí)行上下料、產(chǎn)線間物料轉(zhuǎn)運(yùn)等任務(wù)。今年雙方將推動(dòng) AlphaBot 系列在半導(dǎo)體制造場(chǎng)景的大規(guī)模使用。

在生物科技領(lǐng)域，智平方宣布與全球生物科技龍頭華熙生物戰(zhàn)略合作。智平方機(jī)器人未來(lái)將在華熙生物的工廠實(shí)現(xiàn)物料協(xié)同轉(zhuǎn)運(yùn)、智能拆包消毒、智能視覺檢驗(yàn)、多物料協(xié)同智能供料等操作。機(jī)器人可替代人工，避免交叉污染，降低微生物污染的風(fēng)險(xiǎn)。

智平方曾在今年 1 月宣布已獲得大量商業(yè)訂單，并于 2024 年實(shí)現(xiàn)數(shù)千萬(wàn)確認(rèn)收入，成為國(guó)內(nèi)最早進(jìn)行商業(yè)推廣的通用智能機(jī)器人公司。

此外，智平方機(jī)器人還計(jì)劃在今年第三、四季度分別進(jìn)入機(jī)場(chǎng)、社區(qū)（示范小區(qū)）等公共服務(wù)場(chǎng)景，為大眾提供服務(wù)。

為了實(shí)現(xiàn)多場(chǎng)景落地的目標(biāo)，智平方已啟動(dòng)自有產(chǎn)線建設(shè)，并給出了一個(gè)具體的階段性商業(yè)化目標(biāo)：

2028 年實(shí)現(xiàn)萬(wàn)臺(tái)場(chǎng)景應(yīng)用；

2030 年力爭(zhēng)為南山區(qū)產(chǎn)值貢獻(xiàn)一個(gè)百分點(diǎn)；

2033 年拓展至百萬(wàn)臺(tái)規(guī)模，覆蓋工業(yè)、物流、家庭服務(wù)等多元化場(chǎng)景。

3 年后實(shí)現(xiàn)萬(wàn)臺(tái)落地，8 年后實(shí)現(xiàn)百萬(wàn)臺(tái)應(yīng)用，這樣的量產(chǎn)目標(biāo)，不僅需要企業(yè)具備強(qiáng)大的制造與交付能力，也要擁有高效部署產(chǎn)品，搭建產(chǎn)品運(yùn)維體系的能力。

智平方團(tuán)隊(duì)在成熟的量產(chǎn)級(jí)端側(cè)部署經(jīng)驗(yàn)豐富，曾支撐數(shù)億智能終端（涵蓋車機(jī)、手機(jī)、IoT 等）的穩(wěn)定本地運(yùn)行，并與國(guó)內(nèi)外主流芯片廠商深度合作，具備跨平臺(tái)高性能部署能力，可適配不同算力的芯片環(huán)境。

近年來(lái)，從國(guó)外 Figure AI 的高額融資到國(guó)內(nèi)各家展示機(jī)器人超強(qiáng)運(yùn)動(dòng)性能的視頻刷屏，具身智能正在成為全球科技圈的流量熱點(diǎn)。

具身智能并不缺熱鬧，缺的是系統(tǒng)性的解法。

智平方?jīng)]有停留在秀模型能力、或是硬件性能的階段，而是選擇同步構(gòu)建具身智能的底座，打造一套從感知到控制、從軟件到硬件的工程體系。

他們沒有被某一類示范效應(yīng)牽著走，而是用自研模型和機(jī)器人硬件的逐步提升，試著把人形機(jī)器人從設(shè)想推向現(xiàn)實(shí)。

從行業(yè)角度看，智平方不是最早進(jìn)入公眾視野的公司，卻可能是少數(shù)幾個(gè)走在正確軌道上的團(tuán)隊(duì)。

原文標(biāo)題 : 對(duì)標(biāo)特斯拉Optimus，這家公司3年后要落地萬(wàn)臺(tái)人形機(jī)器人