訂閱
糾錯
加入自媒體

從 Manus 到 GO-1:當AI逐漸走入物理世界

2025-03-11 09:19
山自
關(guān)注

2025年3月的中國AI領(lǐng)域無疑是一顆投入平靜湖面的巨石,激起層層巨浪,吸引了全球的目光。先是Manus通用AI Agent以“全球首款執(zhí)行級智能體”的姿態(tài)橫空出世,如同一道耀眼的閃電劃破科技的夜空;緊接著,GO - 1通用具身基座大模型宣布開源,宣稱要“重新定義人機交互邊界”,似一場風暴席卷而來。這兩大技術(shù)的碰撞與競爭,讓人們不禁思考:當AI開始從云端走向物理世界,真正參與到現(xiàn)實的交互與創(chuàng)造中,人類距離真正的智能革命究竟還有多遠?

Manus:“執(zhí)行級AI Agent”的降維打擊Manus是由中國初創(chuàng)公司Monica.im開發(fā)的全球首款通用型AI智能體,其核心定位是自主執(zhí)行復雜任務并交付成果。Manus的出現(xiàn)標志著AI智能體從單一任務執(zhí)行向復雜決策的跨越,其名稱源自拉丁文“mens et manus”,意為“知行合一”,強調(diào)知識與行動的結(jié)合。

 1. 核心能力:從“思考”到“行動”的閉環(huán)

Manus的出現(xiàn),宛如一場技術(shù)革命,打破了傳統(tǒng)AI僅僅作為“工具”的屬性。它不再是被動地等待指令,而是具備了從理解指令到自主拆解任務、調(diào)用工具、跨平臺執(zhí)行并最終交付完整成果的能力,形成了一個從“思考”到“行動”的完美閉環(huán)。

在金融分析領(lǐng)域,當用戶輸入“分析特斯拉股價波動”這樣的指令時,Manus就像一位專業(yè)的金融分析師,能夠自動抓取特斯拉的財報,關(guān)聯(lián)美聯(lián)儲的政策信息,最終生成可視化的報告。這一過程不僅高效,而且精準,大大節(jié)省了金融從業(yè)者的時間和精力。

在教育場景中,教師只需上傳教材,Manus就能自動生成教案、制作PPT、編寫練習題,甚至還能模擬課堂互動。這對于教育工作者來說,無疑是一個得力的助手,能夠讓他們將更多的精力放在教學方法的創(chuàng)新和與學生的互動上。

在企業(yè)級應用方面,某跨境電商客戶利用Manus完成了競品分析、廣告投放、物流調(diào)度等全流程工作,效率提升了400%。這一顯著的成效充分展示了Manus在實際業(yè)務中的強大執(zhí)行力和價值。

圖片

更值得一提的是,Manus在GAIA基準測試中的表現(xiàn)堪稱驚艷。其綜合得分達到了86.5%,遠超OpenAI Deep Research的67.9%。這一數(shù)據(jù)表明,AI終于從“實驗室玩具”進化為“職場殺手級助手”,能夠在實際工作中發(fā)揮重要作用。

圖片

2. 技術(shù)底層:通用智能體的“靈魂三要素”

Manus之所以能夠具備如此強大的能力,得益于其通用智能體的“靈魂三要素”。

多模態(tài)感知是Manus的重要特性之一。它能夠兼容文本、圖像、語音等多維度輸入,就像人類擁有多種感官一樣,能夠從不同的渠道獲取信息,從而更全面地理解用戶的需求。

動態(tài)規(guī)劃則是Manus高效執(zhí)行任務的關(guān)鍵。通過強化學習,它能夠?qū)崟r調(diào)整任務的優(yōu)先級,根據(jù)實際情況靈活安排工作流程,確保任務能夠以最優(yōu)的方式完成。

云端執(zhí)行是Manus的強大后盾。依托分布式算力網(wǎng)絡,它能夠?qū)崿F(xiàn)7×24小時不間斷作業(yè),無論何時何地,都能為用戶提供及時、高效的服務。

正如團隊核心成員季逸超所言:“Manus不是更聰明的AI,而是更像‘人’的AI。”它的出現(xiàn),讓AI更加貼近人類的思維和行為方式,為人類的工作和生活帶來了更多的便利。

GO - 1:具身智能時代的“全能智囊團”

如果說Manus代表了人工智能在工具化應用上的突破,那么智元機器人發(fā)布的GO-1則是具身智能領(lǐng)域的一次重大飛躍。GO-1是全球首個通用具身基座大模型,它開創(chuàng)性地提出了Vision-Language-Latent-Action(ViLLA)架構(gòu)。這一架構(gòu)由VLM(多模態(tài)大模型)和MoE(混合專家)組成,通過深度學習和生成式人工智能技術(shù),實現(xiàn)了視覺、語言和動作的深度融合。

圖片

1. ViLLA架構(gòu):從“數(shù)據(jù)模型”到“物理世界的交互接口”

ViLLA架構(gòu)的核心在于彌合圖像-文本輸入與機器人執(zhí)行動作之間的鴻溝。與傳統(tǒng)的Vision-Language-Action(VLA)架構(gòu)相比,ViLLA通過引入Latent Action Tokens(隱式動作標記),顯著提升了模型的動作規(guī)劃和執(zhí)行能力。在實驗中,GO-1在五種不同復雜度的任務上表現(xiàn)卓越,成功率比現(xiàn)有最優(yōu)模型提高了32。

圖片

2. GO-1的四大創(chuàng)新

(1)人類視頻學習

GO-1能夠結(jié)合互聯(lián)網(wǎng)視頻和真實人類示范進行學習,增強模型對人類行為的理解。

(2)小樣本快速泛化

在極少數(shù)據(jù)甚至零樣本的情況下,GO-1能夠快速泛化到新場景和任務,極大地降低了具身智能的應用門。

(3)一腦多形

GO-1能夠靈活部署到不同類型的機器人本體上,支持多種機器人形態(tài),展現(xiàn)出極高的通用性和靈活。

(4)持續(xù)進化

通過數(shù)據(jù)回流系統(tǒng),GO-1能夠在實際使用中不斷學習和優(yōu)化自身性能,越用越聰。

3. GO-1的應用場景

GO-1的推出標志著具身智能向通用化、開放化和智能化方向的快速發(fā)展。未來,機器人將不再局限于實驗室,而是能夠適應多變的真實世界環(huán)。例如,在工業(yè)制造、物流配送、家庭服務等領(lǐng)域,GO-1能夠通過視覺、語言和動作的深度融合,實現(xiàn)高效的任務執(zhí)行。

產(chǎn)業(yè)鏈重構(gòu)與競爭升維 以生成式AI和大模型為代表的新一輪人工智能浪潮正在使廣泛的價值鏈受益。例如,算力需求的激增推動了芯片和云計算產(chǎn)業(yè)升級,數(shù)據(jù)成為核心生產(chǎn)資料,催生數(shù)據(jù)治理和隱私計算市場。同時,智能化應用的深化加速了制造、醫(yī)療、內(nèi)容、金融等行業(yè)的轉(zhuǎn)型升級。  從“數(shù)據(jù)模型”到“物理世界的交互接口”

與Manus側(cè)重“執(zhí)行”不同,GO - 1主打“理解與生成”,它的技術(shù)定位是成為物理世界的交互接口。其核心技術(shù)包括多模態(tài)大模型、具身推理和工具學習。

多模態(tài)大模型支持圖文音視頻的實時融合分析,能夠像人類一樣綜合處理多種信息,從而更準確地理解物理世界中的各種場景和指令。

具身推理通過傳感器數(shù)據(jù)構(gòu)建動態(tài)環(huán)境模型,讓GO - 1能夠感知周圍的環(huán)境變化,并根據(jù)這些變化做出相應的決策。

工具學習則使GO - 1能夠調(diào)用機械臂、無人機等實體設(shè)備執(zhí)行指令,真正實現(xiàn)了從虛擬世界到物理世界的跨越。

商業(yè)博弈:中國AI軍團的全球突圍戰(zhàn)

Manus派強調(diào)“任務導向”,通過標準化接口接入現(xiàn)有工具鏈,這種方式適合快速商業(yè)化。它能夠在短時間內(nèi)為企業(yè)和用戶提供高效的服務,滿足市場的需求。

GO - 1派則專注于 “系統(tǒng)級智能”,通過深度硬件協(xié)同與自主決策能力,構(gòu)建物理世界的實時交互閉環(huán)。它更像是 “嬰兒學習”—— 從感知環(huán)境到動作執(zhí)行全鏈路自主進化,而非依賴外部工具。例如,GO-1 通過 AgiBot World 百萬真機數(shù)據(jù)集訓練,能在無預設(shè)場景下理解人類指令并完成倒水、組裝等精細操作,這種能力在工業(yè)質(zhì)檢、服務機器人等領(lǐng)域展現(xiàn)出顛覆性潛力。其與蘑菇車聯(lián)車路云網(wǎng)絡的結(jié)合,更實現(xiàn)了從 “單車智能” 到 “城市級智能體” 的躍遷,為自動駕駛、低空物流等場景提供系統(tǒng)級解決方案。

兩者并無優(yōu)劣之分。Manus搶占企業(yè)服務市場,憑借其強大的執(zhí)行能力和高效的任務處理能力,為企業(yè)提供全方位的解決方案;GO - 1深耕硬件集成領(lǐng)域,通過與實體設(shè)備的深度融合,實現(xiàn)物理世界的智能交互。

政策對AI的支持

在政策層面,中國政府高度重視人工智能的發(fā)展。2025年全國兩會再次強調(diào)“人工智能+”行動,提出要持續(xù)推進“人工智能+”,將數(shù)字技術(shù)與制造優(yōu)勢、市場優(yōu)勢更好結(jié)合起來。這一政策導向?qū)槿斯ぶ悄芗夹g(shù)的落地和應用提供有力支持。 從“互聯(lián)網(wǎng)+”到“人工智能+”,AI已成為全球新一輪科技革命和產(chǎn)業(yè)變革的核心內(nèi)容。未來,隨著技術(shù)的不斷進步和政策的支持,人工智能將在更多領(lǐng)域?qū)崿F(xiàn)突破,推動社會的智能化發(fā)展。 AI的 “具身化” 與 “通用化”

從 Manus 的爭議到 GO-1 的突破,AI 的發(fā)展從未如此貼近現(xiàn)實。當智元機器人在臨港工廠量產(chǎn)人形機器人,當 Manus 的更新預告引發(fā)期待,我們正站在一個新時代的門檻:AI 不再是屏幕后的代碼,而是能感知、思考、行動的 “數(shù)字生命體”,

正如蘑菇車聯(lián)通過深度整合物理世界實時數(shù)據(jù)的AI大模型--MogoMind構(gòu)建城市的實時數(shù)字孿生底座,其通感算網(wǎng)絡已賦能自動駕駛、低空經(jīng)濟等領(lǐng)域,為 AI 與物理世界的深度融合提供了基礎(chǔ)設(shè)施支撐。這場技術(shù)革命,或?qū)⒅匦露x人類與世界的交互方式。

具身化是AI發(fā)展的重要方向。AI將從虛擬世界走向物理世界,通過機器人、無人機等終端直接參與生產(chǎn)生活。這意味著AI將不再僅僅是人們在屏幕前使用的工具,而是能夠真正融入到人們的生活和工作中,成為人們的伙伴和助手。

通用化也是AI發(fā)展的必然趨勢。單一任務模型將被基座模型取代,AI系統(tǒng)需同時具備理解、推理、執(zhí)行的綜合能力。這將使AI能夠更加靈活地應對各種復雜的任務和場景,為人類提供更加全面、高效的服務。

這一趨勢與馬斯克的Optimus、特斯拉的AI戰(zhàn)略不謀而合。當具身智能與通用智能體深度融合,AI或?qū)⒄嬲蔀?“人類的延伸”—— 既能在云端運籌帷幄,又能在現(xiàn)實世界動手創(chuàng)造智能時代的終極圖景 —— 一個虛實交融、萬物互聯(lián)的實時數(shù)字孿生世界。

       原文標題 : 從 Manus 到 GO-1:當AI逐漸走入物理世界

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號