谷歌深夜發(fā)布復(fù)仇神器Gemini,原生多模態(tài)碾壓GPT-4?
作者:一號(hào)
GPT-4最強(qiáng)的對(duì)手出現(xiàn)了。
北京時(shí)間12月7日凌晨,谷歌CEO“劈柴”突然發(fā)布重磅AI殺手锏——Gemini。就在前幾天,還有消息說Gemini要推遲一個(gè)月才上線,結(jié)果現(xiàn)在這么突然地發(fā)布,著實(shí)讓AI圈料不到。以谷歌以往的實(shí)力,不用想,這又是AI界的一個(gè)“不眠之夜”。
在去年ChatGPT發(fā)布不到兩周,谷歌就拉響了「警報(bào)」來應(yīng)戰(zhàn),好不容易搞出來的Bard,在首次亮相的時(shí)候卻出現(xiàn)了失誤,讓谷歌市值一夜蒸發(fā)了1000億美元。
而且,GPT(Generative Pre-training Transformer)還是基于Transformer開發(fā)的,而這個(gè)Transformer模型最早還是谷歌提出來,要想谷歌心甘情愿地服輸,可不是那么容易。
果然,這一年的時(shí)間里,關(guān)于Gemini的消息就層出不窮,有的說谷歌大腦和DeepMind部門合并,幾乎耗盡谷歌內(nèi)部算力資源,就是為了背水一戰(zhàn),和OpenAI決戰(zhàn)。
不過前段時(shí)間,OpenAI的發(fā)布會(huì)把AI界炸了一圈,還上演了一出“宮斗劇”,甚至還傳出讓人浮想聯(lián)翩的Q*,谷歌都沒一點(diǎn)新消息,差點(diǎn)就讓人以為AI圈的王者已定。
就在一個(gè)月之前,英偉達(dá)科學(xué)家Jim Fan就曾說過,“人們對(duì)谷歌Gemini的期望高得離譜!谷歌要想重奪當(dāng)年AlphaGo的輝煌,Gemini不僅要100%達(dá)到GPT-4的能力,還要在成本或者速度上比GPT-4更好。”
生來就是全才
還好,從Gemini公布的演示視頻來看,它沒讓人失望。
“Gemini,從第一天起就是多模態(tài)大模型——跨越文本、圖像、視頻、音頻和代碼的無縫推理。”這是谷歌官網(wǎng)上,介紹Gemini的第一句話。
與ChatGPT通過升級(jí)迭代,逐步加上視覺、音頻等多模態(tài)能力,形成“合體金剛”的路徑不同,Gemini生來就是一位全才。它從第一天起就被設(shè)計(jì)成原生多模態(tài)結(jié)構(gòu),文本、圖像、音視頻能力從最開始就一起訓(xùn)練,從這一點(diǎn)上來看,Gemini的學(xué)習(xí)更像人類。這就意味著,Gemini可以無縫調(diào)動(dòng)多模態(tài)能力,抽象和理解、操作和組合不同類型的信息。
舉個(gè)例子,如果你同時(shí)上傳一張圖片給ChatGPT和Gemini,那么ChatGPT的處理將會(huì)是這樣的,先借助GPT-4V認(rèn)出來圖里是什么,然后轉(zhuǎn)成文本交給GPT去進(jìn)行語義理解,然后再作回答;而Gemini則可以基于圖像直接進(jìn)行理解并回應(yīng),不用進(jìn)行不同模型之間的調(diào)動(dòng)。因此,在實(shí)操過程中,Gemini可以減少信息的丟失,回應(yīng)也可以更加迅速和絲滑。
這從谷歌給到的演示視頻中便可以看出:
演示者一邊畫畫,Gemini就可以一邊辨認(rèn),并且用自然、流利的語音和演示者對(duì)話,在演示者拿出藍(lán)色的玩具鴨實(shí)物后,它還會(huì)幽默的回應(yīng):“看起來藍(lán)色的鴨子比我想象中更常見。”
很顯然,這樣的體驗(yàn)更接近漫威中的“賈維斯”——一個(gè)高級(jí)人工智能,能與人類自如地進(jìn)行交互。
而這樣的體驗(yàn),離不開Gemini的原生多模態(tài)架構(gòu)。
Gemini VS GPT-4
除了擁有令人驚嘆的原生多模態(tài)能力,在性能上,Gemini也是相當(dāng)強(qiáng)悍。
按照尺寸的不同,Gemini共有“中杯”、“大杯”還有“超大杯”三種,即Ultra、Pro和Nano三個(gè)不同的版本。它們?cè)谛阅芎瓦m配任務(wù)上的側(cè)重點(diǎn)各有不同。
·Gemini Ultra —規(guī)模最大且功能最強(qiáng)大的模型,適用于高度復(fù)雜的任務(wù),預(yù)計(jì)2024年初推出。
·Gemini Pro — 適用于各種任務(wù)的最佳模型,已經(jīng)被用在了谷歌聊天機(jī)器人Bard的升級(jí)版上。
·Gemini Nano — 可以在端端側(cè)設(shè)備上運(yùn)行的高效模型,已經(jīng)可以跑在谷歌Pixel 8 Pro手機(jī)上了。
根據(jù)谷歌給到的資料,從自然圖像、音頻和視頻理解,再到數(shù)學(xué)推理,Gemini Ultra的性能在32個(gè)常見的大語言模型(LLM)研究和開發(fā)的學(xué)術(shù)基準(zhǔn)測(cè)試中,拿下了30個(gè)SOTA。
其中,它在通用、推理、數(shù)學(xué)和編程等大方向的成績(jī)?nèi)缦拢?/p>
更讓人驚奇的是,在MMLU(大規(guī)模多任務(wù)語言理解)任務(wù)上,Gemini Ultra的得分達(dá)到了90.0%,超越了人類專家89.8%的成績(jī),首次達(dá)到了超越人類專家水平。
MMLU測(cè)試包括數(shù)學(xué)、物理、歷史、法律、醫(yī)學(xué)等57個(gè)學(xué)科,主要是用來考察大語言模型世界知識(shí)和解決問題的能力,而在這些學(xué)科中的每一個(gè),Gemini都達(dá)到了甚至超過了行業(yè)專家的水準(zhǔn)。
在圖像基準(zhǔn)測(cè)試中,Gemini Ultra在不使用OCR(對(duì)象字符識(shí)別)來提取圖像文本進(jìn)行下一步處理的情況下,表現(xiàn)優(yōu)于GPT-4V。
各種測(cè)試都表明,Gemini在多模態(tài)處理上表現(xiàn)出了強(qiáng)大的能力,并且在更復(fù)雜的推理上也有很大的潛力。
實(shí)際能力被質(zhì)疑
然而,在模型發(fā)布后不久,就有人在谷歌給到的60頁技術(shù)報(bào)告中發(fā)現(xiàn)了一些“小技巧”。
在MMLU測(cè)試中,Gemini的結(jié)果下面用灰色小字標(biāo)注著CoT@32,這表示,這個(gè)結(jié)果是使用了思維練提示技巧,嘗試了32次后選出來的最好結(jié)果,而對(duì)比GPT-4,則是無提示詞技巧,只嘗試了5次的結(jié)果,這測(cè)試結(jié)果,變量確實(shí)控制得不是很好。
而且在顯示超越人類專家的示意圖里,比例尺上也有問題,讓人以為超越了人類專家很多,但實(shí)際上并沒有相差多少。
HuggingFace的技術(shù)主管Philipp Schmind“修復(fù)”了這張圖,表示實(shí)際上應(yīng)該是這樣:
并且,在谷歌給到的一篇解釋多模態(tài)交互過程的博客中,似乎表明了演示視頻里,Gemini實(shí)時(shí)互動(dòng)并不是真的,而是使用了靜態(tài)圖片,通過多段提示詞拼湊,最后再剪輯視頻,才達(dá)到了演示視頻里的效果。
不管谷歌是不是有意使用“障眼法”,Gemini的發(fā)布無疑給看似穩(wěn)定的AI界帶來了一些“動(dòng)蕩”。
并且,谷歌還宣布推出了迄今為止最強(qiáng)大、最高效、最可擴(kuò)展的TPU系統(tǒng):Cloud TPU v5p,Gemini正式在此基礎(chǔ)上訓(xùn)練的,這意味著谷歌將有能力拜托英偉達(dá)的算力限制,也算給了AI芯片市場(chǎng)帶來了一些變化。
大模型的多模態(tài)探索
隨著ChatGPT通過升級(jí)迭代,擁有了多模態(tài)能力,以及Gemini所展現(xiàn)出來的原生多模態(tài)能力,我們可以清晰地感受到,AI大模型浪潮已經(jīng)進(jìn)入了一個(gè)全新的階段,即從大語言模型轉(zhuǎn)向多模態(tài)模型。后者將更符合人類和世界交互最自然的方式:用眼睛看,用耳朵聽,用嘴巴說,用文字記錄與決策。
多模態(tài)領(lǐng)域的技術(shù)探索,與互聯(lián)網(wǎng)媒介形式的變化也十分吻合,即從文字媒體,再到
音視頻媒體。如今,隨著抖音以及TikTok等短視頻平臺(tái)的興起,視頻已經(jīng)成為了我們這個(gè)信息時(shí)代的主流。
根據(jù)思科的年度互聯(lián)網(wǎng)報(bào)告,視頻已經(jīng)占據(jù)了互聯(lián)網(wǎng)超過80%的流量。
很明顯,如果一個(gè)AI大模型不具備識(shí)別圖像以及音視頻的能力,那么其訓(xùn)練數(shù)據(jù)將會(huì)跟不上信息迭代的速度,其能力也將大打折扣。
現(xiàn)如今,在多模態(tài)模型道路的探索上,除了GPT,Gemini也加入了進(jìn)來,不知道未來Meta的Llama還有馬斯克的Grok等等,是否也將加入角逐?
原文標(biāo)題 : 新火種AI|谷歌深夜發(fā)布復(fù)仇神器Gemini,原生多模態(tài)碾壓GPT-4?

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 4 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長(zhǎng)空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?