企業(yè)部署 AI 不再是試驗項目,而是戰(zhàn)略行動。預算已經常態(tài)化、模型選擇多元化、采購流程標準化、AI 應用開始系統(tǒng)落地。盡管產業(yè)需求和企業(yè)需求碎片化,但這正是企業(yè)擁抱的方向。一些關鍵廠商正在脫穎而出,企業(yè)也越來越多選擇成品應用以加速落地。
來源:A16Z
轉譯:產業(yè)家
2025年,AI大模型在企業(yè)場景的落地走到哪了?
過去一年,AI在企業(yè)中的地位發(fā)生了根本性轉變。它不再是創(chuàng)新實驗室里一場場孤立的試驗,也不僅是技術部門熱衷的“新玩具”,而是真正走入了核心業(yè)務系統(tǒng),成為IT和經營預算中不可或缺的一部分。
這是一場靜悄悄卻迅猛的演進:AI模型變得更多樣,采購流程愈發(fā)嚴謹,企業(yè)不再“自己造輪子”,而是開始像采購傳統(tǒng)軟件那樣,有條不紊地選擇、部署、評估人工智能服務。技術領導者們正變得越來越成熟——他們明白,不同模型適配不同任務,用例碎片化是常態(tài),而高質量的AI原生應用,正在快速超越傳統(tǒng)軟件廠商。
近日,A16z發(fā)布了一份主題為《AI技術在企業(yè)場景落地》的調研報告,報告基于與20多位企業(yè)買家的深度訪談和100位CIO的調研,全面回顧了企業(yè)在2025年如何部署、采購、集成和規(guī)劃AI。
這份報告背后對應的是一個新的觀點,即:AI不再是“是否值得嘗試”的問題,而是“如何規(guī);涞亍钡默F實挑戰(zhàn)。
AI落地到底如何?又或者說,AI在企業(yè)場景中到底該如何落地?怎樣更好的落地?可以說,它是一份調查,也更是一面全球企業(yè)落地AI的鏡子。
讓我們一起來走進這份報告。
以下為報告原文(部分語句做可讀性調整):
一年前,我們總結了企業(yè)在構建與采購生成式 AI(Gen AI)方面面臨的 16 項變革。時至今日,形勢已然大變。為此,我們重訪了 20 多位企業(yè)買家,并調研了橫跨 15 個行業(yè)的 100 位 CIO,試圖幫助創(chuàng)業(yè)者了解企業(yè)客戶在 2025 年及未來如何使用、采購與規(guī)劃 AI。
盡管 AI 世界瞬息萬變,過去一年市場格局的演進仍然超出了我們的預期:
1、企業(yè) AI 預算持續(xù)超標增長,從試點項目躍升為 IT 和業(yè)務核心預算的一部分。
2、企業(yè)在“多模型組合”上的運用日益成熟,開始注重性能與成本的平衡。OpenAI、谷歌和 Anthropic 是閉源市場的主力,而 Meta 與 Mistral 成為開源陣營的熱門選擇。
3、AI 模型采購流程日趨接近傳統(tǒng)軟件采購:評估更嚴、托管更講究、標準化測試更受重視。與此同時,更復雜的 AI 工作流也在推高模型替換成本。
4、AI 應用生態(tài)逐漸成型:標準化應用開始取代定制開發(fā),AI 原生的第三方應用迎來爆發(fā)增長。
本報告將圍繞企業(yè)在預算分配、模型選擇、采購流程與應用使用四大維度的最新趨勢,幫助創(chuàng)業(yè)者更細致地理解企業(yè)客戶真正關注的重點。
一、預算:AI 支出超出預期,并持續(xù)增長
1. AI 預算增長遠超預期,且毫無放緩跡象
企業(yè)對大語言模型(LLM)的投入已大幅超出去年原本就很高的預算預期,且預計未來一年將繼續(xù)增長,平均增幅約為 75%。正如一位 CIO 所說:“我 2023 年一整年的支出,現在一周就能用完。”
預算上升的原因有二:一方面,企業(yè)持續(xù)發(fā)掘更多內部用例,推動員工廣泛采用;另一方面,越來越多的企業(yè)開始部署面向客戶的 AI 應用,尤其是科技創(chuàng)新型企業(yè),這些場景的投入呈指數級擴展。一家大型科技公司表示:“去年我們主要專注于內部效率提升,今年的重點將轉向面向客戶的 Gen AI,投入會大大增加!

2. AI 正式納入核心預算,結束“試驗期”
一年前,企業(yè)在 LLM 上的支出中仍有約 25% 來自創(chuàng)新專項預算;如今,這一比例降至 7%。企業(yè)普遍將 AI 模型和應用的費用納入常規(guī) IT 與業(yè)務部門預算,體現出 AI 不再是探索性項目,而是業(yè)務運轉的“基礎設施”。
一位 CTO 指出:“我們的產品正在陸續(xù)集成 AI 功能,相關支出也自然水漲船高。”這意味著,AI 融入主流預算的趨勢還將進一步加速。

二、模型:多模型策略成為主流,
三大廠商初步確立領先地位
3. 多模型時代已成常態(tài),“差異化”而非“同質化”成驅動力
當前市面上已存在多個性能出色的 LLM,企業(yè)開始在實際生產中部署多種模型。雖然避免供應商綁定是一個重要原因,但更根本的動因是:不同模型在不同用例中的表現差異越來越顯著。
本年度調查中,37% 的企業(yè)正在使用五種及以上的模型,較去年的 29% 明顯增長。
雖然模型在某些通用評估中得分相近,但企業(yè)用戶發(fā)現,其實際效果差異不容忽視。例如,Anthropic 的 Claude 更擅長細粒度代碼補全,而 Gemini 更適用于系統(tǒng)設計和架構。在基于文本的任務中,用戶反饋 Anthropic的語言流暢性和內容生成更強,而 OpenAI 的模型更適合復雜問答任務。
這種差異促使企業(yè)采用“多模型最佳實踐”,既保障性能優(yōu)化,又降低對單一廠商的依賴。我們預判這種策略將在未來繼續(xù)主導企業(yè)的模型部署路徑。

4. 模型格局仍激烈,但三大廠商初顯優(yōu)勢
雖然企業(yè)在實驗和生產中持續(xù)試用多個模型,但市場上已出現三個領先者:OpenAI 保持市場份額領先,谷歌和 Anthropic 則在過去一年迅速追趕。
具體來看:
(1)OpenAI:其模型組合被廣泛應用,GPT-4o 是最常部署到生產環(huán)境中的模型,推理模型 o3 也引發(fā)高度關注。67% 的OpenAI 用戶在生產中部署了非前沿模型,這一比例遠高于谷歌(41%)和 Anthropic(27%)。
(2)谷歌:在大型企業(yè)中表現更突出,得益于 GCP 客戶基礎和品牌信任。Gemini 2.5 不僅具備頂級上下文窗口,在性價比上也具明顯優(yōu)勢——Gemini 2.5 Flash 每百萬 Token 成本為 0.26 美元,遠低于 GPT-4.1 mini 的 0.70 美元。
(3)Anthropic:在技術前沿型企業(yè)(如軟件公司與初創(chuàng)企業(yè))中受到高度青睞。其在代碼相關任務中的表現尤為突出,是增長最快的 AI 編碼應用背后的核心引擎。
此外,開源模型如Llama 與 Mistral 更受大型企業(yè)青睞,主要出于數據安全、合規(guī)和可定制性考慮。新玩家 xAI 的 Grok 模型也開始受到廣泛關注,市場仍充滿變數。

5. 對于中小型模型而言,閉源模型的性價比優(yōu)勢愈發(fā)明顯
如前所述,模型成本正以每年一個數量級的速度下降。在這一趨勢下,閉源模型(尤其是中小型模型)的性能/成本比正變得越來越有吸引力。
目前在這一領域表現領先的是 xAI 的 Grok 3 mini 和谷歌的 Gemini 2.5 Flash。例如,一些客戶表示,出于成本考量及生態(tài)系統(tǒng)集成便利,他們更傾向選擇閉源模型。
正如一位客戶坦言:“現在的定價已經非常誘人,而我們已經深度嵌入谷歌生態(tài),從 G Suite 到數據庫都在使用,他們的企業(yè)服務經驗對我們來說很有價值。”另一位客戶則更直白地總結道:“Gemini 很便宜。”
這反映出閉源模型在中低成本場景中正逐步贏得市場。

6. 隨著模型能力增強,微調的重要性正在下降
隨著模型智能水平和上下文窗口顯著提升,企業(yè)發(fā)現,實現優(yōu)異性能已不再依賴微調,而是更多依靠高效的 Prompt 工程。
某家企業(yè)觀察道:“我們不再需要提取訓練數據去微調模型,只要把它放進一個足夠長的上下文窗口,結果幾乎一樣好。”
這一轉變帶來兩個重要影響:
(1)降低使用成本:Prompt 工程成本遠低于微調;
(2)降低供應商綁定風險:Prompt 可輕松遷移至其他模型,而微調后的模型往往存在遷移困難和高前期投入。
不過,在某些超特定用例中,微調仍不可或缺。比如,一家流媒體公司就針對視頻搜索中的查詢增強,對開源模型進行了微調,以適應領域語言。
此外,若強化微調(Reinforcement Fine-tuning)等新方法在實驗室外得到廣泛應用,微調在未來也可能迎來新一輪增長。
總體而言,大多數企業(yè)在常規(guī)場景中對微調的 ROI 預期已經下降,且更傾向于在成本敏感型場景中選用開源模型。

7. 企業(yè)對“推理模型”前景樂觀,正積極準備規(guī)模化部署
推理模型(Reasoning Models)能夠讓大語言模型更準確地完成更復雜的任務,從而顯著擴大 LLM 的可用場景。盡管目前多數企業(yè)仍處于測試階段,尚未正式上線部署,但對于其潛力普遍持樂觀態(tài)度。
一位高管表示:“推理模型能幫助我們解決更多新型、復雜的任務場景,我預計它的使用量很快會出現大幅增長。只是目前我們還處于早期測試階段!
在早期使用者中,OpenAI的推理模型表現最為突出。盡管 DeepSeek 在行業(yè)中也有不少關注,但在生產部署方面,OpenAI 的優(yōu)勢非常明顯:本次調研顯示,有 23% 的企業(yè)已在生產中使用 OpenAI 的 o3 模型,而使用DeepSeek 的僅為 3%。不過,DeepSeek 在初創(chuàng)企業(yè)中的采用率相對更高,企業(yè)市場滲透仍較低。
隨著推理能力逐步融合進企業(yè)應用主流程,其影響力有望迅速放大。

三、采購:企業(yè)AI 采購流程趨于成熟,
正全面借鑒傳統(tǒng)軟件采購機制
8. 模型采購流程日趨規(guī)范,成本敏感度提升
當前,企業(yè)在選擇模型時已普遍采用系統(tǒng)性的評估框架。在我們訪談中,安全性和成本與準確性、可靠性一樣,成為模型采購的核心考量。正如一位企業(yè)負責人所言:“現在大多數模型的基礎能力都夠用,價格反而成了更重要的因素。”
此外,企業(yè)在“用例-模型”匹配上也日益專業(yè)化:
(1)對于關鍵場景或對性能要求高的任務,企業(yè)更傾向于選擇具有強品牌背書的頂級模型;
(2)對于內部或低風險任務,企業(yè)更多以“成本導向”作決策。

9. 企業(yè)對模型廠商信任度顯著提升,托管策略更加多元
過去一年,企業(yè)與模型廠商之間的信任明顯提升。雖然仍有一部分企業(yè)偏好通過現有云服務關系托管模型(如通過 AWS 使用 OpenAI),但越來越多的企業(yè)選擇直接與模型提供方合作,或通過 Databricks 等平臺托管,尤其是在模型并未由主力云廠商托管時。
正如一位受訪者所說:“我們想第一時間用上最新最強的模型,預覽版本也很關鍵!毕噍^去年“盡可能繞回主云廠商”的策略,這種直接托管趨勢是一個顯著轉變。

10. 隨著任務復雜性上升,模型切換成本也在快速上漲
去年,不少企業(yè)在設計AI 應用時刻意降低切換成本,希望模型“來去自如”。但隨著“代理式工作流”的興起,這一策略開始失效。
代理工作流通常涉及多步驟協(xié)作,模型之間的替換將牽一發(fā)而動全身。企業(yè)在構建提示語、設計護欄、驗證質量方面投入大量資源后,更不愿意輕易更換模型。
一位 CIO 總結得非常直接:“我們所有提示都為 OpenAI 優(yōu)化過了,每個 prompt 都有特定的結構和細節(jié)。要切到另一個模型,不僅要重新調教所有提示,還可能影響整個工作流的穩(wěn)定性!

11. 外部評估基準日漸成為“模型采購的第一道篩選”
隨著模型數量激增,企業(yè)采購者也越來越依賴類似 Gartner 魔力象限那樣的外部評價體系,如 LM Arena。這類評估為模型采購提供了初篩參考。
盡管企業(yè)仍高度重視內部基準測試、金標數據集和開發(fā)者反饋,但外部指標正在成為“第一道門檻”。不過,企業(yè)普遍強調:外部 benchmark 只是評估的一部分,真正決定性因素仍然來自實際試用和員工反饋。

四、應用:AI 應用加速落地,
企業(yè)從“自建”轉向“采購”
12. 企業(yè)從“自己開發(fā)”向“購買成品”大幅轉變
AI 應用生態(tài)正在迅速成熟。過去一年,企業(yè)從“自己構建”向“采購專業(yè)第三方應用”的轉變非常明顯。
原因主要有兩個:
(1)性能與成本的動態(tài)差異使持續(xù)評估和調優(yōu)成為必要,而這通常更適合由專業(yè)團隊而非內部團隊執(zhí)行;
(2)AI 領域演進迅速,內部自研工具難以長期維護,且未必構成競爭優(yōu)勢,反而降低了“自建”的性價比。
例如,在客戶支持場景中,超過 90% 的受訪 CIO 表示正在測試第三方應用。一家上市金融科技企業(yè)曾嘗試自研客戶服務系統(tǒng),但最終決定轉向采購成熟方案。這一趨勢在醫(yī)療等高風險行業(yè)尚未完全展開,因數據隱私與合規(guī)仍是首要考量。


13. “按結果計費”仍不被 CIO 廣泛接受
盡管“按效果付費”被廣泛討論,但企業(yè)在實踐中仍有諸多顧慮——例如結果定義模糊、歸因困難、成本不可控等。多數 CIO 表示:他們更傾向于按使用量計費的方式,因為這更直觀、可預測、可控。


14. 軟件開發(fā)成為首個“殺手級”AI 應用場景
雖然 AI 已在內部搜索、數據分析、客戶服務等多個領域落地,但軟件開發(fā)的應用爆發(fā)最為顯著。這得益于三重利好:
(1)模型能力顯著提升;
(2)現成工具質量極高;
(3)投資回報率直接可見,適用行業(yè)廣泛。
一家高增長 SaaS 公司 CTO 表示,他們現在近 90% 的代碼由 Cursor 和 Claude Code 生成——而一年前使用 GitHub Copilot 時,僅占比 10-15%。這種躍遷式采用雖仍屬于前沿現象,但可能正是企業(yè)界未來的風向標。

15. Prosumer 市場(生產者消費者融合)拉動應用早期增長
強消費品牌帶動企業(yè)采購決策的現象再次上演。
ChatGPT 是典型案例:許多 CIO 表示購買企業(yè)版 ChatGPT 是因為“員工用得慣、喜歡、信得過”。從生產者市場向企業(yè)端的自然延伸,加速了新一代 AI 應用的增長。

16. AI 原生應用的速度與質量正在超越傳統(tǒng)巨頭
雖然傳統(tǒng)廠商擁有渠道優(yōu)勢和品牌信任,但在產品質量與迭代速度上,AI 原生公司已開始超越。例如在編碼工具領域,Cursor 這類專為 AI 場景構建的工具,讓用戶對傳統(tǒng)的 GitHub Copilot 明顯“不再滿意”。
一位公共安全行業(yè) CIO點出:“第一代和第二代 AI 編碼工具差異極大。新一代原生產品更智能,也更實用。”


展望未來:企業(yè)級AI 的“試驗時代”已經結束
企業(yè)部署 AI 不再是試驗項目,而是戰(zhàn)略行動。預算已經常態(tài)化、模型選擇多元化、采購流程標準化、AI 應用開始系統(tǒng)落地。盡管用例碎片化,但這正是企業(yè)擁抱的方向。一些關鍵廠商正在脫穎而出,企業(yè)也越來越多選擇成品應用以加速落地。
市場形態(tài)愈加接近傳統(tǒng)軟件,但變化節(jié)奏與復雜性卻完全不同——這是 AI 的特有節(jié)奏。
原文標題 : 2025年,AI大模型在企業(yè)場景走到哪了?