如何正確構(gòu)建機(jī)器學(xué)習(xí)模型?
組織構(gòu)建一個(gè)可行的、可靠的、敏捷的機(jī)器學(xué)習(xí)模型來簡(jiǎn)化操作和支持其業(yè)務(wù)計(jì)劃需要耐心、準(zhǔn)備以及毅力。
各種組織都在為各行業(yè)中的眾多應(yīng)用實(shí)施人工智能項(xiàng)目。這些應(yīng)用包括預(yù)測(cè)分析、模式識(shí)別系統(tǒng)、自主系統(tǒng)、會(huì)話系統(tǒng)、超個(gè)性化活動(dòng)和目標(biāo)驅(qū)動(dòng)系統(tǒng)。每一個(gè)項(xiàng)目都有一個(gè)共同點(diǎn):它們都基于對(duì)業(yè)務(wù)問題的理解,并且數(shù)據(jù)和機(jī)器學(xué)習(xí)算法必須應(yīng)用于解決問題,從而構(gòu)建一個(gè)能夠滿足項(xiàng)目需求的機(jī)器學(xué)習(xí)模型。
部署和管理機(jī)器學(xué)習(xí)項(xiàng)目通常遵循相同的模式。然而,現(xiàn)有的應(yīng)用程序開發(fā)方法并不適用,因?yàn)槿斯ぶ悄茼?xiàng)目是由數(shù)據(jù)驅(qū)動(dòng)的,而不是編程代碼。學(xué)習(xí)來源于數(shù)據(jù),因此正確的機(jī)器學(xué)習(xí)方法源于以數(shù)據(jù)為中心的需求,并產(chǎn)生專注于數(shù)據(jù)發(fā)現(xiàn)、清理、培訓(xùn)、模型構(gòu)建和迭代階段的項(xiàng)目。
對(duì)于許多組織來說,機(jī)器學(xué)習(xí)模型開發(fā)是一項(xiàng)新活動(dòng),但是在某種程度上已經(jīng)建立了以數(shù)據(jù)為中心的項(xiàng)目構(gòu)建方法。
大約25年前,一個(gè)由五家供應(yīng)商組成的聯(lián)盟開發(fā)了跨行業(yè)的數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程(CRISP-DM),該流程專注于數(shù)據(jù)挖掘項(xiàng)目中各種數(shù)據(jù)密集型步驟的連續(xù)迭代方法。該方法從業(yè)務(wù)理解和數(shù)據(jù)理解之間的迭代循環(huán)開始。接下來是數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)建模之間的迭代循環(huán)的切換,然后是評(píng)估階段,它將結(jié)果分解到部署和業(yè)務(wù)理解。這種循環(huán)的、迭代的循環(huán)導(dǎo)致了連續(xù)的數(shù)據(jù)建模、準(zhǔn)備和評(píng)估。
但跨行業(yè)的數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程(CRISP-DM)的進(jìn)一步開發(fā)似乎已經(jīng)停滯在近20年前完全生產(chǎn)的1.0版本上,而在15年前還發(fā)布其第二個(gè)版本。IBM公司和微軟公司對(duì)這種方法進(jìn)行了更新和迭代,以生成它們自己的變體,這些變體為數(shù)據(jù)處理和建模之間的迭代循環(huán)添加了更多細(xì)節(jié),并提供了在此過程中產(chǎn)生的工件和可交付成果的更多細(xì)節(jié)。
此外,這種方法由于并不敏捷或不適用于人工智能和機(jī)器學(xué)習(xí)項(xiàng)目而受到質(zhì)疑。因此需要增強(qiáng)諸如人工智能的認(rèn)知項(xiàng)目管理之類的方法,以滿足人工智能特定的要求,并且可以在具有現(xiàn)有敏捷開發(fā)團(tuán)隊(duì)和數(shù)據(jù)組織的組織中實(shí)施這些方法。
這些方法論以及大型公司及其數(shù)據(jù)科學(xué)團(tuán)隊(duì)的學(xué)習(xí),因此采用了一種更強(qiáng)大、更靈活的分步方法來進(jìn)行機(jī)器學(xué)習(xí)模型開發(fā),以滿足認(rèn)知項(xiàng)目的特定需求。
步驟1.了解并識(shí)別業(yè)務(wù)問題(并定義成功)
任何機(jī)器學(xué)習(xí)項(xiàng)目的第一階段都是發(fā)展對(duì)業(yè)務(wù)需求的理解。在解決問題之前,組織需要知道要解決的問題。
首先,與項(xiàng)目所有者合作,并確保組織了解項(xiàng)目的目標(biāo)和要求。目的是將這些知識(shí)轉(zhuǎn)換為適合機(jī)器學(xué)習(xí)項(xiàng)目的定義,并制定實(shí)現(xiàn)該項(xiàng)目目標(biāo)的初步計(jì)劃。需要回答的關(guān)鍵問題包括:
?需要認(rèn)知解決方案的業(yè)務(wù)目標(biāo)是什么?
?解決方案的哪些部分是認(rèn)知的,哪些并沒有認(rèn)知?
?是否解決了所有必要的技術(shù)、業(yè)務(wù)和部署問題?
?項(xiàng)目定義的“成功”標(biāo)準(zhǔn)是什么?
?項(xiàng)目如何在迭代沖刺階段進(jìn)行?
?是否對(duì)透明度、可解釋性或減少偏見有特殊要求?
?道德方面的考慮是什么?
?精度和混淆矩陣值可接受的參數(shù)是什么?
?對(duì)模型的預(yù)期輸入和預(yù)期輸出是什么?
?要解決的問題的特征是什么?這是分類、回歸還是聚類問題?
?什么是“啟發(fā)式”:解決不需要機(jī)器學(xué)習(xí)的問題的快速方法?模型需要比啟發(fā)式方法好多少?
?如何衡量模型的收益?
盡管在第一個(gè)步驟中有很多問題要回答,但是回答甚至嘗試回答這些問題將會(huì)顯著增加整個(gè)項(xiàng)目成功的機(jī)會(huì)。
設(shè)定具體、可量化的目標(biāo)將有助于從機(jī)器學(xué)習(xí)項(xiàng)目中實(shí)現(xiàn)可測(cè)量的投資回報(bào)率,而不是簡(jiǎn)單地將其作為一個(gè)概念證明來實(shí)現(xiàn),稍后將被擱置一邊。其目標(biāo)應(yīng)該與組織業(yè)務(wù)目標(biāo)相關(guān),而不僅僅是機(jī)器學(xué)習(xí)。雖然機(jī)器學(xué)習(xí)特定的度量(例如精度、準(zhǔn)確性、召回率和均方誤差)可以包含在指標(biāo)中,但更具體的業(yè)務(wù)相關(guān)關(guān)鍵績效指標(biāo)(KPI)更好。
步驟2. 理解和識(shí)別數(shù)據(jù)
一旦對(duì)業(yè)務(wù)需求有了深刻的了解并獲得了計(jì)劃的批準(zhǔn),就可以開始建立機(jī)器學(xué)習(xí)模型了,是嗎?這種想法是錯(cuò)誤的。建立業(yè)務(wù)案例并不意味著組織擁有創(chuàng)建機(jī)器學(xué)習(xí)模型所需的數(shù)據(jù)。
機(jī)器學(xué)習(xí)模型是通過對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí)和概括而構(gòu)建的,然后將獲取的知識(shí)應(yīng)用于從未見過的新數(shù)據(jù)中進(jìn)行預(yù)測(cè)并實(shí)現(xiàn)其目的。數(shù)據(jù)不足將會(huì)阻止組織構(gòu)建模型,而僅訪問數(shù)據(jù)是不夠的。有用的數(shù)據(jù)必須是干凈的并且處于良好的狀態(tài)。
確定組織的數(shù)據(jù)需求,并確定數(shù)據(jù)是否適合機(jī)器學(xué)習(xí)項(xiàng)目。組織的重點(diǎn)應(yīng)放在數(shù)據(jù)識(shí)別、初始收集、需求、質(zhì)量識(shí)別、見解和潛在的值得進(jìn)一步研究的方面。以下是一些需要考慮的關(guān)鍵問題:
?訓(xùn)練模型所需的數(shù)據(jù)源在哪里?
?機(jī)器學(xué)習(xí)項(xiàng)目需要多少數(shù)據(jù)?
?當(dāng)前培訓(xùn)數(shù)據(jù)的數(shù)量是多少?質(zhì)量如何?
?如何拆分測(cè)試集數(shù)據(jù)和訓(xùn)練集數(shù)據(jù)?
?對(duì)于監(jiān)督學(xué)習(xí)任務(wù),是否可以標(biāo)記這些數(shù)據(jù)?
?可以使用預(yù)訓(xùn)練的模型嗎?
?操作和培訓(xùn)數(shù)據(jù)位于何處?
?在邊緣設(shè)備上或更難以到達(dá)的地方訪問實(shí)時(shí)數(shù)據(jù)是否有特殊需求?
回答這些重要問題有助于組織處理數(shù)據(jù)的數(shù)量和質(zhì)量,并了解使模型正常工作所需的數(shù)據(jù)類型。
此外,組織需要了解模型如何在實(shí)際數(shù)據(jù)上運(yùn)行。例如,該模型是否可以離線使用,以批處理模式對(duì)異步輸入和處理的數(shù)據(jù)進(jìn)行操作,還是可以實(shí)時(shí)使用并在高性能要求下運(yùn)行以提供即時(shí)結(jié)果?這些信息還將確定所需的數(shù)據(jù)類型和數(shù)據(jù)訪問要求。
組織還要確定模型是否將在迭代中訓(xùn)練,定期或?qū)崟r(shí)部署其版本。實(shí)時(shí)訓(xùn)練對(duì)數(shù)據(jù)提出了許多要求,這些要求在某些設(shè)置中可能不可行。
在人工智能項(xiàng)目的這一階段,了解真實(shí)世界數(shù)據(jù)和培訓(xùn)數(shù)據(jù)以及測(cè)試數(shù)據(jù)和培訓(xùn)數(shù)據(jù)之間是否存在任何差異,以及組織將采取何種方法來驗(yàn)證和評(píng)估模型的性能,這一點(diǎn)也很重要。
步驟3.收集并準(zhǔn)備數(shù)據(jù)
一旦正確地識(shí)別了數(shù)據(jù),組織就需要對(duì)這些數(shù)據(jù)進(jìn)行格式化,以便可以使用它來訓(xùn)練其模型。重點(diǎn)是構(gòu)建用于建模操作的數(shù)據(jù)集所必需的以數(shù)據(jù)為中心的活動(dòng)。數(shù)據(jù)準(zhǔn)備任務(wù)包括數(shù)據(jù)收集、清理、聚合、擴(kuò)充、標(biāo)記、規(guī)范化和轉(zhuǎn)換以及結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的任何其他活動(dòng)。
?數(shù)據(jù)準(zhǔn)備、收集和清理過程中的程序包
?從各種來源收集數(shù)據(jù)。
?跨不同數(shù)據(jù)源標(biāo)準(zhǔn)化格式。
?替換不正確的數(shù)據(jù)。
?增強(qiáng)和擴(kuò)充數(shù)據(jù)。
?添加更多具有預(yù)先計(jì)算數(shù)量的維度,并根據(jù)需要匯總信息。
?使用第三方數(shù)據(jù)增強(qiáng)數(shù)據(jù)。
? “倍增”基于圖像的數(shù)據(jù)集,如果這些數(shù)據(jù)集不足以進(jìn)行培訓(xùn)。
?刪除無關(guān)的信息和重復(fù)數(shù)據(jù)。
?從培訓(xùn)中刪除無關(guān)的數(shù)據(jù)以改善結(jié)果。
?減少噪音并消除歧義。
?考慮匿名化數(shù)據(jù)。
?標(biāo)準(zhǔn)化數(shù)據(jù)以使其進(jìn)入格式化范圍。
?來自大型數(shù)據(jù)集的樣本數(shù)據(jù)。
?選擇可標(biāo)識(shí)最重要尺寸的特征,并在必要時(shí)使用多種技術(shù)減小尺寸。
?將數(shù)據(jù)分為訓(xùn)練、測(cè)試和驗(yàn)證集。
數(shù)據(jù)準(zhǔn)備和清理任務(wù)會(huì)花費(fèi)大量時(shí)間。對(duì)機(jī)器學(xué)習(xí)開發(fā)人員和數(shù)據(jù)科學(xué)家的調(diào)查表明,數(shù)據(jù)收集和準(zhǔn)備步驟最多可占用機(jī)器學(xué)習(xí)項(xiàng)目80%的時(shí)間。俗話說“垃圾進(jìn)、垃圾出”。由于機(jī)器學(xué)習(xí)模型需要從數(shù)據(jù)中學(xué)習(xí),因此花費(fèi)在準(zhǔn)備和清理上的時(shí)間是值得的。
步驟4.確定模型的特征并訓(xùn)練模型
一旦數(shù)據(jù)處于可用狀態(tài),并且組織知道要解決的問題,就到了組織希望做出的下一步:訓(xùn)練模型,以通過應(yīng)用范圍從已準(zhǔn)備好的高質(zhì)量數(shù)據(jù)中學(xué)習(xí)技術(shù)和算法。
這一階段需要模型技術(shù)的選擇和應(yīng)用,模型訓(xùn)練、模型超參數(shù)設(shè)置和調(diào)整、模型驗(yàn)證、集成模型開發(fā)和測(cè)試、算法選擇以及模型優(yōu)化。為此,需要執(zhí)行以下操作:
?根據(jù)學(xué)習(xí)目標(biāo)和數(shù)據(jù)要求選擇正確的算法。
?配置和調(diào)整超參數(shù)以獲得最佳性能,并確定獲得最佳超參數(shù)的迭代方法。
?確定提供最佳結(jié)果的功能。
?確定是否需要模型可解釋性。
?開發(fā)集成模型以提高性能。
?測(cè)試不同型號(hào)的性能。
?確定模型的運(yùn)行和部署要求。
然后可以評(píng)估結(jié)果模型以確定其是否滿足業(yè)務(wù)和運(yùn)營要求。
步驟5.評(píng)估模型的性能并建立基準(zhǔn)
從人工智能的角度來看,評(píng)估包括模型度量評(píng)估、混淆矩陣計(jì)算、KPI、模型性能度量,模型質(zhì)量度量以及模型是否可以滿足已建立的業(yè)務(wù)目標(biāo)的最終確定。在模型評(píng)估過程中,應(yīng)該執(zhí)行以下操作:
?使用驗(yàn)證方法和驗(yàn)證數(shù)據(jù)集評(píng)估模型。
?確定分類問題的混淆矩陣值。
?確定k-折疊交叉驗(yàn)證的方法(如果使用該方法)。
?進(jìn)一步調(diào)整超參數(shù)以獲得最佳性能。
?將機(jī)器學(xué)習(xí)模型與基準(zhǔn)模型或啟發(fā)式模型進(jìn)行比較。
模型評(píng)估可以視為機(jī)器學(xué)習(xí)的“質(zhì)量保證”。根據(jù)指標(biāo)和要求對(duì)模型性能進(jìn)行充分評(píng)估,可以確定模型在現(xiàn)實(shí)世界中的工作方式。
步驟6.實(shí)驗(yàn)并調(diào)整運(yùn)行中的模型
當(dāng)組織確信機(jī)器學(xué)習(xí)模型可以在現(xiàn)實(shí)世界中工作時(shí),那么是時(shí)候看看它在現(xiàn)實(shí)世界中的實(shí)際運(yùn)行了,也稱之為“可操作性”模型:
?部署模型以持續(xù)測(cè)量和監(jiān)視其性能。
?制定基準(zhǔn),以可用來衡量模型的未來迭代。
?不斷迭代模型的不同方面,以提高整體性能。
模型的操作化可能包括在云計(jì)算環(huán)境中,邊緣、內(nèi)部部署或封閉環(huán)境中或封閉的受控組中的部署方案。在運(yùn)營方面的考慮因素包括模型版本控制和迭代、模型部署、模型監(jiān)視以及開發(fā)和生產(chǎn)環(huán)境中的模型分段。根據(jù)需求,模型的操作范圍可以從簡(jiǎn)單地生成報(bào)告到更復(fù)雜的多端點(diǎn)部署。
步驟7.實(shí)驗(yàn)和調(diào)整模型
即使模型是可運(yùn)行的,并且組織一直在監(jiān)視其性能,也還沒有結(jié)束。在實(shí)施技術(shù)時(shí),通常會(huì)說成功的秘訣是從小處開始,大處思考,并經(jīng)常進(jìn)行迭代。
始終重復(fù)該過程并及時(shí)進(jìn)行改進(jìn)以進(jìn)行下一次迭代。業(yè)務(wù)需求不斷發(fā)生變化,而技術(shù)能力也在不斷變化。實(shí)際數(shù)據(jù)以意想不到的方式變化。所有這些都可能對(duì)將模型部署到不同端點(diǎn)或新系統(tǒng)中提出新要求。而結(jié)束可能只是一個(gè)新的開始,因此最好確定以下內(nèi)容:
?對(duì)模型功能的下一個(gè)要求;
?擴(kuò)大模型培訓(xùn)以涵蓋更大的能力;
?改善模型的性能和準(zhǔn)確性;
?改進(jìn)模型的運(yùn)行性能;
?不同部署的操作要求;
?針對(duì)“模型漂移”或“數(shù)據(jù)漂移”的解決方案,這些解決方案可能會(huì)由于實(shí)際數(shù)據(jù)的變化而導(dǎo)致性能變化。
組織需要反思在其模型中哪些有效,哪些是正在進(jìn)行的工作。要在機(jī)器學(xué)習(xí)模型構(gòu)建中取得成功,最可靠的方法就是不斷地尋找改進(jìn)和更好的方法來滿足組織不斷發(fā)展的業(yè)務(wù)需求。
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯t

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
-
10 月之暗面,絕地反擊
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 4 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?
- 10 封殺AI“照騙”,“淘寶們”終于不忍了?