導(dǎo)讀:?AI項(xiàng)目的失敗往往跟大麻煩無關(guān),而是由一個(gè)個(gè)微小細(xì)節(jié)所決定。面對種種激動人心的可能性,企業(yè)在最初啟動AI項(xiàng)目時(shí)往往信心滿滿。但具體實(shí)施過程中的現(xiàn)實(shí)問題很容易熄滅這份熱情,導(dǎo)致AI項(xiàng)目被擱置甚至最終失敗。
AI項(xiàng)目的失敗往往跟大麻煩無關(guān),而是由一個(gè)個(gè)微小細(xì)節(jié)所決定。面對種種激動人心的可能性,企業(yè)在最初啟動AI項(xiàng)目時(shí)往往信心滿滿。但具體實(shí)施過程中的現(xiàn)實(shí)問題很容易熄滅這份熱情,導(dǎo)致AI項(xiàng)目被擱置甚至最終失敗。而引發(fā)失敗的常見問題之一,就是組織缺乏對項(xiàng)目長期成本的準(zhǔn)確考量。管理層只核算出了項(xiàng)目的初始成本,卻沒注意到后期的維護(hù)與更新開銷。
研究企業(yè)Cognilytica就對數(shù)百個(gè)失敗的AI項(xiàng)目做出全面分析,意識到很多組織沒有意識到AI項(xiàng)目生命周期的連續(xù)性。組織通常只會為項(xiàng)目的前幾輪迭代分配預(yù)算,包括數(shù)據(jù)準(zhǔn)備、清洗、模型訓(xùn)練、數(shù)據(jù)標(biāo)記、模型評估和迭代需求等,但卻沒能為持續(xù)實(shí)施的迭代工作保持預(yù)算供應(yīng)。另外,組織還必須持續(xù)監(jiān)控模型和數(shù)據(jù)衰減,根據(jù)需求重新訓(xùn)練模型,并考慮未來進(jìn)一步擴(kuò)展和迭代。隨著時(shí)間推移,這必然導(dǎo)致組織對AI項(xiàng)目的投資回報(bào)率產(chǎn)生預(yù)期偏差甚至失調(diào)。
在考量模型的連續(xù)迭代成本時(shí),大家到底經(jīng)歷了怎樣的思考過程?大多數(shù)組織面臨的挑戰(zhàn)是,他們往往把AI項(xiàng)目視為一次性概念驗(yàn)證或試點(diǎn)應(yīng)用,并沒有考慮預(yù)留一部分資金、資源和人力用于模型的持續(xù)評估和重新訓(xùn)練。但作為典型的數(shù)據(jù)驅(qū)動項(xiàng)目,AI絕不是一次性投資。人們可能沒有意識到,一旦模型被投入生產(chǎn),他們就需要持續(xù)為模型的迭代和開發(fā)分配資金、資源和人力。
所以只考慮到模型構(gòu)建成本的組織,會在項(xiàng)目啟動之后遇到各種問題。以AI項(xiàng)目成本和投資回報(bào)為例,AI項(xiàng)目所有者需要關(guān)注模型的維護(hù)成本是多少,以及愿意為后續(xù)數(shù)據(jù)準(zhǔn)備和模型迭代再投入多少資源。
而成功AI項(xiàng)目的一大共通之處,就在于其功能不會一次性交付。相反,成功的項(xiàng)目會將AI方案視為持續(xù)迭代的循環(huán),并不存在明確的起點(diǎn)和終點(diǎn)。就如同網(wǎng)絡(luò)安全項(xiàng)目不是一次性項(xiàng)目一樣,AI這類數(shù)據(jù)驅(qū)動項(xiàng)目也需要持續(xù)運(yùn)轉(zhuǎn),確保適應(yīng)不斷變化的現(xiàn)實(shí)、不斷變化的數(shù)據(jù)。即使是最初效果極好的模型,也可能隨著時(shí)間推移而逐漸失效,畢竟數(shù)據(jù)漂移和模型漂移不可避免。此外,隨著組織自身的發(fā)展,對AI應(yīng)用的專業(yè)知識和技巧、用例、模型及數(shù)據(jù)也會持續(xù)更新、不斷變化。
再有,全球經(jīng)濟(jì)和世界格局也在以意想不到的方式震蕩波動。于是乎,任何長期規(guī)劃項(xiàng)目、包括極度復(fù)雜的AI項(xiàng)目,都免不了要隨之做出調(diào)整。過去兩年以來,零售商肯定預(yù)料不到供應(yīng)鏈和勞動力市場出現(xiàn)的沖擊,組織也想不到員工會快速轉(zhuǎn)向居家辦公。現(xiàn)實(shí)世界和用戶行為的快速變化必然導(dǎo)致數(shù)據(jù)發(fā)生變化,所以模型也得隨之變化。正因?yàn)槿绱?,我們才需要對模型開展持續(xù)監(jiān)控和迭代,充分考慮到數(shù)據(jù)漂移與模型漂移問題。
關(guān)于迭代的思考:方法論與ML Ops
當(dāng)組織計(jì)劃擴(kuò)展或增強(qiáng)模型時(shí),也同樣需要匹配原有模型迭代機(jī)制。例如,如果一家北美企業(yè)希望將購買模式預(yù)測模型擴(kuò)展到其他市場,就需要持續(xù)迭代模型和數(shù)據(jù)以適應(yīng)新的數(shù)據(jù)需求。
這些因素意味著,組織必須不斷為迭代提供額外資金,確保模型能夠正確識別數(shù)據(jù)源及其他關(guān)鍵因素。而獲得AI成功的組織也意識到,他們需要遵循經(jīng)驗(yàn)驗(yàn)證的迭代和敏捷方法,借此順利完成AI項(xiàng)目擴(kuò)展。憑借敏捷方法論和以數(shù)據(jù)為中心的項(xiàng)目管理思路,跨行業(yè)數(shù)據(jù)挖掘流程標(biāo)準(zhǔn)(CRISP-DM)等已經(jīng)開始增強(qiáng)AI功能,保證迭代項(xiàng)目不至于遺漏掉某些關(guān)鍵步驟。
隨著AI市場的不斷發(fā)展,名為“ML Ops”的新興機(jī)器學(xué)習(xí)模型運(yùn)營管理也開始受到追捧。ML Ops專注于模型的開發(fā)和使用、機(jī)器學(xué)習(xí)運(yùn)營及部署的整個(gè)生命周期。ML Ops方法及解決方案旨在幫助組織在持續(xù)發(fā)展的空間當(dāng)中管理并監(jiān)控AI模型。ML Ops也可謂站在巨人的肩膀上,充分汲取了DevOps以開發(fā)為中心的項(xiàng)目持續(xù)迭代/開發(fā)思路,以及DataOps對于不斷變化的大規(guī)模數(shù)據(jù)集的管理經(jīng)驗(yàn)。
ML Ops的目標(biāo)是為組織提供模型漂移、模型治理與版本控制等可見性指引,借此協(xié)助AI項(xiàng)目迭代。ML Ops能幫助大家更好地管理這些問題。雖然目前市面上充斥著各種ML Ops工具,但ML Ops與DevOps一樣,主要強(qiáng)調(diào)的是組織自己做事,而非花錢購買就能無腦解決。Ml Ops最佳實(shí)踐涵蓋模型治理、版本控制、發(fā)現(xiàn)、監(jiān)控、透明度以及模型安全/迭代等一系列環(huán)節(jié)。ML Ops解決方案還能同時(shí)支持同一模型的多個(gè)版本,根據(jù)特定需求對其進(jìn)行行為定制。這類解決方案還會跟蹤、監(jiān)控和確定誰有權(quán)訪問哪些模型,同時(shí)嚴(yán)格保障治理及安全管理等原則。
考慮到AI迭代的現(xiàn)實(shí)需求,ML Ops已經(jīng)開始成為整體模型構(gòu)建與管理環(huán)境中的重要組成部分。這些功能未來也有望越來越多地作為整體AI及ML工具集中的一分子,并逐步登陸云解決方案、開源產(chǎn)品及ML機(jī)器學(xué)習(xí)平臺等應(yīng)用場景。
失敗是成功之母
ML Ops與AI項(xiàng)目的成功,離不開最佳實(shí)踐的支持和引導(dǎo)。問題并不會導(dǎo)致AI項(xiàng)目失敗,無法準(zhǔn)確解決問題才是失敗的根源。組織需要將AI項(xiàng)目視為一種迭代且循序漸進(jìn)的過程,并充分通過AI認(rèn)知項(xiàng)目管理(CPMAI)方法和不斷發(fā)展的ML Ops工具探索出適合自己的最佳實(shí)踐。從大處著眼,從小處著手,持續(xù)迭代的理念應(yīng)當(dāng)貫穿AI項(xiàng)目的整個(gè)生命周期。這些失敗案例絕不是故事的終章,而應(yīng)該成為新的開始。