數(shù)據(jù)質(zhì)量對于AI項目的成功至關重要,但你需要保留原始數(shù)據(jù)的豐富性、多樣性和完整性,以免破壞結(jié)果。
數(shù)據(jù)管理曾經(jīng)是數(shù)據(jù)倉庫團隊的職責,如今已經(jīng)越來越多地成了高管層的優(yōu)先事項,數(shù)據(jù)質(zhì)量被視為客戶體驗和業(yè)務績效的關鍵。但除了數(shù)據(jù)孤島和合規(guī)性問題外,數(shù)據(jù)質(zhì)量差也阻礙了企業(yè)AI項目的發(fā)展。雖然大多數(shù)高管普遍信任他們的數(shù)據(jù),但他們也表示,只有不到三分之二的數(shù)據(jù)是可用的。
AI編碼助手開發(fā)商Tabnine的聯(lián)合創(chuàng)始人、首席技術官Eran Yahav表示,對于許多組織而言,為AI準備數(shù)據(jù)是他們第一次以跨領域的方式查看數(shù)據(jù),從而發(fā)現(xiàn)系統(tǒng)之間的差異。
解決這個問題可能意味著要從基本的數(shù)據(jù)清潔度開始,例如確保數(shù)據(jù)庫中有正確的字段以滿足不同團隊的需求,或者整理用于AI的數(shù)據(jù)以反映出你想要的結(jié)果。我們正試圖讓AI擁有與企業(yè)中最好員工相同的知識,這就需要進行整理和清理,以確保清潔度和一致性,還需要反饋循環(huán)?!?/span>
有些組織會使用自己的代碼庫來教授AI編碼助手最佳實踐,他們需要刪除不希望重復的遺留代碼,而且大型數(shù)據(jù)集并不總是比小型數(shù)據(jù)集更好。Yahava說:“有客戶通過復制現(xiàn)有項目并對其進行修改來創(chuàng)建新項目,他們有上百份相同內(nèi)容的副本,只有細微的差異,而且無法區(qū)分它是否重要,因為都淹沒在各種重復中了。”
良好的數(shù)據(jù)治理始終涉及到處理數(shù)據(jù)集中的錯誤和不一致,以及通過刪除重復項、更正拼寫錯誤、標準化和驗證數(shù)據(jù)格式及類型、擴充不完整信息或檢測數(shù)據(jù)中不尋常和不可能的變化,以索引和分類結(jié)構(gòu)化數(shù)據(jù),這一點仍然是很重要的,但并不總是與AI處理的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)相關,這些數(shù)據(jù)也會有越來越多的變化。AI的數(shù)據(jù)質(zhì)量需要涵蓋偏見檢測、侵權(quán)預防、模型特征數(shù)據(jù)中的傾斜檢測和噪聲檢測等。
常見的數(shù)據(jù)管理實踐對于AI來說太慢、太結(jié)構(gòu)化、太死板,因為數(shù)據(jù)清理需要針對具體情況并根據(jù)特定用例進行量身定制。對于AI來說,沒有通用的標準來判斷數(shù)據(jù)是否“足夠干凈”。
即使是對于更傳統(tǒng)的機器學習來說,為商業(yè)智能和金融帶來回報的大規(guī)模數(shù)據(jù)清理工作也很少能夠滿足數(shù)據(jù)科學團隊的需求,這些團隊可能已經(jīng)針對AI進行他們自己的數(shù)據(jù)工程,并且在此過程中創(chuàng)建了更多不受管控的數(shù)據(jù)孤島,Domino Data Lab的AI戰(zhàn)略負責人Kjell Carlsson這樣說道。
數(shù)據(jù)清理不足會導致明顯的問題,但背景是關鍵。谷歌建議使用膠水制作披薩食譜,因為這讓美食攝影師可以把融化的馬蘇里拉奶酪看起來更誘人,這可能會被從通用大型語言模型中剔除出去,但正是你在訓練AI提供攝影技巧時想要包含的那種數(shù)據(jù)。相反,如果在訓練集中保留了明顯諷刺性網(wǎng)站的內(nèi)容來源,谷歌搜索中發(fā)現(xiàn)的其他一些不恰當?shù)慕ㄗh可能就會被避過。
Carlsson說:“數(shù)據(jù)質(zhì)量極其重要,但會導致非常循序漸進的思維,從而讓你誤入歧途。最好的情況下,它最終會浪費大量的時間和精力。最壞的情況下,它會進入并從你的數(shù)據(jù)中刪除信號,實際上與你所需要達到的目的是背道而馳的?!?/span>
相對來看
不同的領域和應用需要不同級別的數(shù)據(jù)清理。你不能將數(shù)據(jù)清理視為一種適合所有用途的萬能數(shù)據(jù),傳統(tǒng)的“單一版本事實”一直是商業(yè)智能的目標,但實際上是一個有偏見的數(shù)據(jù)集?!皼]有‘干凈的數(shù)據(jù)’這種東西,”Carlsson說。“它總是和你使用它的目的有關,在所有這些不同的用例中,干凈的數(shù)據(jù)是非常不同的?!?/span>
你可能會把員工記錄的數(shù)據(jù)質(zhì)量用于處理薪資和公司內(nèi)部新聞郵件活動,以此為例。日立公司全資子公司Pentaho產(chǎn)品管理高級總監(jiān)Kunju Kashalikar表示:“應該以不同的方式看待這些問題,根據(jù)不同的情況確定質(zhì)量?!?/span>
Carlsson補充說,AI需要更靈活、協(xié)作、迭代和定制化的數(shù)據(jù)清理,以適應數(shù)據(jù)的使用方式?!白畎舻氖?,我們現(xiàn)在是以很多以前沒有過的方式使用數(shù)據(jù),但的挑戰(zhàn)是,你需要對每一種數(shù)據(jù)采用不同的清潔方式?!庇袝r這意味著在清理方面做更多的工作,有時則意味著做更少的工作。
Carlsson警告說,如果組織在開始理解和構(gòu)建AI用例之前,就試圖為AI準備好數(shù)據(jù),那么可能會損害自身利益。因此,在開始為企業(yè)AI進行大規(guī)模數(shù)據(jù)清理之前,請考慮把數(shù)據(jù)清理得太干凈帶來的弊端。
收益遞減
軟件開發(fā)商Cohesity的EMEA首席技術官Mark Molyneux表示,CIO會問如何清理數(shù)據(jù),但他們應該問要清理到什么程度?!袄碚撋希憧赡苡肋h都在清理數(shù)據(jù),這取決于數(shù)據(jù)的大小?!?/span>
Syniti EMEA董事總經(jīng)理Chris Gorton就是一個典型的例子,他在職業(yè)生涯早期花了大量時間為一家自動售貨機公司清理客戶地址,結(jié)果卻發(fā)現(xiàn),他們真正需要的是發(fā)送發(fā)票的電子郵件地址,或者是維修設備的具體位置。
他警告說,很多組織都在囤積沒有運營價值的大型數(shù)據(jù)集,在開始大規(guī)模且昂貴的數(shù)據(jù)清理計劃之前,確定更清潔的數(shù)據(jù)會給你帶來什么價值,這一點非常重要?!叭绻悴荒苊枋瞿阈枰臄?shù)據(jù)活動,或者是結(jié)果如何關聯(lián)業(yè)務中的某些價值相,那么可能就是不需要做的,”Gorton說。
特別是從清理舊數(shù)據(jù)的角度來看,80/20規(guī)則可能不值得你付出努力。無論你把數(shù)據(jù)用于什么用途,這都適用。如果檢測和刪除數(shù)據(jù)集中錯誤電話號碼的成本,高于撥打那么多浪費的電話或發(fā)送那么多無法送達短信的成本,那么提前修復這些數(shù)字就是沒有投資回報的。
Kashalikar說:“很多組織花費大量時間丟棄或改進郵政編碼,但對于大多數(shù)數(shù)據(jù)科學而言,郵政編碼中的子部分并不重要,我們正在查看一個大致的地理區(qū)域,了解潛在的趨勢。這就是浪費太多東西的一個典型例子?!?/span>
哥倫比亞大學衛(wèi)生政策和管理兼職教授Howard Friedman說,要了解你是否從數(shù)據(jù)清理中獲得了價值,首先就要定義什么是成功,以及了解模型的要點。從基本數(shù)據(jù)分類和標準質(zhì)量檢查開始,包括缺失數(shù)據(jù)、范圍檢查、分布和相關性。并非所有列都是相同的,因此你需要優(yōu)先清理對模型和業(yè)務成果很重要的數(shù)據(jù)特征。不要清理數(shù)據(jù),而要對基本操作實施自動化,尋找解釋缺失數(shù)據(jù)的模式,考慮轉(zhuǎn)換特征,因為縮放可能會壓縮值或增加方差。
但在你追求更先進的數(shù)據(jù)質(zhì)量改進方法之前,先評估增量模型改進是什么?!叭绻抑换藥讉€小時的努力和幾千美元的投資就能獲得90%的模型價值,而不是必須花費25萬美元才能獲得完美的數(shù)據(jù),結(jié)果會怎樣?”Friedman問道。對于模型的小幅改進來說,只有10%的改善可能是不值得的。
“把它看作一個商業(yè)問題,我把時間和金錢投資放在哪里,我期望得到什么回報,”他說。
調(diào)查現(xiàn)有項目,看看數(shù)據(jù)質(zhì)量問題實際上有什么影響。除了投資清理低質(zhì)量數(shù)據(jù)集之外,你可能還有其他來源可以使用,這可能是你購買的數(shù)據(jù)或你構(gòu)建的黃金數(shù)據(jù)集。“如果你的數(shù)據(jù)清理預算有限,那就值得花這筆錢來創(chuàng)建一個由人類策劃的高質(zhì)量輸入和黃金標準輸出數(shù)據(jù)集,”斯坦福大學醫(yī)學院生物醫(yī)學數(shù)據(jù)Knight-Hennessy學者Akshay Swaminathan說?!霸谏墒紸I的世界中,準確性這個概念要模糊得多?!彪S著技術的進步,一個黃金問題數(shù)據(jù)集與黃金標準答案相結(jié)合,可以幫助你快速對新模型進行基準測試。
機會成本
過多的數(shù)據(jù)清理不僅會浪費時間和金錢,甚至可能會刪除有用的數(shù)據(jù)——即使這些數(shù)據(jù)看起來是不完整的。
Kashalikar說:“如果你最初有一百萬條記錄,而你得到了50萬條質(zhì)量最好的記錄,你真正想知道的是,在缺失的50萬條記錄中,有多少條質(zhì)量足夠好而你沒有得到。如果你有25萬條記錄,質(zhì)量足夠好但不夠完美,那么,你要么刪掉四分之一的潛在數(shù)據(jù),要么浪費時間去清理四分之一的記錄——而這并不是必須的?!?/span>
同樣重要的是,不要過度清理數(shù)據(jù),以免失去其獨特性,這也稱為過度規(guī)范化。數(shù)據(jù)集的過度標準化或同質(zhì)化,會消除有價值的變化和細微差別,而這些變化和細微差別是AI模型的重要特征,這么做會降低其泛化能力。例如,在不考慮區(qū)域差異的情況下,地址拼寫的規(guī)范化可能會抹去重要的人口統(tǒng)計洞察。
丟失異常值與過度規(guī)范化的問題類似,但針對的是單個數(shù)據(jù)點,而不是整個數(shù)據(jù)集。積極移除異常值和極端情況可以消除重要的邊緣情況,正如Swaminathan所說,“一個人的垃圾是另一個人的寶藏。”
數(shù)據(jù)集中一些不可能的數(shù)值很容易被安全地修復,例如價格不太可能為負數(shù),或者人類年齡超過200歲,但手動數(shù)據(jù)收集或設計不良的數(shù)據(jù)庫可能會出現(xiàn)錯誤。Yahav說:“也許數(shù)據(jù)是在醫(yī)院緊急情況下輸入的,然后更改了身高和體重。”例如,他處理的一個產(chǎn)品數(shù)據(jù)庫沒有產(chǎn)品序列號字段,因此工作人員將其放在了重量字段中。“突然間,玩具店里的產(chǎn)品重達五噸。”
但一些異常值或看似“臟”的數(shù)據(jù)點卻是真正的信號,而不是錯誤,可能表明有一些領域是值得探索的,Yahav說:“有人因為下雨而在交通中花了五個小時?這是交通信息的一個有趣的異常值。”
如果你正在訓練一個模型來去除醫(yī)療數(shù)據(jù)中的身份信息,那么它需要對異常值(如唯一名稱、地址的變體格式和識別號)具有魯棒性,以便正確檢測到這些異常值,這就意味著你需要在訓練集中包含這些異常值。特別是在處理代碼不太可能更新的遺留系統(tǒng)時,你的數(shù)據(jù)管道需要驗證和清理已知問題。但Yahav認為,其中一些需要人類判斷來區(qū)分真正的錯誤,而不是用于泛化的、有意義的信號。
增加偏見
過度激進的清理會刪除未通過驗證的記錄,從而導致數(shù)據(jù)集出現(xiàn)偏見,因為你會丟失具有特定特征的記錄。Kashalikar警告說,刪除沒有中間名首字母的記錄會導致刪除來自印度次大陸某些地區(qū)的人員。同樣,刪除不常見的姓名或堅持所有姓名都超過兩個字母,可能會導致模型出現(xiàn)偏差,從而針對不同人群有不佳表現(xiàn)。
“創(chuàng)建模型的數(shù)據(jù)科學家可能不了解沒有數(shù)據(jù)意味著什么業(yè)務影響,”他指出。讓那些了解問題背景的人參與數(shù)據(jù)清理決策,這一點非常重要。
去除背景
如果清理數(shù)據(jù)集過于徹底,你可能會刪除對整體情況至關重要的背景信息。一些網(wǎng)絡釣魚消息故意包含錯誤的拼寫和語法,以選擇不太謹慎和不太了解情況的受害者,而虛假鏈接將包含接近真實域名的URL。清理這些數(shù)據(jù)(或清理沮喪客戶消息中的語言)會消除有關如何應對問題的寶貴線索。而且大型語言模型使用數(shù)據(jù)的方式與更傳統(tǒng)的機器學期是不同的,數(shù)據(jù)的語義可能至關重要。
醫(yī)學轉(zhuǎn)錄模型的干凈數(shù)據(jù)集顯然不應包括YouTube視頻中要求用戶“喜歡和訂閱”的常用短語,因為像OpenAI Whisper這樣的通用模型在處理亂碼音頻時經(jīng)常會產(chǎn)生這些短語的幻覺,使其不適合醫(yī)學轉(zhuǎn)錄,但這些數(shù)據(jù)對于創(chuàng)建轉(zhuǎn)錄視頻的模型又是至關重要的。
Carlsson指出,標準數(shù)據(jù)清理還會消除停頓、嘆息、猶豫和說話者不愿意說完的單詞,但這些線索在試圖預測購買意愿或意圖時是很有用處的?!叭绻幸粋€模型可以檢測客戶的興趣,告訴客戶代表你應該停止強行推銷,因為這個人顯然不感興趣,那將是很有用處的,”他說。這就是為什么在清理數(shù)據(jù)之前知道要用數(shù)據(jù)做什么是如此重要。
忽略現(xiàn)實世界的混亂
傳統(tǒng)機器學習在處理混亂數(shù)據(jù)時很脆弱,因此很容易將其刪除。但是,數(shù)據(jù)過于統(tǒng)一可能會導致模型在干凈的結(jié)構(gòu)化數(shù)據(jù)(如訓練集)上表現(xiàn)良好,但在處理現(xiàn)實世界的混亂數(shù)據(jù)時卻舉步維艱,導致在生產(chǎn)環(huán)境中表現(xiàn)不佳。
Swaminathan解釋說,大型語言模型之所以能通過律師資格考試或醫(yī)學委員會,因為這些考試太過干凈了,無法作為有用的基準?!八鼮槟闾峁┝艘粋€病人的簡介,里面已經(jīng)包含了所有相關信息,它告訴你,病人會告訴你他們的生命體征、影像和實驗室結(jié)果。在現(xiàn)實世界中,醫(yī)生需要分別獲取所有這些信息?!蓖瑯拥?,如果你正在創(chuàng)建一個客戶支持的黃金數(shù)據(jù)集,那么要避免讓客戶的要求太過干凈和信息豐富。
Friedman承認,這里存在一個明顯的矛盾?!澳阌柧毜臄?shù)據(jù)集越臟,模型就越難學習,越難取得成功。但與此同時,為了讓它在現(xiàn)實世界中充分發(fā)揮作用,它需要能夠在那些更臟的環(huán)境中運行。”
大型語言模型尤其需要能夠?qū)﹀e誤的輸入做出反應。刪除口語、拼寫錯誤或區(qū)域語言差異,可能會給模型處理現(xiàn)實世界語言使用的能力造成阻礙?!傲私馊绾螒獙εK數(shù)據(jù)以及理想的干凈數(shù)據(jù)——從干凈數(shù)據(jù)開始是件好事,但最終它必須是穩(wěn)健的,”Friedman補充說。
缺失趨勢
以同樣的方式清理新舊數(shù)據(jù)可能會導致其他問題。新的傳感器可能更精確、更準確,客戶支持請求將涉及產(chǎn)品的較新版本,或者你要從他們的在線足跡中獲得有關潛在新客戶的更多元數(shù)據(jù)。無論數(shù)據(jù)源是什么,都可能有新的信息需要捕獲,或者數(shù)據(jù)中的特征可能會隨著時間的推移而發(fā)生變化。例如,在印度,離婚最近才得到官方承認。你不能將其添加到舊記錄中,但為了保持一致性,你也不應該將其從新記錄中刪除。因此,請注意數(shù)據(jù)清理不會掩蓋新舊數(shù)據(jù)之間的差異,從而導致模型無法考慮不斷變化的趨勢。
“即使對于相同的用例,基礎數(shù)據(jù)也會隨著時間的推移而發(fā)生變化,”Swaminathan警告說?!袄?,我們在2024年10月為回答客戶問題而制定的黃金基準,可能會在三個月后因自然災害而過時,突然出現(xiàn)衛(wèi)生紙短缺的情況。即使是同一家公司為同一個客戶執(zhí)行同一個任務,基準也會隨著時間的推移而過時?!?/span>
隨著趨勢的變化,你也可能會丟失數(shù)據(jù)中的信號。當客戶的聯(lián)系電話從固定電話轉(zhuǎn)移到手機時,組織就無法從號碼中提取客戶位置。“如果你使用區(qū)號來驗證位置,就會丟失大量的記錄,”Kashalikar補充說。與你合作的兩家公司也可能會合并,因此決定是將兩家公司視為同一實體,還是將其分開保存在你公司的黃金主記錄中,這要取決于具體的情況。
即使沒有重大變化,基礎數(shù)據(jù)本身也可能已經(jīng)發(fā)生變化。Friedman說:“感興趣的結(jié)果變量與你的特征之間的關系可能已經(jīng)發(fā)生改變,你不能簡單地鎖定目標,說‘這個數(shù)據(jù)集是絕對完美的’,然后把它從架子上拿下來,一年后再用來解決問題?!?/span>
為了避免所有這些問題,你需要讓具有專業(yè)知識的人參與進來,區(qū)分真正的錯誤和有意義的信號,記錄你對數(shù)據(jù)清理做出的決定及其原因,定期審查數(shù)據(jù)清理對模型性能和業(yè)務成果的影響。
不要前期先進行大量數(shù)據(jù)清理、然后才開始開發(fā),而是要采取迭代的方法,進行逐步的數(shù)據(jù)清理和快速實驗。
Yahav說:“我們已經(jīng)看到成功的方法就是逐步加入數(shù)據(jù),人們很容易說讓我們把所有東西都連接起來,相信這會起作用的。但當它給你帶來沖擊的時候,你都不知道哪里出了問題,不得不斷開連接?!?/span>
因此,你可以從少量的最近數(shù)據(jù)或你信任的數(shù)據(jù)開始,看看運作情況,然后從那里構(gòu)建更多的來源或數(shù)據(jù)量,看看在哪里出了問題?!八罱K會停下來,因為你忘記了一些東西會進入主管道,而有些事情會讓你大吃一驚,你希望這個過程足夠漸進,這樣你才能了解是什么原因造成的?!?/span>