數(shù)據(jù)和機器學習算法帶來的洞察力可能是無價的,但錯誤也可能是不可挽回的。以下這些最近備受矚目的AI失誤,展示了AI技術(shù)可能出錯的后果。
2017年,《經(jīng)濟學人》宣稱,數(shù)據(jù)已經(jīng)取代石油,成為世界上最寶貴的資源,這一說法自此廣泛流傳。各行各業(yè)的組織都在不斷加大對數(shù)據(jù)和分析的投資,然而,正如石油有其陰暗面,數(shù)據(jù)和分析也同樣存在風險。
根據(jù)CIO發(fā)布的2023年CIO狀況報告,26%的IT領(lǐng)導者表示,機器學習(ML)和AI將推動最重要的IT投資。盡管基于ML算法的決策可以為組織帶來競爭優(yōu)勢,但如果出現(xiàn)錯誤,可能會對聲譽、收入,甚至生命安全造成高昂代價。
理解數(shù)據(jù)及其傳遞的信息固然重要,但同樣重要的是了解你的工具、熟悉數(shù)據(jù),并始終將組織的價值觀放在首位。
以下是過去十年中幾起引人注目的AI失誤,展示了可能出錯的地方。
麥當勞因AI點餐失誤終止實驗
在與IBM合作三年,利用AI進行得來速點餐后,麥當勞在2024年6月宣布終止這一項目。原因是社交媒體上出現(xiàn)了一系列視頻,顯示顧客因AI誤解他們的訂單而感到困惑和沮喪。
其中一段TikTok視頻尤為引人注目,視頻中兩名顧客不斷懇求AI停止操作,因AI持續(xù)往他們的訂單中添加更多的麥樂雞,最終數(shù)量竟達到260份。在2024年6月13日,麥當勞在一份被行業(yè)刊物《餐飲業(yè)》獲取的內(nèi)部備忘錄中宣布,將結(jié)束與IBM的合作并停止測試。
麥當勞曾在超過100家美國得來速餐廳試點這一AI技術(shù),但表示仍然看好語音點餐解決方案的未來。
Grok AI錯誤指控NBA明星進行破壞活動
2024年4月,Elon Musk的xAI推出的聊天機器人Grok在X平臺上錯誤地指控NBA明星克萊·湯普森(Klay Thompson)在加州薩克拉門托市砸碎了多戶住宅的窗戶。
一些評論員推測,Grok可能是在吸收了關(guān)于湯普森“投籃打鐵”(“throwing bricks”是籃球術(shù)語,指投籃失誤)的帖子后“產(chǎn)生了幻覺”,錯誤地構(gòu)建了這起破壞事件。湯普森在他為金州勇士隊效力的最后一場比賽中表現(xiàn)不佳,勇士隊也遭遇了慘敗,這是他職業(yè)生涯中最糟糕的季后賽表現(xiàn)之一。之后,湯普森被交易至達拉斯小牛隊。
盡管Grok顯示了免責聲明,表示“Grok是一個早期功能,可能會出錯。請核實其輸出內(nèi)容?!?,但此事件仍引發(fā)了關(guān)于當AI聊天機器人發(fā)布虛假誹謗性言論時,責任應由誰承擔的質(zhì)疑。
紐約市AI聊天機器人鼓勵企業(yè)主違法
2024年3月,《Markup》報道,微軟支持的聊天機器人MyCity在向創(chuàng)業(yè)者提供錯誤信息,導致他們可能違法。
MyCity于2024年10月推出,旨在為紐約市民提供有關(guān)創(chuàng)業(yè)、經(jīng)營企業(yè)、住房政策和工人權(quán)利的信息,然而,《Markup》發(fā)現(xiàn)MyCity存在嚴重問題,它錯誤地聲稱企業(yè)主可以從員工的小費中抽取分成,解雇投訴性騷擾的員工,甚至可以提供被嚙齒動物咬過的食物,它還錯誤地宣稱房東可以根據(jù)收入來源進行歧視。
在報道曝光后,面對指控的紐約市市長Eric Adams為這一項目進行辯護。目前,這款聊天機器人仍然在線運營。
加拿大航空因聊天機器人誤導信息賠償乘客
2024年2月,加拿大航空被裁定向一名乘客賠償,原因是其虛擬助手在關(guān)鍵時刻提供了錯誤信息。
Jake Moffatt在2023年11月咨詢了加拿大航空的虛擬助手,詢問有關(guān)喪親票價的事項,因當時他的祖母去世。聊天機器人告訴他,可以先購買溫哥華到多倫多的全價票,然后在90天內(nèi)申請喪親折扣。根據(jù)這一建議,Moffatt購買了價值794.98加元的單程票和845.38加元的返程票。
然而,當Moffatt提交退款申請時,加拿大航空拒絕了他的請求,稱喪親票價折扣不能在購票后申請。
Moffatt將加拿大航空告上了加拿大的仲裁庭,指控該航空公司通過其虛擬助手提供了誤導性信息并存在過失。仲裁庭成員Christopher Rivers表示,加拿大航空辯稱它不應對聊天機器人提供的信息承擔責任。
Rivers否決了這一論點,指出加拿大航空未能“合理地確保其聊天機器人提供準確的信息”。因此,他命令加拿大航空賠償Moffatt 812.02加元,其中包括650.88加元的損害賠償金。
《體育畫報》可能發(fā)表了AI生成的作者文章
2023年11月,在線雜志Futurism報道稱,《體育畫報》可能刊登了由AI生成的作者撰寫的文章。
Futurism援引匿名消息來源稱,這家歷史悠久的體育雜志發(fā)布了大量由AI生成的作者撰寫的文章。該雜志發(fā)現(xiàn),相關(guān)作者的頭像出現(xiàn)在一個出售AI生成肖像的網(wǎng)站上。Futurism隨后聯(lián)系了《體育畫報》的出版商The Arena Group,后者在聲明中表示,這些文章是由第三方AdVon Commerce提供的授權(quán)內(nèi)容。
聲明中指出:“我們會持續(xù)監(jiān)控合作伙伴,并在這些指控提出時正在進行審查。AdVon向我們保證,所有相關(guān)文章均由人類撰寫和編輯?!?/span>
聲明還表示,AdVon的作者在某些文章中使用了筆名或假名,Arena Group并不認可這種行為。隨后,Arena Group將相關(guān)文章從《體育畫報》網(wǎng)站上撤下。
在Futurism文章發(fā)布后,《體育畫報》工會發(fā)表聲明,稱對此指控感到震驚,并要求Arena Group管理層提供透明的答案和解釋。
“如果這是真的,那么這些做法違反了我們對新聞業(yè)的所有信念,”《體育畫報》工會在聲明中表示?!拔覀儚娏曳磳εc這種對讀者不尊重的行為扯上關(guān)系?!?/span>
iTutor Group的招聘AI因年齡歧視拒絕應聘者
2023年8月,輔導公司iTutor Group同意支付36.5萬美元,以解決美國平等就業(yè)機會委員會(EEOC)提起的訴訟,該聯(lián)邦機構(gòu)表示,iTutor Group為中國學生提供遠程輔導服務,使用了AI驅(qū)動的招聘軟件,自動拒絕了年齡55歲及以上的女性申請者和年齡60歲及以上的男性申請者。
EEOC表示,超過200名合格的申請者被該軟件自動拒絕。
“年齡歧視既不公正也不合法,”EEOC主席Charlotte Burrows在一份聲明中表示,“即使技術(shù)在自動化歧視,雇主仍需承擔責任。”
盡管iTutor Group否認有任何不當行為,但最終還是決定與對方達成和解。作為和解和同意令的一部分,iTutor Group同意采用新的反歧視政策。
ChatGPT編造法院案例
2023年,大型語言模型(LLM)技術(shù)的進展引發(fā)了各行業(yè)對GenAI(Gen AI)變革潛力的廣泛興趣。OpenAI的ChatGPT成為這一浪潮的焦點,但該技術(shù)在可靠接管大多數(shù)流程之前還有很長的路要走。紐約律師Steven Schwartz在2023年就深陷困境,這件事也突顯了這一點。當時,他在針對哥倫比亞航空公司Avianca的訴訟中使用ChatGPT進行法律研究,結(jié)果被美國地方法院法官Kevin Castel發(fā)現(xiàn)其引用了虛構(gòu)的案例。
Schwartz是Levidow, Levidow & Oberman律師事務所的律師,他使用OpenAI的GenAI聊天機器人來查找支持Avianca員工Roberto Mata案件的先例,后者因2019年的一次受傷而提起訴訟,但提交的簡報中至少六個案例并不存在。在去年5月提交的文件中,Castel法官指出,Schwartz提交的案例包括虛假的名字、案件號、內(nèi)部引述和引文。
Schwartz的合伙人Peter LoDuca是Mata案件的代理律師,并在簡報上簽字,自己也因此卷入了這一風波。
在一份宣誓書中,Schwartz告訴法庭,這是他首次使用ChatGPT作為法律研究工具,他“并不知道其內(nèi)容可能是虛假的”。他承認沒有核實AI聊天機器人提供的來源,并表示后悔使用GenAI來補充法律研究,今后在未驗證信息真實性的情況下不會再使用。
2023年6月,Castel法官對Schwartz和LoDuca處以5000美元罰款,并在同月的另一項裁決中駁回了Mata對Avianca的訴訟。
AI算法識別一切,唯獨不適合新冠疫情
自2020年新冠疫情開始以來,許多組織試圖應用機器學習(ML)算法幫助醫(yī)院更快地診斷或分流患者,然而,根據(jù)英國數(shù)據(jù)科學與AI國家中心——圖靈研究所的報告,這些預測工具幾乎沒有帶來任何顯著效果。
《麻省理工科技評論》記錄了許多AI失敗案例,其中大部分源自工具在訓練或測試過程中的錯誤。使用錯誤標記的數(shù)據(jù)或來源不明的數(shù)據(jù)是常見的罪魁禍首。
劍橋大學的機器學習研究員Derek Driggs及其同事在《自然機器智能》上發(fā)表了一篇論文,探討了使用深度學習模型診斷COVID-19病毒的情況。該論文得出結(jié)論:這種技術(shù)不適合臨床使用。例如,Driggs的研究團隊發(fā)現(xiàn),他們自己的模型存在缺陷,因為其訓練數(shù)據(jù)集包含了躺著掃描和站立掃描的患者。躺著掃描的患者往往病情更嚴重,因此算法學會了根據(jù)患者的姿勢來識別COVID-19風險。
另一個類似的例子是,一個算法通過含有健康兒童胸部掃描圖的數(shù)據(jù)集進行訓練。結(jié)果該算法學會了識別兒童,而不是高風險患者。
Zillow因算法購房失敗減記數(shù)百萬資產(chǎn)并大幅裁員
2021年11月,在線房地產(chǎn)市場平臺Zillow告知股東,將逐步關(guān)閉其Zillow Offers業(yè)務,并在接下來的幾個季度內(nèi)裁減公司25%的員工,即大約2000名員工。該公司“房屋翻轉(zhuǎn)”部門的困境源于其用于預測房價的機器學習算法的錯誤率。
Zillow Offers是一個通過公司基于機器學習算法生成的房產(chǎn)估值“Zestimate”來提供現(xiàn)金購買房產(chǎn)的項目。該計劃的目的是翻新房產(chǎn)后迅速出售,然而,Zillow的發(fā)言人告訴CNN,該算法的中位數(shù)錯誤率為1.9%,而對于非市場上的房屋,該錯誤率可高達6.9%。
CNN報道,自2018年4月Zillow Offers推出以來,Zillow購買了27,000套房屋,但截至2021年9月底,僅售出了17000套。新冠疫情以及房屋翻新工人的短缺等“黑天鵝事件”也導致了算法準確性的問題。
Zillow表示,該算法導致公司以高于其后續(xù)預估銷售價格的價格購買了房產(chǎn),結(jié)果在2021年第三季度進行了3.04億美元的庫存減記。
在宣布后的投資者電話會議上,Zillow的聯(lián)合創(chuàng)始人兼CEO Rich Barton表示,盡管可以調(diào)整算法,但最終風險太大。
醫(yī)療算法未能標記黑人患者
2019年,《科學》雜志發(fā)表了一項研究,揭示了美國各大醫(yī)院和保險公司使用的一種醫(yī)療預測算法對黑人患者的識別能力較低,無法有效標記出需要高風險護理管理計劃的黑人患者。
高風險護理管理計劃為慢性病患者提供專業(yè)護理人員和初級護理監(jiān)控,旨在預防嚴重并發(fā)癥,然而,研究發(fā)現(xiàn)該算法更傾向于推薦白人患者參加這些計劃,而不是黑人患者。
研究發(fā)現(xiàn),該算法使用醫(yī)療費用作為衡量個人醫(yī)療需求的代理變量,然而,根據(jù)《科學美國人》的報道,病情較重的黑人患者的醫(yī)療費用與健康白人的費用相當,這導致他們獲得了較低的風險評分,即使他們的需求更高。
該研究的研究人員指出,可能有幾個因素導致了這一現(xiàn)象。首先,有色人種更可能收入較低,即使有保險,他們也可能較少獲得醫(yī)療服務。隱性偏見也可能導致有色人種獲得的醫(yī)療服務質(zhì)量較低。
盡管該研究未點明具體的算法或開發(fā)者,但研究人員告訴《科學美國人》,他們正在與開發(fā)者合作以解決這一問題。
微軟聊天機器人因數(shù)據(jù)集訓練發(fā)布種族主義推文
2016年3月,微軟學到了一個沉痛的教訓:使用Twitter上的互動作為機器學習算法的訓練數(shù)據(jù)可能會產(chǎn)生令人不安的結(jié)果。
微軟推出了一款名為Tay的AI聊天機器人,并將其描述為“對話理解”實驗。其設(shè)計初衷是讓這個聊天機器人扮演一位少女,通過ML和自然語言處理與Twitter用戶進行互動。微軟為其提供了匿名的公共數(shù)據(jù)和由喜劇演員預先編寫的部分內(nèi)容,然后讓它在社交網(wǎng)絡上進行學習和自我演化。
然而在短短16小時內(nèi),該機器人發(fā)布了超過95000條推文,其中迅速充斥了公然的種族主義、厭女癥和反猶主義言論。微軟迅速暫停了該服務進行調(diào)整,并最終徹底關(guān)閉了這一項目。
“我們對Tay發(fā)布的無意中冒犯和傷害性的推文深感抱歉,這些推文并不代表我們的立場,也不是我們設(shè)計Tay的初衷,”微軟研究與孵化部門的副總裁Peter Lee(當時是微軟醫(yī)療部門的副總裁)在事后發(fā)布于微軟官方博客的帖子中寫道。
Lee指出,Tay的前身Xiaoice于2014年由微軟在中國發(fā)布,在Tay發(fā)布前的兩年里,Xiaoice與超過4000萬人進行了成功的對話。但微軟沒有預料到,一些Twitter用戶會立即開始向Tay發(fā)送種族主義和厭女癥評論,Tay很快就從這些內(nèi)容中學習并將其融入自己的推文中。
亞馬遜AI招聘工具僅推薦男性
像許多大型公司一樣,亞馬遜渴望使用能夠幫助其人力資源部門篩選最佳候選人的工具,2014年,亞馬遜開始開發(fā)一款AI驅(qū)動的招聘軟件,然而,這款系統(tǒng)存在一個重大問題:它嚴重偏向男性候選人。2018年,路透社曝光了亞馬遜已經(jīng)放棄該項目的消息。
亞馬遜的系統(tǒng)會為候選人打分,分數(shù)從1星到5星不等,但系統(tǒng)核心的機器學習模型是基于亞馬遜過去十年收到的簡歷進行訓練的,而其中大多數(shù)簡歷來自男性候選人。由于這些訓練數(shù)據(jù)的影響,系統(tǒng)開始對包含“女性”字樣的簡歷短語進行懲罰,甚至降低了來自全女性學院的候選人的評分。
亞馬遜當時表示,這個工具從未被亞馬遜招聘人員用來評估候選人。公司嘗試修改該工具以使其中立,但最終決定無法保證它不會以其他歧視性的方式對候選人進行排序,因此終止了該項目。