人工智能系統(tǒng)中存在著偏見(jiàn),但是有偏見(jiàn)的算法系統(tǒng)并不是一個(gè)新現(xiàn)象。隨著包括司法和健康等領(lǐng)域在內(nèi)的各種組織都在采用人工智能技術(shù),人們開(kāi)始關(guān)注對(duì)基于人工智能的決策缺乏問(wèn)責(zé)制和偏見(jiàn)。從人工智能研究人員和軟件工程師到產(chǎn)品領(lǐng)導(dǎo)者和消費(fèi)者,各種各樣的利益相關(guān)者都參與到人工智能流水線中。在人工智能、數(shù)據(jù)集以及政策和權(quán)利領(lǐng)域的必要專業(yè)知識(shí),可以共同揭示偏見(jiàn),但是,這些利益相關(guān)者之間并不是統(tǒng)一可用的。因此,人工智能系統(tǒng)中的偏見(jiàn)會(huì)在不明顯的情況下復(fù)合。 例如,機(jī)器學(xué)習(xí)開(kāi)發(fā)人員,他們被要求: 對(duì)數(shù)據(jù)進(jìn)行適當(dāng)?shù)念A(yù)處理,從幾個(gè)可用的模型中選擇正確的模型,調(diào)整參數(shù),調(diào)整模型體系結(jié)構(gòu)以適應(yīng)應(yīng)用程序的需求。假設(shè)一個(gè)機(jī)器學(xué)習(xí)開(kāi)發(fā)者被委托開(kāi)發(fā)一個(gè)人工智能模型來(lái)預(yù)測(cè)哪些貸款會(huì)違約。由于沒(méi)有意識(shí)到訓(xùn)練數(shù)據(jù)中的偏差,工程師可能會(huì)無(wú)意中只使用驗(yàn)證的準(zhǔn)確性來(lái)訓(xùn)練模型。假設(shè)培訓(xùn)數(shù)據(jù)中包含了太多違約的年輕人。在這種情況下,該模型很可能對(duì)年輕人在應(yīng)用于測(cè)試數(shù)據(jù)時(shí)的違約行為做出類似的預(yù)測(cè)。因此,機(jī)器學(xué)習(xí)的開(kāi)發(fā)人員有必要了解可能潛入人工智能流水線的各種偏差以及導(dǎo)致的偏見(jiàn)。 在人工智能系統(tǒng)中定義、檢測(cè)、測(cè)量和減少偏見(jiàn)并不是一件容易的事情,而且是一個(gè)熱門(mén)的研究領(lǐng)域。各國(guó)政府、非營(yíng)利組織和各行業(yè)都在做出許多努力,包括執(zhí)行法規(guī)以解決與偏見(jiàn)有關(guān)的問(wèn)題。認(rèn)識(shí)和解決各種社會(huì)機(jī)構(gòu)中的偏見(jiàn),需要經(jīng)過(guò)不斷的努力,以確保計(jì)算系統(tǒng)的設(shè)計(jì),以解決這些問(wèn)題。 這里不對(duì)設(shè)計(jì)公平的人工智能算法提出建設(shè)性思考,而是在實(shí)踐方面,在數(shù)據(jù)創(chuàng)建,數(shù)據(jù)分析和評(píng)估的過(guò)程中,關(guān)注偏差與偏見(jiàn)的問(wèn)題形成,,具體包括:
典型的人工智能流水線從數(shù)據(jù)創(chuàng)建階段開(kāi)始: (1)收集數(shù)據(jù); (2)對(duì)數(shù)據(jù)進(jìn)行注釋或標(biāo)記; (3)將數(shù)據(jù)準(zhǔn)備或處理成其他管道可以使用的格式。讓我們分析在每個(gè)步驟中如何引入了不同類型的偏差。 數(shù)據(jù)集創(chuàng)建偏差在數(shù)據(jù)集的創(chuàng)建過(guò)程中,可能會(huì)出現(xiàn)特定類型的偏差。 采樣偏差通過(guò)選擇特定類型的實(shí)例而不是其他類型的數(shù)據(jù)集所產(chǎn)生的偏差稱為采樣偏差。這是最常見(jiàn)的數(shù)據(jù)集偏差類型之一。例如,圖像數(shù)據(jù)集更喜歡街景或自然場(chǎng)景。人臉識(shí)別算法可能會(huì)得到更多淺膚色人臉的照片,從而導(dǎo)致識(shí)別深膚色人臉的偏差。因此,采樣偏差可能導(dǎo)致學(xué)習(xí)算法的泛化能力變差。 測(cè)量偏差測(cè)量偏差是由于人類測(cè)量中的誤差,或者由于人們?cè)讷@取數(shù)據(jù)時(shí)的某些固有習(xí)慣而引起的。例如,考慮圖像和視頻數(shù)據(jù)集的創(chuàng)建,其中的圖像或視頻可能反映了攝影師使用的技術(shù)。一些攝影師可能傾向于以類似的方式拍攝物體; 因此,數(shù)據(jù)集可能只包含特定角度的物體視圖。這種類型的測(cè)量偏差稱為捕獲偏差。 測(cè)量偏差的另一個(gè)來(lái)源可能是用于捕獲數(shù)據(jù)集的設(shè)備誤差。例如,用于捕捉圖像的相機(jī)可能存在缺陷,導(dǎo)致圖像質(zhì)量差,從而導(dǎo)致有偏見(jiàn)的結(jié)果。這些類型的偏見(jiàn)又被廣泛地歸類為設(shè)備偏見(jiàn)。 當(dāng)在創(chuàng)建數(shù)據(jù)集時(shí)使用代理而不是真實(shí)值時(shí),可能會(huì)出現(xiàn)第三種測(cè)量偏差。例如,把醫(yī)生和用藥用來(lái)作為醫(yī)療條件等的指標(biāo)。 標(biāo)簽偏差標(biāo)簽偏差與標(biāo)簽過(guò)程中的不一致性有關(guān)。不同的標(biāo)注者有著不同的樣式和偏好,這些都反映在創(chuàng)建的標(biāo)簽中。當(dāng)不同的標(biāo)注者為同一類型的對(duì)象分配不同的標(biāo)簽時(shí),標(biāo)簽偏見(jiàn)的一個(gè)常見(jiàn)例子就出現(xiàn)了。 當(dāng)評(píng)價(jià)者的主觀偏見(jiàn)影響標(biāo)簽時(shí),另一種類型的標(biāo)簽偏見(jiàn)也會(huì)發(fā)生。例如,在詮釋文本中所體驗(yàn)到的情感任務(wù)中,標(biāo)注者的主觀偏好,如他們的文化、信仰和內(nèi)省能力,可能會(huì)使標(biāo)簽產(chǎn)生偏見(jiàn)。確認(rèn)偏見(jiàn),即人類傾向于搜索、解釋、關(guān)注和記憶信息以確認(rèn)自己的先入之見(jiàn),與這種類型的標(biāo)簽偏見(jiàn)密切相關(guān)。因此,標(biāo)簽可能是根據(jù)先前的信念而不是客觀的評(píng)估來(lái)分配的。 第三種類型的標(biāo)簽偏見(jiàn)可能產(chǎn)生于峰終效應(yīng)。這是一種與記憶相關(guān)的認(rèn)知偏見(jiàn),人們?cè)谂袛嘁欢谓?jīng)歷時(shí),主要基于他們?cè)诮?jīng)歷的頂峰(即最激烈的時(shí)刻)和結(jié)束時(shí)的感受,而不是基于這段經(jīng)歷每一時(shí)刻的總和或平均值。例如,在分配標(biāo)簽時(shí),一些標(biāo)準(zhǔn)者可能更重視對(duì)話的最后一部分,而不是整個(gè)會(huì)話。 否定集偏差否定集偏差定義為由于沒(méi)有足夠的代表“世界其他地方”的樣本而引入數(shù)據(jù)集的結(jié)果。數(shù)據(jù)集定義一個(gè)現(xiàn)象(例如,對(duì)象,場(chǎng)景,事件)不僅僅是根據(jù)它是什么(正面的實(shí)例) ,還根據(jù)它不是什么(負(fù)面的實(shí)例)。因此,分類器可能在檢測(cè)負(fù)實(shí)例方面表現(xiàn)不佳。 問(wèn)題定義產(chǎn)生的偏差偏見(jiàn)還會(huì)根據(jù)問(wèn)題的定義而產(chǎn)生。假設(shè)一家銀行想使用人工智能來(lái)預(yù)測(cè)客戶的信用可靠性。為了做到這一點(diǎn),必須以一種可以“預(yù)測(cè)或估計(jì)”的方式來(lái)定義信用可靠性這個(gè)問(wèn)題,可以根據(jù)公司的需要來(lái)制定,比如說(shuō),最大化利潤(rùn)率或最大化得到償還的貸款數(shù)量。然而,這些決定是出于各種商業(yè)原因,而不是公平或歧視。 信用可靠性例子也可以被認(rèn)為是一種框架效應(yīng)偏差?;趩?wèn)題是如何表述的以及信息是如何呈現(xiàn)的,所得到的結(jié)果可能是不同的,甚至可能是有偏見(jiàn)的。因此,基于問(wèn)題及其成功度量的定義方式,可能會(huì)產(chǎn)生偏差。 與算法/數(shù)據(jù)分析有關(guān)的偏差在算法或數(shù)據(jù)分析過(guò)程中可能會(huì)出現(xiàn)幾種類型的偏差。 樣本選擇偏差樣本選擇偏差是通過(guò)選擇個(gè)體、群體或數(shù)據(jù)進(jìn)行分析而引起的,這種方式使得樣本不能代表要分析的總體。特別地,樣本選擇偏差是在數(shù)據(jù)分析過(guò)程中由于對(duì)數(shù)據(jù)集中的某些變量(例如,特定的膚色、性別等)進(jìn)行調(diào)節(jié)而產(chǎn)生的,這反過(guò)來(lái)又會(huì)產(chǎn)生虛假的相關(guān)性。例如,在分析母親身份對(duì)工資的影響時(shí),如果僅限于已經(jīng)就業(yè)的婦女,那么由于條件作用在就業(yè)婦女身上,測(cè)量的效果就會(huì)有偏差。常見(jiàn)的樣本選擇偏差類型包括伯克森悖論和樣本截?cái)唷?/p> 混雜偏差在人工智能模型中,如果算法沒(méi)有考慮數(shù)據(jù)中的所有信息,或者沒(méi)有考慮特征和目標(biāo)輸出之間的關(guān)聯(lián),從而學(xué)習(xí)了錯(cuò)誤的關(guān)系,就會(huì)產(chǎn)生偏差?;祀s偏差源于影響輸入和輸出的常見(jiàn)原因。一種特殊類型的混雜偏差是省略變量,它發(fā)生在一些相關(guān)的特征沒(méi)有包含在分析中。這也與模型欠擬合問(wèn)題有關(guān)。 另一種類型的混雜偏見(jiàn)是代理變量。即使決策時(shí)不考慮敏感變量,分析中使用的某些其他變量也可以作為這些敏感變量的“代理”。例如,郵政編碼可能表示民族,因?yàn)槟硞€(gè)民族的人可能主要居住在某個(gè)地區(qū)。這種偏見(jiàn)通常也被稱為間接偏見(jiàn)或間接歧視。 與設(shè)計(jì)有關(guān)的偏查有時(shí),由于算法的限制或系統(tǒng)的其他限制(如計(jì)算能力) ,也會(huì)出現(xiàn)偏差。在這個(gè)類別中一個(gè)值得注意的是算法偏差,它可以被定義為僅由算法誘導(dǎo)或添加的偏差。依賴于隨機(jī)性來(lái)公平分配結(jié)果的軟件并不是真正的隨機(jī),例如,通過(guò)將所選內(nèi)容向列表末尾或開(kāi)頭的選項(xiàng)傾斜,結(jié)果可能會(huì)有偏差。 另一種與設(shè)計(jì)相關(guān)的偏差是排名偏差。例如,搜索引擎顯示每個(gè)屏幕三個(gè)結(jié)果,可以理解為前三個(gè)結(jié)果的特權(quán)稍多于后三個(gè)。排名偏差也與表示偏差密切相關(guān),這種偏差源于這樣一個(gè)事實(shí),即你只能收到呈現(xiàn)給用戶的內(nèi)容反饋。即使在那些已經(jīng)顯示的內(nèi)容中,收到用戶反饋的可能性也會(huì)受到該內(nèi)容顯示位置的影響。 與評(píng)價(jià)/驗(yàn)證相關(guān)的偏差有幾種類型的偏差源于人類評(píng)價(jià)者的固有偏差,以及在選擇這些評(píng)價(jià)者時(shí)的偏差。 人類評(píng)估偏差通常,人工評(píng)估者被用來(lái)驗(yàn)證人工智能模型的性能。諸如確認(rèn)偏差、峰終效應(yīng)和先驗(yàn)信念(如文化)等現(xiàn)象會(huì)在評(píng)估中產(chǎn)生偏差。人類評(píng)估者也會(huì)受到他們能回憶多少信息的限制,這可能會(huì)導(dǎo)致召回偏差。 樣本處理偏差例如,在推薦系統(tǒng)中,一些特定的觀眾(例如,那些說(shuō)某種語(yǔ)言的人)可能會(huì)看到一則廣告,而另一些則不會(huì)。因此,觀察到的影響將不能代表對(duì)一般人群的真正影響。在選擇性地對(duì)一些人群進(jìn)行某種處理的過(guò)程中引入的偏差稱為樣本處理偏差。 驗(yàn)證和測(cè)試的數(shù)據(jù)偏差一般而言,與數(shù)據(jù)集創(chuàng)建階段有關(guān)的偏差也可能出現(xiàn)在模型評(píng)估階段。此外,評(píng)估偏差可能來(lái)自于選擇不適當(dāng)?shù)幕鶞?zhǔn)/數(shù)據(jù)集進(jìn)行測(cè)試。 盡管在人工智能領(lǐng)域做了大量的研究工作來(lái)應(yīng)對(duì)與偏見(jiàn)相關(guān)的挑戰(zhàn),但是一些差距阻礙了進(jìn)步。 研究與實(shí)踐之間的差距已經(jīng)提出了解決數(shù)據(jù)集偏見(jiàn)問(wèn)題的方法,新的數(shù)據(jù)集也在強(qiáng)調(diào)保持多樣性。例如,臉部多樣性數(shù)據(jù)集包括近100萬(wàn)張從知識(shí)共享數(shù)據(jù)集中提取的人臉圖像,這些圖像是專門(mén)為了實(shí)現(xiàn)膚色、臉部結(jié)構(gòu)、年齡和性別之間的統(tǒng)計(jì)平等而組合起來(lái)的。 “機(jī)器學(xué)習(xí)中的公平性”是一個(gè)活躍的研究領(lǐng)域。還有一些開(kāi)放源碼工具,如 IBM 的 AI Fairness 3605,有助于檢測(cè)和減少不必要的算法偏差。盡管做出了這些努力,但仍然存在明顯的差距。 為了減少人工智能系統(tǒng)中潛在的偏見(jiàn),已經(jīng)提出了一些實(shí)踐指南。例如,建議使用具有詳細(xì)文檔的已發(fā)布模型,并鼓勵(lì)透明度,需要?jiǎng)?chuàng)建特定于領(lǐng)域的教育資源、指標(biāo)、流程和工具。 對(duì)機(jī)器學(xué)習(xí)開(kāi)發(fā)者的建議雖然不可能消除所有的偏見(jiàn)來(lái)源,但是采取某些預(yù)防措施,可以減少一些偏見(jiàn)問(wèn)題。以下建議可以幫助機(jī)器學(xué)習(xí)開(kāi)發(fā)者識(shí)別潛在的偏見(jiàn)來(lái)源,并幫助避免不必要的偏見(jiàn)引入:
小結(jié)從數(shù)據(jù)集的創(chuàng)建到問(wèn)題的形成,從數(shù)據(jù)分析到結(jié)果的評(píng)估,人工智能流水線中可能出現(xiàn)各種偏差。一些經(jīng)驗(yàn)準(zhǔn)則,可以幫助機(jī)器學(xué)習(xí)開(kāi)發(fā)人員識(shí)別潛在的偏見(jiàn)來(lái)源,以及避免引入不必要的偏見(jiàn)。 |
|