【原】AI系統(tǒng)中的偏差與偏見(jiàn)

DuerOS布道師 2021-07-18

展開(kāi)全文

人工智能系統(tǒng)中存在著偏見(jiàn)，但是有偏見(jiàn)的算法系統(tǒng)并不是一個(gè)新現(xiàn)象。隨著包括司法和健康等領(lǐng)域在內(nèi)的各種組織都在采用人工智能技術(shù)，人們開(kāi)始關(guān)注對(duì)基于人工智能的決策缺乏問(wèn)責(zé)制和偏見(jiàn)。從人工智能研究人員和軟件工程師到產(chǎn)品領(lǐng)導(dǎo)者和消費(fèi)者，各種各樣的利益相關(guān)者都參與到人工智能流水線中。在人工智能、數(shù)據(jù)集以及政策和權(quán)利領(lǐng)域的必要專業(yè)知識(shí)，可以共同揭示偏見(jiàn)，但是，這些利益相關(guān)者之間并不是統(tǒng)一可用的。因此，人工智能系統(tǒng)中的偏見(jiàn)會(huì)在不明顯的情況下復(fù)合。

例如，機(jī)器學(xué)習(xí)開(kāi)發(fā)人員，他們被要求: 對(duì)數(shù)據(jù)進(jìn)行適當(dāng)?shù)念A(yù)處理，從幾個(gè)可用的模型中選擇正確的模型，調(diào)整參數(shù)，調(diào)整模型體系結(jié)構(gòu)以適應(yīng)應(yīng)用程序的需求。假設(shè)一個(gè)機(jī)器學(xué)習(xí)開(kāi)發(fā)者被委托開(kāi)發(fā)一個(gè)人工智能模型來(lái)預(yù)測(cè)哪些貸款會(huì)違約。由于沒(méi)有意識(shí)到訓(xùn)練數(shù)據(jù)中的偏差，工程師可能會(huì)無(wú)意中只使用驗(yàn)證的準(zhǔn)確性來(lái)訓(xùn)練模型。假設(shè)培訓(xùn)數(shù)據(jù)中包含了太多違約的年輕人。在這種情況下，該模型很可能對(duì)年輕人在應(yīng)用于測(cè)試數(shù)據(jù)時(shí)的違約行為做出類似的預(yù)測(cè)。因此，機(jī)器學(xué)習(xí)的開(kāi)發(fā)人員有必要了解可能潛入人工智能流水線的各種偏差以及導(dǎo)致的偏見(jiàn)。

在人工智能系統(tǒng)中定義、檢測(cè)、測(cè)量和減少偏見(jiàn)并不是一件容易的事情，而且是一個(gè)熱門(mén)的研究領(lǐng)域。各國(guó)政府、非營(yíng)利組織和各行業(yè)都在做出許多努力，包括執(zhí)行法規(guī)以解決與偏見(jiàn)有關(guān)的問(wèn)題。認(rèn)識(shí)和解決各種社會(huì)機(jī)構(gòu)中的偏見(jiàn)，需要經(jīng)過(guò)不斷的努力，以確保計(jì)算系統(tǒng)的設(shè)計(jì)，以解決這些問(wèn)題。

這里不對(duì)設(shè)計(jì)公平的人工智能算法提出建設(shè)性思考，而是在實(shí)踐方面，在數(shù)據(jù)創(chuàng)建，數(shù)據(jù)分析和評(píng)估的過(guò)程中，關(guān)注偏差與偏見(jiàn)的問(wèn)題形成，，具體包括:

人工智能流水線中的偏差分類。提供了各種類型偏差的結(jié)構(gòu)組織，錨定在從數(shù)據(jù)創(chuàng)建和問(wèn)題制定到數(shù)據(jù)準(zhǔn)備與分析的各個(gè)階段。
面向研究與實(shí)踐之間差距的建設(shè)性思路。分析在現(xiàn)實(shí)世界中實(shí)施研究的相關(guān)挑戰(zhàn)，并列出了填補(bǔ)這一空白的建議，希望可以幫助機(jī)器學(xué)習(xí)的開(kāi)發(fā)者測(cè)試各種各樣的偏差。

典型的人工智能流水線從數(shù)據(jù)創(chuàng)建階段開(kāi)始: (1)收集數(shù)據(jù); (2)對(duì)數(shù)據(jù)進(jìn)行注釋或標(biāo)記; (3)將數(shù)據(jù)準(zhǔn)備或處理成其他管道可以使用的格式。讓我們分析在每個(gè)步驟中如何引入了不同類型的偏差。

數(shù)據(jù)集創(chuàng)建偏差

在數(shù)據(jù)集的創(chuàng)建過(guò)程中，可能會(huì)出現(xiàn)特定類型的偏差。

采樣偏差

通過(guò)選擇特定類型的實(shí)例而不是其他類型的數(shù)據(jù)集所產(chǎn)生的偏差稱為采樣偏差。這是最常見(jiàn)的數(shù)據(jù)集偏差類型之一。例如，圖像數(shù)據(jù)集更喜歡街景或自然場(chǎng)景。人臉識(shí)別算法可能會(huì)得到更多淺膚色人臉的照片，從而導(dǎo)致識(shí)別深膚色人臉的偏差。因此，采樣偏差可能導(dǎo)致學(xué)習(xí)算法的泛化能力變差。

測(cè)量偏差

測(cè)量偏差是由于人類測(cè)量中的誤差，或者由于人們?cè)讷@取數(shù)據(jù)時(shí)的某些固有習(xí)慣而引起的。例如，考慮圖像和視頻數(shù)據(jù)集的創(chuàng)建，其中的圖像或視頻可能反映了攝影師使用的技術(shù)。一些攝影師可能傾向于以類似的方式拍攝物體; 因此，數(shù)據(jù)集可能只包含特定角度的物體視圖。這種類型的測(cè)量偏差稱為捕獲偏差。

測(cè)量偏差的另一個(gè)來(lái)源可能是用于捕獲數(shù)據(jù)集的設(shè)備誤差。例如，用于捕捉圖像的相機(jī)可能存在缺陷，導(dǎo)致圖像質(zhì)量差，從而導(dǎo)致有偏見(jiàn)的結(jié)果。這些類型的偏見(jiàn)又被廣泛地歸類為設(shè)備偏見(jiàn)。

當(dāng)在創(chuàng)建數(shù)據(jù)集時(shí)使用代理而不是真實(shí)值時(shí)，可能會(huì)出現(xiàn)第三種測(cè)量偏差。例如，把醫(yī)生和用藥用來(lái)作為醫(yī)療條件等的指標(biāo)。

標(biāo)簽偏差

標(biāo)簽偏差與標(biāo)簽過(guò)程中的不一致性有關(guān)。不同的標(biāo)注者有著不同的樣式和偏好，這些都反映在創(chuàng)建的標(biāo)簽中。當(dāng)不同的標(biāo)注者為同一類型的對(duì)象分配不同的標(biāo)簽時(shí)，標(biāo)簽偏見(jiàn)的一個(gè)常見(jiàn)例子就出現(xiàn)了。

當(dāng)評(píng)價(jià)者的主觀偏見(jiàn)影響標(biāo)簽時(shí)，另一種類型的標(biāo)簽偏見(jiàn)也會(huì)發(fā)生。例如，在詮釋文本中所體驗(yàn)到的情感任務(wù)中，標(biāo)注者的主觀偏好，如他們的文化、信仰和內(nèi)省能力，可能會(huì)使標(biāo)簽產(chǎn)生偏見(jiàn)。確認(rèn)偏見(jiàn)，即人類傾向于搜索、解釋、關(guān)注和記憶信息以確認(rèn)自己的先入之見(jiàn)，與這種類型的標(biāo)簽偏見(jiàn)密切相關(guān)。因此，標(biāo)簽可能是根據(jù)先前的信念而不是客觀的評(píng)估來(lái)分配的。

第三種類型的標(biāo)簽偏見(jiàn)可能產(chǎn)生于峰終效應(yīng)。這是一種與記憶相關(guān)的認(rèn)知偏見(jiàn)，人們?cè)谂袛嘁欢谓?jīng)歷時(shí)，主要基于他們?cè)诮?jīng)歷的頂峰(即最激烈的時(shí)刻)和結(jié)束時(shí)的感受，而不是基于這段經(jīng)歷每一時(shí)刻的總和或平均值。例如，在分配標(biāo)簽時(shí)，一些標(biāo)準(zhǔn)者可能更重視對(duì)話的最后一部分，而不是整個(gè)會(huì)話。

否定集偏差

否定集偏差定義為由于沒(méi)有足夠的代表“世界其他地方”的樣本而引入數(shù)據(jù)集的結(jié)果。數(shù)據(jù)集定義一個(gè)現(xiàn)象(例如，對(duì)象，場(chǎng)景，事件)不僅僅是根據(jù)它是什么(正面的實(shí)例) ，還根據(jù)它不是什么(負(fù)面的實(shí)例)。因此，分類器可能在檢測(cè)負(fù)實(shí)例方面表現(xiàn)不佳。

問(wèn)題定義產(chǎn)生的偏差

偏見(jiàn)還會(huì)根據(jù)問(wèn)題的定義而產(chǎn)生。假設(shè)一家銀行想使用人工智能來(lái)預(yù)測(cè)客戶的信用可靠性。為了做到這一點(diǎn)，必須以一種可以“預(yù)測(cè)或估計(jì)”的方式來(lái)定義信用可靠性這個(gè)問(wèn)題，可以根據(jù)公司的需要來(lái)制定，比如說(shuō)，最大化利潤(rùn)率或最大化得到償還的貸款數(shù)量。然而，這些決定是出于各種商業(yè)原因，而不是公平或歧視。

信用可靠性例子也可以被認(rèn)為是一種框架效應(yīng)偏差?；趩?wèn)題是如何表述的以及信息是如何呈現(xiàn)的，所得到的結(jié)果可能是不同的，甚至可能是有偏見(jiàn)的。因此，基于問(wèn)題及其成功度量的定義方式，可能會(huì)產(chǎn)生偏差。

與算法/數(shù)據(jù)分析有關(guān)的偏差

在算法或數(shù)據(jù)分析過(guò)程中可能會(huì)出現(xiàn)幾種類型的偏差。

樣本選擇偏差

樣本選擇偏差是通過(guò)選擇個(gè)體、群體或數(shù)據(jù)進(jìn)行分析而引起的，這種方式使得樣本不能代表要分析的總體。特別地，樣本選擇偏差是在數(shù)據(jù)分析過(guò)程中由于對(duì)數(shù)據(jù)集中的某些變量(例如，特定的膚色、性別等)進(jìn)行調(diào)節(jié)而產(chǎn)生的，這反過(guò)來(lái)又會(huì)產(chǎn)生虛假的相關(guān)性。例如，在分析母親身份對(duì)工資的影響時(shí)，如果僅限于已經(jīng)就業(yè)的婦女，那么由于條件作用在就業(yè)婦女身上，測(cè)量的效果就會(huì)有偏差。常見(jiàn)的樣本選擇偏差類型包括伯克森悖論和樣本截?cái)唷?/p>

混雜偏差

在人工智能模型中，如果算法沒(méi)有考慮數(shù)據(jù)中的所有信息，或者沒(méi)有考慮特征和目標(biāo)輸出之間的關(guān)聯(lián)，從而學(xué)習(xí)了錯(cuò)誤的關(guān)系，就會(huì)產(chǎn)生偏差?；祀s偏差源于影響輸入和輸出的常見(jiàn)原因。一種特殊類型的混雜偏差是省略變量，它發(fā)生在一些相關(guān)的特征沒(méi)有包含在分析中。這也與模型欠擬合問(wèn)題有關(guān)。

另一種類型的混雜偏見(jiàn)是代理變量。即使決策時(shí)不考慮敏感變量，分析中使用的某些其他變量也可以作為這些敏感變量的“代理”。例如，郵政編碼可能表示民族，因?yàn)槟硞€(gè)民族的人可能主要居住在某個(gè)地區(qū)。這種偏見(jiàn)通常也被稱為間接偏見(jiàn)或間接歧視。

與設(shè)計(jì)有關(guān)的偏查

有時(shí)，由于算法的限制或系統(tǒng)的其他限制(如計(jì)算能力) ，也會(huì)出現(xiàn)偏差。在這個(gè)類別中一個(gè)值得注意的是算法偏差，它可以被定義為僅由算法誘導(dǎo)或添加的偏差。依賴于隨機(jī)性來(lái)公平分配結(jié)果的軟件并不是真正的隨機(jī)，例如，通過(guò)將所選內(nèi)容向列表末尾或開(kāi)頭的選項(xiàng)傾斜，結(jié)果可能會(huì)有偏差。

另一種與設(shè)計(jì)相關(guān)的偏差是排名偏差。例如，搜索引擎顯示每個(gè)屏幕三個(gè)結(jié)果，可以理解為前三個(gè)結(jié)果的特權(quán)稍多于后三個(gè)。排名偏差也與表示偏差密切相關(guān)，這種偏差源于這樣一個(gè)事實(shí)，即你只能收到呈現(xiàn)給用戶的內(nèi)容反饋。即使在那些已經(jīng)顯示的內(nèi)容中，收到用戶反饋的可能性也會(huì)受到該內(nèi)容顯示位置的影響。

與評(píng)價(jià)/驗(yàn)證相關(guān)的偏差

有幾種類型的偏差源于人類評(píng)價(jià)者的固有偏差，以及在選擇這些評(píng)價(jià)者時(shí)的偏差。

人類評(píng)估偏差

通常，人工評(píng)估者被用來(lái)驗(yàn)證人工智能模型的性能。諸如確認(rèn)偏差、峰終效應(yīng)和先驗(yàn)信念(如文化)等現(xiàn)象會(huì)在評(píng)估中產(chǎn)生偏差。人類評(píng)估者也會(huì)受到他們能回憶多少信息的限制，這可能會(huì)導(dǎo)致召回偏差。

樣本處理偏差

例如，在推薦系統(tǒng)中，一些特定的觀眾(例如，那些說(shuō)某種語(yǔ)言的人)可能會(huì)看到一則廣告，而另一些則不會(huì)。因此，觀察到的影響將不能代表對(duì)一般人群的真正影響。在選擇性地對(duì)一些人群進(jìn)行某種處理的過(guò)程中引入的偏差稱為樣本處理偏差。

驗(yàn)證和測(cè)試的數(shù)據(jù)偏差

一般而言，與數(shù)據(jù)集創(chuàng)建階段有關(guān)的偏差也可能出現(xiàn)在模型評(píng)估階段。此外，評(píng)估偏差可能來(lái)自于選擇不適當(dāng)?shù)幕鶞?zhǔn)/數(shù)據(jù)集進(jìn)行測(cè)試。

盡管在人工智能領(lǐng)域做了大量的研究工作來(lái)應(yīng)對(duì)與偏見(jiàn)相關(guān)的挑戰(zhàn)，但是一些差距阻礙了進(jìn)步。

研究與實(shí)踐之間的差距

已經(jīng)提出了解決數(shù)據(jù)集偏見(jiàn)問(wèn)題的方法，新的數(shù)據(jù)集也在強(qiáng)調(diào)保持多樣性。例如，臉部多樣性數(shù)據(jù)集包括近100萬(wàn)張從知識(shí)共享數(shù)據(jù)集中提取的人臉圖像，這些圖像是專門(mén)為了實(shí)現(xiàn)膚色、臉部結(jié)構(gòu)、年齡和性別之間的統(tǒng)計(jì)平等而組合起來(lái)的。

“機(jī)器學(xué)習(xí)中的公平性”是一個(gè)活躍的研究領(lǐng)域。還有一些開(kāi)放源碼工具，如 IBM 的 AI Fairness 3605，有助于檢測(cè)和減少不必要的算法偏差。盡管做出了這些努力，但仍然存在明顯的差距。

為了減少人工智能系統(tǒng)中潛在的偏見(jiàn)，已經(jīng)提出了一些實(shí)踐指南。例如，建議使用具有詳細(xì)文檔的已發(fā)布模型，并鼓勵(lì)透明度，需要?jiǎng)?chuàng)建特定于領(lǐng)域的教育資源、指標(biāo)、流程和工具。

對(duì)機(jī)器學(xué)習(xí)開(kāi)發(fā)者的建議

雖然不可能消除所有的偏見(jiàn)來(lái)源，但是采取某些預(yù)防措施，可以減少一些偏見(jiàn)問(wèn)題。以下建議可以幫助機(jī)器學(xué)習(xí)開(kāi)發(fā)者識(shí)別潛在的偏見(jiàn)來(lái)源，并幫助避免不必要的偏見(jiàn)引入:

納入特定領(lǐng)域的知識(shí)對(duì)于界定和發(fā)現(xiàn)偏見(jiàn)至關(guān)重要。理解數(shù)據(jù)集中各種特征之間的結(jié)構(gòu)依賴關(guān)系非常重要。通常，繪制一個(gè)結(jié)構(gòu)圖來(lái)說(shuō)明感興趣的各種特性及其相互依賴關(guān)系是有幫助的。這可以幫助我們找到偏見(jiàn)的來(lái)源。
同樣重要的是，要根據(jù)應(yīng)用程序了解哪些數(shù)據(jù)特征被認(rèn)為是敏感的。例如，年齡可能是決定誰(shuí)能得到貸款的一個(gè)敏感特征，但不一定決定誰(shuí)能得到醫(yī)療服務(wù)。此外，可能有一些代理特征，雖然不被認(rèn)為是敏感特征，但仍可能編碼敏感信息，從而使預(yù)測(cè)出現(xiàn)偏差。
用于分析的數(shù)據(jù)集應(yīng)盡可能代表真相。因此，在構(gòu)建具有代表性的數(shù)據(jù)集時(shí)必須小心謹(jǐn)慎。
必須明確適當(dāng)?shù)臉?biāo)準(zhǔn)，以便為數(shù)據(jù)作標(biāo)注。規(guī)則的定義必須盡可能使標(biāo)注者獲得一致的標(biāo)簽。
確定所有可能與目標(biāo)特征有關(guān)的特征是重要的。省略與目標(biāo)特性有依賴關(guān)系的變量會(huì)導(dǎo)致有偏差的估計(jì)。
與輸入和輸出相關(guān)的特征可能導(dǎo)致有偏差的評(píng)估。在這種情況下，重要的是通過(guò)適當(dāng)?shù)臄?shù)據(jù)調(diào)節(jié)和選擇輸入的隨機(jī)化策略來(lái)消除這些偏差的來(lái)源。
將數(shù)據(jù)分析限制在數(shù)據(jù)集的某些部分，可能會(huì)導(dǎo)致不必要的選擇偏差。因此，在選擇用于分析的數(shù)據(jù)子集時(shí)，必須注意不要引入樣本選擇偏差。
在驗(yàn)證 a/b 測(cè)試等模型的性能時(shí)，必須注意防止引入樣本處理偏差。換言之，在測(cè)試模型的性能時(shí)，測(cè)試條件不應(yīng)局限于總體的某個(gè)子集。

小結(jié)

從數(shù)據(jù)集的創(chuàng)建到問(wèn)題的形成，從數(shù)據(jù)分析到結(jié)果的評(píng)估，人工智能流水線中可能出現(xiàn)各種偏差。一些經(jīng)驗(yàn)準(zhǔn)則，可以幫助機(jī)器學(xué)習(xí)開(kāi)發(fā)人員識(shí)別潛在的偏見(jiàn)來(lái)源，以及避免引入不必要的偏見(jiàn)。

贊賞

共11人贊賞

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看