人工智能的應(yīng)用和算法軟件的普及,宣告了法國哲學(xué)家保羅·維利里奧所說的“感知的自動(dòng)化”已然來臨。這種自動(dòng)化意味著將某些工作和決策權(quán)讓渡給算法和機(jī)器,與此同時(shí),人類可以將更多時(shí)間用于娛樂和休閑,文藝創(chuàng)作將會(huì)更加便捷,諸如“人機(jī)協(xié)同”“人機(jī)共創(chuàng)”“技術(shù)賦能”等說法層出不窮,但算法和機(jī)器又會(huì)帶來什么樣的風(fēng)險(xiǎn)?人類真的可以將更多的權(quán)能交托給看似“無利害”的算法嗎? 基于標(biāo)簽/分類的算法偏見 盡管算法作為一個(gè)非人類的決策者顯得客觀中立,但我們需要考察的正是這種“中立性”是否名副其實(shí)。這里不妨將目光投向當(dāng)代最常見的算法——圖像識(shí)別技術(shù),在種種圖像識(shí)別系統(tǒng)中,我們不難見到算法會(huì)習(xí)慣性地為圖像中的人物自動(dòng)打上某些標(biāo)簽:農(nóng)民、孤兒、流浪漢等。但從一個(gè)人類觀察者看來,這類識(shí)別定性的標(biāo)簽既不符合實(shí)情,也沒有確鑿的依據(jù)。 國外的一些圖像識(shí)別系統(tǒng)還存在對(duì)有色人種的潛在偏見,甚至出現(xiàn)過將黑人識(shí)別為“大猩猩”的情況。并且有的聊天機(jī)器人會(huì)使用某些種族、性別歧視的語言,社交媒體向男性推送的高薪招聘信息往往多于女性,同時(shí)對(duì)女性的求職簡歷進(jìn)行權(quán)重降級(jí)。這些基于種族、性別等的默認(rèn)分類,正是依賴于現(xiàn)實(shí)世界中默認(rèn)的自然分類,也即文化中的慣有偏見,它們只不過以一種隱性的、無意識(shí)的方式在算法中映射出來。 即便一個(gè)現(xiàn)實(shí)中的人可能不承認(rèn)自己有某些偏見,但在一些默認(rèn)表達(dá)的數(shù)據(jù)生產(chǎn)中,他也不免會(huì)沿襲相應(yīng)的分類。目前算法的數(shù)據(jù)集和訓(xùn)練集都依賴于收集海量的數(shù)據(jù),但這些數(shù)據(jù)本身就呈現(xiàn)出某種程度的偏見。同時(shí),算法的執(zhí)行并不基于語義層面,它僅僅處理符號(hào),也就是圖像相應(yīng)的標(biāo)簽——每個(gè)圖像都會(huì)被打上一系列固定的標(biāo)簽,它們并非由機(jī)器預(yù)先設(shè)定,而是由廉價(jià)乃至免費(fèi)的眾包勞動(dòng)力(平臺(tái)將各種形式的數(shù)字勞動(dòng)外包給數(shù)字工作者,并通過自動(dòng)化評(píng)價(jià)、管理勞動(dòng)力)來完成。事實(shí)上,每次我們進(jìn)入一些網(wǎng)站,被要求進(jìn)行“人類核驗(yàn)”(即證明登錄者是真實(shí)的人類)時(shí),我們點(diǎn)擊圖片中紅綠燈、斑馬線、公交車、自行車等圖像的行為都是在訓(xùn)練分類識(shí)別算法。 在類似的眾包勞動(dòng)中,最典型的莫過于亞馬遜公司的人工數(shù)字服務(wù)。在這個(gè)平臺(tái)之上,諸多遠(yuǎn)程工作者用自己零散且報(bào)酬極低的工作來為圖像進(jìn)行分類和標(biāo)簽化,并在這個(gè)過程中訓(xùn)練和改進(jìn)諸多高科技公司的算法系統(tǒng)。作為一個(gè)大型數(shù)據(jù)庫,圖網(wǎng)(亞馬遜公司人工數(shù)字服務(wù)的雇主)將超過1400萬張圖片進(jìn)行了手動(dòng)注釋,這些人工標(biāo)簽化的活動(dòng)必然會(huì)潛在地引入注釋者本人的某些偏見,即便是深度無意識(shí)的偏見。被眾包工人訓(xùn)練的算法則會(huì)順利繼承這種偏見,由此產(chǎn)生了前文當(dāng)中提及的“算法偏見”。 美國當(dāng)代學(xué)者凱特·克勞福德與國際知名藝術(shù)家特雷弗·帕格倫在2018年啟動(dòng)了《圖網(wǎng)輪盤》研究項(xiàng)目,他們?cè)儐柕氖牵哼@些圖片從哪里來?照片中的人為什么會(huì)被貼上這樣的標(biāo)簽?當(dāng)圖片與標(biāo)簽配對(duì)時(shí),有什么樣的因素在起作用?當(dāng)它們被用來訓(xùn)練技術(shù)系統(tǒng)時(shí),又有什么樣的影響?這一研究顯現(xiàn)了人工智能算法系統(tǒng)中確實(shí)復(fù)刻乃至強(qiáng)化了來自社會(huì)現(xiàn)實(shí)的固有偏見。如果忽視它,這些偏見將會(huì)在飛速發(fā)展的技術(shù)中加速沉淀、滲入未來。 基于概率/卷積的數(shù)據(jù)遮蔽 在算法偏見之外,一個(gè)同樣重要的隱患在于算法造成的“數(shù)據(jù)遮蔽”,盡管算法操作會(huì)調(diào)用大量的數(shù)據(jù),對(duì)其進(jìn)行提取、整合、分析,但這些操作仍然基于概率,即針對(duì)數(shù)據(jù)在整個(gè)數(shù)據(jù)集中出現(xiàn)的次數(shù)和頻率,這意味著它優(yōu)先抓取那些出現(xiàn)頻次最高的“優(yōu)勢(shì)數(shù)據(jù)”,而忽略那些幾乎無人問津的“少數(shù)數(shù)據(jù)”或“稀有數(shù)據(jù)”。 我們當(dāng)然不能以出現(xiàn)的頻次來判斷一個(gè)數(shù)據(jù)的價(jià)值,因?yàn)樗鼉H僅是一種注意力或流量意義上的價(jià)值,不代表實(shí)際價(jià)值?,F(xiàn)實(shí)中最重要的知識(shí)和信息,有時(shí)恰恰來源于這些少數(shù)或稀有的數(shù)據(jù),但在如今的算法推送、數(shù)據(jù)挖掘和信息檢索系統(tǒng)中,它們?cè)絹碓诫y以出現(xiàn)在數(shù)據(jù)流的表面。國外媒介理論家列夫·馬諾維奇曾經(jīng)舉過一個(gè)例子:一個(gè)鄉(xiāng)下博物館有一幅著名畫家的稀有真跡,如果這個(gè)博物館沒有觀眾入內(nèi),或者零星的觀眾沒有對(duì)其進(jìn)行拍照和上傳至社交媒體,那么算法就無法捕捉到它的信息。然而一旦有人發(fā)現(xiàn)了這幅作品,并在社交媒體上傳播、發(fā)酵,引來了更多游客拍照打卡,那么這件藝術(shù)品就成為一個(gè)顯性的數(shù)據(jù)。 我們很難想象任何一個(gè)孤立的作品會(huì)有這樣的好運(yùn),在絕大多數(shù)情況下,它們只能位于數(shù)據(jù)底層的深處和邊角,處在數(shù)據(jù)挖掘探測(cè)不到、數(shù)據(jù)提取無法觸及之所。更重要的是,隨著數(shù)據(jù)生產(chǎn)的體量激增,數(shù)據(jù)生產(chǎn)的速率加快,新創(chuàng)造的數(shù)據(jù)會(huì)呈現(xiàn)出更大程度的“數(shù)據(jù)堆積”,這些堆積的數(shù)據(jù)仍然依賴于概率生產(chǎn),即對(duì)那些數(shù)據(jù)集中出現(xiàn)頻次最多、最熱門、最多搜索痕跡的數(shù)據(jù)進(jìn)行再加工,這一方面會(huì)讓當(dāng)下的數(shù)據(jù)產(chǎn)生巨大的同質(zhì)性,同時(shí)也會(huì)將那些“少數(shù)數(shù)據(jù)”推至越來越深的數(shù)據(jù)底層。如此,同質(zhì)化的數(shù)據(jù)呈現(xiàn)出一種自我迭代和卷積,而那些少數(shù)的數(shù)據(jù)既不會(huì)產(chǎn)生迭代,也不會(huì)被擠壓在一起,它們只能以越來越分散、越來越稀薄的方式散落到數(shù)據(jù)庫的邊角。 在這種情況下,即便再強(qiáng)的算力也無法挖掘到這些數(shù)據(jù),無法觸及這些角落。因?yàn)樗懔χ皇欠?wù)于算法的規(guī)則,來處理越來越海量的優(yōu)勢(shì)數(shù)據(jù),“少數(shù)數(shù)據(jù)”只能日漸下沉,直到完全脫離算法的搜索范圍。一旦步入這種境地,我們就可以說“這些數(shù)據(jù)不存在”,因?yàn)樗惴ㄔ僖矡o法捕獲它們;但在真實(shí)的數(shù)據(jù)庫中,這些數(shù)據(jù)又確實(shí)存在。按照一種現(xiàn)實(shí)性的按圖索驥,按照一種線性的索引關(guān)系,我們始終能夠以傳統(tǒng)的方式從某個(gè)圖書館或檔案館的書目、資料、信箋中找到需要的數(shù)據(jù)。這種古老的方法顯得笨拙、單調(diào)且需要花費(fèi)太多氣力,但在尋找和提取少數(shù)數(shù)據(jù)的過程中,它仍然是比算法檢索更為可靠的方式。 因此,越大的數(shù)據(jù)體量、越自動(dòng)化的算法模式,就可能會(huì)帶來更大程度的數(shù)據(jù)遮蔽。數(shù)據(jù)遮蔽既會(huì)導(dǎo)致知識(shí)和機(jī)遇的流失,也會(huì)造成文化單一的現(xiàn)實(shí)問題,正如美國科學(xué)家喬恩·克萊因伯格所說:“如果我們都使用同一種算法做決定,是否會(huì)導(dǎo)致作出的決定高度趨同,導(dǎo)致我們的文化也是高度趨同?” 盡力確保算法在各個(gè)可及層面上公平 算法偏見與數(shù)據(jù)遮蔽,最終指向了一個(gè)典型問題,即在基于自動(dòng)化的感知系統(tǒng)中,算法與生俱來就帶有偏見,而大數(shù)據(jù)則自然地傾向于遮蔽和自我卷積。盡管這些問題給一些算法企業(yè)帶來直接的倫理壓力,讓他們不得不改革既有的技術(shù),調(diào)整算法的模式,讓其看上去更為合理。但誠如克勞福德所說,這些企業(yè)更傾向于從表面上解決這些明顯的技術(shù)錯(cuò)誤。這種臨時(shí)方案僅僅是建立數(shù)學(xué)意義上的平等以產(chǎn)生“更公平的系統(tǒng)”,但并不致力于改變潛在的不合理結(jié)構(gòu)。 所以,問題不止在技術(shù)修復(fù),而是要認(rèn)真審視算法的整個(gè)數(shù)據(jù)挖掘、提取、分類和分析測(cè)算的流程,并在整個(gè)流程中思考“公平”的問題。算法公平并非單一的標(biāo)準(zhǔn),而是多樣的標(biāo)準(zhǔn),應(yīng)確保它在各個(gè)可及的層面上都是公平的。這就需要對(duì)公平性指標(biāo)進(jìn)行新的評(píng)估,讓量化指標(biāo)凸顯不同群體之間的相關(guān)差異。 在我看來,算法模型應(yīng)基于如下的三種原則: 數(shù)據(jù)公平原則:確??商綔y(cè)、可挖掘的數(shù)據(jù)集中包含盡可能多類型的數(shù)據(jù),包括那些出現(xiàn)頻次極低的少數(shù)或稀有數(shù)據(jù)。這不但需要通過數(shù)據(jù)增廣,還需要重新評(píng)估數(shù)據(jù)的權(quán)重,對(duì)那些少數(shù)或稀有的數(shù)據(jù)進(jìn)行加權(quán)處理,以抵消優(yōu)勢(shì)數(shù)據(jù)不斷卷積造成的數(shù)據(jù)遮蔽,并且讓算法挖掘到更深的邊角或底層。 模型公平原則:算法模型必須考慮到不同群體,尤其是那些少數(shù)群體的利益,建立一種基于公平性約束的迭代系統(tǒng)(能及時(shí)糾錯(cuò)),即讓算法學(xué)習(xí)并提升自我的公平感知梯度。 監(jiān)督公平原則:無論什么樣類型和體量的平臺(tái),都應(yīng)以適當(dāng)方式公布算法推薦服務(wù)的基本原理、目的、意圖、主要運(yùn)行機(jī)制,確保簡單、清晰、可理解,接受公眾的監(jiān)督。 盡管上述問題是緩解算法偏見與數(shù)據(jù)遮蔽的可行方案,但克服這一切問題的根源仍在于人類文明的進(jìn)程。算法問題是一個(gè)社會(huì)問題,而非單純的科學(xué)問題,這需要全人類社會(huì)的長期共同努力。 來源:光明日?qǐng)?bào)丨作者:韓曉強(qiáng),系西南政法大學(xué)新聞傳播學(xué)院副教授 |
|