這是半佛仙人的第420篇原創(chuàng) 1 現(xiàn)在是一個技術(shù)極度發(fā)達(dá)的年代,更是一個內(nèi)容產(chǎn)業(yè)爆炸的年代。 在互聯(lián)網(wǎng)的賦能下,我們所有人都可以在最短的時間內(nèi)享受到最新鮮的內(nèi)容服務(wù),圖文、視頻、短視頻、游戲,只有你不想要,沒有你要不到。 但技術(shù)本身也是雙刃劍,在我們享受到更多好內(nèi)容的同時,也會有更多人在利用技術(shù)作惡。 工具不分善惡,在任何時候,只要可以獲利,就會有人去鉆研努力。 技術(shù)和商業(yè)越發(fā)達(dá),黑灰產(chǎn)就越猖獗。 有光必有影。 面對信息差和技術(shù)碾壓,普通人越來越難以和黑產(chǎn)對抗,因為對方玩兒的東西,你見都沒見過。 同樣的是,打擊黑灰產(chǎn),保護(hù)用戶,將是內(nèi)容平臺的核心競爭力之一。 每一個內(nèi)容平臺都在研究如何對抗黑灰產(chǎn),不僅僅是因為黑灰產(chǎn)會侵害平臺的用戶,更嚴(yán)重的是,當(dāng)平臺對內(nèi)容失控的時候,在這個互聯(lián)網(wǎng)文明底線越來越重要的年代,基本就代表了更嚴(yán)重的后果。 理由是蒼白的,大家只看有沒有做到。 很多人以為的黑灰產(chǎn)僅僅是在發(fā)布一些看起來比較弱智的騙局,那理解就太淺薄了。 現(xiàn)在,在話題廣場,論壇,評論區(qū),用戶昵稱,甚至私人對話,只要可以錄入文字圖片和語音的地方,就存在著失控的風(fēng)險。 只要能傳遞信息,黑灰產(chǎn)就不會放過,過去是電線桿和公共廁所,現(xiàn)在就是所有媒介。 產(chǎn)品是簡單的,人性是復(fù)雜的。 作為內(nèi)容平臺,只能用盡全力去保護(hù)用戶,擊敗對方。 或者被對方擊敗。 2 抖音作為當(dāng)前第一短視頻平臺,擁有最龐大的內(nèi)容創(chuàng)作群體和內(nèi)容消費群體。 在抖音上,內(nèi)容創(chuàng)作者與內(nèi)容消費者是可以直接交互的,這就代表在黑產(chǎn)眼中,這是流量富礦,并且操作空間巨大。 實際上,任何可以C2C的內(nèi)容平臺,都是可操作性的,但抖音流量最大。 前段時間,“假靳東”事件鬧得沸沸揚揚,這就是一起典型的C2C黑灰產(chǎn)詐騙。 在實際業(yè)務(wù)中,C端用戶上傳的內(nèi)容天然具有很大的不可控性,因為每個人的價值觀和法治觀念都是不同的,你沒法把所有人的思想和操作統(tǒng)一,很多人就是喜歡在內(nèi)容平臺上上傳大量的違禁內(nèi)容。 論壇時代走過來的老網(wǎng)民都懂,黃圖和小視頻總是攔不住大家的散播。 從平臺角度而言,這些都是風(fēng)險,需要在保證正常用戶體驗的前提下,降低內(nèi)容風(fēng)險。 說白了就是,屏蔽風(fēng)險內(nèi)容,懲罰亂來的賬號。 從平臺角度來說,縱容這些亂來的賬號和內(nèi)容,屬于找死。 從業(yè)務(wù)上必須要殺,但是從技術(shù)上如何殺,就是非常具有挑戰(zhàn)的問題。 不是說可疑就要殺的,不能因為少部分人的放飛自我就影響多數(shù)人的體驗,大家出來做生意,用戶體驗是第一要義。 針對內(nèi)容風(fēng)險關(guān)系,第一輪,也是最基礎(chǔ)的,是敏感詞屏蔽。 什么叫敏感詞?可以簡單理解為是大家在私下場合心領(lǐng)神會的說,但是在公開場合絕對不會說的那些東西。 在抖音平臺上,敏感詞出現(xiàn)在賬號ID,個人簡介,私信內(nèi)容,視頻封面等場合。 針對敏感詞屏蔽,抖音的策略是自建詞庫+機(jī)器學(xué)習(xí)+人工審核。 策略包含敏感詞收集策略,敏感詞應(yīng)用策略,敏感詞處置策略。 在這里面,人工起到了很大的作用。 很多公司喜歡瞎吹人工智能,覺得人工智能能夠解決一切問題,但現(xiàn)實業(yè)務(wù)中,人工智能對于語義分析是存在一定問題的。 大家日常對話的那些內(nèi)容,不復(fù)雜,但是涉及到敏感詞,漢語是博大精深的,使用各種諧音字,變體字,火星文,以及中間夾雜各種特殊符號和空格的模式,很容易就能繞過機(jī)器。 就例如微信這個詞,可以變種成V信,VX,威,VV,V你懂得,威X信等等等等,在人眼中是一樣的含義,但是在機(jī)器眼中截然不同,作為已經(jīng)把算法玩到極致的抖音,非常清晰的知道機(jī)器的力量有窮盡,人的主動識別配合數(shù)據(jù)分析師定向收集,再同步模型,才可以實現(xiàn)ROI最大化。 而且敏感詞這個東西,收集很重要,怎么用更重要。 一不小心就把好的壞的一起干掉了。 例如黃恐暴類的敏感詞,標(biāo)簽對應(yīng)的處置手段應(yīng)該是直接屏蔽+封號或者直接禁止發(fā)布,不廢話,直接干掉。 例如疑似推廣號的標(biāo)簽,對應(yīng)的處置手段應(yīng)該是屏蔽+禁言,或者禁止發(fā)布,并給予警告。 例如命中了一些權(quán)重較弱的敏感詞或者敏感字,對應(yīng)的處置手段應(yīng)該是轉(zhuǎn)人工審核,再處置。 當(dāng)然,具體的尺度,是不同廠家有不同的價值觀。 在抖音這邊,力度一直是比較大的,因為流量和影響力都太大,出一點點問題,都是大問題。 3 說完敏感詞,必然繞不開的是圖片和短視頻,這是抖音的看家本領(lǐng),也是最需要風(fēng)險管控的部分。 圖片和視頻帶有的問題主要是三類。 第一個是黃恐暴類內(nèi)容,圖片視頻本身有問題。 針對這部分內(nèi)容,抖音建立了龐大的敏感素材庫,外加機(jī)器+人工的審核機(jī)制。 巨大部分敏感圖片和問題視頻是直接過不了審的,發(fā)都發(fā)不出去。 少部分有疑問,但是沒法被機(jī)器判定為鐵狼的內(nèi)容,會轉(zhuǎn)人工審核,無問題后再通過發(fā)布。 有一些是已經(jīng)發(fā)出去但看的人比較少,人工還會做二次巡查,如果發(fā)現(xiàn)問題,第一時間下架或者限流。 還有一些發(fā)出去已經(jīng)開始推送起量的,人工會再次介入核查,確保每一個能被推送出去的內(nèi)容,都是盡可能不存在問題。 第二個是視頻本身沒黃恐暴負(fù)面問題,但是視頻里面的東西有問題,例如視頻里面就有VX:12345,點我看片等字跡或者水印。 這里除了第一條里面的相關(guān)規(guī)則之外,還要額外添加OCR環(huán)節(jié)。 要把視頻里面所有可以轉(zhuǎn)換為文字的信息(包括各種字體和字幕),全部都轉(zhuǎn)化出來,然后由機(jī)器進(jìn)行過濾。 過濾完之后,還要人工再過濾。 第三個是視頻本身沒有任何問題,但是視頻帶來的東西有問題,例如假靳東,靳東的祝福視頻本身是正常的,但是被拿來用于詐騙,就非常的不正常。 針對視頻正常的,但用途有問題的case,單靠機(jī)器講白了沒用。 因為機(jī)器只能核驗要素,無法核驗用途。 機(jī)器風(fēng)控很重要,但其實只是表層,而且永遠(yuǎn)難以做到窮舉,真的一刀切下去,會誤傷大量的正常用戶,這對于用戶體驗和公司的商業(yè)價值而言都是損失。 這時候,主力軍就成了人工。 抖音投入了上萬的審核人員做巡查,專門識別類似的風(fēng)險內(nèi)容,這塊兒成本投入堪稱恐怖。 但效果斐然,在4月份開始的仿冒名人專項打擊中,已經(jīng)封禁黑產(chǎn)作弊賬號18萬+,重置仿冒用戶6W+,處理問題視頻超過400萬條。 這是成績,成績背后是成本。 4 機(jī)器加人工審核,能夠解決問題嗎? 嚴(yán)格來說,也不能。 因為內(nèi)容風(fēng)險治理不是簡單的拼策略或者拼算法或者拼人力。 內(nèi)容風(fēng)險治理是一個系統(tǒng)性工程。 不是說你有個好的算法或者你有一堆人就可以解決問題。 因為問題是每天都在發(fā)生的,不可能無窮盡的去堆資源,那就不要做生意了。 所以有一個系統(tǒng)性工程,能夠形成內(nèi)容過濾的良性生態(tài),才是從源頭解決問題。 用更簡單的話來說,單單是抖音自己在努力,其實是不夠的,再多人力,也是有窮盡的。 再強(qiáng)大的機(jī)器算法,也是不可能不出錯的,更何況很多風(fēng)險內(nèi)容本身就處在對與錯的中間。 最好的方法,是讓用戶也參與進(jìn)來,發(fā)揮大家的力量。 大家希望看到優(yōu)質(zhì)且無風(fēng)險的內(nèi)容,平臺也希望干掉那些有危害并令人不適的內(nèi)容,利益訴求是一致的。 普通人的力量,才是最強(qiáng)的力量。 針對讓普通人也能參與,抖音一直以來堅持兩步走。 一步是抖音大力做用戶教育,讓用戶自己意識到有些視頻存在問題,養(yǎng)成合理舉報的習(xí)慣。 即使一個視頻機(jī)器覺得沒問題,人工審核覺得沒問題,巡檢覺得沒問題,但不代表一定所有人都適宜,有些細(xì)節(jié)問題可能只有特定的人能看出來,他們的力量非常重要。 過去一年,抖音安全中心已經(jīng)產(chǎn)出75期防詐反詐教育視頻,累計播放量7.1億次。 另一步就是完善舉報機(jī)制。 用戶自發(fā)來對問題視頻進(jìn)行舉報,平臺要做的不僅是認(rèn)真且快速的審核處理,更要將相關(guān)案例做拆解,給相關(guān)的信息打上標(biāo)簽,優(yōu)化機(jī)器模型。 機(jī)器的效率高于人,但機(jī)器依然要向人學(xué)習(xí)如何處理問題。 另外,僅僅是讓用戶參與,一起完善模型,還不夠。 防守永遠(yuǎn)只是防守,風(fēng)險管理也要考慮進(jìn)攻。 抖音針對各種發(fā)布違規(guī)信息的賬號,會反過來追溯其特征,是哪些人,在哪些機(jī)器,以什么ID,用什么IP,進(jìn)行了批量操作。 黑灰產(chǎn)這年頭也不是用手的,大家都是機(jī)器批量操作,不然還沒輪到魚上鉤就先餓死了。 舉個例子,假如抖音發(fā)現(xiàn)某類黃恐暴內(nèi)容,大部分發(fā)布者和點贊者的IP都是相同的或者都是同一個號段的,那么不僅可以設(shè)置策略屏蔽這個IP,更可以直接報警。 互聯(lián)網(wǎng)不是法外之地。 今年以來,抖音安全中心已經(jīng)協(xié)助各地公安機(jī)關(guān)打擊涉嫌詐騙、色情的黑灰產(chǎn)團(tuán)隊25個,刑事拘留87人。 這個數(shù)字單純看起來不大,但這是一種震懾。 告訴所有黑產(chǎn),管住自己的手,不然看看同行的下場。 有時候,震懾的威力要比直接出刀更加有效。 5 坦率地說,很多公司對于內(nèi)容風(fēng)控的價值和意義都是意識不到位的。 流量第一思想下,很多平臺對于擦邊球內(nèi)容其實是睜一只眼閉一只眼的,畢竟是用戶自發(fā)上傳的東西,出了問題可以把鍋甩給上傳的用戶。 但在這個過程中,好處是自己平臺吃下了。 這種野蠻生長的邏輯,其實是目光短淺的。 因為在這個互聯(lián)網(wǎng)文明大趨勢的浪潮下,內(nèi)容出現(xiàn)風(fēng)險不是簡單的挨罵,而是切實的會直接影響平臺的生存。 因為互聯(lián)網(wǎng)讓內(nèi)容的傳播效率變快,那么必然風(fēng)險的擴(kuò)大也是同樣的。 至于那點因為擦表球和默認(rèn)黑灰產(chǎn)肆虐得到的流量,很有可能會被一把打的吐出來。 內(nèi)容風(fēng)控,將是這個年代所有內(nèi)容平臺的命門。 這是能不能持續(xù)做生意的問題,而不是賺多賺少的問題。 另外,很多公司雖然也知道這個重要,但往往先期投入不足。 風(fēng)險管理是一個長期的系統(tǒng)工程,臨時抱佛腳其實意義不大,找誰來都沒辦法解決體系缺失的問題。 模型要靠長期的算法迭代以及不停的數(shù)據(jù)積累來供養(yǎng),先行者早就樹立起了極強(qiáng)的風(fēng)控壁壘。 這些壁壘需要大量的時間和資源投入,不是一朝一夕就有的,全部都是非賣品。 當(dāng)大家都發(fā)展起來的時候,有時候不是比誰賺的更多。 而是比誰錯的更少。 裝傻裝死一時爽,但問題不會因此消失,總要面對現(xiàn)實。 所以打擊黑產(chǎn),不能有僥幸心里,需要竭盡全力。 從過去,到現(xiàn)在,到將來。 都是如此。 |
|