編者按:看過《黑鏡》第三季第一集《急轉直下》的朋友應該對評價系統(tǒng)有很深的印象。故事被設定在未來的數字化時代,人類進行所有互動之后都需要通過一個評價系統(tǒng)對對方進行打分。而這個分數將成為決定個人工作生活以及社會福利的依據。盡管劇中很多怪誕場景目前尚未成為現實,但是評價系統(tǒng)越來越多越來越復雜卻是事實。究竟什么樣的評價才是有效的呢?原因又是為什么呢?Himanshu Khanna把他們的調查結果總結成了一份評價系統(tǒng)的心理學知識。 像其他的消費者服務一樣,Uber也有一個有趣的評級系統(tǒng),對乘客和司機都有一套。在乘客評級系統(tǒng)中Arjun是冠軍,拿到了4.91的分數,這不是因為他制訂戰(zhàn)略得當,而是因為他為人真誠并且喜歡跟人交流! 他注意到一位司機給了他一個1星的低分。Arjun感到很吃驚。出于好奇,他問那位司機給這么低的分數是為什么。那位司機笑著解釋道:“先生,這不是低分。我給你的是第一名!” 我們應該摒棄星級嗎? 2017年初,Netflix采取了一個大動作——摒棄星級評定,而是用頂和踩的評價體系取而代之。10年前 的2009年YouTube就已經這么改了。其實說到評級,差不多就是要么天上要么地下的狀態(tài)。 其結論是Youtube上面的絕大部分視頻都得到了一流的五星評級,也就意味著用戶會對極端——要么這個東西極其出色,要么就是乏味到了極點時做出反應。至于其他的,他們都沒有做出反應和進行評級的興致。這里需要注意的是對YouTube上的視頻的平均評分時所有用戶的平均。而Netflix上的5顆紅星意味著這部電影或者系列劇完全適合你。你看到的(Netflix上面)每部電影或者系列劇旁邊的評分都是愛好類似的用戶的平均給分,而不是YouTube的大鍋飯平均分。 大家評分的頻度如何? Uber早期幾乎是強制你在開始下一次乘車前要對司機進行評級。不過最新的已經改成了可選,用戶時不時會錯過了評級。2014年,Uber(舊金山)給司機發(fā)放了指南,里面解釋了司機評級系統(tǒng)是如何工作的。此外,如果司機的評級是4.6或者更低的話,Uber會考慮對其賬號進行去激活。
Uber司機有賴于好的評級來謀生。飯店也是,為了獲得更好的客流量,靠“評級”掙得更好收入的產品和服務還有很多。 但是我們對評級的理解是否一致呢? 也許不是。要想回答這個問題,一個更加知情的辦法是理解評級系統(tǒng)的意圖。尤其是在今天的數字產品的語境下。 在數字世界里評級系統(tǒng)是什么? 一個評級系統(tǒng)是一次可能的投資,來自你的用戶的對你的產品的投資(或者數字化產品或者其他)。一旦他們(你的用戶)清楚或者喜歡上這次投資的回報,他們就更有可能投資、跟你的評級系統(tǒng)有更好的互動。他們會通過獎勵好行為懲罰壞行為來幫助產品發(fā)展。 我們最近對我們一位客戶的項目進行了一次相關調查。超過50%的受訪者把7當做是IMDB的最低評分,這是他們觀看電影的最低標準。任何評分低于這個數的電影他們都不會看!有趣的是,對于同樣一組受訪者來說,演出節(jié)目或者系列劇的LAR(可接受的最低分數)是8(不像電影是7)?!拔?guī)缀鯊奈唇o一部電影的評分超過8,因為這相當于理想電影的標準”——其中一位受訪者披露道。盡管7的評分屬于可以接受,但是對于電影來說9又太過罕見和例外。同樣一群用戶會在Netflix上“頂”同一部電影。 平臺,它們的使用情況,評級系統(tǒng)及其最終的參與結果似乎在用戶如何評價內容中扮演了很大的心理學角色。顏色、標簽以及評級的即時效應也是重要的影響因素。 來自同一份調查的受訪者中約80%者宣稱至少每周打一次Uber,而每天打一次的比例超過了30%。如果司機評分低于4.5(最高分為5)的話,這些Uber通勤者中幾乎其中有50%的人會取消打車!同樣一批用戶每個月至少上一次Zomato(美食點評網站)。而飯店的LAR就掉到了3.8(滿分為5)!也許使用頻率以及與日常生活的相關性也會影響到我們對評分的認知。
Instagram(或者Facebook)的喜歡以及Twitter的轉發(fā)也是評級系統(tǒng),實際上是真正的二進制評分。通常用戶不會對“廢話”體驗進行評分。他們評價的是極端情況——愛或者恨的東西!Facebook、Twitter以及Instagram并不關心“恨”誘發(fā)的體驗。他們重視和推廣的是用戶“熱愛”的體驗。二進制系統(tǒng)簡化了獲得評級的行動,用戶只需要在熱愛平臺上的什么東西時才進行評價。 群體規(guī)范與一致性 1936年,Muzafer Sherif進行過一次經典的試驗。參與者被安排到一間黑屋里,他們被要求觀察15英尺以外的一個小亮點,然后估計兩點移動的距離。實驗表明,單獨受試的參與者報告的亮點運動距離差距要比3人一組的受試者報告的距離差異大,后者的結果往往會向一個共同的估計值收斂。Sherif的結果表明,大家總是傾向于達成群體一致而不是做出獨立判斷。 向一位Instagram用戶展示一個有著559031個“贊”的9gag帖子之后,這位用戶會通過追加一個贊來從眾。無論是評分、評級、投票系統(tǒng)還是其他系統(tǒng),都表現出了從眾的特征。也許這個因素就是社交媒體病毒傳播力概念的關鍵貢獻者之一。 通過鼓掌來進行評價 Medium上“點贊”按鈕、“推薦(心形圖標)”的二進制對等物在2017年中左右被重新設計成了“鼓掌”。這一激進改動有趣地將讀者從鑒賞者改造成了評估員。一位用戶對一篇文章的鼓掌次數可以多達50次,0-50次鼓掌反映的是對文章的喜歡度(或者品質),這也許就相當于星級評價系統(tǒng)里面的星星吧。 盡管你也許也“喜歡”自己發(fā)布在Facebook上的文章,但Medium并不希望你給自己鼓掌。 需要注意的是,星級評價于Medium的鼓掌數有一點有趣的不同,那就是可能數量的視覺無效性。星級評價系統(tǒng)讓人評估一個5以內的分數。而鼓掌數要求你評估的是一個范圍可以無窮大(理論上)的分數。很多人害怕Medium這種評級系統(tǒng)的改變會讓普通的“評級貨幣”通脹。對于一篇能獲得2k推薦的文章來說,現在即便20k次鼓掌似乎也不夠了。盡管如果從眾繼續(xù)發(fā)揮魔力作用的話,當鼓掌數達到20k而不是2k時,文章再次獲得鼓掌的可能性會更高。 進一步探討! 其中一些評級系統(tǒng)深受少量被忽視的謬誤之苦,比如平均的概念。比方說對某個服務的星級評價的平均分可能是4.3(滿分為5)。在大多數情況下,鑒于評價會繼續(xù)涌入好的數字,這個平均分需要有可觀數量的極端評分(1或者5)才能讓4.3的品滾分變成4.4或者4.2.這個5星評價系統(tǒng)的4.3分,在經過N次評價之后,就成為了平均評分!此后任何出色或乏味的內容可能對這個分數都不會產生影響了,從而妨礙了真正的反饋得到體現。 Uber司機端app的用戶體驗要求司機在行程結束后盡快對乘客進行評價,這是一個規(guī)定動作。但是乘客端的app就沒有這樣的要求——乘客對司機評價是個可選項。類似地,Zomato和Amazon上用戶對購買進行評價也是可選的。實際上,哪怕你不是在Amazon上購買某產品的,Amazon也允許你對該產品進行評價,要找的產品的LAR也被拉低到2分左右。
用戶的性格、情緒、環(huán)境、對需求的緊迫性、最終的滿足感(及其名義價值)以及影響者,跟用戶的距離等等,所有這些因素都會對用戶如何評價東西產生很大的影響。我們的調查還有一些值得注意的觀察,這些觀察得出結論說,鑒于其易用性,對手機上的app進行評級是很容易的。74%的人更愿意在手機上進行評級。盡管有時候后續(xù)還要寫評價導致一些用戶選擇不對app或者相關服務進行評級。 評級系統(tǒng)要統(tǒng)治世界了嗎? 《黑鏡》在第三季第一集的《Nosedive(急轉直下)》中試圖把這個映射為數字化時代的到來。在這部諷刺性的劇集中,用戶可以在一個5星評價系統(tǒng)中對自身線上和線下的一切互動給對方予以打分。從社會低位到訪問特定服務,乃至于就業(yè)能力,一切都是個人當前得分的考慮因素。 我們已經將自己變成了一代批評者,并且被賦予了經理這一權利(但是很少會得到報酬)。我們觀察飯店服務員的一舉一動,當他把湯匙擺上桌面時我們會評估它發(fā)出的聲音的品質,大概他同意我們的餐具選擇時我們會留意他的禮貌程度,我們會敏銳地記錄并執(zhí)行心智算法以推斷出一個合適的評分,然后還會有下一個項目等著我們繼續(xù)吹毛求疵。 話雖如此,隨著數字化產品使用到達新高以及用戶體驗與游戲化的概念統(tǒng)治著心理學,評級系統(tǒng)必定還會繼續(xù)評下去。我的希望是這可以給大家一些有關什么樣的評價有效以及為什么有效的啟迪。 原文鏈接:https:///the-psychology-of-rating-systems-3103e26fddd8 編譯組出品。編輯:郝鵬程。編者按:看過《黑鏡》第三季第一集《急轉直下》的朋友應該對評價系統(tǒng)有很深的印象。故事被設定在未來的數字化時代,人類進行所有互動之后都需要通過一個評價系統(tǒng)對對方進行打分。而這個分數將成為決定個人工作生活以及社會福利的依據。盡管劇中很多怪誕場景目前尚未成為現實,但是評價系統(tǒng)越來越多越來越復雜卻是事實。究竟什么樣的評價才是有效的呢?原因又是為什么呢?Himanshu Khanna把他們的調查結果總結成了一份評價系統(tǒng)的心理學知識。 像其他的消費者服務一樣,Uber也有一個有趣的評級系統(tǒng),對乘客和司機都有一套。在乘客評級系統(tǒng)中Arjun是冠軍,拿到了4.91的分數,這不是因為他制訂戰(zhàn)略得當,而是因為他為人真誠并且喜歡跟人交流! 他注意到一位司機給了他一個1星的低分。Arjun感到很吃驚。出于好奇,他問那位司機給這么低的分數是為什么。那位司機笑著解釋道:“先生,這不是低分。我給你的是第一名!” 我們應該摒棄星級嗎? 2017年初,Netflix采取了一個大動作——摒棄星級評定,而是用頂和踩的評價體系取而代之。10年前 的2009年YouTube就已經這么改了。其實說到評級,差不多就是要么天上要么地下的狀態(tài)。 其結論是Youtube上面的絕大部分視頻都得到了一流的五星評級,也就意味著用戶會對極端——要么這個東西極其出色,要么就是乏味到了極點時做出反應。至于其他的,他們都沒有做出反應和進行評級的興致。這里需要注意的是對YouTube上的視頻的平均評分時所有用戶的平均。而Netflix上的5顆紅星意味著這部電影或者系列劇完全適合你。你看到的(Netflix上面)每部電影或者系列劇旁邊的評分都是愛好類似的用戶的平均給分,而不是YouTube的大鍋飯平均分。 大家評分的頻度如何? Uber早期幾乎是強制你在開始下一次乘車前要對司機進行評級。不過最新的已經改成了可選,用戶時不時會錯過了評級。2014年,Uber(舊金山)給司機發(fā)放了指南,里面解釋了司機評級系統(tǒng)是如何工作的。此外,如果司機的評級是4.6或者更低的話,Uber會考慮對其賬號進行去激活。
Uber司機有賴于好的評級來謀生。飯店也是,為了獲得更好的客流量,靠“評級”掙得更好收入的產品和服務還有很多。 但是我們對評級的理解是否一致呢? 也許不是。要想回答這個問題,一個更加知情的辦法是理解評級系統(tǒng)的意圖。尤其是在今天的數字產品的語境下。 在數字世界里評級系統(tǒng)是什么? 一個評級系統(tǒng)是一次可能的投資,來自你的用戶的對你的產品的投資(或者數字化產品或者其他)。一旦他們(你的用戶)清楚或者喜歡上這次投資的回報,他們就更有可能投資、跟你的評級系統(tǒng)有更好的互動。他們會通過獎勵好行為懲罰壞行為來幫助產品發(fā)展。 我們最近對我們一位客戶的項目進行了一次相關調查。超過50%的受訪者把7當做是IMDB的最低評分,這是他們觀看電影的最低標準。任何評分低于這個數的電影他們都不會看!有趣的是,對于同樣一組受訪者來說,演出節(jié)目或者系列劇的LAR(可接受的最低分數)是8(不像電影是7)。“我?guī)缀鯊奈唇o一部電影的評分超過8,因為這相當于理想電影的標準”——其中一位受訪者披露道。盡管7的評分屬于可以接受,但是對于電影來說9又太過罕見和例外。同樣一群用戶會在Netflix上“頂”同一部電影。 平臺,它們的使用情況,評級系統(tǒng)及其最終的參與結果似乎在用戶如何評價內容中扮演了很大的心理學角色。顏色、標簽以及評級的即時效應也是重要的影響因素。 來自同一份調查的受訪者中約80%者宣稱至少每周打一次Uber,而每天打一次的比例超過了30%。如果司機評分低于4.5(最高分為5)的話,這些Uber通勤者中幾乎其中有50%的人會取消打車!同樣一批用戶每個月至少上一次Zomato(美食點評網站)。而飯店的LAR就掉到了3.8(滿分為5)!也許使用頻率以及與日常生活的相關性也會影響到我們對評分的認知。
Instagram(或者Facebook)的喜歡以及Twitter的轉發(fā)也是評級系統(tǒng),實際上是真正的二進制評分。通常用戶不會對“廢話”體驗進行評分。他們評價的是極端情況——愛或者恨的東西!Facebook、Twitter以及Instagram并不關心“恨”誘發(fā)的體驗。他們重視和推廣的是用戶“熱愛”的體驗。二進制系統(tǒng)簡化了獲得評級的行動,用戶只需要在熱愛平臺上的什么東西時才進行評價。 群體規(guī)范與一致性 1936年,Muzafer Sherif進行過一次經典的試驗。參與者被安排到一間黑屋里,他們被要求觀察15英尺以外的一個小亮點,然后估計兩點移動的距離。實驗表明,單獨受試的參與者報告的亮點運動距離差距要比3人一組的受試者報告的距離差異大,后者的結果往往會向一個共同的估計值收斂。Sherif的結果表明,大家總是傾向于達成群體一致而不是做出獨立判斷。 向一位Instagram用戶展示一個有著559031個“贊”的9gag帖子之后,這位用戶會通過追加一個贊來從眾。無論是評分、評級、投票系統(tǒng)還是其他系統(tǒng),都表現出了從眾的特征。也許這個因素就是社交媒體病毒傳播力概念的關鍵貢獻者之一。 通過鼓掌來進行評價 Medium上“點贊”按鈕、“推薦(心形圖標)”的二進制對等物在2017年中左右被重新設計成了“鼓掌”。這一激進改動有趣地將讀者從鑒賞者改造成了評估員。一位用戶對一篇文章的鼓掌次數可以多達50次,0-50次鼓掌反映的是對文章的喜歡度(或者品質),這也許就相當于星級評價系統(tǒng)里面的星星吧。 盡管你也許也“喜歡”自己發(fā)布在Facebook上的文章,但Medium并不希望你給自己鼓掌。 需要注意的是,星級評價于Medium的鼓掌數有一點有趣的不同,那就是可能數量的視覺無效性。星級評價系統(tǒng)讓人評估一個5以內的分數。而鼓掌數要求你評估的是一個范圍可以無窮大(理論上)的分數。很多人害怕Medium這種評級系統(tǒng)的改變會讓普通的“評級貨幣”通脹。對于一篇能獲得2k推薦的文章來說,現在即便20k次鼓掌似乎也不夠了。盡管如果從眾繼續(xù)發(fā)揮魔力作用的話,當鼓掌數達到20k而不是2k時,文章再次獲得鼓掌的可能性會更高。 進一步探討! 其中一些評級系統(tǒng)深受少量被忽視的謬誤之苦,比如平均的概念。比方說對某個服務的星級評價的平均分可能是4.3(滿分為5)。在大多數情況下,鑒于評價會繼續(xù)涌入好的數字,這個平均分需要有可觀數量的極端評分(1或者5)才能讓4.3的品滾分變成4.4或者4.2.這個5星評價系統(tǒng)的4.3分,在經過N次評價之后,就成為了平均評分!此后任何出色或乏味的內容可能對這個分數都不會產生影響了,從而妨礙了真正的反饋得到體現。 Uber司機端app的用戶體驗要求司機在行程結束后盡快對乘客進行評價,這是一個規(guī)定動作。但是乘客端的app就沒有這樣的要求——乘客對司機評價是個可選項。類似地,Zomato和Amazon上用戶對購買進行評價也是可選的。實際上,哪怕你不是在Amazon上購買某產品的,Amazon也允許你對該產品進行評價,要找的產品的LAR也被拉低到2分左右。
用戶的性格、情緒、環(huán)境、對需求的緊迫性、最終的滿足感(及其名義價值)以及影響者,跟用戶的距離等等,所有這些因素都會對用戶如何評價東西產生很大的影響。我們的調查還有一些值得注意的觀察,這些觀察得出結論說,鑒于其易用性,對手機上的app進行評級是很容易的。74%的人更愿意在手機上進行評級。盡管有時候后續(xù)還要寫評價導致一些用戶選擇不對app或者相關服務進行評級。 評級系統(tǒng)要統(tǒng)治世界了嗎? 《黑鏡》在第三季第一集的《Nosedive(急轉直下)》中試圖把這個映射為數字化時代的到來。在這部諷刺性的劇集中,用戶可以在一個5星評價系統(tǒng)中對自身線上和線下的一切互動給對方予以打分。從社會低位到訪問特定服務,乃至于就業(yè)能力,一切都是個人當前得分的考慮因素。 我們已經將自己變成了一代批評者,并且被賦予了經理這一權利(但是很少會得到報酬)。我們觀察飯店服務員的一舉一動,當他把湯匙擺上桌面時我們會評估它發(fā)出的聲音的品質,大概他同意我們的餐具選擇時我們會留意他的禮貌程度,我們會敏銳地記錄并執(zhí)行心智算法以推斷出一個合適的評分,然后還會有下一個項目等著我們繼續(xù)吹毛求疵。 話雖如此,隨著數字化產品使用到達新高以及用戶體驗與游戲化的概念統(tǒng)治著心理學,評級系統(tǒng)必定還會繼續(xù)評下去。我的希望是這可以給大家一些有關什么樣的評價有效以及為什么有效的啟迪。 原文鏈接:https:///the-psychology-of-rating-systems-3103e26fddd8 編譯組出品。編輯:郝鵬程。 |
|