干貨|風(fēng)控中的大數(shù)據(jù)和機(jī)器學(xué)習(xí)(個(gè)人貸)
2016-05-19
消費(fèi)金融行業(yè)資訊
本篇文章只關(guān)注個(gè)人信用借款的風(fēng)控。抵押貸,企業(yè)貸不在討論范圍中。◆◆◆ 1. 風(fēng)控的意義 何為風(fēng)控?字面含義就是對(duì)于風(fēng)險(xiǎn)的控制從而使財(cái)務(wù)不受到損失。對(duì)于任何一家金融機(jī)構(gòu)(包括銀行,小貸,P2P等)來說,風(fēng)控的重要性超過流量、體驗(yàn)、品牌這些人們熟悉的指標(biāo)。風(fēng)控做得好與壞直接決定了一家公司的生與死,而且其試錯(cuò)成本是無窮大的,往往一旦發(fā)現(xiàn)風(fēng)控出了問題的時(shí)候就已經(jīng)無法挽回了。截止到2015年底,全國(guó)總共3000多家P2P平臺(tái)里超過三分之一已經(jīng)倒閉。這其中除了一部分明顯的自融欺詐外,大多數(shù)平臺(tái)垮掉的原因還是風(fēng)控不過關(guān)。 ◆◆◆ 2. 風(fēng)控的核心 風(fēng)險(xiǎn)控制需要做什么?與逾期率的絕對(duì)數(shù)值相比,對(duì)風(fēng)險(xiǎn)的控制能力要重要得多。借款人需要享受合理的額度和借款成本。出借人需要能夠得到合理的風(fēng)險(xiǎn)調(diào)整后的收益。達(dá)到這樣的目標(biāo)的核心是對(duì)每一筆借款違約概率的準(zhǔn)確預(yù)測(cè)。 借款人:基于借款人的風(fēng)險(xiǎn)評(píng)估,優(yōu)質(zhì)的借款人能享受更低的借款成本和更高的額度。相對(duì)不那么優(yōu)質(zhì)的借款人則需要付出更高但還是合理的成本。最劣質(zhì)的借款人(甚至是欺詐借款人)則會(huì)被直接拒絕。 出借人:由于借款人承擔(dān)的利息成本是基于其風(fēng)險(xiǎn)設(shè)置的,我們可以在大數(shù)上設(shè)定為未逾期的借款人所付出的利息減去逾期借款人帶來的本金損失后依舊能夠達(dá)到合理的收益水平。 滿足上述原則的過程我們稱為“風(fēng)險(xiǎn)定價(jià)”。這可以作為所有金融的First Principle。 ◆◆◆ 3. 國(guó)際上傳統(tǒng)的風(fēng)控方法 風(fēng)控的核心是要準(zhǔn)確預(yù)測(cè)每一筆借款違約概率。顯而易見,這需要量化的工具,也就是模型。假設(shè)x代表與借款人相關(guān)的各類數(shù)據(jù),y代表是否違約(1=違約,0=未違約),則我們需要找到一個(gè)函數(shù)f,使得f(x)=y。我們先介紹一下x,y,f在國(guó)外的情況。以美國(guó)為例。 x ,y:在美國(guó),人們一般在上大學(xué)的時(shí)候就會(huì)擁有人生中第一張信用卡。這樣等到后續(xù)買房(房貸)買車(車貸)的時(shí)候,就已有了不短的信用歷史了。美國(guó)有3家征信公司(Equifax,Experian,TransUnion)?;旧纤秀y行,貸款,金融機(jī)構(gòu)都會(huì)上傳信用數(shù)據(jù)給這3家公司,包括借款,還款,逾期等數(shù)據(jù)。征信公司會(huì)對(duì)原始數(shù)據(jù)做清洗和處理,進(jìn)而產(chǎn)品化和商業(yè)化這些數(shù)據(jù)。這些提供數(shù)據(jù)的公司同時(shí)也是數(shù)據(jù)的使用方。 任何公司都可以買到脫敏的具體到個(gè)人的信用歷史數(shù)據(jù),用作分析和建模。由于征信公司能夠以處理完的字段形式輸出數(shù)據(jù),在美國(guó),x一般是小而精的。小是指一般一個(gè)人的征信數(shù)據(jù)實(shí)際大小不大。精是指這類借款、還款、違約的歷史數(shù)據(jù),對(duì)于風(fēng)控建模來說,會(huì)是最有用的一塊數(shù)據(jù),因?yàn)闅v史借貸信息實(shí)打?qū)嵉胤从沉艘粋€(gè)人的信用情況。 f:如果有了非常新鮮的魚,簡(jiǎn)單地蒸一下就會(huì)非常美味。同樣的道理,由于大多數(shù)美國(guó)人已經(jīng)有了足夠的信用歷史數(shù)據(jù),通過這些數(shù)據(jù)來預(yù)測(cè)一個(gè)人未來的違約概率,這里所用到的模型也不用很復(fù)雜。一般情況下,簡(jiǎn)單的決策樹和一些回歸類的模型已經(jīng)能夠解決90%以上的問題。非常有意思的是,類似FICO這樣的公司的商業(yè)模式就是提供生成f的能力,也就是基于3家征信公司提供的數(shù)據(jù),提供一個(gè)比較標(biāo)準(zhǔn)化的信用分給銀行和金融機(jī)構(gòu)。 如上所述,美國(guó)的征信體系包括了數(shù)據(jù)提供方(同時(shí)也是使用方),數(shù)據(jù)整理存儲(chǔ)方(3家征信公司),和提供數(shù)據(jù)分析解決方案的第三方(例如FICO)。整套體系經(jīng)過幾十年的演變進(jìn)化,已經(jīng)成為了一個(gè)生態(tài)。 ◆◆◆ 4.風(fēng)控機(jī)構(gòu)在大數(shù)據(jù)領(lǐng)域的探索 我們所說的“大數(shù)據(jù)”并非指絕對(duì)的樣本量的巨大,而是把常規(guī)的信貸征信數(shù)據(jù)以外的信息統(tǒng)一稱為“大數(shù)據(jù)”。目前看來,由于美國(guó)的征信生態(tài)體系已經(jīng)比較完善,其它非信貸類數(shù)據(jù)在風(fēng)控建模里的應(yīng)用實(shí)際上比較有限,在大多數(shù)情況下錦上添花多過雪中送炭。例如美國(guó)最大的P2P公司LendingClub早年曾經(jīng)嘗試只基于Facebook的社交數(shù)據(jù)來決定是否放貸。試了一段時(shí)間發(fā)現(xiàn)不行后,還是回到了征信數(shù)據(jù)為主,其它數(shù)據(jù)為輔的體系。目前LendingClub只考慮給FICO信用分640分以上的借款人放貸。 在美國(guó),相比全面替代基于傳統(tǒng)征信數(shù)據(jù)的風(fēng)控模型,大數(shù)據(jù)能夠起到的作用可能更多的會(huì)在某個(gè)特定用戶群體上的性能優(yōu)化。例如,我們發(fā)現(xiàn)FICO分在580-600分這個(gè)區(qū)間的用戶的逾期率是15%。這是比較高的風(fēng)險(xiǎn),大多數(shù)銀行和貸款公司是不做這個(gè)群體的, 因?yàn)樾枰采w這么高的風(fēng)險(xiǎn)所需要的利率可能高于他們的業(yè)務(wù)允許范圍了。然而,15%的人違約的反面是85%的人還是會(huì)還錢的。 如果能夠通過技術(shù)手段利用一些征信數(shù)據(jù)以外的數(shù)據(jù),來提高這個(gè)群體里好人vs老賴的識(shí)別度,從平均15%違約率的群體里把相對(duì)比較好的借款人(比如違約率是5%)挑選出來,則這個(gè)群體瞬間就可以做了。已經(jīng)有一些公司看到了這樣的機(jī)會(huì),也已經(jīng)開始利用大數(shù)據(jù)建模做這類銀行服務(wù)不到的客群了,比如最近比較火的ZestFinance。 ◆◆◆ 5.大數(shù)據(jù)風(fēng)控在中國(guó)的機(jī)遇 最近10年,以個(gè)人信用卡為代表的個(gè)人貸款業(yè)務(wù)在中國(guó)有了蓬勃的發(fā)展。我國(guó)的信用卡交易和風(fēng)控系統(tǒng)在初期大量借鑒了國(guó)外的經(jīng)驗(yàn)。銀聯(lián)的第一代系統(tǒng)是與VISA合作完成的。國(guó)內(nèi)很多銀行的風(fēng)控流程和系統(tǒng)是從國(guó)外采購(gòu),很多風(fēng)控高管也是直接從國(guó)外銀行引進(jìn)的。 然而與國(guó)外相比,中國(guó)最大的差異在于征信體系的不完善。我們的人行征信系統(tǒng)覆蓋了8億人,但是可能只有3億左右是有信貸記錄的,剩下的無任何信貸記錄的,我們稱之為白戶。所以也不難理解,國(guó)內(nèi)銀行對(duì)于大部分非中高端用戶實(shí)際上是不愿意也沒有能力提供金融服務(wù)的。沒有征信數(shù)據(jù),那套國(guó)外搬過來的基于征信數(shù)據(jù)的方式方法就不管用了。 聰明的人馬上意識(shí)到,相比國(guó)外,由于中國(guó)的征信體系的不完善,基于大數(shù)據(jù)的風(fēng)控的土壤實(shí)際上更成熟,更有的做。這一點(diǎn)對(duì)于線上獲客的公司來說特別突出。相比傳統(tǒng)銀行和線下業(yè)務(wù)為主的平臺(tái),線上獲客擁有以下優(yōu)勢(shì): 互聯(lián)網(wǎng)可以提供每個(gè)借款人的龐大的、碎片化的、種類繁多的信息。這里面包括用戶提交的電子化信息(如身份證、營(yíng)業(yè)執(zhí)照、房產(chǎn)證、學(xué)歷證、工資單、社保,銀行流水等),第三方權(quán)威機(jī)構(gòu)的查詢信息(如公民身份證查詢中心、教育部學(xué)歷中心、法院訴訟信息查詢中心等可查詢信息),還包括了海量的互聯(lián)網(wǎng)碎片數(shù)據(jù),如用戶的電商交易信息、微博等社交網(wǎng)絡(luò)數(shù)據(jù),百度搜索引擎數(shù)據(jù)等。說到底,All data is credit data.
互聯(lián)網(wǎng)的高效性和爆發(fā)性使我們能以較低的成本、較短的時(shí)間,積累大量的用戶數(shù)據(jù),為分析建模提供足夠的樣本量。
這種大樣本量、多維度、非結(jié)構(gòu)化的數(shù)據(jù)非常適合各類大數(shù)據(jù)分析處理和機(jī)器學(xué)習(xí)技術(shù)的運(yùn)用。 ◆◆◆ 6. 大數(shù)據(jù)風(fēng)控的挑戰(zhàn) 伴隨著機(jī)遇同樣也有挑戰(zhàn)。就像要有美味的菜肴,我們既需要好的材料,也需要好的廚師,當(dāng)前大數(shù)據(jù)在風(fēng)控中運(yùn)用的挑戰(zhàn)主要還是在數(shù)據(jù)和人才這兩方面。 數(shù)據(jù) 記得我們前面所說的,風(fēng)控的核心就是能夠產(chǎn)生一個(gè)f(x),用來量化違約概率。理想情況下,最好f(x)=y。這里就有一個(gè)雞和蛋的問題。沒有足夠的y就做不了分析,所以除了一些很明顯的信息外,我們是不知道什么樣的x對(duì)于預(yù)測(cè)y會(huì)有幫助,也就是說在沒有足夠樣本之前是很難確定該收集哪些數(shù)據(jù)的。反過來,如果有y的樣本夠了,但一開始就沒有意識(shí)到應(yīng)該存哪些x,這些樣本的意義也會(huì)很有限。這個(gè)問題在那些幾乎沒有信貸記錄的白戶客群上尤其嚴(yán)重。最終的解決方法只有不停地做測(cè)試,收集x和y,迭代x。相對(duì)于資金成本,時(shí)間成本更大。例如下圖所示,用戶在網(wǎng)頁(yè)上填身份證的耗時(shí)實(shí)際上與這個(gè)人的風(fēng)險(xiǎn)是相關(guān)的。很快的人很有可能是直接復(fù)制粘貼。而填的很慢的人很有可能是記不住自己的身份證號(hào)。這兩種情況下,欺詐的可能性都會(huì)高一些。 退一步說,就算我們事先知道應(yīng)該用什么樣的x,樣本特別是壞樣本的積累也是很難繞過的。了解建模的同學(xué)知道,越是復(fù)雜的模型(比如更多的變量),對(duì)于壞樣本(y=1)數(shù)量的要求也更高。如下圖所示,一般每增加一個(gè)模型字段,我們需要相匹配地增加至少100個(gè)y=1的樣本。 人才 除了數(shù)據(jù),在機(jī)器學(xué)習(xí)方面的人才缺口也是比較嚴(yán)重的。跟傳統(tǒng)征信數(shù)據(jù)的小而精不同的,大數(shù)據(jù)里的很多信息實(shí)際上只跟違約率有非常弱的,甚至有的時(shí)候接近于0的相關(guān)性。把這些多而雜的信息整合起來,做成一道好菜,是需要非常專業(yè)的機(jī)器學(xué)習(xí)方面的人才的。
過去的10年里,機(jī)器學(xué)習(xí)領(lǐng)域有了天翻地覆的發(fā)展。在機(jī)器能夠擊敗超一流圍棋高手的時(shí)代,讓機(jī)器基于海量的、人工根本來不及消化的數(shù)據(jù)來評(píng)估一個(gè)人借錢后是否會(huì)還錢,其可行性是很高的!不幸的是,量化信用評(píng)估領(lǐng)域在技術(shù)上的方式方法還是基本上停留在幾十年前的水平,早已跟不上當(dāng)前實(shí)時(shí)化、移動(dòng)化、內(nèi)容包羅萬象的數(shù)據(jù)時(shí)代的節(jié)奏。非常簡(jiǎn)單的表現(xiàn)就是,除了少有的例外,目前在金融特別是風(fēng)控的數(shù)據(jù)建模/數(shù)據(jù)研發(fā)的人才,無論是數(shù)量還是質(zhì)量,都遠(yuǎn)遠(yuǎn)落后于互聯(lián)網(wǎng)行業(yè)??上驳氖牵瑯I(yè)內(nèi)也已經(jīng)意識(shí)到了人才的匱乏所帶來的瓶頸。隨著行業(yè)的成熟和數(shù)據(jù)的積累,會(huì)有越來越多的高端數(shù)據(jù)人才加入這個(gè)行業(yè)。整個(gè)行業(yè)在基于大數(shù)據(jù)量化評(píng)估風(fēng)險(xiǎn)的能力也會(huì)有一個(gè)爆發(fā)。 本文轉(zhuǎn)自“大數(shù)據(jù)文摘” 關(guān)于版權(quán):《消費(fèi)金融行業(yè)資訊》有關(guān)的內(nèi)容若涉及版權(quán)問題,請(qǐng)?jiān)髡呋蛎襟w聯(lián)系我們及時(shí)刪除。聯(lián)系微信:344200792,投稿郵箱:344200792@qq.com(附報(bào)酬) 消費(fèi)金融領(lǐng)域最具影響力自媒體,超過10萬以上的覆蓋人群,專業(yè)、專注最新行業(yè)動(dòng)態(tài),是您了解消費(fèi)金融最好的選擇! |
|