小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

13 l 趨勢(shì)分析與回歸:父母高,孩子一定高嗎?

 莊園圖書(shū)館 2022-05-03 發(fā)布于北京
文章圖片1

數(shù)據(jù)給你一雙看透本質(zhì)的眼睛,這里是《數(shù)據(jù)分析思維課》。

在散點(diǎn)圖那節(jié)課里,我們其實(shí)留下了一個(gè)問(wèn)題:我們想找一個(gè)趨勢(shì)線把這個(gè)散點(diǎn)圖的趨勢(shì)畫(huà)出來(lái),那么趨勢(shì)線我們?cè)趺床趴梢哉业侥??最常?jiàn)的做法就是用我們今天要講的回歸算法。

回歸(Regression)是由英國(guó)生物學(xué)家弗朗西斯·高爾頓(FrancisGalton)提出來(lái)的。簡(jiǎn)單來(lái)講,回歸就是研究一個(gè)變量和另外一個(gè)變量的變化關(guān)系。其中一個(gè)變量我們叫做因變量,另外一個(gè)叫做自變量。多元的回歸,就是研究一個(gè)因變量和多個(gè)自變量之間的關(guān)系。

一般來(lái)說(shuō),當(dāng)我們知道了某一種情況或現(xiàn)象,想要去了解這個(gè)結(jié)果和前面哪些因素發(fā)生了怎樣的關(guān)系(例如體重和年齡的關(guān)系),或者想驗(yàn)證某一些數(shù)據(jù)其實(shí)和結(jié)果沒(méi)關(guān)系,這個(gè)時(shí)候我們就可以用回歸驗(yàn)證。當(dāng)我們知道了過(guò)去的一些數(shù)據(jù)情況,我們想根據(jù)以前的經(jīng)驗(yàn)值,預(yù)測(cè)將來(lái)可能出現(xiàn)的結(jié)果,這個(gè)時(shí)候我們也可以用回歸分析和相關(guān)的算法。

回歸的算法種類與使用

根據(jù)回歸使用的場(chǎng)景不同,我們可以把它分成線性回歸、邏輯回歸、多項(xiàng)式回歸、逐步回歸、嶺回歸、套索回歸等等。這些回歸的整體邏輯比較類似,今天我給你重點(diǎn)介紹最常用的三種回歸算法。

第一類是線性回歸。線性回歸里最簡(jiǎn)單的一種就是一元線性回歸,它有兩個(gè)變量,一個(gè)叫做因變量(Y),一個(gè)叫做自變量(X)。我們可以用 Y=a+bX 這個(gè)公式來(lái)擬合一元線性回歸方程。

文章圖片2

例如我們要計(jì)算體重和年齡之間的回歸關(guān)系,這里的年齡就是自變量 X,體重就是因變量 Y。

這里需要注意的是,判斷兩個(gè)變量是不是線性關(guān)系這是從業(yè)務(wù)上面去判斷的。如果我們從業(yè)務(wù)上看是多元回歸的話,我們的目標(biāo)是要最少的自變量,也就是找到影響結(jié)果最核心的幾個(gè)因素來(lái)生成這個(gè)公式,抓到影響一個(gè)事物的關(guān)鍵點(diǎn)。

同時(shí)線性回歸對(duì)異常值影響非常敏感,往往一個(gè)異常值就把一個(gè)預(yù)測(cè)帶歪了。所以我們?cè)谧龇治龅臅r(shí)候,經(jīng)常會(huì)先通過(guò)聚類或者后續(xù)其他算法剔除這些異常點(diǎn)。當(dāng)然,很多時(shí)候你并不確定這些點(diǎn)到底是異常值還是實(shí)際數(shù)據(jù)的規(guī)律,所以你需要非常有經(jīng)驗(yàn)的數(shù)據(jù)分析師和算法專家來(lái)參與。

學(xué)到后面你就會(huì)發(fā)現(xiàn),數(shù)據(jù)挖掘難的不是算法,而是準(zhǔn)確去掉異常點(diǎn)、找到影響因子這些算法之前的數(shù)據(jù)準(zhǔn)備工作。

第二類是邏輯回歸。邏輯回歸被廣泛用于做分類問(wèn)題,也就是把“成功 / 失敗”“哪一種顏色”這類問(wèn)題變成線性回歸的樣子?;具壿嬀褪前央x散的因變量 Y 變成了一個(gè)連續(xù)值,然后再做回歸。

怎么把離散的 Y 值變成連續(xù)的 Y 值呢?這里我們把事件發(fā)生的概率比上事件不發(fā)生的概率,取 Log 值,這樣做就把一個(gè)非連續(xù)的數(shù)據(jù)變成連續(xù)數(shù)據(jù)了,具體公式如下。

Logit(Y)=Log (Odds Y)=Log((Probability of Y event)/(Probability of no Y event))

這個(gè)變化我們也叫做 Logit 變化,然后再通過(guò)各種各樣的線性回歸或者分類算法,我們可以找到對(duì)應(yīng)關(guān)系,就像下圖這樣。

文章圖片3

第三類是多項(xiàng)式回歸。顧名思義,它可能出現(xiàn)多個(gè)指數(shù)的數(shù)據(jù),這種回歸最佳擬合的線也不是直線,很可能是一個(gè)曲線。比如我們預(yù)測(cè)人類身高增長(zhǎng)速度和年齡的關(guān)系,最終回歸出來(lái)的曲線方程可能由多次項(xiàng)組成,就像下圖這樣是一條拋物線(我們?cè)趮雰簳r(shí)成長(zhǎng)最快,歲數(shù)越大增長(zhǎng)速度越慢)。

文章圖片4

在使用這種多項(xiàng)式回歸的時(shí)候,最常見(jiàn)出現(xiàn)的問(wèn)題就是過(guò)擬合欠擬合。這在將來(lái)做任何預(yù)測(cè)算法的時(shí)候都會(huì)遇到,這里先給你著重講一下。

這兩個(gè)概念是什么意思呢?假設(shè)我們找到一些數(shù)據(jù)畫(huà)在了散點(diǎn)圖上,我們把背后蘊(yùn)含的數(shù)據(jù)畫(huà)出來(lái)之后它就像個(gè)對(duì)勾(如下圖所示),是實(shí)際背后數(shù)據(jù)規(guī)律的正確答案(我們也把這個(gè)公式叫做算法模型)。

文章圖片5

而欠擬合是畫(huà)這個(gè)線(也就是推算這個(gè)公式)的時(shí)候,我們把很多細(xì)節(jié)給忽略掉了,直接畫(huà)成了一根直線的線性回歸,有很多趨勢(shì)都沒(méi)有很好地反饋出來(lái)。因?yàn)榧?xì)節(jié)丟得實(shí)在是太多了,所以我們把它叫做欠擬合,這個(gè)名字意味著需要更復(fù)雜的多項(xiàng)式回歸,才可以更準(zhǔn)確地描述這個(gè)規(guī)律。

文章圖片6

而過(guò)擬合是指我們太糾結(jié)于其中的細(xì)節(jié),以至于這個(gè)數(shù)據(jù)模型計(jì)算出來(lái)的曲線變成了一條特別曲折的線(本來(lái)應(yīng)該是一個(gè)相對(duì)光滑的對(duì)鉤)。這樣的數(shù)據(jù)模型適配性很差,換句話講,它的查全率不高,用它做預(yù)測(cè)很可能就會(huì)指鹿不為鹿了。這就是過(guò)擬合的結(jié)果。

文章圖片7

權(quán)衡是過(guò)擬合還是欠擬合的情況需要根據(jù)實(shí)際業(yè)務(wù)情況來(lái)做選擇,不是光看數(shù)據(jù)就可以解決的。

有了這個(gè)回歸公式以后,是不是就代表著因變量就是因?yàn)樽宰兞康淖兓鴮?dǎo)致的呢?換句話講,自變量和因變量是不是存在因果關(guān)系?前面因果倒置那節(jié)課你學(xué)過(guò),其實(shí)我們還不能下這樣的定論。

計(jì)算出這個(gè)數(shù)據(jù)模型,我們只能夠推斷出一個(gè)變量對(duì)另一個(gè)變量有依賴關(guān)系,但并不代表他們之間就會(huì)有因果關(guān)系,因果關(guān)系的確立必須是來(lái)自統(tǒng)計(jì)之外的一些業(yè)務(wù)依據(jù)。因果這個(gè)話題你要是記不清了,可以去11 講里再?gòu)?fù)習(xí)一下。記住,兩個(gè)變量之間有回歸邏輯,不代表著兩個(gè)變量之間有因果邏輯。

均值回歸

我們通過(guò)各種計(jì)算得到了回歸模型之后,就可以在工作和生活當(dāng)中利用這個(gè)公式很好地預(yù)測(cè)出未來(lái)的結(jié)果嗎?答案是否定的,現(xiàn)實(shí)生活不一定有我們?cè)谒惴ó?dāng)中預(yù)測(cè)得那么好。這就是我們接下來(lái)要講的話題:均值回歸。

談到回歸,我拿我們非常熟悉的身高來(lái)給你舉個(gè)例子。根據(jù)達(dá)爾文進(jìn)化論,子代會(huì)越來(lái)越基于父代進(jìn)行進(jìn)化。也就是說(shuō)理論上父母越高,孩子也會(huì)越來(lái)越高。而一般高個(gè)子的女孩子只會(huì)找比自己身高更高的男生結(jié)婚,生的孩子也應(yīng)該更高。

以此類推,理論上經(jīng)過(guò)千百年的進(jìn)化,人類應(yīng)該分成巨人族和矮人族才對(duì)。但我們都知道現(xiàn)實(shí)情況其實(shí)不是這樣的,人類并沒(méi)有分成巨人族和矮人族,高爾頓在實(shí)驗(yàn)中也發(fā)現(xiàn)了這一點(diǎn)。

高爾頓找到了 100 組家庭測(cè)量了他們父母和孩子的身高,通過(guò)一元線性回歸分析建立了一個(gè)公式來(lái)預(yù)測(cè)孩子和父母身高的關(guān)系,如下圖。

文章圖片8

你可以通過(guò)這個(gè)圖很明顯地看到,通過(guò)公式計(jì)算出來(lái)的值和實(shí)際孩子最后成長(zhǎng)的結(jié)果是不太一樣的,最終孩子的身高其實(shí)趨向于平均身高。身材高大的雙親,子女不一定高;身材矮小的雙親,孩子也不一定矮。

高爾頓把這個(gè)現(xiàn)象叫做回歸平凡,后來(lái)的統(tǒng)計(jì)學(xué)家把它叫做“均值回歸”,意思就是實(shí)際發(fā)生的數(shù)據(jù)比我們理論上的預(yù)測(cè)更加接近平均值,整體趨勢(shì)上會(huì)慢慢向一個(gè)平均值發(fā)展。比如最近比較火的一個(gè)例子,就是北大的教育學(xué)院的丁延慶教授的吐槽。

丁教授自己 6 歲時(shí)就能背一下整本新華字典,本科在北大,后來(lái)在哥倫比亞獲得了教育學(xué)博士學(xué)位,他的妻子也是北大畢業(yè)的。丁教授與妻子都非常學(xué)霸,按理來(lái)說(shuō)孩子也會(huì)走一條學(xué)霸的道路。但是丁教授的女兒卻幾乎完美規(guī)避了父母所有的學(xué)霸基因,在學(xué)渣的道路上越走越遠(yuǎn)。以至于丁教授在視頻里面吐槽女兒“不輔導(dǎo)作業(yè)父慈女孝,一輔導(dǎo)作業(yè)雞飛狗跳”。其實(shí)這就是均值回歸的一個(gè)典型例子。

還有一個(gè)著名的例子就是美國(guó)《體育畫(huà)報(bào)》的“封面詛咒”?!扼w育畫(huà)報(bào)》是美國(guó)非常著名的一個(gè)體育雜志,但是每次雜志封面登了哪個(gè)隊(duì)伍勝利之后,后面一定會(huì)有一場(chǎng)大敗在等著這個(gè)隊(duì)伍。

比如當(dāng)年在俄克拉何馬隊(duì)連續(xù)贏得 47 場(chǎng)大學(xué)橄欖球比賽之后,《體育畫(huà)報(bào)》刊登了《俄克拉何馬為何戰(zhàn)無(wú)不勝》的封面故事。緊接著在下一場(chǎng)比賽中,俄克拉何馬隊(duì)就以 21∶28 輸給了圣母大學(xué)隊(duì),這樣的事情還發(fā)生了好幾次。

其實(shí)這也是一種均值回歸的情況,對(duì)于任何優(yōu)秀的人和團(tuán)隊(duì)來(lái)說(shuō),很多時(shí)候其實(shí)是運(yùn)氣、能力、時(shí)機(jī)等多種因素來(lái)造就成功的。好的沒(méi)你想得那么好,差的也沒(méi)有你想得那么差,最終還是會(huì)回到平均水平。就像我接觸了很多大佬,我發(fā)現(xiàn)我們和最優(yōu)秀的人之間,也沒(méi)有那么大的智商和情商的距離,但是人家一直在堅(jiān)持努力,同時(shí)再加上天時(shí)地利人和,所以他成功了。我們?nèi)绻齑螋~(yú)兩天曬網(wǎng),那就很難成功。

實(shí)際上,我們每天都會(huì)遇到均值回歸的情況。我們不要過(guò)分夸大優(yōu)秀者的能力,也不要因?yàn)槟硯状问【鸵货瓴徽?,過(guò)度小看自己。只要你不懈努力,就算你現(xiàn)在在谷底,也最終會(huì)到達(dá)平均值水平,甚至超過(guò)平均值。

小結(jié)

小結(jié)一下今天的內(nèi)容。今天我們主要講了回歸分析,回歸就是研究一個(gè)變量和另一個(gè)變量的變化關(guān)系?,F(xiàn)在有非常多的回歸算法,我著重給你講了線性回歸、邏輯回歸和多項(xiàng)式回歸這三個(gè)比較常見(jiàn)的算法。

緊接著,給你分享了過(guò)擬合和欠擬合這兩個(gè)在數(shù)據(jù)挖掘和人工智能里常用到的概念。我們既不能過(guò)于糾結(jié)細(xì)節(jié)陷入到過(guò)擬合里,也不能神經(jīng)大條錯(cuò)過(guò)太多的細(xì)節(jié)最后導(dǎo)致欠擬合。最后我還講了均值回歸的概念,萬(wàn)物最終都要回歸自然平均。

在生活和工作里,我們可以通過(guò)回歸分析找到很多簡(jiǎn)單的規(guī)律,它們能夠幫助我們?nèi)ヮA(yù)測(cè)一些常見(jiàn)的數(shù)據(jù)問(wèn)題。但是在真正使用的時(shí)候,我們也不能盲目相信算法模型推導(dǎo)出來(lái)的結(jié)果,因?yàn)楝F(xiàn)實(shí)其實(shí)要比我們預(yù)測(cè)出來(lái)更加的貼近于平庸:好的沒(méi)有我們預(yù)測(cè)當(dāng)中的那么好,差的也沒(méi)預(yù)測(cè)當(dāng)中的那么差。

所以對(duì)我們自己的工作和生活來(lái)講,用一顆平常心不斷去提高自己的平均線水平才是正確選擇。人和人之間的差異沒(méi)有那么大,不存在著優(yōu)生學(xué),也不存在著“龍生龍鳳生鳳,老鼠的兒子會(huì)打洞”這樣的說(shuō)法。

數(shù)據(jù)給你一雙看透本質(zhì)的眼睛,最終所有的成果,都會(huì)回歸到我們每分每秒的努力當(dāng)中,我們一起努力。

思考

你在工作和生活當(dāng)中遇到過(guò)“均值回歸”的情況么?你從中學(xué)到了些什么呢?分享出來(lái),我們一起共同提高。

文章圖片9

關(guān)注致用教育,我們共同成長(zhǎng)

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多