嘉賓介紹 素質(zhì)版主 經(jīng)管之家論壇ID:我的素質(zhì)低。是經(jīng)管之家十分資深且極具人氣的超級版主,統(tǒng)計學(xué)碩士,也是一枚才華橫溢、靈氣四射、思維開闊的90后,擁有與其論壇ID“我的素質(zhì)低”完全相反的“素質(zhì)”。他曾獲得全國大學(xué)生統(tǒng)計建模大賽一等獎,癡迷于計量統(tǒng)計,熱愛數(shù)據(jù)分析,矢志成為數(shù)據(jù)大俠,對于計量統(tǒng)計專業(yè)有著扎實的專業(yè)基礎(chǔ)和長期的持續(xù)跟蹤。同時,亦對思考的技術(shù)、互聯(lián)網(wǎng)與大數(shù)據(jù)、代碼編寫、人工智能、算法等領(lǐng)域有著很強的領(lǐng)悟力。他的第一份工作是目前最火熱的AI算法工程師,由此也積累了從經(jīng)濟(jì)人轉(zhuǎn)向AI算法工程師的寶貴經(jīng)驗和歷程。 他喜歡喬布斯,自我描述“Stay foolish,stay hungry!”。除對統(tǒng)計專業(yè)有濃厚而深切的愛戀外,閑來沒事還會舞文弄墨,文字技巧嫻熟,文章獨具一幟,個化化標(biāo)簽十足。常在論壇游走,以“素質(zhì)出品”、“ONLY ONE”系列為名,面世了很多數(shù)據(jù)匯總、統(tǒng)計理論、計量學(xué)習(xí)、資源梳整等方面的優(yōu)秀學(xué)習(xí)專題??偟膩碚f一句話:有才、有趣、有意思! 問1:歡迎素質(zhì)來到《經(jīng)管人》專訪欄目!作為一名長期活躍并駐扎在論壇的資深版主,您曾為大家分享了包括計量經(jīng)濟(jì)學(xué)、統(tǒng)計學(xué)、數(shù)據(jù)搜集與整理、機器學(xué)習(xí)在內(nèi)的許多優(yōu)質(zhì)的資源,在這些領(lǐng)域也有著長期的跟蹤和積累。從本科到碩士階段,您都在統(tǒng)計專業(yè)浸泡著。首先能否為大家分享下作為新手,計量統(tǒng)計學(xué)科如何入門呢?能否為大家推薦一些比較好的計量與統(tǒng)計領(lǐng)域的經(jīng)典圖書、教材和文獻(xiàn)材料,并幫助大家做一個簡要的點評和梳理?在本領(lǐng)域您都跟蹤了哪些大牛呢,能否也為大家介紹一下?以及學(xué)習(xí)統(tǒng)計學(xué)方面,您認(rèn)為有哪些優(yōu)秀的網(wǎng)絡(luò)資源也是值得關(guān)注的呢? 答:感謝您的提問。首先,我認(rèn)為無論計量還是統(tǒng)計都是幫助學(xué)習(xí)、科研的工具學(xué)科,需要在不同的使用場景中加以運用才能逐漸融會貫通。我的計量統(tǒng)計學(xué)習(xí)路徑可能跟很多科班出身的不太一樣,相比于將書本中的工具套用在實際場景中,個人比較傾向于先了解這個方法會出現(xiàn)在哪些應(yīng)用場景里,再結(jié)合課本上的理論知識,進(jìn)一步研究如何應(yīng)對新場景的要求,判斷理論上是否可行。也就是:工具書找方法的場景 + 理論書學(xué)方法的本質(zhì)。具體來說,1)在學(xué)多元回歸分析,我會先去搜集用SPSS軟件實現(xiàn)的相關(guān)書籍,選擇了張文彤老師的書籍《張文彤SPSS初中級教程》、《張文彤SPSS高級教程》等。 2)在學(xué)時間序列分析的時候,會去找EVIEWS軟件的書籍,張曉峒老師的《計量經(jīng)濟(jì)學(xué)軟件EViews使用指南》。 3)在學(xué)面板數(shù)據(jù)分析的時候,EVIEWS和STATA的相關(guān)書籍,陳強老師的《高級計量經(jīng)濟(jì)學(xué)及STATA應(yīng)用》。 4)在學(xué)機器學(xué)習(xí)相關(guān)的內(nèi)容的時候,會去找R語言軟件的書籍,吳喜之老師《復(fù)雜數(shù)據(jù)統(tǒng)計方法——基于R的應(yīng)用》等等。 工具類書籍有一個好處,就是提供給我們諸多的案例與算法示例,跟著工具書走一遍,就相當(dāng)于一道證明題跟著書籍證明了一遍,在流程中掌握更多細(xì)節(jié)。 另外,網(wǎng)絡(luò)學(xué)習(xí)資源豐富,這里可以給大家推薦一些,經(jīng)管之家是一個學(xué)習(xí)統(tǒng)計計量的好去處,很多人會在其中交流自己的心得以及疑問,很多壇友也都見解獨到,讓人耳目一新,有利于拓展思路。還有一些網(wǎng)站也比較有特色,小木蟲、經(jīng)濟(jì)學(xué)家、科學(xué)網(wǎng)等,預(yù)測者網(wǎng)有比較多的股市數(shù)據(jù)(日、周、月、年交易數(shù)據(jù))給出的指標(biāo)還是挺全面的。中文互聯(lián)網(wǎng)數(shù)據(jù)資訊中心有比較多的當(dāng)下熱門的網(wǎng)絡(luò)資訊信息與報告,還有一些大城市除了統(tǒng)計局還有自己的數(shù)據(jù)服務(wù)網(wǎng),譬如上海市政府?dāng)?shù)據(jù)服務(wù)網(wǎng)。 問2:對于許多做實證研究的人來說,計量與統(tǒng)計軟件的掌握能力至關(guān)重要,能否結(jié)合學(xué)術(shù)期刊的投稿與寫作,以及科研工作本身,為大家分享一下如何在論文寫作中快速提高計量統(tǒng)計水平呢?如果一個人的計量統(tǒng)計是零基礎(chǔ),那么在準(zhǔn)備CSSCI等期刊的投稿時,應(yīng)該如何入手并規(guī)劃學(xué)習(xí)路徑呢? 答:曾經(jīng),在經(jīng)管之家有三個帖子刷新了我的計量觀,了解到光明學(xué)術(shù)下計量實證的“潛規(guī)則”。所以,在這介紹的是“黑科技”,”正義凜然”的看客請繞行。 這里我只摘錄個別亮點,帖子發(fā)于7年前,其中的一些方法難免有點過時,但是內(nèi)容絕對震撼:案例背景 當(dāng)初一個舍友來自西部地區(qū),從沒學(xué)過計量(OLS都沒學(xué)過)。但畢業(yè)論文老板要求用數(shù)據(jù)說話,發(fā)愁。我于心不忍,告訴她:我每天晚上自習(xí)回來,睡覺前花10分鐘給你講解一下STATA的操作和出來的各項結(jié)果意義。第一天,我講了OLS。畫了一張散點圖和一根直線,用了1分鐘就讓她完全理解了OLS的精髓,這是用來干啥的。后面9分鐘講解了STATA的操作和OLS的各種變種。結(jié)果只一個星期,講完五種方法(下面會介紹),她信心大增。后來一下子發(fā)了好幾篇CSSCI,計量做的天花亂墜,讓人誤以為是一個大師。畢業(yè)論文也順利通過。 簡單回歸:有人會問:簡單回歸會不會太簡單?我只能說你真逗。STATA里面那么多選項,你加就是了。什么異方差、什么序列相關(guān),一大堆盡管加。如果你實在無法確定是否有異方差和序列相關(guān),那就把選項都加上。反正如果沒有異方差,結(jié)果是一樣的。有異方差,軟件就自動給你糾正了。這不很爽嘛。如果樣本太少,你還能加一個選項:bootstrap來估計方差。你看爽不爽!bootstrap就是自己把腳抬起來扛在肩上走路,就這么牛。GMM:GMM其實是一個沒有用的忽悠,例如估計動態(tài)面板的diffGMM,其關(guān)鍵思想是當(dāng)你找不到工具變量時,用滯后項來做工具變量。結(jié)果你會發(fā)現(xiàn)令人崩潰的情況:不同滯后變量的階數(shù),嚴(yán)重影響你的結(jié)果,更令人崩潰的是,一些判斷估計結(jié)果優(yōu)劣的指標(biāo)會失靈。一些口訣:1.一定得選最復(fù)雜的計量方法,用別人無法獲得的數(shù)據(jù),寫出能讓人明白但看不懂的論文。2.控制變量直接放你所能想到的,起碼也得五六個。3.什么序列相關(guān)呀,異方差呀,bootstrap呀,能加上的全給他加上。4.論文開頭有復(fù)雜新奇的關(guān)鍵詞,致謝里都是學(xué)界名人。5.字里行間都帶腳注,引用全是英文文獻(xiàn),特專業(yè)的那種,6.讀者讀到這里,甭管他有沒有看懂,都得跟人家說一聲“我的方法來自ECONOMETRICA”,一口專業(yè)的計量術(shù)語,倍兒有面子。參考鏈接:計量論文寫作和發(fā)表的黑客教程1:讓初學(xué)者瞬間開竅 — PDF版本(http://bbs./thread-988937-1-1.html)所以,也不必覺得計量很神秘、很困難,上手試一試,也許就有驚喜。問3:市面上的計量和統(tǒng)計軟件可謂十分多,能否結(jié)合您的學(xué)習(xí)旅途和習(xí)得的經(jīng)驗,為大家做一個系統(tǒng)的梳理呢?包括各類軟件的適用性、優(yōu)缺點等等? 答:計量統(tǒng)計的軟件很多,不同軟件都有自己的側(cè)重點和所長,我們可以根據(jù)實際情況靈活使用: (1)問卷、多元回歸分析-----SPSS大家都知道是市場調(diào)查專用,這里簡單介紹一下最新版本的spss25.0,新加了高級統(tǒng)計模塊中貝葉斯統(tǒng)計執(zhí)行新的貝葉斯統(tǒng)計函數(shù),包括回歸、方差分析和t檢驗。 新圖表模板,可實現(xiàn)word等微軟家族中編輯,這個新功能,通俗的說,就是SPSS輸出的圖表,你可以不用在原始的輸出界面進(jìn)行編輯修改,可以直接保存到word等里面,再進(jìn)行修改。將高級統(tǒng)計分析擴(kuò)展到混合、genlin混合、GLM和UNIANOVA, 變得更加精致。 (2)結(jié)構(gòu)方程與路徑分析------AMOS,主要是用于對結(jié)構(gòu)方程模型(SEM)的建立和檢驗,不過也有使用liserl和mplus做SEM的,從使用來看,繼承了IBM的一貫流程化風(fēng)格,比較容易上手,一些流程都是拖拽式的,潛變量與結(jié)構(gòu)變量之間的連接比較規(guī)范,驗證性分析必備。 (3)金融方向的挖掘與分析------SAS,銀行、券商的最愛,因為比較安全,有商業(yè)保障,比較主流; (4)時間序列與面板------eviews和stata,eviews特別是新版本有很多高端的時序模型,分位數(shù)回歸、門限回歸、面板協(xié)整、馬爾科夫轉(zhuǎn)換回歸、結(jié)構(gòu)突變點檢驗、指數(shù)平滑狀態(tài)空間模型、Heckman選擇模型,且x12、x11等季節(jié)調(diào)整模型也很多,總之時序eviews能做的很多,而且每年都在更新新的模組,比較適合經(jīng)濟(jì)學(xué)者入門,關(guān)于以上新版本的更新可以看帖子:[Eviews] 〖素質(zhì)筆記〗Eviews 8新功能之四——Heckman選擇模型(http://bbs./thread-3880845-1-1.html) stata在高級的面板模型上走的很多,面板向量自回歸等,還可以做Logit、多元Logit、雙邊隨機邊界分析 (two-tier StochasticFrontier Analysis)、異質(zhì)性隨機邊界分析、面板VAR模型、GMM、傾向得分匹配分析、非線性最小二乘法(NLOLS)等,主要是需要編寫代碼,所以可以自己組合一些方式方法出來,比較靈活,適合高階晉級的經(jīng)濟(jì)學(xué)者。 (5)數(shù)據(jù)挖掘萬靈藥------界面化的spss modeler、matlab、R、python,R+python 在機器學(xué)習(xí)、人工智能到來之際,已經(jīng)火的一塌涂地了,spss modeler相對來說,就不顯得那么有光芒了。但是,對于機器學(xué)習(xí)入門來說,spss modeler絕對很好掌握,跟spss一樣流程式,下面是一些流程組件,可以任意拼接,比較符合數(shù)據(jù)分析的流程:數(shù)據(jù)預(yù)處理-建模-展示。 (6)數(shù)據(jù)可視化/拖拽式界面------tableau、JMP(SAS旗下),都是比較適合數(shù)據(jù)可視化的軟件,tableau可謂大名鼎鼎,炫技術(shù)的神器,經(jīng)常有tableau比賽,而且社區(qū)經(jīng)常有聚會以及巡回演講,可以目睹可視化屆的黑科技,線上做的圖可以移動端查看: JMP也有類似的功能,JMP是SAS推出的一種交互式可視化統(tǒng)計發(fā)現(xiàn)軟件系列, 這本書《JMP 統(tǒng)計分析教程 楊重法(著)》里面有比較詳細(xì)地介紹,拖拽式的界面比較容易理解與讓分析師進(jìn)行任意數(shù)據(jù)的組合、交叉。 (7)還有一些數(shù)值運算小眾的------gauss矩陣語言軟件包, 它可以十分方便地編制矩陣計算程序、winbugs(貝葉斯分析) 問4:作為一名統(tǒng)計學(xué)科班出身的經(jīng)管人,您畢業(yè)后的第一份工作是AI算法工程師-----AI目前是整個時代的風(fēng)口,您的成長路徑也可以說是“非典型”的,能否為大家分享一下經(jīng)濟(jì)人轉(zhuǎn)行做AI的一些歷程與走來的想法?從文本挖掘、圖像目標(biāo)識別到深度學(xué)習(xí)、算法等方面,您都有哪些心得和感受呢? 答:對我來說,研三是一個轉(zhuǎn)折期,因為不打算繼續(xù)讀博,計量統(tǒng)計的知識出來做數(shù)據(jù)分析工作還差了一點,所以不得不補一些機器學(xué)習(xí)、文本挖掘方面的知識。補著補著發(fā)現(xiàn),深度學(xué)習(xí)這陣風(fēng)刮來了,趕緊抱緊大腿又惡補了很久,差不多惡補了一年,總算在畢業(yè)的時候留任在實習(xí)的公司,正式從經(jīng)濟(jì)學(xué)人成功轉(zhuǎn)型碼農(nóng)(/掩臉)。畢竟碼農(nóng)好就業(yè),這點...(/嘆氣) 深度學(xué)習(xí)外來入侵了很多領(lǐng)域,打破了很多領(lǐng)域的研究上限,讓大家看到了無限可能性,對于我們經(jīng)濟(jì)學(xué)來說,時間序列預(yù)測較多模型都是以線性為主,非線性的、針對金融的模型復(fù)雜度都較高,理論較為繁雜。而深度學(xué)習(xí)用一個黑箱子把這些復(fù)雜都藏起來,讓本來就復(fù)雜的現(xiàn)象交給復(fù)雜的系統(tǒng)去處理。壞處是,可解釋性很差(不像回歸還有系數(shù)T檢驗、R方、F值檢驗),好處是逼近真實,預(yù)測準(zhǔn)確率極高。本著知己知彼的心態(tài),不自己了解一下入侵者,肯定不知道如何應(yīng)對。 人工智能、機器學(xué)習(xí)、深度學(xué)習(xí)三者的關(guān)系就如圖所示這樣,人工智能范圍很大,囊括的內(nèi)容也很多,把人工智能比作一個人,深度學(xué)習(xí)則是這人的大腦。 深度學(xué)習(xí)模型的一些基本架構(gòu)相對國人來說,絕對沒的說,很好理解,學(xué)過高數(shù)的基本都能夠理解反向傳播的機制,也就知道模型是在干什么,困擾實踐的更多會是如何通過軟件來實現(xiàn),近幾年屬于深度學(xué)習(xí)爆發(fā)的階段,之前比較麻煩的一點就是,算法更新迭代速度快到超乎想象,剛剛掌握的新技術(shù),說不定幾周內(nèi)就更新了一個版本,算法里面調(diào)用的函數(shù)連名字都換掉了,各類教程剛剛寫出來馬上又過時,所以入門難。但經(jīng)過了前期的爆發(fā)式增長,現(xiàn)在很多編程算法函數(shù)已經(jīng)趨于穩(wěn)定,也就非常適合入門。 當(dāng)然, 一般來說,經(jīng)管專業(yè)對深度學(xué)習(xí)的理論理解絕對沒問題,網(wǎng)上教學(xué)資源豐富,聽著老師的講解以及一些教材絕對能聽懂,但是呢,動手寫代碼對經(jīng)管人來說就比較困難了,而且一般經(jīng)管都是用R,python用的倒不多。編碼能力這點,就跟學(xué)語言一樣,一定要多加練習(xí)才能學(xué)會,網(wǎng)上能夠找到一些教程,用jupyter notebook或R markdown寫的內(nèi)容,可讀性都比較強,一段代碼一段顯示,讓你了解每個函數(shù)的輸入、輸出、參數(shù)設(shè)置等,所以勤加練習(xí)編碼這關(guān)還是可以順利通過的。 深度學(xué)習(xí)一些框架對新手來說比較麻煩,這邊推薦可以看看騰訊開發(fā)者實驗室以及IBM的公益項目:supervessel,里面已經(jīng)裝好了環(huán)境可以直接測試。 問5:隨著大數(shù)據(jù)、云計算等技術(shù)的日趨成熟,人工智能的發(fā)展也在不斷突破,生態(tài)也逐步形成------我們注意到在美股市場上,以英偉達(dá)、谷歌、FACEBOOK為代表的一批企業(yè)都在加速在AI領(lǐng)域的布局,其股價也屢屢創(chuàng)出新高。技術(shù)的進(jìn)步與融合,讓各個學(xué)科的發(fā)展都滾滾向前,新的概念頻出,新的趨勢也不斷確立。 您如何看待經(jīng)濟(jì)學(xué)與人工智能的關(guān)系?之前與您的交流中,您提及“計量統(tǒng)計的未來或許會涉及到如何接地氣、非結(jié)構(gòu)化數(shù)據(jù)的整合“,能否就這個見解進(jìn)一步分享和展開呢? 答:深度學(xué)習(xí)會像計量一樣,作為一種強有力的工具來幫助經(jīng)濟(jì)人了解經(jīng)濟(jì)現(xiàn)象,未來的實證可能會有更多的深度學(xué)習(xí)方式來進(jìn)行說理。對于經(jīng)濟(jì)學(xué)的影響,我認(rèn)為主要來自于兩個方面: 非結(jié)構(gòu)化數(shù)據(jù)的解讀能力+解讀復(fù)雜現(xiàn)象的模型 。 非結(jié)構(gòu)化數(shù)據(jù)的解讀能力。深度學(xué)習(xí)拓寬了可分析的領(lǐng)域,常規(guī)來看,之前經(jīng)濟(jì)期刊實證發(fā)文,較多就是宏觀經(jīng)濟(jì)數(shù)據(jù)、微觀調(diào)查數(shù)據(jù),而深度學(xué)習(xí)作為可以解讀非結(jié)構(gòu)化數(shù)據(jù)的方式,可以更好地全面了解現(xiàn)象的發(fā)生。 譬如圖像、文本、聲音、視頻等一些非結(jié)構(gòu)化的數(shù)據(jù)經(jīng)過提取都可以成為一些變量加入到整個模型之中。其中輿情方面的研究都較為有趣,比如twitter中的輿情預(yù)測股價、預(yù)測總統(tǒng)選舉、預(yù)測用戶情緒等。 舉一個現(xiàn)在流行的模型——卷積神經(jīng)網(wǎng)絡(luò),CNN目前用來看圖,確切來說,用來解讀數(shù)字矩陣,因為一張圖片一般解讀成RGB的三維數(shù)組矩陣,把非結(jié)構(gòu)的大小變成數(shù)字,而且還是矩陣,那就有的數(shù)學(xué)家玩兒了~矩陣數(shù)值可以理解為像素點,數(shù)值 1 是白色,256 是最深的綠色。在算法眼里圖像張下面這樣: 卷積層就有點像是統(tǒng)計里綜合評價中的各個指標(biāo)加權(quán)得到得分,只不過現(xiàn)在是在一個3*3的小區(qū)域里面算權(quán)重得分,如下: 具體的解讀比較淺顯的解讀素質(zhì)推薦一篇用excel來解讀卷積的長文:《機器視角:長文揭秘圖像處理和卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)》。 提供了解讀復(fù)雜現(xiàn)象的模型,物理學(xué)家,諾獎得主Philip Anderson的一句普世名言:more is different!線性模型在宏觀趨勢上的解讀能力很強,但是預(yù)測微觀現(xiàn)象的能力要遜色很多,而深度學(xué)習(xí)在高維數(shù)據(jù)中抽絲剝繭,降維關(guān)鍵信息,憑借強大的計算資源,可以擁有成千上萬個參數(shù),學(xué)術(shù)界試圖模仿人腦的“神經(jīng)網(wǎng)絡(luò)“建立一個類似的學(xué)習(xí)策略,也取名為”神經(jīng)網(wǎng)絡(luò)“,由于到目前,還無法知道人腦工作的復(fù)雜性,所以這兩個神經(jīng)網(wǎng)絡(luò)也只能是形似而已。但這在常規(guī)經(jīng)濟(jì)學(xué)模型來看,已經(jīng)很可怕,就像大腦中神經(jīng)傳輸、觸發(fā)一樣。 總的來說,深度學(xué)習(xí)可以很好地控制預(yù)測成本,可以提供給經(jīng)濟(jì)學(xué)人更多非結(jié)構(gòu)化數(shù)據(jù)的解讀,以及強有力的應(yīng)付復(fù)雜現(xiàn)象的模型。 一些算法的學(xué)習(xí)與實踐,素質(zhì)還是跟之前學(xué)習(xí)計量一樣,從工具入手再去回顧理論,那么深度學(xué)習(xí)一般工具的載體就是python或R,python的入門紙質(zhì)書很多,網(wǎng)上資源可以看廖雪峰python教程,一些packages入門可以直接看packages的介紹文檔:TensorFlow 官方文檔中文版、keras官方文檔中文版、Mxnet文檔等。 AI社區(qū)同樣非?;钴S,很多高質(zhì)量的論文都會在一些社群里面討論,微信群有:PaperWeekly微信群、將門微信群;公眾號有:機器之心、智能立方、Paperweekly、哈工大scir、將門創(chuàng)投、煉丹實驗室、機器學(xué)習(xí)研究會、AI科技評論、全球人工智能、深度學(xué)習(xí)大講堂;知乎專欄有:煉丹實驗室、機器之心、超智能體、PaperWeekly、深度學(xué)習(xí):從入門到放棄、智能單元、深度學(xué)習(xí)大講堂等。當(dāng)然了,統(tǒng)計之都也有非常多的接地氣的文獻(xiàn): Editor: 從統(tǒng)計學(xué)角度來看深度學(xué)習(xí)(1):遞歸廣義線性模型 https:///2015/05/a-statistical-view-of-deep-learning-i-recursive-glms Editor: 從統(tǒng)計學(xué)角度來看深度學(xué)習(xí)(2):自動編碼器和自由能 https:///2015/05/a-statistical-view-of-deep-learning-ii-auto-encoders-and-free-energy Editor: 從統(tǒng)計學(xué)角度來看深度學(xué)習(xí)(3):記憶和核方法 https:///2015/06/a-statistical-view-of-deep-learning-iii-memory-and-kernels 問6:近年來,經(jīng)管領(lǐng)域的計量、統(tǒng)計已經(jīng)快速與AI融合起來,您覺得AI所涉及的知識結(jié)構(gòu)和知識全景是怎樣的呢?或者說,AI大圈子背后全專業(yè)領(lǐng)域的匯合是一幅怎樣的全貌呢?AI如何做預(yù)測與計量預(yù)測?AI做原因分析與傳統(tǒng)統(tǒng)計做原因分析有哪些異同呢? 答:深度學(xué)習(xí)與AI現(xiàn)在國內(nèi)非常熱,從各大頂級期刊來看華人稿子很多,仰賴全民從小數(shù)理化,基本數(shù)理知識扎實,入門學(xué)習(xí)比較容易。而且,受線上教育的紅利,有非常多的頂級、免費的公開課可以供大家學(xué)習(xí),讓名校的知識教育流傳開來,比如吳恩達(dá)的deeplearning.ai,這個在網(wǎng)易云課堂有中文字幕版的(http://mooc.study.163.com/smartSpec/detail/1001319001.htm )。經(jīng)典的cs231n,官網(wǎng)鏈接(http://cs231n./ ),cs231n是有筆記的(https://cs231n./ ),當(dāng)然,知乎上的一些大神對這個筆記進(jìn)行了翻譯---鏈接(https://zhuanlan.zhihu.com/p/21930884 )。李飛飛老師的網(wǎng)易云課堂的公開課。 對于深度學(xué)習(xí)與AI整體框架來說,網(wǎng)上盜圖一張,供大家參考: 上圖比較籠統(tǒng)(來源文獻(xiàn):《人工智能產(chǎn)品經(jīng)理的新起點》),能掌握一部分已然很不錯,一些基本的知識點有: 基本模型結(jié)構(gòu)卷積層、激活函數(shù)、池化層、歸一化層、softmax,參數(shù)初始化gaussian/xavier/bilinear,激活函數(shù):sigmoid、tanh、relu、selu等,損失函數(shù):log loss/hinge loss/zero-one loss等,優(yōu)化方式:sgd/adagred/adam等,各種訓(xùn)練技巧:dropout/batch normalization /正則/attention等,一些理論知識點:梯度爆炸、梯度彌散、調(diào)參、微調(diào)等,一看這么多專業(yè)名詞瞬間蒙X了,別著急,其實... 這也只是剛剛?cè)腴T...。 深度學(xué)習(xí)做預(yù)測與計量做預(yù)測模式有很多相似之處,首先需要喂給模型一些數(shù)據(jù),然后模型學(xué)習(xí)到這些數(shù)據(jù)的模式,再進(jìn)行相關(guān)預(yù)測。不同之處在于處理非線性的能力,以RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))為例: RNN中,x是輸入,y是輸出,h可以對序列形的數(shù)據(jù)提取特征,接著再轉(zhuǎn)換為輸出。 外來入侵的深度學(xué)習(xí)解釋性不強代表著其理論根基還不透徹,特別是統(tǒng)計學(xué)中變量有兩類連續(xù)變量和離散變量,連續(xù)時間變量的理論基礎(chǔ)是其服從某些分布,從而可以開展相關(guān)的分析,但RNN給出了連續(xù)時間變量不一樣的解讀方式,即可以看成一個在時間上傳遞的神經(jīng)網(wǎng)絡(luò),它的深度是時間的長度,這種對時間的解讀與常規(guī)線性回歸解讀方式差異很大,極有意思。 問7:從一位經(jīng)管人到AI工程師,其實我們相信底層的知識的遷移,以及對工作崗位的快速學(xué)習(xí)和適應(yīng),都十分重要。在這個過程中,能否和我們分享一下,您從AI入門到開始AI項目的歷程呢?您覺得作為一個職業(yè)新人,應(yīng)該如何去快速適應(yīng)自己的新工作呢?工作以來,最大的感受是什么? 答:來看一張AI界大牛整理的一張AI產(chǎn)品: 也就是現(xiàn)在AI并不是一個算法、一個模型、一個專利技術(shù)、一個人能解決的,AI需要整體解決方案,所以需要很多專業(yè)內(nèi)容匯聚在一起來共同解決同一問題。新的行業(yè)的誕生,必然也會有非常多新的崗位添加進(jìn)來,涌現(xiàn)出一些比較有意思的崗位:機器人暴力評估師、訓(xùn)機師(雇傭詩人、喜劇演員幫助機器人設(shè)計對話)等,從上圖所調(diào)用的資源與能夠達(dá)到的效果,AI產(chǎn)品可以很快地打破垂直領(lǐng)域一些產(chǎn)品,以一個“顛覆者”的姿態(tài),譬如翻譯員、司機(雖然無人駕駛還很遙遠(yuǎn)...)、客服等。當(dāng)然,這里也可以開個腦洞,解放生產(chǎn)力之后,讓大家有更多閑置時間,那么娛樂、游戲等一些偏休閑的方向也會迅速崛起。 深度學(xué)習(xí)、AI是一個嶄新的方向,做AI項目需要調(diào)動的資源比想象中要多得多,AI產(chǎn)品需要有很多高質(zhì)量的標(biāo)注數(shù)據(jù),硬件資源也尤其重要,比如計算機一定需要質(zhì)量比較高的GPU,而高質(zhì)量GPU通常價格不菲。工程師是AI產(chǎn)品的靈魂,AI就像學(xué)舌鸚鵡,你教她說什么,她只會說你教的,而且你一下子教她很多,她有很大概率一句都學(xué)不會,所以是一個互相適應(yīng)、互相學(xué)習(xí)的過程。還有,模型需要大量的訓(xùn)練數(shù)據(jù),才能展現(xiàn)出神奇的效果,但現(xiàn)實生活中往往會遇到小樣本問題,此時深度學(xué)習(xí)方法無法入手;有些領(lǐng)域,采用傳統(tǒng)的簡單的機器學(xué)習(xí)方法,可以很好地解決了,沒必要非得用復(fù)雜的深度學(xué)習(xí)方法,千萬不要掉進(jìn)模型怪圈。 作為一枚初入職場的小白,特別還是AI方向的,需要花更多時間去讓自己充電,AI所需的知識是方方面面,她把很多領(lǐng)域的知識融合進(jìn)來,所以為了了解她,需要去不斷學(xué)習(xí)、理解、磨合、適應(yīng),其發(fā)展也是指數(shù)級,可能每周都有新的方式方法超越,成為state-of-the-art,要有“Stay foolish,stay hungry”的精神! 問8:在剛才的采訪中,我們提了許多問題,最后一個問題,我們希望是開放式的,也希望您能盡情發(fā)揮。在訪談的最后,能否就您擅長的領(lǐng)域或感興趣的領(lǐng)域,為我們分享一段精彩的評論或觀點或寄語呢? 答:之前了解過量化大師西蒙斯的團(tuán)隊結(jié)構(gòu),他從來不雇傭經(jīng)濟(jì)學(xué)家及華爾街專業(yè)人士,而卻將計算機科學(xué)家、物理學(xué)家以及天文學(xué)家都納入團(tuán)隊,甚至雇用了一些語音學(xué)家。他認(rèn)為股票市場就是一個數(shù)學(xué)難題,與實體經(jīng)濟(jì)的構(gòu)造組成沒有關(guān)系。他曾說:“我們不雇用數(shù)理邏輯不好的學(xué)生?!?/span> 受他這種天馬行空的研究模式啟發(fā),我認(rèn)為經(jīng)濟(jì)現(xiàn)象也并非只能從調(diào)查、年鑒、數(shù)據(jù)庫中去探索蛛絲馬跡,還可以從很多非結(jié)構(gòu)化的內(nèi)容入手研究。而深度學(xué)習(xí)對非結(jié)構(gòu)化數(shù)據(jù)的解讀可以極大幫助經(jīng)濟(jì)學(xué)人去理解經(jīng)濟(jì)現(xiàn)象,擁抱更多元、全領(lǐng)域、多模態(tài)的分析模式。 |
|