機器之心報道
「作為一位 FAIR 研究科學家,我將于 2024 年加入麻省理工學院(MIT)電氣工程與計算機科學系 EECS 擔任教職?!?/span> AI 領(lǐng)域的著名學者,ResNet 發(fā)明人何愷明,最近在個人網(wǎng)站上宣布即將回歸學界了。 愷明甚至換上了全新的頭像。 在最近科技公司競爭大模型、AIGC 新增長點的背景下,何愷明選擇投身研究,做出了一個有引領(lǐng)性的選擇。 對此人們紛紛表示歡迎,「他的學生該有福了」: 不知道未來是否會有年輕一代學會何愷明大道至簡的研究風格。 也有人表示,希望他在加入 MIT 之后仍可以和 Meta 保持緊密聯(lián)系,因為即使貴如 MIT 也沒有業(yè)界實驗室那樣豐富的 GPU 算力資源。 感嘆之外,人們紛紛開始預測何愷明未來的科研方向。從他個人網(wǎng)站上的敘述來看:「通過計算機視覺問題的視角,我的目標是開發(fā)適用于各個領(lǐng)域的通用方法。我目前的研究重點是構(gòu)建可以學習復雜世界表示的計算機模型,并探索面向復雜世界的智能。我研究的長期目標是通過更強大的人工智能來增強人類智能?!?/span> 這可能意味著與現(xiàn)實世界互動的 AI,是機器人? 眾人聚焦的轉(zhuǎn)會 何愷明的去向在四個月前成為了 AI 領(lǐng)域人人關(guān)注的話題。 今年 3 月,很多人發(fā)現(xiàn) MIT 的網(wǎng)站上出現(xiàn)了一條特別演講預告。
在 MIT 的 EECS,此類「特殊研討會」通常是前來申請職位的學者進行的「面試」,其內(nèi)容主要是展示求職者的研究成果。沒想到作為學術(shù)明星的何愷明的一場小活動成為了大型追星現(xiàn)場,活動當天會議室爆滿之后 MIT 不得不臨時加開投屏房間,結(jié)果遠程觀看的房間依然爆滿。 圖片來自知乎 可見人們對于這位大神的認可度。 據(jù)參與活動的同學透露,在這場演講過程中何愷明主要介紹了 ResNet、Faster R-CNN、Mask R-CNN、MoCo、MAE 等過去他完成的研究。另外還對未來進行了一定程度的展望,其中包括 AI 作為一個通用工具幫助各個科學領(lǐng)域開展研究,以及自監(jiān)督學習的更廣泛應用。 在 MIT 之行結(jié)束后,何愷明近期還曾在紐約大學、普林斯頓進行過演講。 從高考狀元到頂尖 AI 科學家 何愷明是我們耳熟能詳?shù)?AI 科學家之一,在計算機視覺領(lǐng)域沒有人不知道他的大名。 2003 年,何愷明以標準分 900 分獲得廣東省高考總分第一,被清華大學物理系基礎(chǔ)科學班錄取。在清華物理系基礎(chǔ)科學班畢業(yè)后,他進入香港中文大學多媒體實驗室攻讀博士學位,師從湯曉鷗。何愷明曾于 2007 年進入微軟亞洲研究院視覺計算組實習,實習導師為孫劍博士。 2011 年博士畢業(yè)后,何愷明加入微軟亞洲研究院工作任研究員。2016 年,何愷明加入 Facebook 人工智能實驗室,任研究科學家至今。 何愷明的研究曾數(shù)次得獎。2009 年,湯曉鷗教授、孫劍博士和當時博士研究生在讀的何愷明共同完成的論文《基于暗原色的單一圖像去霧技術(shù)》拿到了國際計算機視覺頂會 CVPR 的最佳論文獎,也是該會議創(chuàng)辦二十五年來首次有亞洲學者獲得最高獎項。 湯曉鷗與何愷明 2016 年,何愷明憑借 ResNet 再獲 CVPR 最佳論文獎,此外,他還有一篇論文進入了 CVPR2021 最佳論文的候選。何愷明還因為 Mask R-CNN 獲得過 ICCV 2017 的最佳論文(Marr Prize),同時也參與了當年最佳學生論文的研究。 根據(jù) Google Scholar 的統(tǒng)計,何愷明一共發(fā)表了 73 篇論文,H Index 數(shù)據(jù)為 67。截至 2023 年 7 月,何愷明的研究引用次數(shù)超過 46 萬次,并且每年以超過 10 萬次的速度增長。 這是個什么量級呢?簡而言之,他加入 MIT 之后會立刻成為該校論文引用量最高的學者,不限學科,沒有之一。 那些年,愷明發(fā)表過的「神作」 說起愷明大神的作品,最有名的就是 ResNet 了。這篇論文發(fā)表于七年前,迄今引用已經(jīng)超過十七萬。 《Deep Residual Learning for Image Recognition》在 2016 年拿下了計算機視覺頂級會議 CVPR 的最佳論文獎。該論文的四位作者何愷明、張祥雨、任少卿和孫劍如今在人工智能領(lǐng)域里都是響當當?shù)拿?,當時他們都是微軟亞洲研究院的一員。 同樣是大神級別的學者李沐曾經(jīng)說過,假設(shè)你在使用卷積神經(jīng)網(wǎng)絡(luò),有一半的可能性就是在使用 ResNet 或它的變種。 何愷明有關(guān)殘差網(wǎng)絡(luò)(ResNet)的論文解決了深度網(wǎng)絡(luò)的梯度傳遞問題。這篇論文是 2019 年、2020 年和 2021 年 Google Scholar Metrics 中所有研究領(lǐng)域被引用次數(shù)最多的論文,并建立了現(xiàn)代深度學習模型的基本組成部分(例如在 Transformers、AlphaGo Zero、AlphaFold 中) )。 如今大模型都在使用的 transformer 的編碼器和解碼器,里面都有源自 ResNet 的殘差鏈接。 「在 ResNet 之后就可以有效地訓練超過百層的深度神經(jīng)網(wǎng)絡(luò),把網(wǎng)絡(luò)打得非常深,」在 2023 世界人工智能大會的演講中,湯曉鷗對何愷明的學術(shù)貢獻不吝贊美:「何愷明把神經(jīng)網(wǎng)絡(luò)做深了,谷歌把神經(jīng)網(wǎng)絡(luò)的入口拉大了,又深又大,才成為今天的大模型?!?/span> 2021 年 11 月,何愷明以一作身份發(fā)表論文《Masked Autoencoders Are Scalable Vision Learners》,提出了一種泛化性能良好的計算機視覺識別模型,同樣是剛剛發(fā)表就成為了計算機視覺圈的熱門話題。
一個初入 AI 領(lǐng)域的新人,在探索的過程中看到很多重要研究主要作者都是何愷明,經(jīng)常會不由得感到驚訝。何愷明雖然長期身處業(yè)界,但科研態(tài)度一直被視為標桿 —— 他每年只產(chǎn)出少量一作文章,但一定會是重量級的,幾乎沒有例外。 我們也經(jīng)常贊嘆于何愷明工作的風格:即使是具有開創(chuàng)性的論文,其內(nèi)容經(jīng)常也是簡明易讀的,他會使用最直觀的方式解釋自己「簡單」的想法,不使用 trick,也沒有不必要的證明,有的只是美麗的直覺。 如今回歸學界,期待愷明能帶來更多驚艷之作。 參考內(nèi)容: https://www.csail./event/eecs-special-seminar-kaiming-he-pursuit-visual-intelligence https://www.zhihu.com/question/588205714 8月26日,與資深大模型技術(shù)專家一起相聚北京,拆解 Llama 2 算法與應用,動手搭建一個私有大模型。 論壇為期 1 天,內(nèi)容包括 Llama 2 算法解讀、基于 Llama 2 開發(fā)中文大模型、Llama 2 案例解讀和應用實踐等。通過本場分享,你將系統(tǒng)了解到 Llama 2 背后的技術(shù)以及潛在的應用場景,為即將到來的「大模型安卓時代」做好準備。 |
|