從讀研究生開始,我們便踏上一條可能成為科學家的道路。學術(shù)評價的對象不僅僅是科學家,事實上,學術(shù)評價已經(jīng)提前滲透到研究生的國家獎學金評選過程中。 胡志剛 / 大連理工大學 注:圖片來源于考研幫 一年一度的研究生國家獎學金評選,正在全國各大高校如火如荼的開展中。從2012年9月研究生國獎創(chuàng)立至今,這一獎項已經(jīng)來到了第六個年頭。爭議聲正在式微,但是打開小木蟲的碩博家園,你會發(fā)現(xiàn)有關(guān)國獎的討論熱情從未消退。 天上掉下個獎學金 臨近金秋十月,又到了收獲的季節(jié)——至少對一部分研究生是這樣的。對于這些研究生來說,能不能在接下來的學年里,向家里要錢的次數(shù)少一些,小日子過得相對體面一些,取決于他們能不能在與同班同學的競爭者突出重圍,奪得這一含金量十足的國家大獎。 2012年的這個時候,我趕上了第一屆研究生國家獎學金的評選。橫空出世的研究生國獎以高達五位數(shù)的獎金數(shù)額,狠狠的打破了一片平和的研究生生活。 那時候,我們博士每個月只有學校發(fā)放的1500元補貼,勉強能夠不向家里伸手解決基本溫飽問題。作為一個校友捐贈不多的普通985(現(xiàn)在應稱雙一流)高校,博士生能夠期待的最壕獎項來自寶鋼獎學金(5000元)。 可能碩士生的情況更慘,可以評獎的機會甚至連本科生都不如,靠得獎來發(fā)家致富,還不如躺馬路上碰瓷來的實際。 在此背景下,你可以想象,兩三萬的獎金金額一公布,別說是研究生們,連導師們都驚掉了下巴。向來摳門的教育部,一下子給這么多錢,確定不是為了考驗研究生們面臨金錢誘惑時的抵抗力嗎? 于是,在巨大的利益面前,原本單純無邪的同學友誼,小船兒是說翻就翻。我能理解教育部刻意為了激發(fā)研究生的競爭活力的初衷,可是也請考慮一下我們這些一貫與世無爭的研究生們的心理承受能力。 評委導師們頂著巨大的思想壓力為其實旗鼓相當?shù)膶W生們評獎,有時候評誰不評誰都在兩可之間,這時候真恨不得把這個國獎“碎尸萬段”——早期好像還真有學校這么干過,將國家獎學金拆分給幾個人平分,后被上級部門叫停。 獲得國獎的最優(yōu)策略 大部分高校的第一屆國獎評選規(guī)則都倉促而粗糙。教育部發(fā)放國獎的時候,并沒有附贈使用說明。所以,每個學校都是在摸著石頭過河。好在大部分高校至少都積累了豐富的教師職稱評聘經(jīng)驗,借用一下是最常想到的辦法。 比如,將論文按照期刊級別、影響因子等進行積分,再為各項積分賦予不同的權(quán)重,按照得分評選最終的國獎得主。 定量的方法可以減輕了人為因素的干擾,但是設(shè)計一個合理的指標系統(tǒng)并不容易。我所在的學部的對于研一的學生是按照課程成績占60%,科研成績占20%的權(quán)重進行評選;研二的學生則是按照課程成績占10%,科研成績占80%的權(quán)重進行評選。 這看似是一個考慮了不同年級特點的合理賦權(quán),但這仍然是一個拍腦袋的結(jié)果。我嚴重懷疑這一賦權(quán)策略并沒有真的經(jīng)過測算,比如,對于研一課程成績的較高賦權(quán),是否真的就能夠?qū)⒄n程的重要性提高到一個具有區(qū)分度的程度? 大部分時候,課程成績的部分根本起不到作用,因為大家的平均分都差不多,基本上都在88-92分之間,很難拉開距離。 國家獎學金的評選規(guī)則,背后體現(xiàn)的是對研究生的激勵導向。一般而言,研究生在讀期間有兩大任務(wù)——上課和科研,這也是大部分國獎評選時考慮的最重的兩個因素。但是,如果沒有一個很好的權(quán)衡,賦權(quán)的大小會極大的影響最終的得分結(jié)果。 從我這幾年參與評獎的經(jīng)驗來看,加權(quán)后的課程成績的分差之小,幾乎不能抵消發(fā)表一篇國內(nèi)期刊論文的得分。因此,對于研究生們來說,可能最優(yōu)的競爭策略是多發(fā)論文,而不是好好上課獲得好成績。 當然,人為把讓課程的權(quán)重放大,讓課程成績起決定性作用,可能也有問題。因為上課的目的是為了教給研究生知識,而不是為了把他們分成三六九等。如果上課的目的被異化,這可能也會違背研究生教育的初衷。 評選國獎的技術(shù)問題 研究生國獎設(shè)立六年之后,我已經(jīng)由一個參評者變成了一個評委老師甚至是組織者,但是六年過去,我們還沒有真正解決國獎評選中的許多技術(shù)問題。 前面提到了課程成績和科研成績的賦權(quán)問題。其實,這兩個方面單獨拎出來一個,都是一個值得專文討論的技術(shù)難題。 拿科研成績的計算來說吧。發(fā)表一篇國際論文算多少分?一篇國內(nèi)論文算多少分?一篇會議論文算多少分?SCI收錄算多少分?CSSCI收錄算多少分?北大核心算多少分?論文的影響因子算多少分?進入ESI高被引論文列表算多少分?第一作者算多少分?第N作者算多少分?科研成績的總分是設(shè)個滿分還是上不封頂? 這些問題中的每一個,不同的人都可能給出不同的答案。 相對于科研成績的計算,課程成績的計算看似簡單,其實更為復雜。 第一,計算課程成績時,是所有的課程都算分?還是只有必修課算分?一個專業(yè)的同學選修了不同的選修課,在計算平均分的時候怎么保證可比性? 第二,有些成績不給分值,只給A/B/C檔甚至是P/F,那么這些課程是否要折算成成績?怎么折算?還是干脆不算分?那不算分是否公平? 第三,是用各門課程分數(shù)的總和還是用平均分?在計算平均分的時候,是計算直接平均分還是加權(quán)(按學分)平均分?是用算數(shù)平均分還是幾何平均分? 最后一點,也可能是最重要的一點,每個課程的給分情況是不一樣的。有的課程老師給分比較溫柔,給的分數(shù)都在90分上下;有的課程老師比較犀利,給的分數(shù)從60分到90分不等。顯然,這時候后者就會在計算平均分時就起到?jīng)Q定性作用。這種不合理因素怎么解決? 而且更為無奈的是,根據(jù)我們的經(jīng)驗,通常我們專業(yè)自己的老師給分都比較溫柔,反而是一些別的專業(yè)開設(shè)的限選課程,經(jīng)常給我們的學生打出六七十分的低分,直接影響學生的平均成績。所以,要不要對各門課程的成績進行標準化?又如何進行標準化呢? 打分,量化評價的最后歧途 后來,可能是唯恐這事還不夠復雜吧,我們又增加了一項指標,讓導師們和同班同學為參選者的“日常表現(xiàn)”打分,以彌補學生只重視學習科研不重視其他方面的情況。且不說打分同樣面臨著如何設(shè)置分差和權(quán)重的問題,單就一點—— 這個“日常表現(xiàn)”是什么? 學術(shù)活動的時候能夠積極參加并且?guī)椭驋咝l(wèi)生?參加學院的乒羽運動會并獲得一等獎?給老師寫郵件的時候加個稱呼而不是直接‘見附件’?還是說路上遇見老師的時候能夠熱情的打個招呼? 那如果人家學生路上遇不到老師怎么辦?要不要根據(jù)老師吃飯的時間去教工食堂蹲點制造點偶遇呢? 如果得分項和扣分項都不明確,那么打分就是耍流氓。學生也不知道應該往哪方面努力。 此外一個問題,給學生打分的時候,自己的導師應不應該回避? 按照常理,如果學生參評,學生導師當然應該是回避,可是以我們研究所的實踐,這樣的話,基本上就沒有評委老師了。所以,即便學生參評,導師可能還是當評委打分。那要不要給自己的學生打分呢? 我們定的是導師不能給自己的學生打分,因為這對于其他學生不公平。 很好!這就是說,理論上,我的學生完全可以不用聽我的話和完成我交代的任務(wù),應該把時間精力放到“討好”其他老師身上才對,因為是別的老師(而不是我)對于他的日常表現(xiàn)有發(fā)言權(quán),——即便那個老師可能都叫不上他的名字! “咱們還是舉手投票吧~” 作為專門從事科學學與科技管理研究的研究機構(gòu),六年來,我們一直試圖用一個完美的定量的指標體系一勞永逸的解決研究生國獎的評選問題。直到最后我們發(fā)現(xiàn),最簡單有效的方法仍然是投票。 如果每個評委老師手里有全部參選學生的課程成績(具體到每一門)和科研成績(具體到每一篇論文),實際上評委們能夠很快達成一個收斂的票選結(jié)果。 我們曾經(jīng)嘗試過用等額投票、差額投票乃至給出排名等多種辦法,大部分時候都能夠直接得到大家公認的評選結(jié)果。偶爾的時候,會出現(xiàn)平票的情況以至于需要再投一輪,這時候就需要兩人PK,如果還是平票則直接進入黑夜(等等,這好像是狼人殺的規(guī)則)。 利用投票的方法評選國獎,評委老師的主觀性會對投票結(jié)果產(chǎn)生重要的影響,如果一個評委老師投的比較草率,或者夾雜進了其他個人因素,就可能影響整個評選的機制和結(jié)果。 不過相對于打分,投票還是要安全的多。打分的危險性在于它給了單人匹馬操控全局的能力。比如,參評者張三略優(yōu)于李四,但是我作為一個評委老師私心想讓李四上,我就可以合理利用規(guī)則,給李四打極高分,給張三打極低分;考慮到其他人給的分差不會太大,所以我很容易憑我一己之力,就成功讓李四逆襲。 而投票的方法,就很難讓單個評委老師獲得這樣的機會,因為即便我再傾向于李四,也僅有區(qū)區(qū)一票。 坦率的講,如果可以啟用外部評委來投票,投票的結(jié)果通常反而會更加公平,就象各類基金的評選一樣。所以,在評選國獎的問題上,我們遇到的唯一問題是—— 怎么來評選評委老師?
----- The end -----
腦洞 我想將來還是應該回到定量指標的測評的路上來,畢竟更公正也更省事。前面提到賦權(quán)的難題,將來或許可以交給機器學習的算法解決。如果我們能夠積累到足夠多的訓練樣本(比如50年的標記樣本),就可以利用決策樹、支持向量機等模型生成一個判別式,來幫我們判別一個參選者是否應該獲獎。只是,考慮到我們離積累到足夠多的訓練樣本可能還有一段距離,不知道我還能不能等到這一天的到來......
編者注 如果50年后,中國的學術(shù)評價還要完全依賴指標、算法、機器......,中國的學術(shù)界就讓人看不到希望了。但研究生國獎并不完全是學術(shù)評價,學術(shù)成果只是研究生成績的一部分。眾多因素摻雜在一起之后,維持公平最好的辦法或許還真得靠指標、算法、機器......
|
|
來自: toybear2098 > 《待分類》