隨著信息技術(shù)在高校的普及,高校的硬件設(shè)備和應(yīng)用系統(tǒng)匯集了越來越多的數(shù)據(jù),如何從這些海量的數(shù)據(jù)中獲取有價(jià)值的信息,以便各層決策者更快速、更科學(xué)、更準(zhǔn)確地做出決策,成為高校信息化建設(shè)者們必須思考的問題。高校軟硬件系統(tǒng)沉淀的數(shù)據(jù)主要包括:有線和無線網(wǎng)登錄日志、各業(yè)務(wù)系統(tǒng)和網(wǎng)站登錄日志、防火墻及各類設(shè)備登錄日志、用戶訪問日志、校園卡消費(fèi)及刷卡數(shù)據(jù)、借還書數(shù)據(jù)、門禁刷卡數(shù)據(jù),此外還包括各類信息管理系統(tǒng)數(shù)據(jù),如教師和學(xué)生基本信息、科研成果數(shù)據(jù)、學(xué)生選課和課程成績(jī)數(shù)據(jù)、學(xué)科建設(shè)數(shù)據(jù)等,這些數(shù)據(jù)統(tǒng)稱為"校園數(shù)據(jù)"。我國(guó)有些高校已經(jīng)認(rèn)識(shí)到"校園數(shù)據(jù)"中蘊(yùn)含的價(jià)值,進(jìn)行了一些校園數(shù)據(jù)的分析工作,并取得了一些成果。在國(guó)外,目前美國(guó)的哈佛大學(xué)、西北大學(xué)等學(xué)校有少量的此類研究,由于歐洲和北美洲有嚴(yán)格的個(gè)人隱私保護(hù)法,因此,國(guó)外的研究主要聚焦在課程資源管理平臺(tái)和課程管理系統(tǒng)的登錄數(shù)據(jù)分析上,尚未看到公開發(fā)表的涉及師生個(gè)人隱私數(shù)據(jù)的分析文獻(xiàn)和案例。 國(guó)內(nèi)外高校數(shù)據(jù)分析現(xiàn)狀 目前,高校數(shù)據(jù)分析中,利用校園"一卡通"數(shù)據(jù)進(jìn)行決策支持分析的成果最多。如樊搏(2015)、費(fèi)小丹(2015)等從一卡通消費(fèi)記錄判斷學(xué)生是否為貧困生;陳鋒(2014)利用校園一卡通用戶就餐消費(fèi)行為數(shù)據(jù),分析學(xué)生消費(fèi)行為和食堂運(yùn)營(yíng)狀況;薛黎明等(2014)也從時(shí)間、消費(fèi)場(chǎng)所、用戶性別等不同的維度分析校園一卡通消費(fèi)數(shù)據(jù)輔助學(xué)校有關(guān)部門決策。 有關(guān)Web挖掘和門禁刷卡記錄的研究主要集中于高校數(shù)字化圖書館的相關(guān)研究當(dāng)中。其中,大量對(duì)高校Web挖掘的研究集中于通過Web挖掘?yàn)樽x者提供個(gè)性化知識(shí)服務(wù)(歐陽烽,2008)(張沛露,2010)(趙靜,2013)(程思祥,2013);而對(duì)圖書館刷卡記錄的研究則主要集中于刷卡數(shù)據(jù)與學(xué)生學(xué)習(xí)行為、模式及學(xué)習(xí)成績(jī)之間的關(guān)聯(lián)分析(滕清秀,2007)(吳志強(qiáng),2012)(周琳,2015)。 近些年來,隨著在線教學(xué)的興起,出現(xiàn)了一些對(duì)在線學(xué)習(xí)數(shù)據(jù)的挖掘和分析類的研究。Tonetti和Natale(2015)、Enright和Refinetti(2017)、Benjamin Smarr和Aaron Schirmer(2018)等利用學(xué)生登錄教學(xué)資源管理平臺(tái)的數(shù)據(jù)和學(xué)生成績(jī)數(shù)據(jù),分析學(xué)生的學(xué)習(xí)習(xí)慣、作息規(guī)律與學(xué)業(yè)成就之間的關(guān)系。 中國(guó)也有學(xué)者對(duì)在線教育平臺(tái)數(shù)據(jù)進(jìn)行研究,如張羽(2013)、許楠(2015)、王萍(2015)等通過分析Moodle、edX、MOOCs等平臺(tái)的用戶學(xué)習(xí)數(shù)據(jù),發(fā)掘?qū)W習(xí)者的行為特征;張進(jìn)良(2014)從在線學(xué)習(xí)數(shù)據(jù)分析角度研究教師的發(fā)展問題;孫曙輝(2015)從學(xué)習(xí)數(shù)據(jù)分析角度研究智慧課堂組織問題。 目前,雖然對(duì)高校數(shù)據(jù)的研究看似不少,但都是基于簡(jiǎn)單數(shù)據(jù)、簡(jiǎn)單模型和簡(jiǎn)單工具的淺層次分析,真正有價(jià)值、有實(shí)際意義的研究極少。比如,校園網(wǎng)各類硬件的登錄日志分析,與教學(xué)過程及效果有關(guān)的綜合數(shù)據(jù)分析等具有重要研究和決策參考價(jià)值的研究基本為空白。投入實(shí)際應(yīng)用的研究成果少,且重合度高,應(yīng)用價(jià)值低。總之,目前對(duì)于校園數(shù)據(jù)分析的研究還處于起步階段。 高校數(shù)據(jù)分析主要場(chǎng)景 高校管理信息化的三條主線是教學(xué)、科研和管理,而支持這三條信息化主線的是校園網(wǎng)絡(luò)關(guān)鍵基礎(chǔ)設(shè)施。因此,高校數(shù)據(jù)分析的主要應(yīng)用場(chǎng)景有四種類型:校園網(wǎng)絡(luò)數(shù)據(jù)分析、教學(xué)數(shù)據(jù)分析、科研數(shù)據(jù)分析以及面向校級(jí)宏觀決策的綜合數(shù)據(jù)分析。 01 校園網(wǎng)絡(luò)數(shù)據(jù)分析 現(xiàn)代校園網(wǎng)絡(luò)是一個(gè)包括終端設(shè)備(無線AP、POS機(jī)、門禁等)、匯聚交換機(jī)、AC控制器、核心交換機(jī)、負(fù)載均衡設(shè)備、流量控制設(shè)備、計(jì)費(fèi)系統(tǒng)、防火墻、堡壘機(jī)、服務(wù)器、存儲(chǔ)等諸多設(shè)備的復(fù)雜系統(tǒng),這些設(shè)備記錄著海量的登錄和訪問日志,對(duì)這些數(shù)據(jù)的分析和挖掘能夠?yàn)楹芏鄻I(yè)務(wù)部門提供有價(jià)值的信息。 02 教學(xué)數(shù)據(jù)分析 校園數(shù)據(jù)分析對(duì)于提升教師能力也有重要的意義。以前的教學(xué)主要依靠教師的個(gè)人經(jīng)驗(yàn)和感覺,教師教學(xué)能力的學(xué)習(xí)曲線比較平緩,在教師教學(xué)能力提升過程中,教學(xué)質(zhì)量難以得到保證。如果能夠?qū)虒W(xué)資源管理平臺(tái)中的學(xué)生學(xué)習(xí)數(shù)據(jù)進(jìn)行分析,教師就可以得知學(xué)生的興趣點(diǎn)和難點(diǎn),從而幫助教師有的放矢地把握教學(xué)重點(diǎn)和教學(xué)難點(diǎn),提升教學(xué)效果。通過對(duì)不同老師教學(xué)方法和教學(xué)效果的橫向?qū)Ρ?,也可以幫助老師吸取別人的優(yōu)點(diǎn),提高教學(xué)能力。同時(shí),教學(xué)數(shù)據(jù)也可以為教學(xué)管理者提供全面、科學(xué)的教師評(píng)價(jià)依據(jù),而目前,教學(xué)管理者對(duì)教師的評(píng)判只能依據(jù)單一的學(xué)生評(píng)教數(shù)據(jù),而學(xué)生評(píng)教受師生情感、考試分?jǐn)?shù)、學(xué)生個(gè)人興趣等諸多因素的影響,主觀且不全面,飽受教師們?cè)嵅 ?/p> 03 科研數(shù)據(jù)分析 科研水平是衡量現(xiàn)代大學(xué)辦學(xué)質(zhì)量的重要指標(biāo)之一。目前的科研數(shù)據(jù)分析僅是對(duì)課題級(jí)別(國(guó)家級(jí)、省部級(jí)、廳局級(jí)等)、課題類型、資助金額、科研成果質(zhì)量(發(fā)表在何種刊物上)等簡(jiǎn)單的靜態(tài)分析,缺乏對(duì)科研過程的動(dòng)態(tài)管理和對(duì)提高科研質(zhì)量的決策支持分析??蒲泄芾硇实拖隆⒖蒲匈|(zhì)量難以科學(xué)評(píng)定是長(zhǎng)期困擾我國(guó)高??蒲泄芾淼闹饕獑栴}。 將科研成果數(shù)據(jù)、科研項(xiàng)目數(shù)據(jù)和教師有關(guān)信息進(jìn)行綜合分析,可以獲得高"投入--產(chǎn)出比"的科研項(xiàng)目及其負(fù)責(zé)人和團(tuán)隊(duì)成員,為將來的項(xiàng)目評(píng)審提供參考;對(duì)科研數(shù)據(jù)進(jìn)行動(dòng)態(tài)分析,可以發(fā)現(xiàn)"高成長(zhǎng)"的科研人員和科研部門,予以重點(diǎn)關(guān)注;對(duì)全校科研成果進(jìn)行聚類分析,可以發(fā)現(xiàn)潛在的科研團(tuán)隊(duì)和可以進(jìn)行研究的跨學(xué)科課題。 同時(shí),也可以通過對(duì)科研項(xiàng)目數(shù)據(jù)的挖掘和分析,為項(xiàng)目過程管理提供幫助,比如,可以通過郵件和短信,對(duì)項(xiàng)目進(jìn)度進(jìn)行提醒,對(duì)將要超時(shí)的項(xiàng)目進(jìn)行預(yù)警;利用公開科研數(shù)據(jù)庫的有關(guān)數(shù)據(jù),可以為項(xiàng)目團(tuán)隊(duì)成員提供同類研究課題的進(jìn)展情況報(bào)告,以便本??蒲腥藛T了解行業(yè)最新進(jìn)展情況。 04 面向校級(jí)宏觀決策的數(shù)據(jù)分析 作為一個(gè)運(yùn)營(yíng)單位,高校也有"投入"和"產(chǎn)出",通過對(duì)"投入"和"產(chǎn)出"的對(duì)比分析,可以評(píng)價(jià)學(xué)校教學(xué)、科研和管理的效率;通過對(duì)過程數(shù)據(jù)的分析,可以找出學(xué)校管理的盲點(diǎn)和弱點(diǎn),有針對(duì)性地進(jìn)行改進(jìn)。 對(duì)高校招生數(shù)據(jù)、學(xué)生在校表現(xiàn)數(shù)據(jù)和校友會(huì)數(shù)據(jù)進(jìn)行深度分析和挖掘,可以發(fā)現(xiàn)哪些地區(qū)、學(xué)校的學(xué)生質(zhì)量更高,也可以發(fā)現(xiàn)保送生和參加考試的學(xué)生哪個(gè)群體更有潛力,還可以發(fā)現(xiàn)學(xué)生在大學(xué)期間的學(xué)習(xí)成績(jī)、社會(huì)活動(dòng)等方面的表現(xiàn)與學(xué)生將來職業(yè)發(fā)展之間的相關(guān)關(guān)系。這些分析不僅可以發(fā)現(xiàn)問題,還可以為學(xué)校在將來做更優(yōu)的招生和教學(xué)管理決策提供輔助和支持。 對(duì)學(xué)科、學(xué)院、系所等教學(xué)和科研單位的數(shù)據(jù)分析和挖掘,可以發(fā)現(xiàn)哪些學(xué)科有更高的邊際產(chǎn)出;哪些學(xué)科的投入周期比較長(zhǎng),從而需要持續(xù)投入;哪些學(xué)科的學(xué)緣結(jié)構(gòu)不合理,需要調(diào)整;哪些學(xué)科的交叉性很強(qiáng),需要學(xué)校創(chuàng)造交叉的條件;引進(jìn)人才和自有人才誰的"性價(jià)比"更高;各學(xué)科和各單位投入和產(chǎn)出對(duì)比等等有價(jià)值的信息。 如果能夠結(jié)合其他同類高校和同類專業(yè)的數(shù)據(jù)進(jìn)行分析,還可以更加詳細(xì)地了解其他學(xué)校和專業(yè)與本校及本校的同類專業(yè)之間在人才結(jié)構(gòu)、教學(xué)設(shè)置、科研項(xiàng)目和科研成果等方面存在的差異,為有針對(duì)性的改進(jìn)提供準(zhǔn)確的參考數(shù)據(jù),對(duì)于建設(shè)一流大學(xué)和一流學(xué)科具有重要意義。 目前可用的主流分析工具 在我國(guó)教育軟件市場(chǎng),做數(shù)據(jù)分析的公司基本分為兩類:一是自己開發(fā)軟件,二是在開源軟件基礎(chǔ)上提供二次開發(fā)和運(yùn)維服務(wù)。 高校的數(shù)據(jù)屬于各個(gè)不同的業(yè)務(wù)部門,單做一個(gè)部門的數(shù)據(jù)分析往往沒有實(shí)際意義,因此,高校數(shù)據(jù)分析,離不開數(shù)據(jù)的聚合和交換,而數(shù)據(jù)的交換,往往又離不開數(shù)據(jù)交換工具和統(tǒng)一的數(shù)據(jù)格式規(guī)范。 01 產(chǎn)品工具 目前,我國(guó)教育軟件市場(chǎng),做數(shù)據(jù)分析平臺(tái)的主要廠家及產(chǎn)品有東軟、普元、樹維、金智、蘇迪、易普拉格、三盟等。 東軟利用Oracle Business Intelligence等工具,進(jìn)行信息分析的聚合,在底層數(shù)據(jù)整合的基礎(chǔ)上,提供統(tǒng)一的服務(wù)界面;普元是國(guó)內(nèi)較為資深的中間件廠商,普元的底層數(shù)據(jù)交換提供了較為強(qiáng)大的數(shù)據(jù)交換、數(shù)據(jù)整合和大數(shù)據(jù)分析功能;樹維依靠在高校一卡通和教務(wù)管理市場(chǎng)積累的技術(shù)和數(shù)據(jù),采用普元的底層數(shù)據(jù)交換工具,現(xiàn)在也在開發(fā)高校數(shù)據(jù)分析工具;金智是國(guó)內(nèi)教育軟件市場(chǎng)資格較老的軟件公司,從2015年初開始開發(fā)面向高校的工作流引擎和數(shù)據(jù)分析平臺(tái);蘇迪從2015年開始涉足高校數(shù)據(jù)分析,基于普元的底層數(shù)據(jù)交換平臺(tái)和工作流引擎,開發(fā)數(shù)據(jù)分析工具;易普拉格依靠在高校科研管理市場(chǎng)積累的經(jīng)驗(yàn),以科研數(shù)據(jù)為主線,也在開發(fā)校園數(shù)據(jù)分析平臺(tái);三盟近兩年在校園大數(shù)據(jù)分析領(lǐng)域也進(jìn)行了很大的投入。 此外,還有一些國(guó)際廠商開發(fā)的成熟的數(shù)據(jù)分析工具,如Oracle Business Intelligence(OBI)、Oracle Data Mining(ODM)、SAP HANA、Mathworks等,但它們的目標(biāo)市場(chǎng)并不在高校;也有一些優(yōu)秀的單機(jī)數(shù)據(jù)分析軟件,如SPSS、SAS等,但它們不能提供數(shù)據(jù)聚合和在線分析功能;也有一些小廠商提供數(shù)據(jù)分析和報(bào)表生成工具,但功能有限,成功案例少。 02 開源工具 自上世紀(jì)90年代后期以來,"開源運(yùn)動(dòng)"在世界范圍內(nèi)興起,并逐步發(fā)展成一股潮流,近30年的時(shí)間里,一些軟件精英貢獻(xiàn)了大量的開源軟件,其中不乏優(yōu)秀之作。比如,在數(shù)據(jù)分析領(lǐng)域,就有多達(dá)幾十款的與數(shù)據(jù)分析有關(guān)的軟件工具。由于開源平臺(tái)越來越完善,開源工作者的分工很細(xì),開源工具的分類也很細(xì),就數(shù)據(jù)分析與挖掘來說,主要有數(shù)據(jù)存儲(chǔ)、開發(fā)平臺(tái)、開發(fā)工具和集成、分析和報(bào)告工具等四種類型的開源工具。 數(shù)據(jù)存儲(chǔ) 主要包括Apache Hadoop、MySQL、眾多NoSql數(shù)據(jù)庫等。 開發(fā)平臺(tái) 主要包括Apache Hadoop平臺(tái)、Storm等。 開發(fā)工具和集成 主要包括Python和R語言等。 分析和報(bào)告工具 主要包括Jaspersoft、Pentaho、ELK、Talend等。 目前,在高校市場(chǎng),僅Hadoop、MySQL、ELK有一些實(shí)際的應(yīng)用,但案例很少,數(shù)據(jù)分析的規(guī)模也很小。其它軟件尚未見到有文字描述的成功應(yīng)用。 雖然大家對(duì)校園數(shù)據(jù)分析抱有很高的期望和美好的憧憬,但是,由于數(shù)據(jù)不全、數(shù)據(jù)量不足、數(shù)據(jù)整合困難、成功案例太少、資金缺乏等歷史和現(xiàn)實(shí)原因,當(dāng)前,高校的校園數(shù)據(jù)分析尚屬于萌芽、起步階段,只有很少的一些學(xué)校做了有限的嘗試,還有一些學(xué)校處于醞釀、需求調(diào)研和立項(xiàng)階段。雖然市場(chǎng)上有一些成熟的工具可供使用,也有一些成功路徑可供參考,還有一些有項(xiàng)目經(jīng)驗(yàn)的公司可以提供技術(shù)協(xié)助,但是,由于數(shù)據(jù)分析有很強(qiáng)的領(lǐng)域性,只有本領(lǐng)域的人才能深刻理解數(shù)據(jù)之間的邏輯關(guān)系和數(shù)據(jù)挖掘結(jié)果的內(nèi)在含義。因此,如果想讓高校數(shù)據(jù)分析工作發(fā)揮最大效能,必須依靠學(xué)校自身來主導(dǎo)數(shù)據(jù)采集、數(shù)學(xué)建模、分析和結(jié)果解讀等工作。 (作者單位為上海外國(guó)語大學(xué)信息技術(shù)中心) (來源:《中國(guó)教育網(wǎng)絡(luò)》2019年5月刊) |
|