摘 要:隨著互聯網的迅速發展,大學生上網時間和頻率呈指數上升趨勢。在大數據環境背景下,作為教育工作者和學生管理者,如何通過上網數據了解大學生真實的學習生活情況,培養學生良好的網絡習慣是高等教育質量提升的新機遇和挑戰。文章提出了一種在線獲取學生網絡流量及上網日志的模型,利用隨機森林(Random Forest,RF)和梯度增強決策樹(Gradient Boosting Decision Tree,GBDT)兩種機器學習方法進行數據分析,實現對學生上網行為的準確評估。并且為指導學生養成良好的網絡習慣提出相應的建議和對策,以求提高高等教育的質量。
關鍵詞:機器學習;網絡數據分析;網絡爬蟲;梯度提升決策樹;隨機森林;學生上網行為
李騫; 王碩; 隋繼學, 科技創新與應用 發表時間:2021-11-18
1 背景介紹
大學生逐漸成為網絡社會的主體,在各高校進行校園信息化建設的過程中,信息化基礎設施不斷在完善。以河南牧業經濟學院三個校區為例,無線、有線網絡已基本實現教室、宿舍、校園全覆蓋,為學生在校上網提供了便利,學生每日通過校園網上網、聊天、學習、游戲、購物已經成為日常生活中不可或缺的一部分。
學生上網行為評估分析主要指的是通過在校園網出口或校園網不同節點采集網絡流量,識別上網日志及流量信息中的網絡行為軌跡(包括專業網頁瀏覽、游戲娛樂等),利用智能數據分析方法,對網絡資源利用情況和學生上網行為進行評估和分析。隨著可視化技術、數據采集技術的提升,進行學生上網行為評估是現代化校園了解學生日常軌跡的一種真實而重要的方式,也為進一步研究學生校園行為活動提供了新的思路和方法。但是,隨著校園網速度的加快,網絡應用復雜度增加,加密網絡和未知網絡的更新也給校園網學生上網行為的數據采集與分析帶來了新的挑戰。
因此,本文從學生網絡流量數據與日志分析入手,提出了一種基于網絡爬蟲框架的校園網網絡流量數據獲取模型,利用機器學習算法來獲得理想的數據處理優化模型,比較了基于網絡流量數據的梯度增強決策樹(Gradient Boosting Decision Tree,GBDT)和隨機森林(Random Forests,RF)兩種方法,對學生上網數據進行各個角度的詳細分析。最后,基于學生上網行為數據分析,從多個方面對高校網絡監控和學生教育管理給出對策和建議,為老師們研究分析在校學生學習、生活特征提供了新技術、新方法,同時大數據分析技術也必將促進當前高校信息化建設。
2 相關原理工作介紹
傳統學生溝通在實行過程中具有效率低的致命缺點,并且也很難挖掘到學生提供信息所蘊含的潛在信息及真實的生活學習情況。網絡數據與學生的生活息息相關,可以被用于分析學生的行為模式。傳統教育理念普遍認為學生上網時長和上網內容會對學生學業和日常生活造成影響,但是卻很難建立學生上網行為與學業之間的模型,因而無法進行相關研究。
對于學生上網行為分析,主要的難點和研究點集中在:數據流量采集技術、流量準確識別、上網行為分析模型建立三方面。針對數據流量采集技術,根據實現方法可以分為硬件和軟件兩種類型,硬件實現雖準確度高但是需要購買專門的設備,不適用于研究;軟件可以根據實際需求進行開發和部署,靈活性較高。針對流量識別技術,主要集中在 TCP 端口、深度包檢測(DIP)和機器學習。其中,TCP 端口識別不適應動態變化,DIP 技術不能應用于加密網絡和未知網絡,而機器學習不受端口、數據包、加密等復雜動態網絡情況的限制[1],對學生上網情況的分析具有一定的實用價值,也將成為今后高校教育教學研究的一項重要內容[2-3]。
國內外許多學者基于大學生的上網數據進行了分析。例如 Miao[4]等人提出了一種區分大學生不同年級的方法,利用校園 WiFi 數據捕捉學生的行為特征,利用這些特征,采用機器學習聚類算法對不同年級的學生進行聚類;Kamal Bunkar[5]等人建立了一個系統,允許學生預測正在學習課程的最終成績,他們嘗試在機器學習中應用一些算法,特別是分類,通過評估學生數據來研究可能影響學生表現的主要屬性,從而幫助提高高等教育的質量;Tripti[6]等人使用不同的分類算法,根據學生的社會數據、學術數據和各種情感技能建立預測模型,將 C4.5 和隨機樹兩種算法應用到學生的記錄中,發現隨機樹具有較高的精度。
綜上所述,個人網絡流量數據是評價學生網絡習慣的重要指標。為了評估學生的在線習慣,本文通過對學生網絡數據中提取的大量網絡行為數據訓練分類器,建立數學模型。新輸入的數據被已經訓練的分類器分類為正或負行為(即上網行為良好或者上網行為預警),最后為便于理解學生的上網習慣進行可視化數據處理,以期從微觀的角度來探索網絡行為與學生學業之間的關聯關系。
3 基于機器學習的學生上網行為分析方法
學生上網數據行為分析過程可以分為以下兩個步驟。
(1)數據獲取和預處理階段。利用網絡爬蟲獲取上網數據,按照數據處理形式,對記錄進行轉換,寫入數據倉庫,可采用 SQL 語句或批量加載,這一部分是為下一步統計準備有用的數據。
(2)基于機器學習的模型建立和分析階段。利用機器學習建立上網數據與行為的模型,這是整個行為分析的關鍵部分。需要通過從不同角度對學生上網行為進行統計和分析,幫助教育者掌握學生上網需求,發掘出隱含規律,實現對學生上網情況的全面把握。
3.1 基于網絡爬蟲的上網數據獲取
為了獲取盡量多的學生網絡流量數據,本文采用了一個由模擬登錄瀏覽器和從網頁下載數據組成的網絡爬蟲(Spider)。由于學生在登錄瀏覽器時,需輸入用戶 ID、密碼以及驗證碼,其中驗證碼是一幅數字和字母的圖像。因此,在設計中提出了一個基于 Keras 的卷積神經網絡進行驗證碼自動識別。網絡爬蟲的框架如圖 1 所示,Web 爬蟲得到的數據集示例如表 1 和表 2 所示,每天的日志數據量約 4 萬條,包括的核心字段有用戶賬號、用戶名稱、登錄時間、使用時長、IP 地址、使用流量、行為詳情等,表 2 給出經過處理后的數據集。
3.2 基于機器學習的學生網絡行為分類模型
學生網絡行為可以根據不同的需求對行為進行分類。本研究將網絡行為分為網絡學習,網絡娛樂兩個部分,然后通過上網時間等數據對學生上網行為進行綜合分析,并進行標記。處理后的數據集將保存到 SQL 中,如表 2。Label 為 1 代表上網行為好,Label 為 0 代表上網行為不良,需進行預警。
此外,網上學習的網絡行為由兩部分組成,專業課學習以及課外學習。判斷依據為對專業課的關鍵詞搜索以及相應的視頻觀看情況。研究根據學生上網瀏覽信息條數數據和觀看時間進行程度等級劃分,建立相應的數學模型。網上娛樂的網絡行為分為社交、購物、娛樂視頻、游戲、其他五種類型,并且在此類頁面中停留過長時間。由于時長較難判斷,所以主要是通過瀏覽條數來進行娛樂行為判斷。然后將代表程度等級的結果來代替建立相應的數學模型。
上網時間是對學生上網行為的一個綜合評價指標,因為時間的長短可以反映學生對于網絡的使用情況,適當地使用網絡有利于學生的學習和娛樂,而過度沉迷則不利于生活和學習。所以上網時間的選取一般是分時段、分時長來判斷學生對網絡的利用情況和分配情況,圖 2 給出了網絡行為分類的結構。
為了對比結果,本文采用梯度增強決策樹和隨機森林算法兩種方法對數據進行訓練,梯度增強決策樹(GBDT) 是集成學習 boosting 的代表方法,隨機森林(RF)是集成學習bagging 的代表方法[7-9]。GBDT 的主要思路是基于梯度增強和決策樹的,思想是訓練多個弱分類器獲得一個強分類器,得到更好的分類結果[10]。利用損失函數的負梯度擬合,可以用 GBDT 求解一些分類問題;隨機森林[11]是它從原始訓練樣本集中隨機抽取 n 個樣本,生成一個新的訓練樣本集,新的訓練樣本集用于訓練分類和回歸樹(classification and regression tree,CART)。根據這一策略,我們可以生成 M 分類和回歸樹,形成一個隨機森林。新數據的分類結果取決于每個弱學習者,最后一個分類是所有弱學習者投票最多的分類。
由于每次迭代的訓練集和測試集都不相同,對于上網數據進行分類需要通過 N 次迭代得到訓練模型,獲得更可靠的結果。每次迭代均從 SQL 中提取數據集,將數據集隨機分為訓練集和測試集,對數據集進行規范化處理。在所有迭代結束后,將最優模型參數保存到 SQL 中,訓練模型流程如圖 3。
4 學生上網行為分析與結論
4.1 網絡數據分析方法性能
在本文的實驗部分中,我們利用網絡爬蟲獲取學生的網絡流量數據,并基于這些數據訓練分類器,其中計費系統每天產生近 4 萬條登錄日志,包括的核心字段有用戶賬號、用戶名稱、登錄時間、使用時長、IP 地址、使用流量等。我們希望通過對用戶行為進行分析與分類,這些分類器能夠正確地對新樣本進行分類,并及時發現學生上網過程中的需要及時注意的行為。
為了更直觀地理解分類結果,我們提取了每個記錄的一些特性,包括登錄時間、注銷時間和網絡流量數據。這些特征以三維形式顯示,不同類別的點具有不同的顏色?;尹c代表學生上網過程中存在壞記錄,需要輔導員和老師特別關注,黑點代表上網習慣的好記錄,可以作為學生上網質量的評價標準。同時,圖 4 中顯示出學生上網行為的百分比。
實驗中采用了梯度增強決策樹和隨機森林兩種方法,以便增加判斷結果的可信度。采用方法程序運行時間如圖 5 所示,梯度增強決策樹算法花費的時間更少。對于每個算法,我們使用相同的參數集進行多次實驗。模型的精度和曲線下面積(AUC)是每次迭代的評價標準,精度和模型 AUC 值越高,質量越好。圖 6、圖 7 中水平軸表示算法運行的迭代次數,垂直軸表示算法的精度值和 AUC。從性能圖來看,隨機森林(RF)算法的平均精度和平均 AUC 較高,即使稍高一點,梯度增強決策樹(GBDT)的結果也更穩定。根據算法性能的準確性、AUC 和運行時間綜合考慮,梯度增強決策樹是對學生網絡行為分類的較好選擇。
4.2 學生上網行為分析結果
從流量數據中我們可以得到,學生每天產生 100 萬條日志信息,可以具體定位到每個用戶的上網行為軌跡,其核心字段有 IP 地址、終端類型、記錄時間、行為詳情。我們從中可以總結出一些學生上網行為的特點與規律:
(1)平均上網時間長,且較為集中。通過 IP 地址的統計,學生上網的時間主要集中在 18:00 以后以及課間。由于學生在校期間自由支配時間比較充裕,幾乎每個學生都有手機,并且大部分學生都配有手提電腦,上網幾乎是學生們的核心活動。
(2)上網形式比較單一,以移動接入形式為主。使用移動客戶端的上網頻率遠高于使用 PC 端。在上網數據中,其中通過無線 Portal 接入人數最多,達到 5000 人次。其中,使用頻率最高的是手機視頻軟件,其次是社交軟件、網頁訪問、購物軟件、應用程序,其中也包含對旅游、新聞、教育資源的訪問。
(3)上網缺少目的性,以娛樂為主。根據對網絡日志的分析,我們發現學生在上網的過程中注意力分散,自控力差,并且沒有集中在進行學習和研究上。其中以視頻類為目的的占 25.38%;18.51%為搜索引擎及導航類地址;大約 40%的為在線聊天類、網購類、知識學習類等,網絡為學生生活提供便捷和多種交流方式,大約有 20%的學生基本沒有通過網絡進行知識汲取。
(4)上網辨識度低。大學生的好奇心比較強,他們對新事物充滿新鮮感,在嘗試中損害了自身利益。在樣本中,大部分學生的上網行為都符合正常人的行為習慣,但是部分學生在下課時間瀏覽過賭博性質的網站、黃色網站、借貸網站等,但是不排除是瀏覽器惡意插件導致的,所以通過對比 IP 及其關聯賬號,可以定位這部分學生個人信息,及時反饋給學工管理處,時刻觀察學生的生活情況,并且督促該部分學生改善上網習慣。
4.3 針對學生上網行為分析的建議
針對分析結果,在高校的教育工作者進行教育和管理的同時,本文也提出了一些建議:
(1)需要不斷加強對學生網絡管理的力度,學生的自控力普遍較差,學生沉迷網絡環境是不可逆轉的未來趨勢,會對教育質量以及學生的學業造成影響。必須高度重視網絡內容管理,營造良好網絡環境,通過對學生網絡行為分類及預警,減少學生不良網絡行為的發生。同時,還要重視來自各個領域的反饋信息,爭取提前進行預先疏導,從最大程度上提高大學生的網絡免疫能力。
(2)學校及院系需要定期開展具有吸引力的文體活動,豐富在校學生的課余時間,一方面為學生提供展示自我的平臺,另一方面對于學生依賴網絡有較強的分散效果。既可以使學生愉悅身心,也可以使校園內文化氛圍更加濃厚,杜絕不良網絡環境對學生的影響。
(3)利用網絡平臺,正面宣傳網絡用途,多鼓勵學生上網學習,做到勞逸結合。首先在網上開展豐富多彩網絡學習活動,如網絡知識講座、網絡知識競賽等。引導學生進行有效地網絡學習,獲取專業養料。再次,促進網絡教育與傳統教育相結合,可以借助班會或集中教育時間來宣傳相關網絡知識,組建網絡心理健康教育中心,定期開展系列活動。實行線上+線下的形式,一方面進行面對面交流,另一方面有老師在網絡上進行輔導,滿足不同學生的需求。
5 結論
本文主要以學生網絡流量數據對學生上網行為進行分類與分析,并給出相應的分析結果和建議。在實現方法上,我們構建了一個網絡爬蟲框架獲取學生上網數據集。然后對數據集進行處理,通過兩種方法梯度提升決策樹和隨機森林對分類模型進行訓練。最后,對這些分類模型進行比較,使分類結果可視化,挖掘出學生的上網習慣。通過對實驗結果的分析及可視化便于學生查看在線記錄,從而對學生管理提出相應的教學管理對策,該方法可為高效解決類似問題提供一種新的辦法,有利于培養良好的在線習慣,輔助高校教育教學管理。
論文指導 >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >