2021-4-9 | 計算機
一、引言
職校學生都要參加江蘇省計算機辦公自動化等級考試,為了保證學生考試通過率我們引進了在線考核系統(tǒng)。該系統(tǒng)通過網(wǎng)絡服務器的設置,學生所用的計算機作為客戶端來登錄服務器隨機抽取試題,答題完畢后網(wǎng)上提交試卷,系統(tǒng)會對學生的答卷進行分類、整理,并指出錯誤原因。近幾年來,隨著該系統(tǒng)的深入應用,暴露出許多錯誤率較高的題目,雖然教師能夠獲得學生錯誤的具體數(shù)據(jù),但長久以來都只是被動的糾正問題,卻不能發(fā)現(xiàn)錯題之間潛在的聯(lián)系。數(shù)據(jù)挖掘中關聯(lián)規(guī)則就是從大量的數(shù)據(jù)中挖掘出有價值、有意義的內(nèi)在聯(lián)系。本文通過在線考核系統(tǒng)利用關聯(lián)規(guī)則對錯題數(shù)據(jù)進行挖掘,從中發(fā)現(xiàn)錯題之間潛在的聯(lián)系,找到學生學習的難點,進而指導教師主動的預防錯誤發(fā)生,提高教學質量。
二、關聯(lián)規(guī)則理論
1.關聯(lián)規(guī)則的作用
關聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘中是一個重要的課題,它是一個自學習的過程。反映一個事物與其他事物之間的相互依存性和關聯(lián)性,揭示數(shù)據(jù)間未知的依賴關系。假如兩個或者多個事物之間存在一定的關聯(lián)關系,那么其中一個事物就能夠通過其它事物猜測到。關聯(lián)規(guī)則側重于確定數(shù)據(jù)中不同域之間的聯(lián)系,通過支持度和可信度定量地描述這種關聯(lián)的程度,以此可以發(fā)現(xiàn)人們不知道的、或者是出乎人們預料的規(guī)則。
2.關聯(lián)規(guī)則的基本概念
設I={i1,i2,...,im}是數(shù)據(jù)項的集合。D是所有事務的集合(即數(shù)據(jù)庫),每個事務T是一些項目的集合,T包含在I中,每個事務可以用唯一的標識符TID來標識。關聯(lián)規(guī)則是形如AB的蘊涵式,其中AI,BI,且A∩B=,A稱為前提,B稱為結果。含義是如果A出現(xiàn)在一條記錄中,則在這條記錄中B同時出現(xiàn)的可能性比較高。支持度:項集A在事務集D中的支持度是D中包含A的事務數(shù),記作Support(A)。規(guī)則AB的支持度定義為P(A∪B),表示A、B同時出現(xiàn)的可能性,即支持度(AB)等于包含A和B的元組數(shù)除以元組總數(shù)。記作:Support(AB)=P(A∪B)。支持度描述了項集A和B在所有事務中同時出現(xiàn)的概率。例如一個文具店某天共有100筆業(yè)務,其中有10筆業(yè)務同時買了鉛筆和橡皮,則關聯(lián)規(guī)則“鉛筆=>橡皮”的支持度為10%。置信度:規(guī)則AB的置信度定義為D中包含A的事務的同時也包含B的可能性,也就是在A出現(xiàn)的條件下B也出現(xiàn)的概率,即可信度(AB)等于包含A和B的元組數(shù)除以包含A的元組數(shù)。
記作:Confidence(AB)=P(B|A)=P(A∪B)/P(A)。支持度是對關聯(lián)規(guī)則的重要性的衡量,而置信度是對關聯(lián)規(guī)則的準確度的衡量。支持度說明了這條規(guī)則在所有事務中有多大的代表性,顯然支持度越大,關聯(lián)規(guī)則越重要。有些關聯(lián)規(guī)則置信度雖然很高,但支持度卻很低,說明該關聯(lián)規(guī)則實用的機會很小,也不重要。只有符合最小支持度和最小可信度的規(guī)則才可稱為強規(guī)則。當給定一個事務集D時,關聯(lián)規(guī)則挖掘就是要產(chǎn)生強規(guī)則。
3.關聯(lián)規(guī)則挖掘求解問題的步驟
(1)預處理與采掘任務有關的數(shù)據(jù),根據(jù)具體問題的要求對數(shù)據(jù)庫進行相應的操作,從而構成規(guī)格化的數(shù)據(jù)庫D。(2)針對D求出所有滿足最小支持度的項集,即頻繁項集。(3)生成滿足最小置信度的規(guī)則,形成規(guī)則集R,解釋并輸出R。4.關聯(lián)規(guī)則挖掘的經(jīng)典算法——Apriori算法Apriori算法是一個很有影響的關聯(lián)規(guī)則挖掘算法,它的核心是基于頻集理論的遞歸方法,是挖掘單維布爾關聯(lián)規(guī)則的一種重要方法,但具有一定的局限性。Apriori算法就是根據(jù)有關頻繁項集特性的先驗知識(priorknowledge)而命名的。該算法利用了一個層次順序搜索的循環(huán)方法來完成頻繁項集的挖掘工作;這一循環(huán)方法就是利用k項集來產(chǎn)生(k+1)項集。Apriori算法的基本思想是將關聯(lián)規(guī)則挖掘算法的設計分解為兩步:(1)找到所有支持度大于最小支持度的項集,即頻繁項集;
(2)使用第一步找到的頻繁項集產(chǎn)生所期望的規(guī)則。Apriori算法表示如下:輸入:事務數(shù)據(jù)庫D;Min_sup;Min_con。輸出:事物數(shù)據(jù)庫D中所有的頻繁項集L。方法:L1={large-itemsets};for=(k=2;Lk-1;k++)dobeginCk=apriori-gen(Lk-1);foralltransactiont∈DdobeginCt=subset(Ck,t);forallcandidatec∈Ctdoc.support++;endLk{c∈Ct|c.support>=min_sup}endL=UkLk;
三、關聯(lián)規(guī)則在等級考試模擬系統(tǒng)中的應用
學生通過在線考核系統(tǒng)進行測試,完成測試后答案自動上報到系統(tǒng)。教師利用該系統(tǒng)對學生的答案進行評判,系統(tǒng)會將學生做錯的內(nèi)容和學生所在機子的編號傳送到系統(tǒng)數(shù)據(jù)庫中。通過關聯(lián)規(guī)則的挖掘我們對學生的錯誤可以有很好的預防,對提高教學效率有很好的幫助。下面我會以計算機《辦公自動化》中的word和excel兩個章節(jié)考核內(nèi)容,選取10高職某班學生在考核中出現(xiàn)的錯誤問題來進行關聯(lián)規(guī)則方面的實驗。
1.主要錯誤類型的設定為了表述簡單清晰,本文只拿出10名學生的5個主要問題來進行說明。如表1所示:
2.數(shù)據(jù)預處理為了便于挖掘,對錯誤類型進行了量化數(shù)據(jù)預處理,表中采用兩個屬性值,1代表此題錯誤,0代表正確,如表2所示:
四、結束語
本文主要是對學生計算機在線考核中出現(xiàn)的錯誤進行了關聯(lián)規(guī)則的挖掘,從大量的數(shù)據(jù)中提煉出學生錯誤中間隱藏的具有教學指導意義的規(guī)則和信息,并以此找到影響學生成績的原因,達到教學水平的提高。隨著教育信息化的不斷發(fā)展,將數(shù)據(jù)挖掘技術應用到日常教學中來,必然可以幫助教師更加合理的安排教學方法,從而帶動整個學科發(fā)展。