2021-4-10 | 教育相關(guān)
摘要:決策樹學(xué)習(xí)是人們廣泛使用的一種歸納推理形式。先就決策樹和決策樹學(xué)習(xí)算法進行介紹,然后用實例闡述決策樹在教育信息處理中的應(yīng)用,主要以在教學(xué)評價中的應(yīng)用為例來加以介紹。
關(guān)鍵詞:決策樹;數(shù)據(jù)挖掘;教育信息處理;教學(xué)評價
當(dāng)今社會處于一個信息爆炸的時代,海量的數(shù)據(jù)可以用來選擇和發(fā)掘信息,然而有時卻讓人無從下手,因此數(shù)據(jù)挖掘技術(shù)受到人們的高度關(guān)注。數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的或者隨機的數(shù)據(jù)中提取人們事先不知道的但又是有用的信息和知識的過程。它的方法很多,其中決策樹是一種解決實際應(yīng)用分類問題的數(shù)據(jù)挖掘方法。在教育教學(xué)中,根據(jù)決策樹算法的實際特點,它可以在教育信息處理中的信息采集上發(fā)揮很大的作用。
1 決策樹介紹
決策樹學(xué)習(xí)是人們廣泛使用的一種歸納推理形式。決策樹起源于概念學(xué)習(xí)系統(tǒng),其思路是找出最有分辨能力的屬性,把數(shù)據(jù)庫劃分為許多子集(對應(yīng)樹的一個分枝),構(gòu)成一個分枝過程,然后對每一個子集遞歸調(diào)用分支過程,直到所有子集包含同一類的數(shù)據(jù)。最后得到的決策樹能對新的例子進行分類。它一般是從一組無次序、無規(guī)則的事例中推理出決策樹表示形式的分類規(guī)則。它一般需要給定一組訓(xùn)練例子,訓(xùn)練例子一般被看成用于創(chuàng)建模型的數(shù)據(jù)集。由此可以看出,決策樹是一個類似于流程圖的樹結(jié)構(gòu),其中每一個內(nèi)部結(jié)點表示對一個屬性的測試,每一個分支代表一個決策輸出,而每個葉節(jié)點代表一個目標分類。決策樹通過把實例從根節(jié)點排列到某個葉子節(jié)點來分類實例,葉子結(jié)點即為實例所屬的分類,樹上每個節(jié)點說明對實例的某個屬性的測試,節(jié)點的每個后繼分支對應(yīng)于該屬性的一個可能值。假如需要根據(jù)人員的外貌特征對人員進行分類,用于人員的外貌特征有3個,外貌列表={高度,發(fā)色,眼睛};各屬性的值域分別為:高度={高,矮},發(fā)色={黑色,紅色,金色},眼睛={黑色,棕色}。分類結(jié)果有兩種:種類={+,-}。提供的訓(xùn)練例子集為:T={<(矮,金色,黑色),+>,<(高,金色,棕色),->,<(高,紅色,黑色),+>,<(矮,黑色,黑色),->,<(高,黑色,黑色),->,<(高,金色,黑色),+>,<(高,黑色,棕色),->,<(矮,金色,棕色),->}。上述文字可構(gòu)造圖1所示決策樹。
2 決策樹學(xué)習(xí)算法
決策樹算法有幾種,如ID3、C4.5、CART等。其中ID3算法是最經(jīng)典的算法,該算法從根節(jié)點開始,這個根結(jié)點被賦予一個最好的屬性。隨后對該屬性的每個取值都生成相應(yīng)的分支,在每個分支的終點上又生成新的節(jié)點。然后按照該屬性的取值將每個訓(xùn)練例子都分別賦給一個相應(yīng)的新節(jié)點。如果沒有任何訓(xùn)練例子能賦給某個節(jié)點,那么該節(jié)點連同相應(yīng)的分支都將被刪除。這時,將每一個新節(jié)點都視作一個新的根節(jié)點,重復(fù)執(zhí)行整個過程。這里,最好屬性的選擇要基于信息增益這個統(tǒng)計特性。在定義信息增益前,先要了解另一統(tǒng)計特性:熵。
給定一組有c個分類的訓(xùn)練例子,對屬性a來說,它有值v,那么它的熵E定義為:E(a=v)=。其中pi是在第i類中屬性a取值為v的概率。為了能選出最好的屬性,需要使用度量信息增益。一屬性的信息增益就是按照該屬性對訓(xùn)練例子進行劃分所帶來的熵的減少量,定義:Gain(T,A)=E(T)-。其中,T是訓(xùn)練例子的集合,Tj是屬性A取值為j的訓(xùn)練例子集合,為T的一個子集。
3 決策樹在教育中的應(yīng)用
在教育教學(xué)中,尤其是在高等教育體系中,學(xué)校的數(shù)據(jù)庫中存貯著大量的教育教學(xué)信息,其中一部分和教學(xué)有關(guān),如學(xué)校的開課排課情況、教師情況;一部分和學(xué)生有關(guān),如學(xué)生歷年的考試、測驗成績等。這些大量的數(shù)據(jù)后面隱藏著大量的信息,只要加以分析,就能得到許多有用的信息,如教育規(guī)律、學(xué)生的培養(yǎng)模式、學(xué)生學(xué)科間的差異性和相關(guān)性的一些規(guī)律。這些規(guī)律對教育管理決策來說是相當(dāng)重要的,對教育教學(xué)改革有指導(dǎo)性的意義。
3.1 決策樹在教育信息處理中的應(yīng)用
決策樹表示的是一個離散值函數(shù),樹中每一個節(jié)點表示一個屬性,同時目標分類具有離散的輸出值信息。教育中的大量信息,一般都是對一些離散的數(shù)據(jù)進行分析,比如學(xué)習(xí)成績一般分成優(yōu)、良、中、差,外語六級成績分成過與未過,這些信息都可以用決策樹來加以分類歸納,對于連續(xù)的屬性值,也可以進行離散化處理后再利用決策樹來加以分析。
3.2 決策樹在教學(xué)評價中的應(yīng)用案例
決策樹在教育信息處理中的應(yīng)用很廣泛,下面以決策樹在教學(xué)評價中的應(yīng)用為例,來說明在教育信息處理中是如何使用決策樹來分析的。教學(xué)評價在教育中是一個重要的問題,它是指依據(jù)一定的教學(xué)目標與教學(xué)規(guī)范標準,通過對學(xué)校教與學(xué)等教育情況的系統(tǒng)檢測與考核,評定其教學(xué)效果與教學(xué)目標的實現(xiàn)程度。教學(xué)評價具有復(fù)雜性、多因素性和模糊性等特點。如何客觀、科學(xué)、全面地對教學(xué)進行評價,是教學(xué)評價中一個重要的課題,下面嘗試將決策樹應(yīng)用于教學(xué)評價。
在評價之初要有一個數(shù)據(jù)采集的過程,之后可以用決策樹來加以分析。課堂教學(xué)評價指標體系分為若干項,從教師的角度可以分為授課態(tài)度A1、授課方法A2、授課內(nèi)容A3、授課效果A4、教學(xué)評價A5,可以取訓(xùn)練例子如表1所示。