數(shù)據(jù)挖掘課程范文
時間:2023-04-11 02:52:19
導(dǎo)語:如何才能寫好一篇數(shù)據(jù)挖掘課程,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公文云整理的十篇范文,供你借鑒。

篇1
國外很多大學(xué)都開設(shè)了數(shù)據(jù)挖掘類課程,波士頓大學(xué)的“數(shù)據(jù)管理與商務(wù)智能”課程主要包括基礎(chǔ)、核心技術(shù)、應(yīng)用三部分。授課方式包括理論內(nèi)容講授、案例教學(xué),以及學(xué)生以團隊合作方式完成項目并進行課堂演講。從麻省理工學(xué)院開放性課程資料(斯隆管理學(xué)院)中可以看出,在每章講解一種算法之后都盡可能地安排了商務(wù)實例的分析,并在課程后期安排了客座講座的形式。國內(nèi)對于數(shù)據(jù)挖掘的教學(xué)類研究成果也很多,主要集中在三類問題的研究上,較為普遍的是根據(jù)專業(yè)建立大綱的研究,例如針對電子商務(wù)專業(yè)進行大綱設(shè)計;另外也有專注研究某一種或多種適合數(shù)據(jù)挖掘或商務(wù)智能的教學(xué)方法,如專題研討法;還有的討論算法理解與程序設(shè)計、軟件應(yīng)用的關(guān)系。
2、基于模塊化方法的課程內(nèi)容分析
模塊化教學(xué)模式是按照程序模塊化的構(gòu)想和原則來設(shè)計教學(xué)內(nèi)容的一整套教學(xué)體系,它是在既定的培養(yǎng)目標指導(dǎo)下,將全部教學(xué)內(nèi)容按照一定標準或規(guī)則進行分解,使其成為多個相對獨立的教學(xué)模塊,且各教學(xué)模塊之間可以按照一定的規(guī)則有選擇性的重新組合。該方法在20世紀70年代,由國際勞工組織引入教學(xué)之中,開發(fā)出以現(xiàn)場教學(xué)為主,以技能培訓(xùn)為核心的模塊化教學(xué)模式,在很多國家得到廣泛應(yīng)用。由于該教學(xué)法具有針對性、靈活性、現(xiàn)實性等特點,越來越受到教育界的關(guān)注。模塊化教學(xué)本質(zhì)上是以知識點與實踐的細化為出發(fā)點研究,本課程的知識點細化分為兩個層次:一是從宏觀角度,參考ACM的SIGKDD的數(shù)據(jù)挖掘課程建設(shè)建議,設(shè)計課程的基礎(chǔ)內(nèi)容模塊和高級主題模塊;二是從微觀角度,針對較為復(fù)雜的算法進行的知識點劃分。課程內(nèi)容的一至五章屬于基礎(chǔ)內(nèi)容模塊,介紹本課程的基礎(chǔ)理論和入門的數(shù)據(jù)挖掘技術(shù);六至第八章介于基礎(chǔ)內(nèi)容與高級主題之間,介紹數(shù)據(jù)挖掘的核心算法,可以根據(jù)學(xué)生情況進行靈活處理,可強調(diào)應(yīng)用,也可深化算法介紹;第九、十章為高級主題模塊,可以作為擴展材料介紹應(yīng)用,或為感興趣同學(xué)提供算法介紹;課程實踐模塊包含數(shù)據(jù)倉庫建設(shè)與數(shù)據(jù)挖掘算法的應(yīng)用,難度居中,可以在引導(dǎo)學(xué)生思考的前提下給出實驗步驟,并引導(dǎo)學(xué)生使用類似的方法處理不同的數(shù)據(jù)。
3、基于模塊化方法進行重要知識點的模塊化分析
重要知識點內(nèi)涵較為豐富,一般體現(xiàn)在經(jīng)典數(shù)據(jù)挖掘算法上,通常一大類算法下還分有多個算法,不同算法的在難度上有漸進層次,同一種算法也有很大改進研究空間,講授彈性比較大。因此,適合使用模塊化方法進行處理,并且需要在課程設(shè)計中明確一定課時量所要達到的內(nèi)容和難度。基礎(chǔ)部分為必選內(nèi)容,介紹基本概念和基本原理;決策樹作為數(shù)據(jù)挖掘分類算法的最基礎(chǔ)算法也是必選內(nèi)容,決策樹算法有多種分類,需要進行按照難易程度進行選擇;最后要根據(jù)難度選擇其他分類算法進行介紹。
4、結(jié)論
篇2
近年來,數(shù)據(jù)挖掘與商務(wù)智能技術(shù)發(fā)展迅速,充分借鑒國外相關(guān)研究,尤其是ACMSIGKDD課程委員會對數(shù)據(jù)挖據(jù)課程建設(shè)建議,對進行數(shù)據(jù)挖掘類課程的教學(xué)建設(shè)研究有重要意義。ACM(美國計算機協(xié)會)于1998年成立了SIGKDD(知識發(fā)現(xiàn)興趣小組),致力于知識發(fā)現(xiàn)與數(shù)據(jù)挖掘的相關(guān)研究,ACMSIGKDD課程委員會連續(xù)多年多次更新其主要課程———數(shù)據(jù)挖據(jù)課程的建議,其中委員會將數(shù)據(jù)挖掘課程分為基礎(chǔ)部分與高級主題,基礎(chǔ)部分覆蓋了數(shù)據(jù)挖掘的基本方法,高級主題既有數(shù)據(jù)挖掘基本方法的深入研究,又有更高級算法的介紹。國外很多大學(xué)的計算機科學(xué)學(xué)院、商學(xué)院都開設(shè)了數(shù)據(jù)挖掘類課程并同時進行相關(guān)研究。波士頓大學(xué)開設(shè)了“數(shù)據(jù)管理與商務(wù)智能”課程,課程主要包括基礎(chǔ)、核心技術(shù)、應(yīng)用三部分。許多國外著名大學(xué)建立了教學(xué)管理系統(tǒng),提供大量的案例、在線討論和在線輔導(dǎo)功能。國內(nèi)很多學(xué)校都開設(shè)了數(shù)據(jù)挖掘的相關(guān)課程,我國大多數(shù)高校的課程大綱內(nèi)容與國外大致相同,只是在實踐部分選用了不同的商務(wù)案例。數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域廣泛,因此可以根據(jù)開課學(xué)院和專業(yè)選擇合適的實例。
二、根據(jù)信息管理專業(yè)本科生培養(yǎng)要求確定課程目標
數(shù)據(jù)挖掘課程是一門綜合性很強的前沿學(xué)科,對計算機軟硬件、數(shù)據(jù)庫、人工智能技術(shù)、統(tǒng)計學(xué)算法、優(yōu)化算法等基礎(chǔ)知識都有較高的要求。因此該門課程開設(shè)在學(xué)生大三下學(xué)期,既有相關(guān)知識的基礎(chǔ),又為大四做畢業(yè)設(shè)計提供了一種思路。信息管理專業(yè)是計算機與管理相結(jié)合的專業(yè),旨在培養(yǎng)具備信息系統(tǒng)開發(fā)能力與信息資源分析與處理能力的綜合應(yīng)用型人才。對信息管理專業(yè)的學(xué)生而言,本課程主要的目標是數(shù)據(jù)挖掘算法原理理解、數(shù)據(jù)挖掘算法在商務(wù)管理問題中的應(yīng)用以及常用數(shù)據(jù)倉庫與數(shù)據(jù)挖掘軟件的熟練應(yīng)用和二次開發(fā)。
三、基于模塊化方法的課程內(nèi)容分析
模塊化教學(xué)模式是按照程序模塊化的構(gòu)想和原則來設(shè)計教學(xué)內(nèi)容的一整套教學(xué)體系,它是在既定的培養(yǎng)目標指導(dǎo)下,將全部教學(xué)內(nèi)容按照一定標準或規(guī)則進行分解,使其成為多個相對獨立的教學(xué)模塊,且各教學(xué)模塊之間可以按照一定的規(guī)則有選擇性的重新組合。學(xué)生可以根據(jù)個人興趣和職業(yè)取向在不同模塊之間進行選擇和搭配,從而實現(xiàn)不同的教學(xué)目標和人才培養(yǎng)要求。模塊化教學(xué)本質(zhì)上是以知識點與實踐的細化為出發(fā)點研究的。商務(wù)智能方法本身非常豐富,實踐應(yīng)用也是課程的主要特點之一,因此十分適合使用模塊化的知識分解方式。本課程的知識點模塊管理分為兩個層次,一是從宏觀角度設(shè)計課程的基礎(chǔ)內(nèi)容模塊和高級主題模塊;二是從微觀角度針對較為復(fù)雜的教學(xué)內(nèi)容進行的知識點劃分。
1.課程主要內(nèi)容模塊化分析。目前該課程包括十章理論內(nèi)容,分別為數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的基本知識、數(shù)據(jù)倉庫的OLAP技術(shù)、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)、概念描述:特征化與比較、挖掘大型數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則、分類與預(yù)測、聚類分析、復(fù)雜類型數(shù)據(jù)挖掘和序列模式挖掘。根據(jù)模塊化管理的宏觀角度分類,課程內(nèi)容的第一至五章屬于基礎(chǔ)理論部分和簡單數(shù)據(jù)挖掘技術(shù)的介紹,可以作為基礎(chǔ)內(nèi)容模塊;第六至八章為數(shù)據(jù)挖掘的核心算法,其中既有基礎(chǔ)理論與技術(shù)方法,又可深入到較難的方法和復(fù)雜的應(yīng)用,因此介于基礎(chǔ)內(nèi)容與高級主題之間;第九、十章可以算做課程的高級主題模塊;另外,課程的實踐模塊既包含數(shù)據(jù)倉庫的建設(shè)又包含數(shù)據(jù)挖掘算法的應(yīng)用,難度也介于基礎(chǔ)內(nèi)容與高級主題之間。
2.復(fù)雜知識點的模塊化管理。從微觀角度對知識點進行設(shè)計主要針對的是上述的高級主題、以及難度介于基礎(chǔ)內(nèi)容與高級主題之間的章節(jié),由于這些章節(jié)知識點在難度上有一定層次,講授內(nèi)容彈性比較大,因此需要在課程設(shè)計中明確一定課時量所要達到的難度。以商務(wù)智能技術(shù)中的分類算法為例:首先一般的入門課程都會介紹分類算法的概念和基本原理;接著開始介紹分類算法的基礎(chǔ)算法———決策樹,而決策樹算法中又包含ID3等多種算法,并且除了決策樹外,還有其他更高級的分類算法;在真正使用分類法進行預(yù)測時,還要分析預(yù)測準確度;最終要將所學(xué)知識加以應(yīng)用。這樣就形成了一個結(jié)構(gòu)清晰、難度循序漸進的知識點模塊的層次關(guān)系。在宏觀角度、微觀角度對教學(xué)內(nèi)容進行分類的前提下進行相應(yīng)的授課方法與考查方法的研究,才能真正有助于學(xué)生的學(xué)習(xí)。
四、授課與考核方法設(shè)計
對不同層次學(xué)生要求不同,這種不同既體現(xiàn)在知識點的要求上,又直接體現(xiàn)在任務(wù)的難易性程度上,這都需要教師在課程設(shè)計時充分考慮不同要求情況下的不同的授課方式,并使學(xué)生清楚自己需要掌握的程度。對于高級算法和實現(xiàn)部分,通??梢赃x擇一到兩章內(nèi)容采用專題探討式的教學(xué)方法。這種方法是指在教師啟發(fā)和引導(dǎo)下,以學(xué)生為主體,選擇某個基本教學(xué)單元為專題,學(xué)生自主研究作為知識傳遞的基本形式,將多種靈活的教學(xué)方式綜合運用到教學(xué)環(huán)節(jié)的教學(xué)方法。根據(jù)信管專業(yè)培養(yǎng)方案的培養(yǎng)目標、以及對學(xué)生調(diào)研的情況,實踐環(huán)節(jié)比較適合選擇成熟的商務(wù)智能工具進行數(shù)據(jù)的整合和多維數(shù)據(jù)建模,也就是直接使用現(xiàn)成的;或者使用數(shù)據(jù)挖掘軟件進行數(shù)據(jù)建模,完善數(shù)據(jù)挖掘算法??梢葬槍W(xué)生管理基礎(chǔ)課與IT基礎(chǔ)課知識的掌握情況,選擇合適的工具為學(xué)生設(shè)計綜合性實驗。實驗中給出部分操作步驟,并在實驗后期僅給出數(shù)據(jù)與工具,讓學(xué)生自己設(shè)計數(shù)據(jù)倉庫、進行數(shù)據(jù)挖掘、并對挖掘結(jié)果進行多種形式的展示。
五、結(jié)論
篇3
(武漢科技大學(xué)城市學(xué)院信息工程學(xué)部 湖北 武漢 430083)
摘 要:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘是大數(shù)據(jù)時代產(chǎn)生的一門新興交叉的課程。針對該課程的特點,將CDIO工程教學(xué)理念融合到教學(xué)過程,重新設(shè)置了教學(xué)目標與大綱、調(diào)整了教學(xué)內(nèi)容、改進了教學(xué)方法,總結(jié)了數(shù)據(jù)挖掘課程教學(xué)實踐的一般流程并給出具體的實驗教學(xué)設(shè)計方案。
關(guān)鍵詞 :教學(xué)改革;數(shù)據(jù)倉庫;數(shù)據(jù)挖掘;CDIO
中圖分類號:G642 文獻標識碼:A doi:10.3969/j.issn.1665-2272.2015.09.040
收稿日期:2015-03-15
1 CDIO簡介
CDIO工程教育模式是基于項目的學(xué)習(xí)的一種模式。CDIO中,C(Conceive)構(gòu)思,根據(jù)工程實踐,讓學(xué)生掌握專業(yè)知識的基本原理,確定未來發(fā)展方向;D(Design)設(shè)計,以產(chǎn)品設(shè)計與規(guī)劃為核心,解決具體問題;I(Implement)執(zhí)行,以制造為核心,組織一體化的課程實踐,其中包括學(xué)生必須掌握的理論知識與實踐能力;O(Operate)運作,即產(chǎn)品應(yīng)用的各個環(huán)節(jié)。它以產(chǎn)品的研發(fā)到運行的生命周期為載體,通過系統(tǒng)的產(chǎn)品設(shè)計讓學(xué)生以主動的、實踐的、課程有機聯(lián)系的方式學(xué)習(xí)。CDIO代表工程項目生命全周期,是產(chǎn)業(yè)轉(zhuǎn)型升級對創(chuàng)新人才需求的形勢。
CDIO培養(yǎng)大綱將工程畢業(yè)生的能力分為技術(shù)知識與推理、個人專業(yè)能力和素質(zhì)、團隊合作與溝通能力、在企業(yè)和社會環(huán)境下CDIO系統(tǒng)四個層面,大綱要求以綜合的培養(yǎng)方式達到這四個層面的預(yù)定目標。其精髓在于:以工程項目設(shè)計為導(dǎo)向、工程能力培養(yǎng)為目標的工程教育模式。
2 “數(shù)據(jù)倉庫與數(shù)據(jù)挖掘”課程概況
當今的大數(shù)據(jù)時代,人們處理數(shù)據(jù)的能力大大增強,快速增長的海量數(shù)據(jù)已經(jīng)遠遠超出人們的理解能力,因此數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)得到了廣泛關(guān)注,有效地挖掘和運用海量數(shù)據(jù),獲得有價值的知識和信息,從而幫助人們制定正確的決策。很多高校為工程類專業(yè)本科生開設(shè)這門專業(yè)課,研究如何將信息處理技術(shù)運用于企業(yè)管理決策的具體實際。
本工程課程涉及到數(shù)據(jù)倉庫的設(shè)計與構(gòu)建技術(shù)、聯(lián)機分析處理OLAP技術(shù)、分類與預(yù)測、聚類、關(guān)聯(lián)規(guī)則算法、數(shù)據(jù)挖掘應(yīng)用綜合項目技術(shù)等多方面的知識和技能。通過課程的學(xué)習(xí),不僅要求學(xué)生掌握在數(shù)據(jù)倉庫與數(shù)據(jù)挖掘方面的知識,還要求培養(yǎng)學(xué)生的工程CDIO能力。
但是目前許多高校在工程教育采用的教學(xué)方式存在以下問題:培養(yǎng)目標不清楚,學(xué)術(shù)化傾向嚴重;人才培養(yǎng)模式單一,缺乏多樣性和適應(yīng)性;工程性缺失和實踐環(huán)節(jié)薄弱;課程體系與產(chǎn)業(yè)結(jié)構(gòu)調(diào)整不適應(yīng)等。在教學(xué)過程中,強調(diào)教師的主導(dǎo)作用,卻忽視了學(xué)生的主體作用,忽視了學(xué)生的工程意識、工程素質(zhì)和工程實踐能力的培養(yǎng)。這與高校培養(yǎng)創(chuàng)新性應(yīng)用型人才的目標相悖。因此,改革勢在必行。
3 “數(shù)據(jù)倉庫與數(shù)據(jù)挖掘”課程改革實踐
3.1 基于CDIO理念的教學(xué)目標與大綱
CDIO教育理念所提倡的工程畢業(yè)生的能力分為技術(shù)知識與推理、個人專業(yè)能力和素質(zhì)、團隊合作與溝通能力、在企業(yè)和社會環(huán)境下CDIO系統(tǒng)四個層面,四個層面上進行綜合培養(yǎng)的教學(xué)模式。在CDIO能力培養(yǎng)目標方面,課程在四個能力層面上建立培養(yǎng)目標。
針對“數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述”內(nèi)容,知識點是數(shù)據(jù)倉庫的含義與特征、數(shù)據(jù)挖掘的任務(wù)、多維數(shù)據(jù)模型。講授數(shù)據(jù)倉庫的概念、特點、構(gòu)成以及數(shù)據(jù)挖掘和數(shù)據(jù)處理的基本知識,使學(xué)生有一個初步的理解。培養(yǎng)學(xué)生技術(shù)知識與推理能力。
針對“聯(lián)機分析處理OLAP”內(nèi)容,知識點是數(shù)據(jù)倉庫的數(shù)據(jù)組織、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲、基于多維數(shù)據(jù)模型的數(shù)據(jù)分析。本階段如果不結(jié)合直觀的舉例講解,學(xué)生就失去了興趣,因此筆者要布置一些思考題,教會學(xué)生自主學(xué)習(xí),自己查閱教材、網(wǎng)絡(luò)等資源資料,從中提煉出結(jié)論。培養(yǎng)個人分析問題、解決問題的能力、所學(xué)知識的靈活應(yīng)用能力;
針對“分類與預(yù)測、聚類、關(guān)聯(lián)規(guī)則”內(nèi)容,知識點是數(shù)據(jù)采集、關(guān)聯(lián)規(guī)則算法的設(shè)計、結(jié)果分析。在這個階段經(jīng)常會是“數(shù)據(jù)的堆砌”,講了很廣泛的算法知識卻沒有足夠的時間進行深入理解。因此應(yīng)抓住關(guān)鍵的概念、能力,引導(dǎo)學(xué)生提出問題,并學(xué)會調(diào)查研究,為學(xué)生提供深層學(xué)習(xí)的機會,并把在第一層面所學(xué)的知識運用到對問題的解決之中去。這樣,學(xué)習(xí)的焦點就從“覆蓋”的方式過渡到以學(xué)生為中心的學(xué)習(xí)方式。培養(yǎng)數(shù)據(jù)獲取能力、程序設(shè)計能力、問題表達能力;
針對“數(shù)據(jù)挖掘應(yīng)用綜合項目”內(nèi)容,知識點是項目的準備、進度管理、文檔管理和項目設(shè)計和實現(xiàn)。實際工作牽涉到企業(yè)或者組織的各個部門多類人員,所有團隊成員之間協(xié)同、合作,會有分工、溝通、協(xié)調(diào),甚至?xí)型讌f(xié),這就要求在運用實例的過程中一定要具有團隊合作精神。培養(yǎng)工程系統(tǒng)能力和人際團隊能力。
3.2 改革教學(xué)內(nèi)容
在教學(xué)內(nèi)容中安排了兩級項目:多種初級項目和一個高級項目。初級項目是將課程內(nèi)容分成各種項目,數(shù)據(jù)主要來源于SQL Server 2008的示例數(shù)據(jù)倉庫Adventure Works DW,以項目實現(xiàn)促進理論學(xué)習(xí);高級項目是綜合性項目:“卷煙產(chǎn)品銷售規(guī)律挖掘”,利用卷煙產(chǎn)品歷史銷售數(shù)據(jù)中蘊含的信息,采用數(shù)據(jù)挖掘技術(shù)對各個卷煙品種銷售的關(guān)聯(lián)關(guān)系進行分析并預(yù)測,以制定更加合理的卷煙產(chǎn)品營銷策略。具體項目設(shè)置如下:
項目一:基于SQL Server 2008的數(shù)據(jù)倉庫數(shù)據(jù)庫及多維數(shù)據(jù)模型設(shè)計。步驟如下:分析組織的業(yè)務(wù)狀況及數(shù)據(jù)源結(jié)構(gòu)組織需求調(diào)研,收集分析需求采用信息包圖法設(shè)計數(shù)據(jù)倉庫的概念模型利用星型圖設(shè)計邏輯模型物理模型設(shè)計構(gòu)建多維數(shù)據(jù)模型。本項目旨在個人能力的培養(yǎng)(分析問題、解決問題的能力、所學(xué)知識的靈活運用能力等)。
項目二:關(guān)聯(lián)規(guī)則挖掘。使用商業(yè)智能開發(fā)工具進行購物籃分析,以達到重新設(shè)計網(wǎng)站功能,提高產(chǎn)品的零售量。
項目三:潛在客戶分析即分類及預(yù)測。使用商業(yè)智能開發(fā)工具分析購買自行車的潛在客戶。
項目四:K-Means聚類分析。使用商業(yè)智能開發(fā)工具分析客戶購買自行車情況分析。
項目五:貝葉斯網(wǎng)絡(luò)應(yīng)用。使用商業(yè)智能開發(fā)工具解決一個簡單的預(yù)測和診斷問題。
項目二至五旨在培養(yǎng)學(xué)生個人能力(數(shù)據(jù)獲取能力、程序設(shè)計能力等)和人際團隊能力(問題表達能力、人際交流能力),倡導(dǎo)學(xué)生樂于探究、勤于動手。
高級項目:數(shù)據(jù)挖掘應(yīng)用綜合項目“卷煙產(chǎn)品銷售規(guī)律挖掘”。將一個相對獨立的項目交由學(xué)生自己處理,從信息的收集,方案的設(shè)計,到項目實施及最終評價,都由學(xué)生自己負責(zé),學(xué)生通過該項目的進行,了解并把握整個過程及每一個環(huán)節(jié)中的基本要求。通過綜合項目,學(xué)生完成了CDIO的四個階段,提升CDIO所提倡的四大能力,具體體現(xiàn)如表1所示。
3.3 改革教學(xué)方法
在課程教學(xué)方法是項目教學(xué)法為主,任務(wù)驅(qū)動法和案例教學(xué)法為輔的教學(xué)模式,起到很好的教學(xué)效果。
4 結(jié)語
CDIO工程教育模式由麻省理工學(xué)院和瑞典皇家工程學(xué)院提出,包括構(gòu)思、設(shè)計、實現(xiàn)和運作四個環(huán)節(jié),是國際流行的工程人才培養(yǎng)理念,強調(diào)對學(xué)生創(chuàng)新思維、實踐能力和團隊協(xié)作精神的培養(yǎng)。本文體現(xiàn)了CDIO理念的能力培養(yǎng)要求,將數(shù)據(jù)倉庫設(shè)計開發(fā)方法和數(shù)據(jù)挖掘技術(shù)融入具有較強工程背景與應(yīng)用價值的項目設(shè)計與開發(fā)中,理論與實踐緊密結(jié)合,推動課程建設(shè)和課程教學(xué)改革。
參考文獻
1 顧佩華,沈民奮,陸小華譯.重新認識工程教育—國際CDIO培養(yǎng)模式與方法[M].北京:高等教育出版社,2009
2 郭長虹. 重構(gòu)CDIO特色的工程圖學(xué)課程體系[J].圖文學(xué)報,2013(3)
3 王麗麗. CDIO視角下項目驅(qū)動法在“數(shù)據(jù)倉庫與數(shù)據(jù)挖掘”教學(xué)中的應(yīng)用[J].電子商務(wù),2013(9)
篇4
Data Mining and Analysis for the Personalized Teaching of Multimedia Technology Course
YANG Nan-yue
(Industrial Training Center, Guangdong Polytechnic Normal University, Guangzhou 510665, China)
Abstract: Since personalized teaching has been implemented in multimedia technology teaching in the past five years, a lot of teaching data accumulated from multimedia technology online learning platform. The article introduced data mining and analysis technology to process these data in order to obtain support and decision-making reference for the improvement of the quality of personalized teaching. First, the snowflake model of courses selection for data warehouse was built. Then the Apriori algorithm was used to dig out the inner link between the students’ media technology achievements and the final grade. And then cluster analysis with k-means algorithm on all students’ scores was conducted. Finally, the calculated results were visualized and analyzed. Practice proved that data mining and analysis technology is a useful tool for quantitative analysis in the teaching.
Key words: data mining; snowflake model; association rule; cluster analysis; personalized teaching
我校的多媒體技術(shù)公選課面向全校各年級各專業(yè)本科生開課,因此選修本課程的學(xué)生來源較復(fù)雜,其計算機基礎(chǔ)參差不齊。過往統(tǒng)一步調(diào)的授課模式滿足不了不同層次學(xué)生的需求,所以從2011年開始,本門課程實施教學(xué)改革,以多媒體技術(shù)在線學(xué)習(xí)平臺為基礎(chǔ),結(jié)合課堂授課開展個性化教學(xué),把多媒體技術(shù)包含的四大媒體技術(shù)課程:圖像處理、音頻處理、視頻處理和動畫制作做成講座的形式,每一門課程分別包含兩到三次的講座,學(xué)生根據(jù)自己的情況選聽選學(xué)。每門媒體技術(shù)不同難易度的學(xué)習(xí)資料都放在學(xué)習(xí)平臺里,學(xué)生可以自由選擇學(xué)習(xí)資源,并通過網(wǎng)絡(luò)或課堂與同學(xué)和老師進行學(xué)習(xí)交流??己朔绞綖槊恳婚T課程最后一次講座講完后在學(xué)習(xí)平臺上進行隨堂考試,要求每位學(xué)生至少選考其中三門。本門課程期末考試也在學(xué)習(xí)平臺上進行,要求全體學(xué)生都必須參加。本教改實施五年來,學(xué)生反應(yīng)良好,同時多媒體技術(shù)學(xué)習(xí)平臺網(wǎng)站上存在著大量學(xué)生成績和教師教學(xué)及管理過程中的相關(guān)數(shù)據(jù),那么這些數(shù)據(jù)之間存在著怎樣的聯(lián)系,是否蘊藏著教與學(xué)之間的知識和規(guī)律?由于數(shù)據(jù)挖掘技術(shù)能夠發(fā)現(xiàn)隱藏在海量數(shù)據(jù)中的潛在聯(lián)系和規(guī)則,從而預(yù)測未來的發(fā)展趨勢[1],因此我們把該技術(shù)引入學(xué)習(xí)平臺中的信息資源管理系統(tǒng),把大量積累的教學(xué)基礎(chǔ)數(shù)據(jù)建立數(shù)據(jù)倉庫[2],在這基礎(chǔ)上運用數(shù)據(jù)挖掘手段從中快速準確地提取出重要的信息和有價值的知識,找出影響學(xué)習(xí)成績的因素,為進一步改善個性化教學(xué)的教學(xué)質(zhì)量提供數(shù)據(jù)支持和決策參考。
1 數(shù)據(jù)倉庫多維數(shù)據(jù)模型的建立
數(shù)據(jù)倉庫的邏輯數(shù)據(jù)模型是多維數(shù)據(jù)模型。目前使用的多維數(shù)據(jù)模型主要有星型模型和雪花模型。一個典型的星型模式包括一個大型的事實表和一組邏輯上圍繞這個事實表的維度表[3]。雪花模型是對星型模型的擴展,將星型模型的維度表進一步層次化,原來的各維度表被擴展為小的事實表,形成一些局部的層次區(qū)域[3-4]。建立本課程數(shù)據(jù)倉庫時,為了減少數(shù)據(jù)冗余,改善查詢性能我們采用雪花模型結(jié)構(gòu),如圖1所示。建立以學(xué)生選課為中心的選課事實表,三個主維度表“學(xué)生表”、“成績表”和“時間表”分別通過“學(xué)生鍵”、“成績鍵”和“時間鍵”與事實表直接關(guān)聯(lián)。其中,主維度表中的“學(xué)生表”和“成績表”都有各自的二級維度表,與事實表間接關(guān)聯(lián)[5]。
2 采用Apriori算法的關(guān)聯(lián)規(guī)則挖掘
關(guān)聯(lián)規(guī)則用于揭示數(shù)據(jù)與數(shù)據(jù)之間未知的相互依賴關(guān)系,即在給定的一個事物數(shù)據(jù)庫D,在基于支持度-置信度框架中,發(fā)現(xiàn)數(shù)據(jù)與項目之間大量有趣的相關(guān)聯(lián)系,生成所有的支持度和可信度分別高于用戶給定的最小支持度(min_sup)和最小可信度(min_conf)的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則挖掘算法歸結(jié)為下面兩個問題:(1)找到所有支持度大于等于最小支持度(min_sup)的項目集(Item Sets),即頻繁項目集(Frequent Item Sets)。(2)使用步驟(1)找到的頻繁項目集,產(chǎn)生期望的規(guī)則。兩步中,第(2)步是在第(1)步的基礎(chǔ)上進行的,工作量非常小,因此挖掘的重點在步驟(1)上,即查找數(shù)據(jù)庫中的所有頻繁項目集和它的支持度[4]。本課題對多媒體技術(shù)課程學(xué)習(xí)平臺中所有考試成績進行關(guān)聯(lián)規(guī)則挖掘,采用Apriori算法查找頻繁項目集。
Apriori算法通過逐層迭代來找出所有的頻繁項目集L。用戶需要輸入事物數(shù)據(jù)庫D和最小支持度閥值min_sup。實現(xiàn)過程為:
1)單次掃描數(shù)據(jù)庫D計算出各個1項集的支持度,得到頻繁1項集構(gòu)成的集合L1。
2)連接:為了產(chǎn)生頻繁K項集構(gòu)成的集合,通過連接運算預(yù)先生成一個潛在頻繁k項集的集合Ck。
3)剪枝:利用Apriori算法“任何非頻繁的(k-1)項集必定不是頻繁k項集的子集”的性質(zhì),從Ck中刪除掉含有非頻繁子集的那些潛在k項集。
4)再次掃描數(shù)據(jù)庫D,計算Ck中各個項集的支持度。
5)剔除Ck中不滿足最小支持度的項集,得到由頻繁k項集構(gòu)成的集合Lk。
Apriori算法如下:
[(1)L1=find_frequent_1-itemsets(D)(2)for(k=2;Lk-1≠?;k++) do begin(3)Ck=apriori_gen(Lk-1); //新的潛在頻繁項集(4)for all transactions t∈D do begin(5) Ct=subset(Ck,t);//t中包含的潛在頻繁項集(6)for all candidates c∈Ct do begin(7) c.count++;(8)end;(9)Lk=c∈Ckc.count≥inmsup(10)end;(11)Answer=UkLk;]
求出頻繁項集L后,1)對于L中的每一個頻繁項目集l,產(chǎn)生l的所有非空子集。2)對于l的每一個非空子集s,如果,[sup_count(l)sup_count(s)≥min_conf],則輸出規(guī)則:SL-S[4]。
本課題對近五年選修多媒體技術(shù)的學(xué)生所有成績數(shù)據(jù)進行清洗,填補空缺值,去噪,類型轉(zhuǎn)換,集成等處理后放入數(shù)據(jù)倉庫中,系統(tǒng)采用Apriori算法找出所有的頻繁項集。為了便于進行關(guān)聯(lián)規(guī)則的挖掘,對成績數(shù)據(jù)進行離散化處理,轉(zhuǎn)變成標稱型變量[5]。成績score(簡化為“s”)在85-100區(qū)間的表示“優(yōu)秀”,標記為“1”,在70-84區(qū)間的表示“中等”,標記為“2”,在60-70區(qū)間的表示“合格”,標記為“3”。多媒體技術(shù)每門媒體技術(shù)課程:圖像處理、音頻處理、視頻處理、動畫制作和最后的期末考試分別用A、B、C、D、E表示。學(xué)生的學(xué)號用StudentID表示,那么每個學(xué)生選修的N門課和最后期末考試的成績可以表示為{StudentID,Asa,Bsb,Csc,Dsd,Ese},其中Sa,Sb,Sc,Sd,Se的取值范圍是{1,2,3}。例如{ 2011204543021,A3,B1,D3,E3}表示學(xué)號為2011204543021的學(xué)生,選修了圖像處理,音頻處理和動畫制作這三門媒體技術(shù),其中圖像處理成績?yōu)楹细?,音頻處理成績?yōu)閮?yōu)秀,動畫制作成績?yōu)楹细?,期末考試成績?yōu)楹细?,該名學(xué)生沒有選修視頻處理,故沒有這門科目的成績。
設(shè)定最小支持度閥值min_sup為3%,最小置信度閥值min_conf為70%,系統(tǒng)采用Apriori算法進行數(shù)據(jù)挖掘,得到滿足最小置信度閥值的規(guī)則和相應(yīng)的置信度如表1。
挖掘結(jié)果分析:表1的關(guān)聯(lián)規(guī)則體現(xiàn)學(xué)生選修的媒體技術(shù)課程種類、科目數(shù)量與期末考試成績之間的相互關(guān)系??梢钥吹狡谀┛荚嚦煽儗儆谥械龋‥2)或合格(E3)級別的,學(xué)生全選四門媒體技術(shù)比只選學(xué)三門的置信度高,即選課數(shù)量多的較容易及格或獲得中等的期末成績。另外,在選課種類方面,選B這門課,即選音頻處理的學(xué)生比較多,是一個概率比較高的事件,可能這門課內(nèi)容比較少和易掌握,因此選學(xué)選考的學(xué)生就多。但這門課的成績對期末考試成績影響不明顯,說明教師這門課出的考題區(qū)分度低,沒能反映出學(xué)生的水平層次。在最小支持度閥值min_sup為3%的情況下,選A(圖像處理),C(視頻處理)和D(動畫制作)這幾門課并獲得優(yōu)秀成績(A1,C1,D1)的很少,即小概率事件被過濾掉了,沒能挖掘出它們與期末成績之間的關(guān)聯(lián)性。但這幾門課程成績中等或合格與期末成績存在內(nèi)在關(guān)系,也就是說如果這幾門課成績都是中等的,期末考試成績大部分都為中等,一小部分可以達到優(yōu)秀。如果這幾門課成績都是合格,期末考試成績就是合格。說明這幾門課程的考題比較真實反映出學(xué)生掌握技能的實際水平,致使期末綜合性的考試成績與學(xué)生平時掌握程度相符合。這也意味著個性化教學(xué)具有一定的成效。
本課題對近五年的學(xué)生多媒體技術(shù)每科成績與期末成績進行聚類分析,把學(xué)生劃分到若干不同的類中,分析各個類的特征,從而考察實施個性化教學(xué)后的效果。設(shè)定85分,75分和65分為三個初始的聚類中心,對學(xué)生的所有成績進行聚類分析,找出同一類別學(xué)生的學(xué)號,以此為索引,查找到該類中各個學(xué)生的專業(yè)與年級,繪制出餅狀圖,再繪制出該類學(xué)生所選各門媒體技術(shù)的平均分柱狀圖,通過這幾個圖表考察不同專業(yè)不同年級學(xué)生在本門課程優(yōu)秀中等合格若干成績區(qū)間的分布情況,從而檢查實施個性化教學(xué)的效果,為今后的改進方案提供參考。例如調(diào)整后得到的最終聚類中心為82分的學(xué)生,各門媒體技術(shù)的平均分和專業(yè)、年級分布如圖3~圖5所示。
從上面幾個圖可以看出,成績?yōu)閮?yōu)秀的學(xué)生主要來自美術(shù)、計算機和電信這幾個專業(yè),大三、大四的學(xué)生比較多。分析其中的原因,主要是美術(shù)學(xué)院很多專業(yè)課需要用二維、三維圖像軟件或視頻軟件進行制作和處理,他們對這門課程已經(jīng)有一定的基礎(chǔ),所以學(xué)起來比較輕松,也容易取得高分。而計算機和電信專業(yè)中高年級的學(xué)生學(xué)習(xí)和使用軟件的能力比較強,因此掌握多媒體技術(shù)各個媒體軟件較其他專業(yè)學(xué)生快,并且能夠靈活運用,因而較易取得比較優(yōu)異的成績。
最終聚類中心為64分的學(xué)生,各門媒體技術(shù)的平均分和專業(yè)、年級分布如圖6~圖8所示。
從圖中可以看出,這個類別的學(xué)生主要來自文科方向的專業(yè),年級分布差異不大,大四所占百分比稍微比其他三個年級略高,有可能是學(xué)生們最后一年為了修滿選修課學(xué)分而選了這門課,目的是混個及格拿到學(xué)分,因此學(xué)習(xí)積極性和學(xué)習(xí)態(tài)度不佳,導(dǎo)致大部分成績徘徊在60來分。還有一種可能性是大四學(xué)生畢業(yè)在即,需要寫簡歷找工作,做自我介紹作品等,覺得掌握一些多媒體技術(shù)可以作為輔助工具因此選了本門課程。可惜有效學(xué)習(xí)時間明顯不如前三年充足,加上文科方向的同學(xué)計算機基礎(chǔ)和軟件學(xué)習(xí)能力較理工類學(xué)生薄弱,因此成績不太理想。
篇5
【關(guān)鍵詞】 工程項目; 成本核算; 會計科目; 數(shù)據(jù)挖掘
工程項目成本核算是成本管理的一項重要內(nèi)容,而成本核算的科目體系又是成本核算的一個基礎(chǔ)且重要的組成部分。科目體系的好壞將直接關(guān)系到成本分析與控制工作的開展,進而影響到成本管理水平的高低。因此,科學(xué)、合理地設(shè)計科目體系顯得尤為重要。
一、當前的工程項目成本核算科目體系存在嚴重不足
(一)科目設(shè)置過于粗糙,不利于查閱明細
以“工程施工”科目為例,當前絕大多數(shù)施工企業(yè)的成本核算科目體系如表1所示,其科目設(shè)置非常簡單,最多只到三級科目,尚有很多綜合科目未設(shè)明細。以“其他直接費”科目為例,如果需要了解其中安全措施費的發(fā)生情況,將很難直接從其科目余額表和明細賬上查詢到理想的答案;只有逐一翻閱其明細賬上每筆記錄的憑證,將其中屬于安全措施費的所有金額匯總,才能計算出安全措施費的發(fā)生額。顯然,這給成本分析與控制造成了很大不便。
(二)科目按經(jīng)濟內(nèi)容分類設(shè)置,無法洞悉成本動因
可以看出,當前的科目體系仍然沿襲傳統(tǒng)按經(jīng)濟內(nèi)容分類設(shè)置的模式,分工、料、機、其他等方面設(shè)明細,整個科目體系沒有一處的金額體現(xiàn)了成本動因。這樣,如果需要對成本發(fā)生的原因進行分析并實施控制,必須對成本核算數(shù)據(jù)重新分類匯總,進行額外的專項分析才能達到目的,勢必影響成本分析與控制工作的效率,而且數(shù)據(jù)處理和分析的周期較長,無法及時獲得有用信息,工作效果也不理想。按經(jīng)濟內(nèi)容分類設(shè)置科目,一旦明細科目設(shè)置過多,會成倍增加成本分析與控制的難度,因為沒有將各項成本費用按其內(nèi)在成因歸類,而是按其表象全部羅列出來,只會顯得繁雜,也難以窮盡,增加了成本分析的內(nèi)容,同時也增加了成本控制的事項;明細科目設(shè)置過少,又過于粗糙、過于籠統(tǒng),同樣不利于成本分析與控制。
(三)科目體系不夠科學(xué),忽略了成本發(fā)生的內(nèi)在規(guī)律性
當前的科目體系不僅過于粗糙而且也無法洞悉成本動因,再者就是忽略了成本發(fā)生的內(nèi)在規(guī)律性。長期的施工生產(chǎn)實踐表明,工程項目的某些成本與另外一些成本之間存在著正比例關(guān)系、反比例或者某種相關(guān)關(guān)系,但是顯然無法從當前的科目體系中發(fā)現(xiàn)和看到這些規(guī)律。
二、工程項目成本核算數(shù)據(jù)利用不充分和數(shù)據(jù)挖掘的意義
工程項目及其施工生產(chǎn)具有唯一性特征和一次性特征。所謂唯一性特征,是指任何一個工程項目都是唯一的、不可復(fù)制的。工程項目設(shè)計包括科學(xué)規(guī)劃工程項目的規(guī)模、性能等,工程項目施工包括合理安排施工組織、施工環(huán)境(地理位置、氣候等)、施工方案、施工工藝等;由于工程項目的用途和性狀各不相同,設(shè)計和施工過程中的不可控因素和人為因素太多,可以說沒有任何兩個工程項目是完全一樣的。所謂一次性特征,則是指工程項目施工不像制造企業(yè)生產(chǎn)新產(chǎn)品,新產(chǎn)品生產(chǎn)出來,如果檢驗不合格可以再試驗,試驗后再生產(chǎn),不合格再試驗,直到合格為止,而工程項目只能一次性建設(shè)完工并驗收合格,否則將對施工企業(yè)造成非常嚴重的損失甚至破產(chǎn)。
恰恰是由于工程項目及其施工生產(chǎn)的這兩個特征,導(dǎo)致許多工程項目的管理者想當然地認為已完工項目的成本核算數(shù)據(jù)對正在施工的和將要施工的項目并沒有借鑒意義。其結(jié)果就是大量工程項目核算數(shù)據(jù)沒有得到分析、挖掘等形式的充分利用,大部分施工企業(yè)只將其作為計算工程項目成本、利潤并結(jié)算的依據(jù),過后就封存保管,出現(xiàn)了工程項目成本核算數(shù)據(jù)使用的一次性的狀況。這也間接導(dǎo)致了一些施工企業(yè)工程項目成本核算的隨意性、不準確的問題。
事實上,事物的偶然性中總是蘊含著必然性,成千上萬的已完工項目的成本核算數(shù)據(jù)中可能隱藏著某些規(guī)律性,亟待深入挖掘。數(shù)據(jù)挖掘正是一種從大量的數(shù)據(jù)中挖掘那些令人感興趣的、有用的、隱含的、先前未知的和可能有用的模式或知識的技術(shù)及工具。數(shù)據(jù)挖掘出現(xiàn)于20世紀80年代后期,在20世紀90年代有了突飛猛進的發(fā)展,當前已被廣泛應(yīng)用于企業(yè)的客戶關(guān)系管理、內(nèi)部控制和績效評價等領(lǐng)域,相信按照數(shù)據(jù)挖掘的思路并利用其技術(shù),對工程項目成本核算科目體系予以改進,也將對工程項目成本管理有所裨益。
三、應(yīng)用數(shù)據(jù)挖掘改進工程項目成本核算科目體系
如前所述,數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中挖掘那些令人感興趣的、有用的、隱含的、先前未知的和可能有用的模式或知識。數(shù)據(jù)挖掘任務(wù)一般可以分為兩類:描述和預(yù)測。描述性任務(wù)刻畫數(shù)據(jù)庫中數(shù)據(jù)的一般特性;而預(yù)測性任務(wù)則要在當前數(shù)據(jù)基礎(chǔ)上進行推斷,作出預(yù)測。這樣,數(shù)據(jù)挖掘通過預(yù)測未來趨勢及行為,幫助管理者作出前攝的、基于知識的決策。本文將基于以下四類數(shù)據(jù)挖掘功能,具體討論工程項目成本核算科目體系的改進方向及形式。
(一)自動預(yù)測趨勢
數(shù)據(jù)挖掘的自動預(yù)測趨勢功能是在數(shù)據(jù)庫中找尋具有預(yù)測作用的信息,一個典型的例子就是發(fā)現(xiàn)、證實并預(yù)測工程項目成本構(gòu)成比重的變化趨勢。隨著科學(xué)技術(shù)的發(fā)展和管理水平的提高,工程項目成本中的間接費用比重會呈下降趨勢,由此可以推斷構(gòu)成工程主體的材料費用占工程項目總成本的比重將呈上升趨勢,這就是工程項目成本構(gòu)成比重的變化趨勢。但這只是人們的主觀感受和判斷而已,如果需要準確地得出以上結(jié)論,就可以對已完工項目的成本數(shù)據(jù)采用科學(xué)、恰當?shù)姆椒ㄟM行數(shù)據(jù)挖掘,客觀地獲知工程項目成本構(gòu)成比重的變化趨勢,進而為各成本費用項目控制標準的制定提供依據(jù)。
當前的“工程施工”一級科目按經(jīng)濟內(nèi)容分類設(shè)置了“人工費”、“材料費”、“機械費”、“其他直接費”和“間接費用”等明細科目,可以說基本滿足數(shù)據(jù)挖掘自動預(yù)測趨勢功能的要求,但還不夠詳盡。因此,科目級次可以從當前的三級適當?shù)卦黾拥轿寮壣踔亮?對各明細科目進一步細分。如在表2中,對“機械費”科目進一步細分成“自有設(shè)備”和“租賃設(shè)備”兩個科目單獨核算,預(yù)期可以更充分地反映出市場細分、租賃行業(yè)發(fā)展和施工企業(yè)大量租賃通用設(shè)備的發(fā)展態(tài)勢。
(二)關(guān)聯(lián)分析
關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的、可被發(fā)現(xiàn)的知識,如成本構(gòu)成中某些具體成本項目之間存在的某種規(guī)律性(一項成本的發(fā)生是由另一項成本的發(fā)生所引起的,或者一項成本的增加會導(dǎo)致另一項成本的減少等等)。關(guān)聯(lián)分析的目的就是要找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。工程項目成本中也存在著一些明顯但卻未被證實的關(guān)聯(lián)關(guān)系。
工程項目質(zhì)量成本主要由兩個方面組成:一是為了保證工程質(zhì)量而發(fā)生的各種質(zhì)量預(yù)防成本和鑒定成本;二是因工程質(zhì)量未達到標準需維修及返工而造成的故障成本。預(yù)防成本主要包括為了保證工程質(zhì)量而支出的研究、規(guī)劃、改進工序和規(guī)范操作的費用及各種涉及工程質(zhì)量的培訓(xùn)費用;鑒定成本主要包括檢查、評定工程質(zhì)量、工序質(zhì)量是否滿足規(guī)定要求和標準所需的費用及相關(guān)人員的工資;故障成本主要包括施工生產(chǎn)過程中處理工程質(zhì)量缺陷而產(chǎn)生的返工費用、材料損失、停工費用及需要施工單位負責(zé)的保修費、賠償費等。一般來說,工程質(zhì)量預(yù)防成本、鑒定成本和故障成本之間存在著密切關(guān)系:預(yù)防成本、鑒定成本屬于保證工程質(zhì)量的費用,和質(zhì)量水平成正比,即質(zhì)量水平越高,成本投入越大;而故障成本屬于損失性費用,和質(zhì)量水平成反比,即質(zhì)量水平越高,故障成本越低。也就是說,預(yù)防成本、鑒定成本越高,故障成本越低,兩者之間是反比關(guān)系,這就是質(zhì)量成本內(nèi)部的關(guān)聯(lián)關(guān)系。
同樣,安全成本中也有預(yù)防成本和損失成本之分:預(yù)防成本是施工過程中為了防止各種安全事故發(fā)生而支出的安全措施費;損失成本則是工程發(fā)生安全事故所造成的各種材料損失、賠償損失和停工損失。一般預(yù)防成本越高,損失成本越低;預(yù)防成本越低,損失成本越高,兩者之間也存在著一種反比關(guān)系。
工程項目成本中也許存在著諸多這種關(guān)聯(lián)關(guān)系,如表2所示,對某些成本費用項目根據(jù)其內(nèi)部關(guān)聯(lián)關(guān)系分類設(shè)置明細科目,勢必可以更充分且便利地反映工程項目成本發(fā)生的內(nèi)在規(guī)律性,有利于工程項目成本分析與控制。
(三)聚類分析
聚類分析的功能在于建立一種歸類方法,如將若干工程項目成本按照性質(zhì)上的親疏程度進行歸類。
工程項目間接費用主要包括項目管理人員工資及福利費、通訊費、差旅交通費、業(yè)務(wù)招待費、辦公用品折舊攤銷費、車輛使用費、意外保險費、房屋租賃費,等等。從用途來看,種類繁多,但這些費用的發(fā)生可以歸于幾大成本動因,如工程項目組織規(guī)模(人數(shù))決定著項目管理人員的工資及福利費;工程項目離公司總部的距離遠近決定著差旅交通費;工程項目覆蓋范圍的大小決定著車輛使用費;施工環(huán)境(危險程度)決定著項目應(yīng)為項目管理人員購買意外保險費的金額。通過聚類分析,可以將工程項目間接費用歸為幾類,找出每一類共同的成本動因和特點,有利于分析每一類成本的發(fā)生、超支和節(jié)約狀態(tài),進而更好地研究、制定控制成本的對策。
如表2所示,“間接費用”科目根據(jù)成本動因分成“組織規(guī)模動因”、“施工范圍動因”等科目單獨核算,并進一步細分,就可以嚴密監(jiān)視每一類成本的發(fā)生是否符合其成本動因規(guī)律,而且能夠更有針對性地對工程項目間接費用實施控制。
(四)偏差檢測
數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫中檢測出這些偏差很有意義。工程項目成本中也會存在一些異常成本,如發(fā)生嚴重的安全事故、異常的雷雨天氣導(dǎo)致工期拖延、當?shù)鼐用竦母蓴_等都會導(dǎo)致異常成本發(fā)生。如果把這些異常成本混作正常成本一起核算,將不利于工程項目成本分析與控制以及考核。因此,單獨設(shè)置了“異常成本”科目,同時通過數(shù)據(jù)挖掘的偏差檢測技術(shù),專門、單獨核算這些成本。
綜上所述,改進后的科目體系如表2所示。
四、改進后工程項目成本核算科目體系優(yōu)點分析
改進后的科目體系不但能夠彌補當前科目體系的諸多缺點,而且還能強化工程項目成本分析與控制,產(chǎn)生意想不到的效果。
(一)并不增加成本核算難度
表2的科目設(shè)置看似復(fù)雜,其實不然。隨著會計電算化的普及,手工賬已逐漸退出歷史的舞臺,在財務(wù)軟件上設(shè)置會計科目以及進行賬務(wù)處理都是一件非常容易的事情,而且在同一套財務(wù)軟件系統(tǒng)中,一個工程項目設(shè)置好的科目體系還可以非常便捷地復(fù)制到任何其他工程項目。因此,改進后的科目體系并不增加成本核算難度。
(二)無需額外的專項分析即可獲得有價值的信息
由于科目設(shè)置的細化、科目級次的增加,根據(jù)改進后的科目體系生成的科目余額表或明細賬將具有更豐富的信息含量,而且一目了然。如異常成本、間接費用等的金額是多少、是由什么原因引起的都可以從科目余額表或明細賬中直接查詢到,不再需要對成本核算數(shù)據(jù)重新分類匯總,進行額外的專項分析,從而縮短了成本分析所需的數(shù)據(jù)處理實踐,節(jié)約了資源,提高了效率,增強了效果,也使得非財務(wù)出身的企業(yè)領(lǐng)導(dǎo)能夠比較容易地看懂成本構(gòu)成,以及成本發(fā)生是否合理。
(三)有利于成本分析與控制及相關(guān)決策
更豐富的信息含量,必然有利于更具體而微的管理。如“機械費”分成“自有設(shè)備”和“租賃設(shè)備”,就能將兩種費用進行對比分析,從而發(fā)現(xiàn)哪類設(shè)備更能為工程項目節(jié)約成本,作出相關(guān)生產(chǎn)決策?!捌渌苯淤M”下設(shè)有“安全成本”等三級科目,通過關(guān)聯(lián)分析,又可以發(fā)現(xiàn)其中“預(yù)防成本”與“損失成本”之間的關(guān)聯(lián)關(guān)系,從而找到安全成本的一個合理控制標準,即預(yù)防成本與損失成本之和的最小值。同樣,“間接費用”按成本動因分類核算,就可以一目了然地找到成本發(fā)生的原因,如果某種動因?qū)е碌某杀境霈F(xiàn)異常,就可以有的放矢地應(yīng)對。
【主要參考文獻】
[1] 彭英.數(shù)據(jù)挖掘綜述[J].德宏師范高等??茖W(xué)校學(xué)報,2009(1).
篇6
關(guān)鍵詞:數(shù)據(jù)挖掘;院校教育;教學(xué)管理
中圖分類號:G424文獻標識碼:A文章編號:1009-3044(2009)27-7591-02
Discusses the Application of Data mining Technology in the Colleges and Universities Education Informationization Shallowly
LI Yong
(The Computer Room of Bengbu College of Automobile Management, Bengbu 233011, China)
Abstract: As one kind of emerging data technology,the data mining obtains the widespread application in many domains.The article embarked from data mining's concept,has outlined the major function and the process of data mining,and expounded the application of data mining in the colleges and universities education informationization from the teaching management,the teaching appraisal,the curriculum,the teaching method choice and so on.
Key words: data mining; colleges and universities education; teaching management
現(xiàn)代計算機技術(shù)、信息通訊技術(shù)和網(wǎng)絡(luò)技術(shù)在院校教育系統(tǒng)的整合應(yīng)用,在一定程度上實現(xiàn)了教育教學(xué)、組織管理、校園生活服務(wù)等活動的數(shù)字化、網(wǎng)絡(luò)化、自動化,提高了教育質(zhì)量和效率,形成了適應(yīng)信息社會要求的全新的教育和管理模式,即教育信息化。院校教育信息化帶來的是信息量的急劇增長和對信息提取的更高要求,現(xiàn)在再依照傳統(tǒng)方法在海量數(shù)據(jù)中尋找決策的依據(jù)是很困難的事情。數(shù)據(jù)挖掘是一個新興的多學(xué)科交叉領(lǐng)域,利用數(shù)據(jù)挖掘技術(shù)可以幫助人們分析、理解存儲在計算機系統(tǒng)中的海量數(shù)據(jù),為決策提供支持,因此,可以借助數(shù)據(jù)挖掘工具去發(fā)掘院校教育數(shù)據(jù)中隱藏的規(guī)律或模式,為教育教學(xué)決策提供科學(xué)依據(jù)和更有效的支持。
1 數(shù)據(jù)挖掘
1.1 數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、有用的信息和知識的過程。數(shù)據(jù)挖掘是對數(shù)據(jù)內(nèi)在和本質(zhì)的高度抽象與概括,是對數(shù)據(jù)從感性認識到理性認識的升華。它涉及對數(shù)據(jù)庫中的大量數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析以及模型化處理從中提取輔助決策的關(guān)鍵性數(shù)據(jù),因此數(shù)據(jù)挖掘就是深層次的數(shù)據(jù)信息分析方法。
1.2 數(shù)據(jù)挖掘的主要功能
具體來說,數(shù)據(jù)挖掘具有預(yù)測趨勢和行為、關(guān)聯(lián)分析、聚類、概念描述以及偏差檢測等主要功能。
預(yù)測趨勢和行為:數(shù)據(jù)挖掘可以自動在大型數(shù)據(jù)庫中尋找預(yù)測性信息,以往需要由手工分析大量數(shù)據(jù)完成的問題如今可以通過數(shù)據(jù)挖掘迅速直接地得出結(jié)論。
關(guān)聯(lián)分析:數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。
聚類:數(shù)據(jù)庫中的記錄可被劃分為一系列有意義的子集,即聚類。聚類增強了人們對客觀現(xiàn)實的認識,是概念描述和偏差分析的先決條件。
概念描述:概念描述就是對某類對象的內(nèi)涵進行描述,并對其特征進行概括。
偏差檢測:數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實例、不滿足規(guī)則的特例等。
總之,數(shù)據(jù)挖掘所要處理的問題,就是在龐大的數(shù)據(jù)庫中找出有價值的隱藏事件,并且加以分析,獲取有意義的信息,歸納出有用的結(jié)構(gòu),作為決策者進行決策的依據(jù)。
1.3 數(shù)據(jù)挖掘的過程
數(shù)據(jù)挖掘一般包括以下幾個基本過程:
1) 確定和逐步理解應(yīng)用領(lǐng)域。清晰地定義出業(yè)務(wù)問題,這是數(shù)據(jù)挖掘的重要一步。
2) 數(shù)據(jù)選擇。搜索所有與業(yè)務(wù)對象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)。
3) 數(shù)據(jù)預(yù)處理。研究數(shù)據(jù)質(zhì)量,確定將要進行的挖掘操作的類型。
4) 數(shù)據(jù)編碼、數(shù)據(jù)轉(zhuǎn)換。將經(jīng)過預(yù)處理的數(shù)據(jù)進行一定的格式轉(zhuǎn)換,使其適應(yīng)數(shù)據(jù)挖掘系統(tǒng)或挖掘軟件的處理要求,形成一個分析模型。
5) 數(shù)據(jù)挖掘。利用各種數(shù)據(jù)挖掘方法對數(shù)據(jù)進行分析,挖掘用戶需要的各種規(guī)則、趨勢、類別、模型等。
6) 解釋結(jié)果。將挖掘結(jié)果以可視化的形式展現(xiàn)在用戶面前。
7) 管理發(fā)現(xiàn)的知識。
2 數(shù)據(jù)挖掘在院校教育信息化中的應(yīng)用
院校教育信息化所產(chǎn)生和積累的數(shù)據(jù),為我們進行數(shù)據(jù)挖掘提供了有效的數(shù)據(jù)。數(shù)據(jù)挖掘技術(shù)可以應(yīng)用于院校教育信息化的多個方面,如教學(xué)管理,教學(xué)評價,課程設(shè)置,教學(xué)方法選擇等等。
2.1 輔助教學(xué)管理
隨著計算機在教學(xué)管理方面的廣泛應(yīng)用,學(xué)生和教師的學(xué)習(xí)、工作、獎勵、處罰等。
信息被存儲在教學(xué)管理數(shù)據(jù)庫中,通過分別對師生數(shù)據(jù)庫進行挖掘,利用得到的有價值的數(shù)據(jù)來制定正確決策。
2.1.1 合理制定教師培訓(xùn)、招聘計劃
在院校教師管理中,傳統(tǒng)方法是運用日常管理中積累表層信息實施決策,這樣只能獲得數(shù)據(jù)的表層信息,并不能獲得內(nèi)在屬性和隱含的信息。如果轉(zhuǎn)變理念,運用數(shù)據(jù)挖掘理論,采用新技術(shù)分析這些數(shù)據(jù),就會使大量的數(shù)據(jù)信息得以有效利用。
利用分類算法對不同年齡、學(xué)歷、職稱級別的教師教學(xué)數(shù)據(jù)進行分析,確定哪些專業(yè)的人才可以通過內(nèi)部培訓(xùn)產(chǎn)生,哪些專業(yè)人才短缺而且急需,需要通過引進解決,從而達到平衡內(nèi)部人才和外部招聘人才的關(guān)系,進而制定教師進修、培訓(xùn)、招聘計劃,以調(diào)整師資隊結(jié)構(gòu),使專業(yè)教師分布均衡。
2.1.2 分析學(xué)生特征
學(xué)生入學(xué)后,在校學(xué)生管理數(shù)據(jù)庫中存放有大量的學(xué)生檔案,包括的內(nèi)容有家庭情況、身體狀況、入校前后的學(xué)習(xí)成績、特長愛好、獎懲等信息。利用數(shù)據(jù)挖掘的關(guān)聯(lián)分析和演變分析等功能,在學(xué)生管理數(shù)據(jù)庫中挖掘有價值的數(shù)據(jù),分析學(xué)生特征,掌握學(xué)生的狀態(tài),幫助學(xué)生修正自己的學(xué)習(xí)行為。通過對學(xué)生特征分析結(jié)果和事先制訂的行為目標標準進行比較,使學(xué)生提高學(xué)習(xí)能力、完善人格,促進其綜合素質(zhì)的發(fā)展。
2.2 輔助教學(xué)評價
教學(xué)評價就是根據(jù)教學(xué)目標和教學(xué)原則的要求,系統(tǒng)地收集信息,對教學(xué)過程中的教學(xué)活動以及教學(xué)成果給予價值判斷的過程。其內(nèi)容主要包括對學(xué)生“學(xué)”的評價和對教師“教”的評價。目前,院校教育評價指標主要包括學(xué)生綜合測評指標和課堂教學(xué)評價指標,這些評價指標多數(shù)是參考國內(nèi)外相關(guān)評價指標體系并結(jié)合實際操作中的經(jīng)驗和調(diào)查問卷等制定的,對于各項指標之間的關(guān)系、重要程度以及指標存在的合理性等方面很難作出判斷,將關(guān)聯(lián)規(guī)則和粗糙集理論應(yīng)用于各評價系統(tǒng),可以對指標進行排序、約簡等,在一定程度上對評價指標進行優(yōu)化,可以找到比較合理且簡單易行的評價指標體系。
首先,院校教育信息化產(chǎn)生了大量數(shù)據(jù),如學(xué)生的學(xué)習(xí)成績數(shù)據(jù)庫、行為紀律數(shù)據(jù)庫、獎勵處罰數(shù)據(jù)庫等。利用數(shù)據(jù)挖掘工具對這些數(shù)據(jù)庫進行分析處理,可以及時得到學(xué)生的評價結(jié)果,對學(xué)生出現(xiàn)的不良學(xué)習(xí)行為進行及時指正。同時,還能夠克服教師主觀評價的不公正、不客觀的弱點,減輕教師的工作量。
其次,將關(guān)聯(lián)規(guī)則運用于教學(xué)評價數(shù)據(jù)中,探討教學(xué)效果的好壞與教師年齡、職稱之間的關(guān)系、學(xué)生各項素質(zhì)指標之間的關(guān)系等,能夠及時地對教師的教學(xué)和專業(yè)發(fā)展以及學(xué)生的學(xué)習(xí)和個性發(fā)展提供指導(dǎo)。
最后,將數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則應(yīng)用于分析試卷數(shù)據(jù)庫,根據(jù)學(xué)生得分情況可以分析出每道題的難易度、區(qū)分度、相關(guān)度等指標,教師也可以據(jù)此對試題的質(zhì)量作出比較準確的評價,進而可以用來檢查自己的教學(xué)情況及學(xué)生的掌握情況并為今后的教學(xué)提供指導(dǎo)。
2.3 合理指導(dǎo)課程設(shè)置
院校的課程設(shè)置有其一定的規(guī)律性,先基礎(chǔ),后專業(yè),學(xué)習(xí)是循序漸進的。如計算機專業(yè)的學(xué)生在學(xué)習(xí)數(shù)據(jù)結(jié)構(gòu)這門課程之前,會先學(xué)習(xí)語言程序設(shè)計和離散數(shù)學(xué)等課程。如果先行課程沒有學(xué)好,勢必會影響后續(xù)課程的學(xué)習(xí)。此外,同一年級學(xué)習(xí)同一課程的不同班級,由于授課教師、班級文化的不同,班內(nèi)學(xué)生的總體成績也會有所差異。每學(xué)期安排課程的多少,也會影響學(xué)生的學(xué)習(xí)效果。我們可以利用學(xué)生的學(xué)習(xí)成績數(shù)據(jù)庫中存放的歷屆學(xué)生各門學(xué)科的考試成績,結(jié)合數(shù)據(jù)挖掘的關(guān)聯(lián)分析與時間序列分析等相關(guān)功能,從這些數(shù)據(jù)中挖掘出有用的信息,幫助分析這些數(shù)據(jù)之間的相關(guān)性、回歸性等性質(zhì),得出一些具有價值的規(guī)則和信息,最終找到影響學(xué)生成績的原因,并在此基礎(chǔ)上對課程設(shè)置做出合理安排。
2.4 輔助選擇適當教學(xué)方法
在教學(xué)過程中,教師通常采用多種教學(xué)方法完成對本門課程的教學(xué)任務(wù),如講授法、討論法、案例法、演示法、實驗對比法、參觀學(xué)習(xí)法等等。這些大量的教學(xué)班次實踐過的經(jīng)驗數(shù)據(jù)存放于教學(xué)數(shù)據(jù)庫中,可以用數(shù)據(jù)挖掘的方法來挖掘數(shù)據(jù)庫中的數(shù)據(jù),判定當前的教學(xué)班應(yīng)該采取什么教學(xué)方法才能滿足教學(xué)需要,更有利于學(xué)生對知識的理解和吸收。課程結(jié)束后將每個學(xué)生的成績和對教學(xué)方法的評價進行綜合,運用回歸線性分析、關(guān)聯(lián)規(guī)則的方法來判斷本次教學(xué)方法適合哪一類學(xué)生,對于分類、分層次教學(xué)具有推廣和指導(dǎo)意義。
3 結(jié)束語
數(shù)據(jù)挖掘作為一種新興的數(shù)據(jù)處理技術(shù),在數(shù)據(jù)的利用和提取方面發(fā)揮著日益重要的作用。在教育領(lǐng)域的應(yīng)用,為教學(xué)工作的決策、設(shè)計、實施以及評價等各項內(nèi)容提供了新的途徑和方法,隨著數(shù)據(jù)挖掘技術(shù)在教育領(lǐng)域中應(yīng)用功能及技術(shù)的不斷發(fā)展和完善,必將發(fā)揮越來越大的作用。
參考文獻:
[1] Insight into Data Mining Theory and Practice.范明,牛常勇,譯.數(shù)據(jù)挖掘基礎(chǔ)教程[M].北京:機械工業(yè)出版社,2009.
[2] 段向紅,張飛舟.數(shù)據(jù)挖掘技術(shù)及其在職業(yè)教育中的應(yīng)用探討[J].職業(yè)教育研究,2007(7).
篇7
關(guān)鍵詞:數(shù)據(jù)挖掘; 關(guān)聯(lián)規(guī)則; 學(xué)生成績; Apriori算法
中圖分類號:TP392文獻標識碼:A文章編號文章編號:1672-7800(2013)012-0133-03
作者簡介:岳超(1986-),男,西南科技大學(xué)計算機科學(xué)與技術(shù)學(xué)院碩士研究生,研究方向為教育技術(shù)與知識工程;范太華(1962-),男,西南科技大學(xué)計算機科學(xué)與技術(shù)學(xué)院副教授、碩士生導(dǎo)師,研究方向為數(shù)據(jù)挖掘和系統(tǒng)結(jié)構(gòu);姬亞利(1988-),女,西南科技大學(xué)計算機科學(xué)與技術(shù)學(xué)院碩士研究生,研究方向為網(wǎng)絡(luò)教育教學(xué)設(shè)計;衣峰(1987-),男,西南科技大學(xué)計算機科學(xué)與技術(shù)學(xué)院碩士研究生,研究方向為網(wǎng)絡(luò)教育與移動學(xué)習(xí)。
0引言
隨著招生規(guī)模的不斷擴大,教務(wù)管理系統(tǒng)中的數(shù)據(jù)急劇增加,普遍存在的問題是學(xué)生成績數(shù)據(jù)量過于龐大,但目前對這些數(shù)據(jù)的處理還停留在初級的數(shù)據(jù)備份、查詢及簡單統(tǒng)計階段,如何利用這些數(shù)據(jù)理性地分析教學(xué)中的成效得失以及找到有關(guān)影響學(xué)生學(xué)習(xí)成績的因素是廣大教師共同關(guān)心的問題[1]。 本文著重討論了數(shù)據(jù)挖掘技術(shù)在學(xué)生成績這一海量數(shù)據(jù)中的應(yīng)用,發(fā)現(xiàn)成績數(shù)據(jù)中隱藏的課程相關(guān)規(guī)則或模式,力圖通過關(guān)聯(lián)與分類,得出一些有用的知識,對教學(xué)質(zhì)量的提高起到積極的促進作用。
1數(shù)據(jù)挖掘及關(guān)聯(lián)規(guī)則
數(shù)據(jù)挖掘 (Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘是一個循環(huán)往復(fù)的知識發(fā)現(xiàn)過程,通過對挖掘結(jié)果的描述、分析與評價,不斷優(yōu)化數(shù)據(jù)挖掘模型和挖掘算法,最終獲得最優(yōu)化數(shù)據(jù)挖掘解決方案[2]。
1.1數(shù)據(jù)挖掘流程
(1)確定業(yè)務(wù)對象。清晰地定義出業(yè)務(wù)問題,認清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步。挖掘的最后結(jié)構(gòu)是不可預(yù)測的,但要探索的問題應(yīng)是有預(yù)見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會成功的。
(2)數(shù)據(jù)準備。①數(shù)據(jù)的選擇:搜索所有與業(yè)務(wù)對象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù);②數(shù)據(jù)的預(yù)處理:研究數(shù)據(jù)的質(zhì)量,為進一步的分析作準備,并確定將要進行挖掘操作的類型;③數(shù)據(jù)轉(zhuǎn)換:將數(shù)據(jù)轉(zhuǎn)換成一個分析模型,這個分析模型是針對挖掘算法建立的。建立一個真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵。
(3)數(shù)據(jù)挖掘。對所得到的經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進行挖掘。除了完善和選擇合適的挖掘算法外,其余一切工作都能自動地完成。
(4)分析和同化。①結(jié)果分析:解釋并評估結(jié)果,其使用的分析方法一般應(yīng)視數(shù)據(jù)挖掘操作而定,通常會用到可視化技術(shù);②知識的同化:將分析所得到的知識集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。數(shù)據(jù)挖掘的過程如圖 1 所示。
1.2關(guān)聯(lián)規(guī)則簡述
關(guān)聯(lián)規(guī)則挖掘就是在海量的數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)項之間的關(guān)系,關(guān)聯(lián)規(guī)則的支持度(support)和置信度(confidence)是規(guī)則興趣度的兩種度量。他們分別反映了所發(fā)現(xiàn)規(guī)則的有用性和確定性。 一般地,用戶可以定義兩個閾值,分別為最小支持度閾值(minsup)和最小置信度閾值(minconf)。 當挖掘出的關(guān)聯(lián)規(guī)則支持度和置信度都滿足這兩個閾值時,就認為這個規(guī)則是有效的,否則,就是無效的。 這些閾值一般可由領(lǐng)域?qū)<以O(shè)定,也可以進行其它分析,揭示關(guān)聯(lián)項之間的聯(lián)系。
2基于數(shù)據(jù)挖掘的高校學(xué)生成績分析
對學(xué)生成績的正確分析,是保證教學(xué)工作順利進行的關(guān)鍵,揭示一些“教”與“學(xué)”的現(xiàn)象和規(guī)則,能更好地指導(dǎo)教師的“教”與學(xué)生的“學(xué)”,為教育教學(xué)的計劃和決策提供依據(jù), 提高教學(xué)的效果和成果。
2.1數(shù)據(jù)采集
高質(zhì)量的數(shù)據(jù),是保證數(shù)據(jù)挖掘成功的前提保證。本研究所需數(shù)據(jù)取自計算機專業(yè)學(xué)生的期末考試成績數(shù)據(jù)庫文件,確定某門課程和其它課程之間的關(guān)聯(lián)性。為減少不必要的影響因素,影響關(guān)聯(lián)規(guī)則的產(chǎn)生,刪除了英語類、思政類、體育類的課程,將數(shù)學(xué)類和計算機課程進行分析,最終隨機抽取 385 名學(xué)生的《C&C++ 語言程序設(shè)計》、《線性代數(shù)》、《離散數(shù)學(xué)》、《計算機系統(tǒng)原理》、《計算機網(wǎng)絡(luò)》、《計算機組成原理》、《軟件工程》、《數(shù)據(jù)庫原理》、《數(shù)據(jù)結(jié)構(gòu)》等課程的期末考試成績。
2.2數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘的關(guān)鍵階段,原始數(shù)據(jù)往往存在不完整的、含噪聲的和不一致的數(shù)據(jù),不能直接運用于數(shù)據(jù)的挖掘,需要對其進行數(shù)據(jù)預(yù)處理,包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換等內(nèi)容。
(1)數(shù)據(jù)清理。通過填充缺失值,光滑噪聲并識別離群點,糾正數(shù)據(jù)中的不一致。從數(shù)據(jù)庫中導(dǎo)出字段包括學(xué)號、課程名、成績、備注等信息。對備注中顯示補考、重修的成績填充為50分。對缺失值的填充,我們運用了決策樹歸納的方法,填寫最可能的值進行填寫,以便數(shù)據(jù)挖掘結(jié)果更準確。經(jīng)數(shù)據(jù)清理的數(shù)據(jù)如表1所示。
(2)數(shù)據(jù)集成。將多個數(shù)據(jù)源合并到一致的數(shù)據(jù)存儲,依據(jù)以往經(jīng)驗思政類和體育類課程對本研究的結(jié)果影響不大,予以刪除。根據(jù)此類思想整理數(shù)據(jù),并將所有數(shù)據(jù)集成到一個Excel中,最終數(shù)據(jù)包含4 065條271名學(xué)生的15門數(shù)據(jù)。
(3)數(shù)據(jù)變換。將數(shù)據(jù)轉(zhuǎn)化成適合于挖掘的形式,如將屬性數(shù)據(jù)按比例縮放,使之落入一個比較小的區(qū)間內(nèi)。由于成績是按照數(shù)值形式存儲的,不利于數(shù)據(jù)的挖掘,需要對各科成績進行離散化處理,將成績分為優(yōu)秀、良、一般、差4個等級,分別用A、B、C、D進行標識,規(guī)定85~100為A,75~85為B,60~75為C,60分以下為D。筆者運用Apriori算法對表1數(shù)據(jù)進行關(guān)聯(lián)規(guī)則的挖掘,進行數(shù)據(jù)轉(zhuǎn)化后如表2所示。
2.3Apriori算法的運用
采用SPSS Clementine工具進行數(shù)據(jù)挖掘,預(yù)處理的數(shù)據(jù)已滿足Apriori算法對數(shù)據(jù)的要求,導(dǎo)入數(shù)據(jù)可直接使用Apriori模型進行分析。為了得到更有效的數(shù)據(jù),筆者進行了反復(fù)的驗證。設(shè)置條件支持度為0.15,最小規(guī)則置信度為0.75,挖掘結(jié)果如圖2所示。
2.4結(jié)果分析
上面挖掘的關(guān)聯(lián)規(guī)則并非每條都有現(xiàn)實意義,我們進一步進行處理,將關(guān)聯(lián)規(guī)則模型導(dǎo)出,分析這些關(guān)聯(lián)規(guī)則,得到主要知識如下:
(1) 學(xué)好計算機應(yīng)用基礎(chǔ)、C&C++程序設(shè)計、數(shù)據(jù)結(jié)構(gòu)是學(xué)好數(shù)據(jù)庫的基礎(chǔ),數(shù)據(jù)結(jié)構(gòu)又是學(xué)好軟件工程的基礎(chǔ)。
知識發(fā)現(xiàn)過程如下:計算機應(yīng)用基礎(chǔ)=A =>數(shù)據(jù)庫=A,支持度為32.32%,置信度為85.3%。計算機應(yīng)用基礎(chǔ)和數(shù)據(jù)庫同時是A的人數(shù)占總?cè)藬?shù)的32.32%,計算機應(yīng)用基礎(chǔ)為A中85.3%的人數(shù)據(jù)庫原理也為A,所以說要學(xué)好數(shù)據(jù)庫原理先要學(xué)好計算機應(yīng)用基礎(chǔ),C&C++程序設(shè)計=A =>數(shù)據(jù)庫原理=A,支持度為42.35%,置信度為86.56%,同上解釋,C&C++程序設(shè)計也是數(shù)據(jù)庫原理的基礎(chǔ)。數(shù)據(jù)庫原理=A =>軟件工程=A,支持度45.36%,置信度為81.02%,數(shù)據(jù)庫原理也是軟件工程的基礎(chǔ)。
(2) 學(xué)好離散數(shù)學(xué)是學(xué)好數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)。
(3) 要把計算機操作系統(tǒng)學(xué)好,計算機組成原理、C&C++程序設(shè)計、數(shù)據(jù)結(jié)構(gòu)、離散數(shù)學(xué)是基礎(chǔ)。
(4) 計算機操作系統(tǒng)取得好成績的人數(shù)中76%的人計算機網(wǎng)絡(luò)也學(xué)的好。
(5)C&C++程序設(shè)計、數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)庫原理又是學(xué)好軟件工程的基礎(chǔ)。
此處只列出了部分知識發(fā)現(xiàn),管理者可以以此為參考,結(jié)合實際情況對所學(xué)的課程進行調(diào)整,并通過預(yù)警對學(xué)生的學(xué)習(xí)進行提醒和幫扶。學(xué)生可以結(jié)合自己的成績及時預(yù)測某門課程的成績,及時補救,加大課程的學(xué)習(xí)力度。
3結(jié)語
利用關(guān)聯(lián)規(guī)則中的Apriori算法對計算機科學(xué)與技術(shù)專業(yè)的課程進行了挖掘,找出了隱藏在課程背后有趣的規(guī)律,發(fā)現(xiàn)偏離正常學(xué)習(xí)軌道的學(xué)生,及時進行預(yù)警和干預(yù),幫助學(xué)生順利完成學(xué)業(yè),對學(xué)生課程的學(xué)習(xí)和管理者的決策提供參考,也為關(guān)聯(lián)規(guī)則在其它學(xué)科的應(yīng)用提供了思路。
參考文獻參考文獻:
[1]朱艷麗,高國.Apriori算法研究及其在學(xué)生成績分析的應(yīng)用[J].福建電腦,2010(1):47.
[2]韓家煒.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機械工業(yè)出版社,2010:41-43.
[3]王海容.數(shù)據(jù)挖掘在學(xué)生成績分析的應(yīng)用[J].電子設(shè)計工程,2013,21(4):54-56.
篇8
關(guān)鍵詞:關(guān)聯(lián)規(guī)則 數(shù)據(jù)挖掘 學(xué)生成績 預(yù)警系統(tǒng)
中圖分類號:G64 文獻標識碼:A 文章編號:1672-3791(2013)02(c)-0023-01
高校教學(xué)管理的重心在于不斷提高高校教學(xué)水平,關(guān)鍵在于加強學(xué)生成績的管理。目前,通過數(shù)據(jù)挖掘技術(shù)對教學(xué)數(shù)據(jù)庫的不斷分析研究,其在教育方面的研究成果越來越突出。如果設(shè)計一套高校學(xué)生成績預(yù)警系統(tǒng),參考高校教務(wù)信息系統(tǒng)數(shù)據(jù)庫,并使用數(shù)據(jù)挖掘技術(shù)對高校學(xué)生成績數(shù)據(jù)庫進行分析,系統(tǒng)通過挖掘各學(xué)生每一課程的成績數(shù)據(jù),計算出不同成績水平的產(chǎn)生概率,通過原有的成績數(shù)據(jù)推測今后的成績趨勢,進而找到與本課程相對應(yīng)的關(guān)聯(lián)規(guī)則作為預(yù)警因素,建立起預(yù)警系統(tǒng),這樣就能夠及時評估學(xué)生的學(xué)習(xí)成績,督促學(xué)生改進學(xué)習(xí)方法,以提高其成績水平。
1 數(shù)據(jù)挖掘含義及基本原理
數(shù)據(jù)挖掘(Data Mining,DM)通俗地說就是從數(shù)據(jù)中挖掘信息。由于人類的認識水平有限,很多模糊的、隨機的、不完全的、有噪聲的數(shù)據(jù)中隱藏的信息就不容易被發(fā)現(xiàn),但是通過對一系列有關(guān)數(shù)據(jù)的分析和挖掘,就會使大量重要的潛在知識浮現(xiàn)出來。數(shù)據(jù)挖掘?qū)?shù)據(jù)庫、數(shù)據(jù)網(wǎng)絡(luò)、統(tǒng)計數(shù)學(xué)等技術(shù)結(jié)合起來,從而進行預(yù)測、分類、估計、復(fù)雜數(shù)據(jù)類型挖掘、相關(guān)性分組或關(guān)聯(lián)規(guī)則等處理。在高校教務(wù)管理工作中,高校學(xué)生成績與成績的各影響因素之間潛藏著很大的聯(lián)系,而數(shù)據(jù)挖掘技術(shù)可以對此進行全面地分析。所以,各個從事此項研究的人員開始設(shè)計并逐漸將數(shù)據(jù)挖掘技術(shù)與高校教學(xué)管理系統(tǒng)結(jié)合起來,擴展數(shù)據(jù)挖掘技術(shù)應(yīng)用的新領(lǐng)域,并多方面、多角度的定性分析學(xué)生成績情況。
數(shù)據(jù)挖掘主要是通過關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法進行:根據(jù)所需挖掘出的相符合關(guān)聯(lián)規(guī)則,設(shè)定最低可靠度和最小支持度兩個閾值,即用來表示所需的關(guān)聯(lián)規(guī)則一定要符合的最小可信任程度和所需的關(guān)聯(lián)規(guī)則一定要符合一組數(shù)據(jù)量在統(tǒng)計意義上能達到最低要求。
2 現(xiàn)在狀況下對學(xué)生成績的管理
一般情況下,教務(wù)系統(tǒng)的管理人員雖然能夠在數(shù)量較大的數(shù)據(jù)庫中作普通的查詢,或?qū)σ欢〝?shù)量學(xué)生的成績進行簡單統(tǒng)計處理或數(shù)學(xué)排序,但是如果想進行進一步的研究,那么這種傳統(tǒng)下管理數(shù)據(jù)庫的方法就只能望而卻步了。另外,在高校逐漸擴大招生人數(shù)的情況下,成績管理系統(tǒng)也需要處理越來越多的數(shù)據(jù),解決更加繁瑣的問題。因而,在這種數(shù)據(jù)處理壓力較大狀況下,就要求更加強大的數(shù)據(jù)處理系統(tǒng)來進行工作。如果僅僅將計算機作為存儲工具而存放大數(shù)量形式不一的數(shù)據(jù),而不去挖掘在其中隱含的具有重要價值的信息,那么數(shù)據(jù)中潛在的關(guān)聯(lián)和規(guī)則也就不會被找出或利用,同時也就不能夠?qū)?shù)據(jù)產(chǎn)生規(guī)律加以把握,在教學(xué)工作中造成一定損失。如果能夠?qū)@些存在的弊端加以解決,那么不僅能夠使現(xiàn)代教學(xué)管理提高到新的層面,而且可以幫助教師有效評估學(xué)生學(xué)習(xí)成績狀況,以提高學(xué)生的學(xué)習(xí)成績。所以說盡早建立完善的數(shù)據(jù)挖掘管理信息系統(tǒng)很有必要。
3 高校學(xué)生成績預(yù)警系統(tǒng)設(shè)計
我國的高校成績預(yù)警設(shè)計在當前水平上,只能對學(xué)生成績數(shù)據(jù)進行簡單的統(tǒng)計分析。為了滿足需要,以便于更好的管理學(xué)生學(xué)習(xí),針對學(xué)習(xí)成績的三個基本狀態(tài):成績相對落后、成績趨于滑落和成績潛藏問題,依此能夠及時分析學(xué)生成績水平,督促學(xué)生改進方法,提高學(xué)生成績。
現(xiàn)在就以成績潛藏問題來對系統(tǒng)的基本使用原理進行分析,并設(shè)計出相應(yīng)的基本模型。成績預(yù)警系統(tǒng)通過挖掘?qū)W生以往成績關(guān)聯(lián)規(guī)則,確定成績的關(guān)聯(lián)規(guī)則范圍,再根據(jù)目前成績水平在此范圍進行搜索,推算學(xué)生今后的學(xué)習(xí)中隱藏問題。
(1)對成績數(shù)據(jù)進行預(yù)處理,首先將學(xué)生所處學(xué)期、學(xué)期所有課程進行編號,因為四個學(xué)年有八個學(xué)期,各學(xué)期課程應(yīng)該都在10科以內(nèi),故一般情況下以兩位數(shù)表示,即“學(xué)期+課程”,這樣就有利于后續(xù)的排序。然后把歷史數(shù)據(jù)庫內(nèi)數(shù)據(jù)的格式“學(xué)號+姓名+不合格課程”中的“不合格課程”依次編上號碼,如不合格課程1,不合格學(xué)課程2,…。再將成績不合格的記錄從需要處理的所有成績記錄中一一篩選出來。
(2)挖掘出概率較高的數(shù)據(jù),設(shè)置適當?shù)闹С侄?,以便于找出的關(guān)聯(lián)規(guī)則不具特殊性。為了能確保能夠準確成功預(yù)警,需要排除無關(guān)規(guī)則,同時也要避免有管關(guān)預(yù)警規(guī)則被棄用,所以在進行合適的置信度定位時,既不能過于狹隘,也不能范圍太廣,在保證準確率的同時不斷提高預(yù)警水平。預(yù)警規(guī)則包括前件和后件,前件和后件分別表示前后學(xué)期的課程,每個學(xué)科作為一個項,將前件各項和后件的各項之間排好順序,后件始終排在前件之后。規(guī)則的前件和后件不可以用來表示同一學(xué)期的課程成績,相同學(xué)期課程之間的成績不能夠相互預(yù)測,只能在前件產(chǎn)生之后對后件即下一學(xué)期成績進行預(yù)測,隨著歷史學(xué)期成績的期數(shù)增加,預(yù)測的準確率越高。
(3)按照首步的方法預(yù)處理本學(xué)期的學(xué)生成績,在預(yù)警規(guī)則庫中進行搜索,輸出匹配項進行分析。
4 結(jié)語
隨著我國各高校實行信息化步伐的加快,高校教育中的工作效率不斷提升,管理大量數(shù)據(jù)信息的系統(tǒng)也就充分發(fā)揮了作用。數(shù)據(jù)挖掘的方式能將很多有用的數(shù)據(jù)在繁瑣、量大的數(shù)據(jù)庫中提取出來,作為評估教學(xué)水平和學(xué)生學(xué)習(xí)的依據(jù),合理指導(dǎo)高校的管理、教學(xué)工作。成績預(yù)警系統(tǒng)的目的就是能夠?qū)Τ霈F(xiàn)學(xué)習(xí)問題的學(xué)生及時發(fā)出預(yù)警信息,使學(xué)生在大學(xué)的學(xué)業(yè)成功完成。同時,在信息技術(shù)不斷發(fā)展今天,不斷對成績預(yù)警系統(tǒng)進行改進,以使其能更好的為教育事業(yè)服務(wù)。
參考文獻
[1] 李昊,周振華.基于數(shù)據(jù)挖掘的高校學(xué)生成績預(yù)警系統(tǒng)[J].大慶石油學(xué)院學(xué)報,2011,4(35):91-95.
篇9
【關(guān)鍵詞】 數(shù)據(jù)挖掘技術(shù) 現(xiàn)代遠程教育 應(yīng)用
一、數(shù)據(jù)挖掘概述
1、數(shù)據(jù)挖掘過程。首先需要明確被挖掘數(shù)據(jù)的主要來源,其次要有效地處理原數(shù)據(jù),進而詳細地了解數(shù)據(jù)采集、預(yù)處理以及發(fā)現(xiàn)之間存在的關(guān)系,再次要構(gòu)建相應(yīng)的模型,最后對模型進行改進并應(yīng)用于實踐過程中[1]。
2、數(shù)據(jù)挖掘方法。第一,關(guān)聯(lián)分析。這種挖掘方法的目的就是為挖掘數(shù)據(jù)之前存在的潛在聯(lián)系,并了解關(guān)聯(lián)規(guī)則。第二,序列模式分析。對數(shù)據(jù)之間的前后關(guān)系與因果關(guān)系進行分析,在實踐數(shù)據(jù)當中找出內(nèi)部事務(wù)的模式。而學(xué)習(xí)活動序列模式對問題的挖掘主要是因為數(shù)據(jù)源與挖掘模式具有一定的特殊性,仍存在諸多問題解決。第三,分類與聚類分析。輸入集主要是記錄集合與集中標記?,F(xiàn)階段,已經(jīng)有諸多分析模型被應(yīng)用于實踐當中,最經(jīng)典的就是線性回歸與決策樹等模型。而聚類分析方法與分類分析的規(guī)則存在一定的差異。其中的輸入集就是沒有標定的記錄,即輸入次數(shù)記錄并未進行分類。主要的目的就是按照特定規(guī)則,對記錄幾何進行劃分,同時利用顯示與隱式方式對不同類別進行描述,而且當前已經(jīng)研發(fā)出多種聚類分析的工具。
二、數(shù)據(jù)挖掘技術(shù)在現(xiàn)代遠程教育中的具體應(yīng)用
2.1數(shù)據(jù)挖掘技術(shù)在學(xué)習(xí)者個性化服務(wù)中的具體應(yīng)用
為了更好地提供遠程教育個性化服務(wù),最重要的就是分析并處理學(xué)習(xí)個體數(shù)據(jù)之間存在的差異。其中,針對參與學(xué)習(xí)個體情況予以分類和安排,以保證教學(xué)內(nèi)容與進程的合理性。同時,在學(xué)習(xí)過程中,知識所表示的內(nèi)容應(yīng)當充分考慮學(xué)習(xí)者個性化要求展開深入地了解,為其提供具有針對性的學(xué)習(xí)形式[2]。在此基礎(chǔ)上,應(yīng)全面評價并反饋各階段的學(xué)習(xí)效果。在此過程中,需要對學(xué)生注冊信息進行全面核實,同時還應(yīng)當注重學(xué)生行為信息與課件庫等多種數(shù)據(jù)源。
通過對數(shù)據(jù)挖掘基本方法的運用,在綜合考慮學(xué)生興趣愛好以及個人情況的基礎(chǔ)上,合理地劃分學(xué)生的種類,進而為學(xué)生推薦相關(guān)性的課程與知識點,或者是有價值的學(xué)習(xí)資源,以保證在學(xué)生實際學(xué)習(xí)的過程中充分運用分類分析與聚類分析的方式進行調(diào)整,同時向類型不同的學(xué)生傳送相對應(yīng)的學(xué)習(xí)內(nèi)容。另外,針對學(xué)生問題與測試成績挖掘相互關(guān)聯(lián)的基本規(guī)則,為學(xué)生提出所沒有理解和掌握的知識內(nèi)容,并給予有參考價值的學(xué)習(xí)建議,進而為其提供尚未掌握學(xué)習(xí)內(nèi)容的資料,在短時間內(nèi)促使學(xué)生掌握。通過對數(shù)據(jù)挖掘技術(shù)的運用,確保遠程教育可以充分結(jié)合學(xué)生具體狀況安排教學(xué)內(nèi)容,實現(xiàn)了遠程教育作用與效率的全面提升,同時也促進了高等教育的終身化發(fā)展。
2.2數(shù)據(jù)挖掘技術(shù)在教學(xué)資源建設(shè)中的具體應(yīng)用
對于教學(xué)資源建設(shè)來說,將遠程教育平臺數(shù)據(jù)庫當作最主要的數(shù)據(jù)源,同時,學(xué)習(xí)者網(wǎng)上學(xué)習(xí)的行為也被當作不可缺少的數(shù)據(jù)源,以保證更好地找出學(xué)習(xí)者關(guān)注程度和教學(xué)資源建設(shè)之間存在的聯(lián)系,積極構(gòu)建模型,進而對教學(xué)資源建設(shè)計劃予以有效地調(diào)整,進一步增強教學(xué)資源自身質(zhì)量。
以某學(xué)校直屬學(xué)院為例,對15級網(wǎng)絡(luò)工程專業(yè)學(xué)生網(wǎng)上學(xué)習(xí)的時間進行收集并當作數(shù)據(jù)源,在本學(xué)期期間,有七門課程供學(xué)生進行學(xué)習(xí)。其中,圖一代表不同課程學(xué)生上網(wǎng)的時間分布:
根據(jù)圖一內(nèi)容可以了解到,課程二、四備受學(xué)生關(guān)注與認可。經(jīng)分析與研究以后可以發(fā)現(xiàn),兩門課程資源當中的案例和分析比重較大,所以,對學(xué)生的吸引力較大[3]。
結(jié)束語:綜上所述,將學(xué)生所反饋的信息有效地提取出來,構(gòu)建數(shù)據(jù)模型,有機組合信息碎片形成更具價值的信息內(nèi)容,因此,數(shù)據(jù)挖掘?qū)h程教育的發(fā)展具有重要的作用和現(xiàn)實意義。而遠程教育教學(xué)活動同樣也是整體,教W環(huán)節(jié)之間存在一定的聯(lián)系,這也決定其具有個性化的特征。對數(shù)據(jù)挖掘技術(shù)進行合理地應(yīng)用,可以進一步完善遠程教育。
參 考 文 獻
[1] 徐麗,徐志明,陳峰等.遠程教育系統(tǒng)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用[J].景德鎮(zhèn)學(xué)院學(xué)報,2014(6):30-32.
篇10
關(guān)鍵詞:教學(xué)質(zhì)量評估;數(shù)據(jù)挖掘;偏相關(guān)分析法
中圖分類號:TP274文獻標識碼:A文章編號:1009-3044(2012)10-2172-03
The Application Research of Data Mining in Teaching Evaluation of Independent Colleges
WU Ya-li1, YAN Xiao-liang2, YANG Dong-ying1
(1.Business College of Shanxi University, Taiyuan 030031, China; 2. Information Center of Certification and Accreditation Administration of the People’s Republic, Beijing 100020, China)
Abstract: It become more and more important to the teaching quality evaluation of the university. At first, in this paper we are based on teaching evaluation data of the independent college, analysis and mining the data of evaluation with the software of data analysis and data mining software. then we study the theory of data mining and give a new analysis mode of the data mining of teaching quality evaluation. As a result,we get main factor about teacher’s teaching quality.
Key words: teaching quality evaluation; data mining; partial correlation; linear regression
近些年來,我國獨立學(xué)院的發(fā)展為擴大高等教育資源和高校辦學(xué)規(guī)模發(fā)揮了不可忽視的作用。獨立院校側(cè)重于課堂與實踐教學(xué),因此,教學(xué)評估是衡量高校教學(xué)質(zhì)量的重要指標。然而,現(xiàn)在高校教學(xué)質(zhì)量評估系統(tǒng)還存在諸多問題。多年來的教學(xué)和管理工作積累了海量的數(shù)據(jù),但目前對這些數(shù)據(jù)的處理還停留在數(shù)據(jù)的統(tǒng)計和查詢階段。怎樣能更好的利用這些數(shù)據(jù),如何對數(shù)據(jù)進行深入分析,分析的結(jié)果對教師教學(xué)工作以提供哪些更有價值的建議是目前我們要解決的主要問題。
該文以獨立學(xué)院近年來的教學(xué)評估數(shù)據(jù)為例,運用分析數(shù)據(jù)軟件(SPSS)、數(shù)據(jù)挖掘軟件(WeKa)對教師教學(xué)評估數(shù)據(jù)進行了數(shù)據(jù)分析與數(shù)據(jù)挖掘。在深入研究數(shù)據(jù)挖掘理論的基礎(chǔ)上,提出一種分析挖掘教學(xué)質(zhì)量評估數(shù)據(jù)的新模式。實驗結(jié)果表明,該模式效果良好,有利于教學(xué)質(zhì)量的提高。
1數(shù)據(jù)挖掘技術(shù)
最初數(shù)據(jù)挖掘研究的目的很大程度上是基于對市場購物籃的分析,以便管理者能更好的了解市場情況,從而針對消費者采取更有效的措施。
數(shù)據(jù)挖掘(Data Mining)[1],也叫數(shù)據(jù)開采,數(shù)據(jù)采掘等,是按照既定的業(yè)務(wù)目標從海量數(shù)據(jù)中提取出潛在、有效并能被人理解的模式的高級處理過程。在較淺的層次上,它利用現(xiàn)有數(shù)據(jù)庫管理系統(tǒng)的查詢、檢索及報表功能,與多維分析、統(tǒng)計分析方法相結(jié)合,進行聯(lián)機分析處理(OLAP),從而得出可供決策參考的統(tǒng)計分析數(shù)據(jù)。在深層次上,則從數(shù)據(jù)庫中發(fā)現(xiàn)前所未有的、隱含的知識
2應(yīng)用研究
2.1確定挖掘?qū)ο?、目?/p>
確定數(shù)據(jù)挖掘的目標,確定數(shù)據(jù)挖掘的對象是數(shù)據(jù)挖掘的首要工作。該文中數(shù)據(jù)挖掘?qū)ο笫仟毩W(xué)院教師基礎(chǔ)信息和教學(xué)評估數(shù)據(jù)。本系統(tǒng)的挖掘目標是從已有教學(xué)評估指標中找出對教學(xué)評估結(jié)果影響比較大的因素,運用合理的指標模型對教師教學(xué)質(zhì)量進行深入分析,最終以達到提高教學(xué)質(zhì)量的目的。
2.2建立數(shù)據(jù)挖掘庫
2.2.1數(shù)據(jù)采集
1)教師基本信息
數(shù)據(jù)結(jié)構(gòu)如下:教師號(TNo)、性別(Sex)、年齡(Age)、職稱(ProfeTitle)、學(xué)歷(Education)、是否專職(Ext_Full)。
2)課程與教師評估信息
內(nèi)容主要包括對課程本身和教師教學(xué)方面的評估。其中評價課程的目的是評價課程設(shè)置的必要性、合理性及教材的質(zhì)量;評價教師設(shè)置了教學(xué)態(tài)度(E_Tea1,E_Tea2,E_Tea4)、教學(xué)內(nèi)容(E_Tea5, E_Tea9)、教學(xué)方法(E_Tea7, E_Tea8)、教學(xué)手段(E_Tea3, E_Tea6)、教學(xué)效果(E_Tea10)等十個條目,目的是評價教師的課堂教學(xué)質(zhì)量。均采取量化評價的方法,數(shù)據(jù)結(jié)構(gòu)表如表1:
表1課程與教師評估信息數(shù)據(jù)結(jié)構(gòu)
其中課程評價總分100分,共4項,每項25分;教師評價總分100分,共10項,每項10分。課程評價和教師評價均分四個等級,并設(shè)置了A、B、C、D四個級差,其權(quán)重依次為0.95、0.7、0.6、0.4。評價總分按照公式M=∑KiMi計算得到課程評估結(jié)果(E_CourReault)和教師評估結(jié)果(E_TeaResult),其中Ki為第i個條目的權(quán)重;Mi為第i個條目的分值。
2.2.2數(shù)據(jù)挖掘庫的建立
數(shù)據(jù)預(yù)處理包括數(shù)據(jù)挖掘庫的建立、數(shù)據(jù)分析、數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)預(yù)處理的目標是將數(shù)據(jù)進行轉(zhuǎn)化,然后在數(shù)據(jù)集中剔除不合理的信息,整合成能被數(shù)據(jù)挖掘算法利用的數(shù)據(jù),最終存入數(shù)據(jù)挖掘庫。
該文運用一定的數(shù)據(jù)分析方法和數(shù)據(jù)挖掘技術(shù)進行數(shù)據(jù)分析挖掘。首先,為收集數(shù)據(jù)并建立數(shù)據(jù)庫。數(shù)據(jù)來源為的“教師基本信息庫”,“教學(xué)評估數(shù)據(jù)庫”。其次是教學(xué)評估數(shù)據(jù)分析,是在以上兩個數(shù)據(jù)庫的基礎(chǔ)上按照需求進行關(guān)聯(lián),涉及了四個數(shù)據(jù)表:Tea_info(教師信息表)、Cour_Standard(課程指標信息表)、Tea_Standard(教師指標信息表),Eva_reault(評估結(jié)果表),其中,Eva_reault是教學(xué)體系指標編號和教師編號的關(guān)聯(lián)表.有這些表生成數(shù)據(jù)挖掘庫。主要字段包括:教師號、性別、年齡、職稱、學(xué)歷、是否專職、課程評價、教師評價、評估結(jié)果等字段。
2.3數(shù)據(jù)預(yù)處理
數(shù)據(jù)分析的目的是篩選出對評估結(jié)果影響較小的指標,進一步縮小對評估結(jié)果影響的范圍。
偏相關(guān)分析[2](Partial)是研究兩個變量的相關(guān)性的一種方法,為了找出任意兩個變量之間的關(guān)系,首先要控制與這兩個變量有聯(lián)系的其它變量,使其保持不變.在分析中,當其它變量被固定后,給定的任意兩個變量之間的相關(guān)系數(shù),叫偏相關(guān)系數(shù)[5],它表示在其余變量保持不變時,這兩個變量之間的相依程度。
偏相關(guān)系數(shù)可以度量P個變量x1, x2…xp之中任意兩個變量的線性相關(guān)程度,而這種相關(guān)程度是在固定其余P-2個變量的影響下的線性相關(guān)。
相關(guān)系數(shù)可以度量兩個變量x1, x2之間的線性關(guān)系的程度.表達式為:
偏相關(guān)系數(shù)反映了相依關(guān)系中變量之間的相互重要性,如果x1和x2之間的相關(guān)性只是基于x3的公共影響,那么r123,≈0。這也可以看成在消去干涉變量后顯示出來的相關(guān)性。
要確定各影響因素與教學(xué)評估結(jié)果的相關(guān)程度,首先要確定一個變量來衡量教師教學(xué)質(zhì)量,評估結(jié)果就是衡量教師教學(xué)質(zhì)量的變量。然后計算出所有影響因素與教學(xué)質(zhì)量的偏相關(guān)系數(shù),從而剔除掉對教學(xué)質(zhì)量效果影響較小的因素。
由偏相關(guān)分析可以得到屬性之間的變量值,其中每個變量對應(yīng)的三個屬性值依次為:偏相關(guān)系數(shù),實際顯著性概率,自由度數(shù)。其中,偏相關(guān)系數(shù)代表的是關(guān)系的密切程度,實際顯著性概率是使因子與教學(xué)評估結(jié)果之間的相關(guān)系數(shù)為零的假設(shè)成立的概 率,自由度數(shù)即計算時的自由度數(shù)。其中,E_Tea4與E_TeaResult的關(guān)系是最密切的,相關(guān)系數(shù)為0.691,顯著性水平為0;其次是E_Tea6,相關(guān)系數(shù)為0.651,顯著性水平為0;下來是E_Tea2,相關(guān)系數(shù)為0.599,顯著性水平為0。
分析表明影響教學(xué)評估結(jié)果的主要因素,在偏相關(guān)分析的基礎(chǔ)上去掉了Sex、Age、Education、ProfeTitle E_Cour1、E_Cour2、E_Cour3、E_Cour4、E_CourReault、E_Tea3、E_Tea8、E_Tea9和,這些相對影響不大的因素。
2.4數(shù)據(jù)挖掘
在偏相關(guān)分析的基礎(chǔ)上,采用WeKa的序列挖掘模式,支持度為70%,程序給出E_TeaResult與Ext_Full、E_Tea1、E_Tea2、E_Tea4、E_Tea5、E_Tea6、E_Tea7和E_Tea10之間線性依存關(guān)系,如圖1:
圖1評估指標依存關(guān)系圖
結(jié)果表明:
1)教學(xué)態(tài)度對于教師的質(zhì)量評估起著至關(guān)重要的作用,因此,首先要端正教師的教學(xué)態(tài)度,充分認識到自己的職責(zé)和作用,發(fā)揮教師的主人翁精神,投入到教學(xué)工作中去,在學(xué)生中建立自己的威信。
2)在大力倡導(dǎo)素質(zhì)教育的今天,教師除完成教學(xué)任務(wù)外,還要注重與在課堂上學(xué)生交流互動,進行心與心的溝通,這是一種必不可少的教育方法。
3)在大力倡導(dǎo)素質(zhì)教育的今天,教師除完成教學(xué)任務(wù)外,還要注重與在課堂上學(xué)生交流互動,進行心與心的溝通,這是一種必不可少的教育方法。
4)獨立學(xué)院是以培養(yǎng)實踐人才為主教育模式,其次,枯燥的理論知識無法引起學(xué)生濃厚的興趣。因此,案例教學(xué),將理論與實踐教學(xué)相結(jié)合,可以得到更好的教學(xué)效果。
5)不可以否認,兼職教師在獨立學(xué)院發(fā)展過程中很大程度上緩解了獨立學(xué)院師資緊缺矛盾,但他們畢竟精力有限,更重要的是多數(shù)兼職教師缺乏主人翁責(zé)任感,對教學(xué)采取應(yīng)付或敷衍的態(tài)度,他們的教學(xué)方式可能從某種角度來說不適合獨立學(xué)院學(xué)生的發(fā)展。因此,學(xué)校必須加強師資隊伍建設(shè),培養(yǎng)適合于自己發(fā)展的教師。
3結(jié)束語
該文基于獨立院校教學(xué)評估數(shù)據(jù),運行數(shù)據(jù)分析和挖掘技術(shù),將教學(xué)評估結(jié)果運用偏相關(guān)分析方法進行數(shù)據(jù)分析,采用序列模式挖掘出影響教師評估結(jié)果較大的指標以及指標之間的相關(guān)性,能夠讓學(xué)校管理者從中發(fā)現(xiàn)教師教學(xué)活動中的主要問題,為獨立院校教師招聘工作和教育質(zhì)量改革提供有價值參考意見.同時,教師本人能夠根據(jù)自己的教學(xué)質(zhì)量評估結(jié)果進行調(diào)整,從而提高自身的教學(xué)質(zhì)量。
參考文獻:
[1] Agrawal R,Srikant R.Mining sequential patterns[C].Proc International Conference on Data Engjneerjng,Tajpej,Taiwan,1995:3-14.
[2]鐘曉,馬少平,張鈸,等.數(shù)據(jù)挖掘綜述[J].模式識別與人工智能, 2001,14(1):48.
[3]白雪.高校教學(xué)質(zhì)量評估數(shù)據(jù)的分析挖掘系統(tǒng)[D].南京:南京理工大學(xué),2007.
[4]何曉群,劉文卿.應(yīng)用回歸分析[M].北京:中國人民大學(xué)出版社,2001.
[5]趙健,傅莉.數(shù)據(jù)挖掘在本科教學(xué)評估中的應(yīng)用[J].高教發(fā)展與評估,2008 ,24(1):66.
[6]周峰.數(shù)據(jù)挖掘理論在高校教學(xué)評估中的應(yīng)用[M].南昌:南昌大學(xué),2009.
熱門標簽
數(shù)據(jù)分析論文 數(shù)據(jù)挖掘論文 數(shù)據(jù)安全論文 數(shù)據(jù)庫論文 數(shù)據(jù)管理論文 數(shù)據(jù)誤差 數(shù)據(jù)采集 數(shù)據(jù)挖掘總結(jié) 數(shù)據(jù)通信論文 數(shù)據(jù) 拼圖閱讀策略 聘任制 品味法 品行
相關(guān)文章
1政務(wù)數(shù)據(jù)協(xié)同治理的分析
3建筑業(yè)統(tǒng)計數(shù)據(jù)質(zhì)量探討