數(shù)據(jù)挖掘技術(shù)范文
時(shí)間:2023-04-07 12:19:17
導(dǎo)語:如何才能寫好一篇數(shù)據(jù)挖掘技術(shù),這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公文云整理的十篇范文,供你借鑒。

篇1
關(guān)鍵詞:數(shù)據(jù)挖掘;方法;數(shù)據(jù)挖掘技術(shù);數(shù)據(jù)倉庫
中圖分類號:TP311文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2008)34-2030-03
Brief Analysis of Data Mining Techniques
WEI Xiao-ling
(Department of Primary education, Qinzhou University, Qinzhou 535000, China)
Abstract: Data mining techniques is an emerging research field in database and artificial intelligence.Is present widespread research data bank technology Is present widespread research data bank technology, It may refine usefully, the latent information from the massive data, After ten several years research and application, Had already established the quite solid rationale, at present, is closely integrated with applications, Further reform of the existing technology development.
Key words: data mining; methods; data mining; techniques data warehouse
1 引言
隨著計(jì)算機(jī)技術(shù),特別是數(shù)據(jù)庫技術(shù)的快速發(fā)展和廣泛應(yīng)用,各行各業(yè)積累的數(shù)據(jù)量越來越大,傳統(tǒng)的數(shù)據(jù)處理方式已很難充分利用蘊(yùn)藏在這些數(shù)據(jù)中的有用知識,為適應(yīng)這種需求 ,數(shù)據(jù)挖掘(Data Mining,DM)應(yīng)運(yùn)而生,并得以蓬勃發(fā)展,越來越顯示出其強(qiáng)大的生命力。
數(shù)據(jù)挖掘技術(shù)是人們長期對數(shù)據(jù)庫技術(shù)進(jìn)行研究和開發(fā)的結(jié)果。起初各種商業(yè)數(shù)據(jù)是存儲(chǔ)在計(jì)算機(jī)的數(shù)據(jù)庫中的,然后發(fā)展到可對數(shù)據(jù)庫進(jìn)行查詢和訪問,進(jìn)而發(fā)展到對數(shù)據(jù)庫的即時(shí)遍歷。數(shù)據(jù)挖掘使數(shù)據(jù)庫技術(shù)進(jìn)入了一個(gè)更高級的階段,它不僅能對過去的數(shù)據(jù)進(jìn)行查詢和遍歷,并且能夠找出過去數(shù)據(jù)之間的潛在聯(lián)系,從而促進(jìn)信息的傳遞。
從80年代末數(shù)據(jù)挖掘開始出現(xiàn),短短二十多年它的發(fā)展速度很快。目前數(shù)據(jù)挖掘技術(shù)在零售業(yè)的購物籃分析、金融風(fēng)險(xiǎn)預(yù)測 、產(chǎn)品質(zhì)量分析、通訊及醫(yī)療服務(wù) 、基因工程研究等許 多領(lǐng)域得到了成功的應(yīng)用.很多專題會(huì)議也把數(shù)據(jù)挖掘和知識發(fā)現(xiàn)列為議題之一。
2 數(shù)據(jù)挖掘技術(shù)概述
所謂數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
數(shù)據(jù)挖掘的核心模塊技術(shù)歷經(jīng)了數(shù)十年的發(fā)展,其中包括數(shù)理統(tǒng)計(jì)、人工智能、機(jī)器學(xué)習(xí)。今天,這些成熟的技術(shù),加上高性能的關(guān)系數(shù)據(jù)庫引擎以及廣泛的數(shù)據(jù)集成,讓數(shù)據(jù)挖掘技術(shù)在當(dāng)前的數(shù)據(jù)倉庫環(huán)境中進(jìn)入了實(shí)用的階段。
數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析(如查詢、報(bào)表、聯(lián)機(jī)應(yīng)用分析)的本質(zhì)區(qū)別是數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識。數(shù)據(jù)挖掘所得到的信息應(yīng)具有先未知,有效和可實(shí)用三個(gè)特征。
3 數(shù)據(jù)挖掘技術(shù)功能
1) 自動(dòng)預(yù)測趨勢和行為
數(shù)據(jù)挖掘自動(dòng)在大型數(shù)據(jù)庫中尋找預(yù)測性信息,以往需要進(jìn)行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)論。一個(gè)典型的例子是市場預(yù)測問題,數(shù)據(jù)挖掘使用過去有關(guān)促銷的數(shù)據(jù)來尋找未來投資中回報(bào)最大的用戶,其它可預(yù)測的問題包括預(yù)報(bào)破產(chǎn)以及認(rèn)定對指定事件最可能作出反應(yīng)的群體。
2) 關(guān)聯(lián)分析
數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時(shí)并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。
3) 聚類
數(shù)據(jù)庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類增強(qiáng)了人們對客觀現(xiàn)實(shí)的認(rèn)識,是概念描述和偏差分析的先決條件。聚類技術(shù)主要包括傳統(tǒng)的模式識別方法和數(shù)學(xué)分類學(xué)。80年代初,Mchalski提出了概念聚類技術(shù)其要點(diǎn)是,在劃分對象時(shí)不僅考慮對象之間的距離,還要求劃分出的類具有某種內(nèi)涵描述,從而避免了傳統(tǒng)技術(shù)的某些片面性。
4) 概念描述
概念描述就是對某類對象的內(nèi)涵進(jìn)行描述,并概括這類對象的有關(guān)特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區(qū)別。生成一個(gè)類的特征性描述只涉及該類對象中所有對象的共性。生成區(qū)別性描述的方法很多,如決策樹方法、遺傳算法等。
5) 偏差檢測
數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實(shí)例、不滿足規(guī)則的特例、觀測結(jié)果與模型預(yù)測值的偏差、量值隨時(shí)間的變化等。偏差檢測的基本方法是,尋找觀測結(jié)果與參照值之間有意義的差別。
4 數(shù)據(jù)挖掘常用技術(shù)
在數(shù)據(jù)挖掘中最常用的技術(shù)有:
人工神經(jīng)網(wǎng)絡(luò):人工神經(jīng)網(wǎng)絡(luò)方法從結(jié)構(gòu)上模仿生物神經(jīng)網(wǎng)絡(luò),是一種通過訓(xùn)練來學(xué)習(xí)的非線性預(yù)測模型。 它將每一個(gè)連接看作一個(gè)處理單元(PE),試圖模擬人腦神經(jīng)元的功能。它可以完成分類、聚類、特征挖掘等多種數(shù)據(jù)挖掘任務(wù)。
決策樹:決策樹是數(shù)據(jù)挖掘中經(jīng)常要用到的一種技術(shù),可以用于分析數(shù)據(jù),同樣也可以用來作預(yù)測。它利用樹的結(jié)構(gòu)將數(shù)據(jù)記錄進(jìn)行分類,樹的一個(gè)葉結(jié)點(diǎn)就代表某個(gè)條件下的一個(gè)記錄集,根據(jù)記錄字段的不同取值建立樹的分支;在每個(gè)分支子集中重復(fù)建立下層結(jié)點(diǎn)和分支,便可生成一棵決策樹。常用的算法有CHAID、 CART、 Quest 和C5.0。
遺傳算法:遺傳算法是一種基于生物自然選擇與遺傳機(jī)理的隨機(jī)搜索算法。其基本思想是基于 Darwin的進(jìn)化論和 Mendel的遺傳學(xué)說。該算法由密執(zhí)安(Michigan)大學(xué)教授 Holland及其學(xué)生于 1975年創(chuàng)建。與傳統(tǒng)搜索算法不同,遺傳算法從一組隨機(jī)產(chǎn)生的初始解,稱為種群(Population),開始搜索過程。種群中的每個(gè)個(gè)體是問題的一個(gè)解,稱為染色體(Chromone)。染色體是一串符號,例如一個(gè)二進(jìn)制字符串。這些染色體在后續(xù)迭代中不斷進(jìn)化,稱為遺傳在每一代中用適應(yīng)度 (Fitness)來衡量染色體的好壞。生成下一代染色體,稱為后代(Offspring)。后代是由前一代染色體通過交叉(Crossover)或變異(Muration)運(yùn)算形成。根據(jù)適應(yīng)度大小選擇部分后代淘汰部分后代,從而保持種群大小是常數(shù)。適應(yīng)度高的染色體被選中的概率高。這樣,經(jīng)過若干代之后,算法收斂于最好的染色體,它很可能就是問題的最優(yōu)解或次優(yōu)解。
近鄰算法:將數(shù)據(jù)集合中每一個(gè)記錄進(jìn)行分類的方法。
規(guī)則推導(dǎo):從統(tǒng)計(jì)意義上對數(shù)據(jù)中的“如果-那么”規(guī)則進(jìn)行尋找和推導(dǎo)。
5 數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)
在技術(shù)上可以根據(jù)它的工作過程分為:數(shù)據(jù)的抽取、數(shù)據(jù)的存儲(chǔ)和管理、數(shù)據(jù)的展現(xiàn)等關(guān)鍵技術(shù)。
1) 數(shù)據(jù)的抽取
數(shù)據(jù)的抽取是數(shù)據(jù)進(jìn)入倉庫的入口。由于數(shù)據(jù)倉庫是一個(gè)獨(dú)立的數(shù)據(jù)環(huán)境,它需要通過抽取過程將數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機(jī)的數(shù)據(jù)存儲(chǔ)介質(zhì)中導(dǎo)入數(shù)據(jù)倉庫。數(shù)據(jù)抽取在技術(shù)上主要涉及互連、復(fù)制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等幾個(gè)方面的處理。在數(shù)據(jù)抽取方面,未來的技術(shù)發(fā)展將集中在系統(tǒng)功能集成化方面,以適應(yīng)數(shù)據(jù)倉庫本身或數(shù)據(jù)源的變化,使系統(tǒng)更便于管理和維護(hù)。
2) 數(shù)據(jù)的存儲(chǔ)和管理
數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫的特性,也決定了其對外部數(shù)據(jù)的表現(xiàn)形式。數(shù)據(jù)倉庫管理所涉及的數(shù)據(jù)量比傳統(tǒng)事務(wù)處理大得多,且隨時(shí)間的推移而快速累積。在數(shù)據(jù)倉庫的數(shù)據(jù)存儲(chǔ)和管理中需要解決的是如何管理大量的數(shù)據(jù)、如何并行處理大量的數(shù)據(jù)、如何優(yōu)化查詢等。目前,許多數(shù)據(jù)庫廠家提供的技術(shù)解決方案是擴(kuò)展關(guān)系型數(shù)據(jù)庫的功能,將普通關(guān)系數(shù)據(jù)庫改造成適合擔(dān)當(dāng)數(shù)據(jù)倉庫的服務(wù)器。
3) 數(shù)據(jù)的展現(xiàn)
在數(shù)據(jù)展現(xiàn)方面主要的方式有:
查詢:實(shí)現(xiàn)預(yù)定義查詢、動(dòng)態(tài)查詢、OLAP查詢與決策支持智能查詢;報(bào)表:產(chǎn)生關(guān)系數(shù)據(jù)表格、復(fù)雜表格、OLAP表格、報(bào)告以及各種綜合報(bào)表;可視化:用易于理解的點(diǎn)線圖、直方圖、餅圖、網(wǎng)狀圖、交互式可視化、動(dòng)態(tài)模擬、計(jì)算機(jī)動(dòng)畫技術(shù)表現(xiàn)復(fù)雜數(shù)據(jù)及其相互關(guān)系;統(tǒng)計(jì):進(jìn)行平均值、最大值、最小值、期望、方差、匯總、排序等各種統(tǒng)計(jì)分析;挖掘:利用數(shù)據(jù)挖掘等方法,從數(shù)據(jù)中得到關(guān)于數(shù)據(jù)關(guān)系和模式的知識。
4) 數(shù)據(jù)挖掘一般過程
圖1描述了數(shù)據(jù)挖掘的基本過程和主要步驟。
過程中各步驟的大體內(nèi)容如下:
5.1 確定業(yè)務(wù)對象
清晰地定義出業(yè)務(wù)問題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步.挖掘的最后結(jié)構(gòu)是不可預(yù)測的,但要探索的問題應(yīng)是有預(yù)見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會(huì)成功的
5.2 數(shù)據(jù)準(zhǔn)備
1) 數(shù)據(jù)的選擇
搜索所有與業(yè)務(wù)對象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)。
2) 數(shù)據(jù)的預(yù)處理
研究數(shù)據(jù)的質(zhì)量,為進(jìn)一步的分析作準(zhǔn)備。并確定將要進(jìn)行的挖掘操作的類型。
3) 數(shù)據(jù)的轉(zhuǎn)換
將數(shù)據(jù)轉(zhuǎn)換成一個(gè)分析模型。這個(gè)分析模型是針對挖掘算法建立的。建立一個(gè)真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵。
5.3 數(shù)據(jù)挖掘
對所得到的經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘。除了完善從選擇合適的挖掘算法外,其余一切工作都能自動(dòng)地完成。
5.4 結(jié)果分析
解釋并評估結(jié)果。其使用的分析方法一般應(yīng)作數(shù)據(jù)挖掘操作而定,通常會(huì)用到可視化技術(shù)。
5.5 知識的同化
將分析所得到的知識集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。
6 數(shù)據(jù)挖掘技術(shù)的應(yīng)用
應(yīng)用是數(shù)據(jù)挖掘技術(shù)的發(fā)展動(dòng)力,數(shù)據(jù)挖掘研究具有廣泛的應(yīng)用前景,因?yàn)閿?shù)據(jù)挖掘產(chǎn)生的知識可以用于決策支持、信息管理、科學(xué)研究等許多領(lǐng)域。數(shù)據(jù)挖掘技術(shù)與各個(gè)行業(yè)的有機(jī)結(jié)合體現(xiàn)了其蓬勃的生命力 ,且這種趨勢正在以前所未有的速度繼續(xù)向前發(fā)展。尤其是在如銀行、電信、保險(xiǎn)、交通、零售(如超級市場)等商業(yè)領(lǐng)域。數(shù)據(jù)挖掘所能解決的典型商業(yè)問題包括:數(shù)據(jù)庫營銷(Database Marketing)、客戶群體劃分(Customer Segmentation & Classification)、背景分析(Profile Analysis)、交叉銷售(Cross-selling)等市場分析行為,以及客戶流失性分析(Churn Analysis)、客戶信用記分(Credit Scoring)、欺詐發(fā)現(xiàn)(Fraud Detection)等等。具體應(yīng)用實(shí)例如:IBM公司開發(fā)的QUEST和Intelligent Miner系統(tǒng)可以挖掘顧客的購物行為模式,預(yù)測銷售行情。AT& T實(shí)驗(yàn)室開發(fā)了Hancock系統(tǒng),該系統(tǒng)主要處理電信數(shù)據(jù)流,分析電話呼叫記錄。Bell通信研究所的Tribeca則是一個(gè)用于網(wǎng)絡(luò)監(jiān)控的系統(tǒng)。Google公司利用其數(shù)據(jù)挖掘技術(shù)Page Rank,在短短的幾年內(nèi)打敗所有競爭對手成為Internet上的贏家。
7 結(jié)束語
數(shù)據(jù)挖掘是當(dāng)前計(jì)算機(jī)工業(yè)最熱門的研究領(lǐng)域之一。它是一個(gè)不斷發(fā)展的、綜合交叉的學(xué)科。隨著數(shù)據(jù)挖掘成功案例的廣播,越來越多的行業(yè)采用數(shù)據(jù)挖掘技術(shù),它將會(huì)被廣泛而深入地應(yīng)用于人類生活的各個(gè)領(lǐng)域。
參考文獻(xiàn):
[1] 張士玲,楊林楠,孫向前,等.淺論數(shù)據(jù)挖掘技術(shù)[J].福建電腦,2005(8):61-62.
[2] 楊雪.淺析數(shù)據(jù)挖掘技術(shù)[J].華南金融電腦,2005(8):83-85.
[3] 張倩.數(shù)據(jù)挖掘技術(shù)綜述[J].甘肅科技,2005,21(7):92-93.
[4] 黃曉霞,蕭蘊(yùn)詩.數(shù)據(jù)挖掘應(yīng)用研究及展望[J].計(jì)算機(jī)輔助工程,2001(4):23-29.
篇2
【關(guān)鍵詞】數(shù)據(jù)倉庫;數(shù)據(jù)倉庫應(yīng)用;OLAP;聯(lián)機(jī)分析處理
數(shù)據(jù)倉庫技術(shù)是計(jì)算機(jī)數(shù)據(jù)庫系統(tǒng)發(fā)展的新方向,近幾年來已經(jīng)在許多領(lǐng)域得到了應(yīng)用。以數(shù)據(jù)倉庫為基礎(chǔ)的商業(yè)職能系統(tǒng)強(qiáng)大的功能在實(shí)際應(yīng)用中能帶來高利潤的回報(bào),所以近年來數(shù)據(jù)倉庫在眾多領(lǐng)域得到了越來越廣泛的應(yīng)用。對于大量存在于計(jì)算機(jī)信息系統(tǒng)中的數(shù)據(jù),通過數(shù)據(jù)倉庫、聯(lián)機(jī)處理技術(shù)和數(shù)據(jù)挖掘技術(shù),對數(shù)據(jù)進(jìn)行加工、分析、產(chǎn)生用于決策支持的信息,得以充分利用。
1 數(shù)據(jù)庫技術(shù)概念及特征
1.1 數(shù)據(jù)倉庫概念
數(shù)據(jù)倉庫就是面向主題的、集成的、不可更新的(穩(wěn)定的)、隨時(shí)間不斷變化的數(shù)據(jù)集合。與其他數(shù)據(jù)庫應(yīng)用不同的是,數(shù)據(jù)倉庫更像一種過程,即對分布在企業(yè)內(nèi)部各處的業(yè)務(wù)數(shù)據(jù)的整合、加工和分析的過程,而不是一種可以購買的產(chǎn)品。
1.2 數(shù)據(jù)倉庫的特征
①面向主題。數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織。主題是一個(gè)抽象的概念,是指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面,一個(gè)主題通常與多個(gè)操作型信息系統(tǒng)相關(guān)。
②集成的。數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎(chǔ)上,經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。
③相對穩(wěn)定的。數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。
④反映歷史變化。數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時(shí)點(diǎn)到目前各個(gè)階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預(yù)測。
2 數(shù)據(jù)倉庫的分析技術(shù)
OLAP是數(shù)據(jù)處理的一種技術(shù)概念。OLAP的基本目的是使企業(yè)的決策者能靈活地操縱企業(yè)的數(shù)據(jù),以多維的形式從多面角度來觀察企業(yè)的狀態(tài)、了解企業(yè)的變化,通過快速、一致、交互地訪問各種可能的信息視圖,幫助管理人員掌握數(shù)據(jù)中存在的規(guī)律,實(shí)現(xiàn)對數(shù)據(jù)的歸納、分析和處理,幫助組織完成相關(guān)的決策。
根據(jù)OLAP產(chǎn)品的實(shí)際應(yīng)用情況和用戶對OLAP產(chǎn)品的需求,人們提出了一種對OLAP更簡單明確的定義,即共享多維信息的快速分析。OLAP通過對多維信息以很多種可能的觀察方式進(jìn)行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對數(shù)據(jù)進(jìn)行深入的觀察?;诓僮餍蛿?shù)據(jù)環(huán)境的OLTP(聯(lián)機(jī)事務(wù)處理),其基本操作是通過經(jīng)典的SQL語句實(shí)現(xiàn)的。而OLAP多維數(shù)據(jù)分析是指對多維數(shù)據(jù)采取切片、切塊、鉆取、旋轉(zhuǎn)等各種分析操作,以求剖析數(shù)據(jù),使最終用戶能從多角度、多側(cè)面地觀察數(shù)據(jù)庫中的數(shù)據(jù),從而深入地了解包含在數(shù)據(jù)中的信息、內(nèi)涵。數(shù)據(jù)倉庫系統(tǒng)一般都支持OLAP的這些基本操作,也可以認(rèn)為是一種擴(kuò)展了的SQL操作。
2.1 聯(lián)機(jī)分析處理的主要特點(diǎn)
OLAP是直接仿照用戶的多角度思考模式,預(yù)先為用戶組建多維的數(shù)據(jù)模型,在這里,維指的是用戶的分析角度。例如對銷售數(shù)據(jù)的分析,時(shí)間周期是一個(gè)維度,產(chǎn)品類別、分銷渠道、地理分布、客戶群類也分別是一個(gè)維度。一旦多維數(shù)據(jù)模型建立完成,用戶可以快速地從各個(gè)分析角度獲取數(shù)據(jù),也能動(dòng)態(tài)的在各個(gè)角度之間切換或者進(jìn)行多角度綜合分析,具有極大的分析靈活性。這也是聯(lián)機(jī)分析處理在近年來被廣泛關(guān)注的根本原因,它從設(shè)計(jì)理念和真正實(shí)現(xiàn)上都與舊有的管理信息系統(tǒng)有著本質(zhì)的區(qū)別。
2.2 聯(lián)機(jī)分析處理與數(shù)據(jù)倉庫的關(guān)系
事實(shí)上,隨著數(shù)據(jù)倉庫理論的發(fā)展,數(shù)據(jù)倉庫系統(tǒng)已逐步成為新型的決策管理信息系統(tǒng)的解決方案。數(shù)據(jù)倉庫系統(tǒng)的核心是聯(lián)機(jī)分析處理,但數(shù)據(jù)倉庫包括更為廣泛的內(nèi)容。
概括來說,數(shù)據(jù)倉庫系統(tǒng)是指具有綜合企業(yè)數(shù)據(jù)的能力,能夠?qū)Υ罅科髽I(yè)數(shù)據(jù)進(jìn)行快速和準(zhǔn)確分析,輔助做出更好的商業(yè)決策的系統(tǒng)。
從應(yīng)用角度來說,數(shù)據(jù)倉庫系統(tǒng)除了聯(lián)機(jī)分析處理外,還可以采用傳統(tǒng)的報(bào)表,或者采用數(shù)理統(tǒng)計(jì)和人工智能等數(shù)據(jù)挖掘手段,涵蓋的范圍更廣;就應(yīng)用范圍而言,聯(lián)機(jī)分析處理往往根據(jù)用戶分析的主題進(jìn)行應(yīng)用分割,例如:銷售分析、市場推廣分析、客戶利潤率分析等等,每一個(gè)分析的主題形成一個(gè)OLAP應(yīng)用,而所有的OLAP應(yīng)用實(shí)際上只是數(shù)據(jù)倉庫系統(tǒng)的一部分。
聯(lián)機(jī)分析處理的用戶是企業(yè)中的專業(yè)分析人員及管理決策人員,他們在分析業(yè)務(wù)經(jīng)營的數(shù)據(jù)時(shí),從不同的角度來審視業(yè)務(wù)的衡量指標(biāo)是一種很自然的思考模式。例如分析銷售數(shù)據(jù),可能會(huì)綜合時(shí)間周期、產(chǎn)品類別、分銷渠道、地理分布、客戶群類等多種因素來考慮。這些分析角度雖然可以通過報(bào)表來反映,但每一個(gè)分析的角度可以生成一張報(bào)表,各個(gè)分析角度的不同組合又可以生成不同的報(bào)表,使得IT人員的工作量相當(dāng)大,而且往往難以跟上管理決策人員思考的步伐。
3 數(shù)據(jù)挖掘技術(shù)
3.1 數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘,又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn),是指從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取隱含的、未知的、非平凡的及有潛在應(yīng)用價(jià)值的信息或模式,它是數(shù)據(jù)庫研究中的一個(gè)很有應(yīng)用價(jià)值的新領(lǐng)域,融合了數(shù)據(jù)庫、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等多個(gè)領(lǐng)域的理論和技術(shù)。隨著人工智能技術(shù)在專家咨詢、語言處理、娛樂游戲等模式識別領(lǐng)域的應(yīng)用日益廣泛。從選取專業(yè)學(xué)習(xí)、研究方向的實(shí)際出發(fā),提出了將數(shù)據(jù)挖掘應(yīng)用于輔助選取專業(yè)學(xué)習(xí)、研究方向的數(shù)據(jù)挖掘技術(shù)流程模型。
3.2 數(shù)據(jù)挖掘技術(shù)的過程
數(shù)據(jù)挖掘技術(shù)是一個(gè)多步驟、可能需多次反復(fù)的處理過程。主要包括以下幾步:準(zhǔn)備、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理、數(shù)據(jù)縮減、確定數(shù)據(jù)挖掘的目標(biāo)、確定知識發(fā)現(xiàn)算法、數(shù)據(jù)挖掘(Data Mining)、模式解釋、知識評價(jià)。其中最重要的一個(gè)步驟是數(shù)據(jù)挖掘,它是利用某些特定的知識發(fā)現(xiàn)算法,在可接受的運(yùn)算效率的限制下,從有效數(shù)據(jù)中發(fā)現(xiàn)有關(guān)的知識。
數(shù)據(jù)挖掘技術(shù)主要有四種開采任務(wù):
(1)數(shù)據(jù)總結(jié)是對數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述。數(shù)據(jù)挖掘是從數(shù)據(jù)泛化的角度來討論數(shù)據(jù)總結(jié)。
(2)分類發(fā)現(xiàn)這是一項(xiàng)非常重要的任務(wù),分類是運(yùn)用分類器把數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè),用于對未來數(shù)據(jù)進(jìn)行預(yù)測。
(3)聚類是把一組個(gè)體按照相似性歸成若干類別,它的目的是使得屬于同一類別的個(gè)體之間的距離盡可能的小,而不同類別的個(gè)體間的距離盡可能的大。
(4)關(guān)聯(lián)規(guī)則是指事物之間的聯(lián)系具有多大的支持度和可信度。有意義的關(guān)聯(lián)規(guī)則必須給定兩個(gè)閾值:最小支持度和最小可度。
3.3 數(shù)據(jù)挖掘在實(shí)際生活中的應(yīng)用
數(shù)據(jù)挖據(jù)的結(jié)果經(jīng)過業(yè)務(wù)決策人員的認(rèn)可,才能實(shí)際利用。要將通過數(shù)據(jù)挖掘得出的預(yù)測模式和各個(gè)領(lǐng)域的專家認(rèn)識結(jié)合在一起,構(gòu)成一個(gè)可供不同類型的人使用的應(yīng)用程序。也只有通過對挖掘知識的應(yīng)用,才能對數(shù)據(jù)挖掘的成果做出正確的評價(jià)。但是在應(yīng)用數(shù)據(jù)挖掘成果時(shí),決策人員所關(guān)心的是數(shù)據(jù)挖掘最終結(jié)果與用其他候選結(jié)果在實(shí)際應(yīng)用中的差距。為將數(shù)據(jù)挖掘結(jié)果能在實(shí)際中得到應(yīng)用,需要將分析所得到的知識集成到業(yè)務(wù)信息系統(tǒng)的組織機(jī)構(gòu)中去,使這些知識在實(shí)際的管理決策分析中得到應(yīng)用。
數(shù)據(jù)挖掘不一定需要建立在數(shù)據(jù)倉庫基礎(chǔ)上,但以數(shù)據(jù)倉庫為基礎(chǔ),對于數(shù)據(jù)挖掘來說源數(shù)據(jù)的預(yù)處理將簡化許多。另外為了保證結(jié)果的正確性,數(shù)據(jù)挖掘?qū)A(chǔ)數(shù)據(jù)量的需求是巨大的,數(shù)據(jù)倉庫可以很好地滿足這個(gè)要求。
【參考文獻(xiàn)】
[1]謝邦昌.數(shù)據(jù)挖掘基礎(chǔ)與應(yīng)用[M].機(jī)械工業(yè)出版社,2012-01.
篇3
信息技術(shù)的不斷推廣應(yīng)用,將企業(yè)帶入一個(gè)信息爆炸的時(shí)代。每時(shí)每刻都有潮水般的信息出現(xiàn)在管理者的面前,等待管理者去處理、去使用。這些管理信息的處理類型主要分事務(wù)型(操作型)處理和信息型(分析型)處理兩大類。事務(wù)型處理也就是通常所說的業(yè)務(wù)操作處理。這種操作處理主要是對管理信息進(jìn)行日常的操作,對信息進(jìn)行查詢和修改等,目的是滿足組織特定的日常管理需要。在這類處理中,管理者關(guān)心的是信息能否得到快速的處理,信息的安全性能否得到保證,信息的完整性是否遭到破壞。信息型處理則是指對信息做進(jìn)一步的分析,為管理人員的決策提供支持。
1.1 數(shù)據(jù)倉庫的定義
業(yè)界公認(rèn)的數(shù)據(jù)倉庫概念創(chuàng)始人W.H.Inmon在《數(shù)據(jù)倉庫》(Building the Data Warehouse)一書中對數(shù)據(jù)倉庫的定義是:數(shù)據(jù)倉庫就是面向主題的、集成的、不可更新的(穩(wěn)定性)、隨時(shí)間不斷變化(不同時(shí)間)的數(shù)據(jù)集合,用以支持經(jīng)營管理中的決策制定。
數(shù)據(jù)倉庫是將原始的操作數(shù)據(jù)進(jìn)行各種處理并轉(zhuǎn)換成綜合信息,提供功能強(qiáng)大的分析工具對這些信息進(jìn)行多方位的分析以幫助企業(yè)領(lǐng)導(dǎo)做出更符合業(yè)務(wù)發(fā)展規(guī)律的決策。因此,在很多場合,決策支持系統(tǒng)也成了數(shù)據(jù)倉庫的代名詞。建立數(shù)據(jù)倉庫的目的是把企業(yè)的內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)進(jìn)行有效的集成,為企業(yè)的各層決策和分析人員使用。
1.2 數(shù)據(jù)倉庫的特點(diǎn)
從W.H.Inmon關(guān)于數(shù)據(jù)倉庫的定義中可以分析出數(shù)據(jù)倉庫具有這樣一些重要的以下特性。
1.2.1 面向主題性
面向主題性表示了數(shù)據(jù)倉庫中數(shù)據(jù)組織的基本原則,數(shù)據(jù)倉庫中的所有數(shù)據(jù)都是圍繞著某一主題組織展開的。由于數(shù)據(jù)倉庫的用戶大多是企業(yè)的管理決策者,這些人所面對的往往是一些比較抽象的、層次較高的管理分析對象。
1.2.2 集成性
所謂集成性是指在數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫之前,必須經(jīng)過數(shù)據(jù)加工和集成,這是建立數(shù)據(jù)倉庫的關(guān)鍵步驟。
1.2.3 時(shí)變性
所謂時(shí)變性是指數(shù)據(jù)倉庫中的信息并不只是關(guān)于企業(yè)當(dāng)時(shí)或某一時(shí)點(diǎn)的信息,而是系統(tǒng)地記錄了企業(yè)從過去某一時(shí)點(diǎn)到目前的數(shù)據(jù),主要用于進(jìn)行時(shí)間趨勢分析。
1.2.4 非易失性
數(shù)據(jù)倉庫總是物理地分離存放數(shù)據(jù),這些數(shù)據(jù)源于操作環(huán)境下的應(yīng)用數(shù)據(jù)。
1.3 數(shù)據(jù)倉庫的技術(shù)體系結(jié)構(gòu)
一個(gè)數(shù)據(jù)倉庫系統(tǒng)的技術(shù)體系結(jié)構(gòu)總體來說包括后臺(tái)數(shù)據(jù)預(yù)處理,數(shù)據(jù)倉庫,數(shù)據(jù)管理和數(shù)據(jù)倉庫的前臺(tái)查詢服務(wù)三大部分。
數(shù)據(jù)倉庫中的數(shù)據(jù)來自企業(yè)內(nèi)部不同的業(yè)務(wù)系統(tǒng)甚至企業(yè)外部的商業(yè)數(shù)據(jù)庫,這些數(shù)據(jù)庫對于數(shù)據(jù)倉庫來說被稱為數(shù)據(jù)源。數(shù)據(jù)源中的數(shù)據(jù)在數(shù)據(jù)的組織方式、數(shù)據(jù)格式等許多方面與數(shù)據(jù)倉庫對數(shù)據(jù)的要求有很大的差別,因此這些數(shù)據(jù)不可能直接載入數(shù)據(jù)倉庫的數(shù)據(jù)庫中,為此必須進(jìn)行數(shù)據(jù)的預(yù)處理操作。數(shù)據(jù)的預(yù)處理包括數(shù)據(jù)源的定義、從數(shù)據(jù)源提取數(shù)據(jù)到預(yù)處理數(shù)據(jù)區(qū)(數(shù)據(jù)準(zhǔn)備區(qū))、在數(shù)據(jù)準(zhǔn)備區(qū)中對數(shù)據(jù)進(jìn)行凈化處理、作必要的轉(zhuǎn)換、再將數(shù)據(jù)加載到數(shù)據(jù)倉庫,等等。實(shí)現(xiàn)這部分功能的是數(shù)據(jù)倉庫的后臺(tái)數(shù)據(jù)預(yù)處理部分。
數(shù)據(jù)倉庫的應(yīng)用服務(wù)部分提供了各種應(yīng)用工具,使用這些工具可以對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行復(fù)雜的查詢分析和知識挖掘等等。沒有一種工具可以滿足所有的應(yīng)用需求。可選擇的工具大致分為:數(shù)據(jù)挖掘工具:數(shù)據(jù)挖掘是基于人工智能來分析數(shù)據(jù)的一種技術(shù),通過對數(shù)據(jù)倉庫中數(shù)據(jù)的分析去發(fā)現(xiàn)一些用戶可能沒有想到的模式和數(shù)據(jù)關(guān)系。特別查詢工具:特別查詢提供了一種能力,使得分析人員可以提交一些特別的問題,并產(chǎn)生相應(yīng)的結(jié)果。在線分析處理(OLAP,On-Line Analytical Processing):在線分析處理以數(shù)據(jù)立方體或多維的方式來查看數(shù)據(jù),允許用戶進(jìn)行鉆取以獲得更詳細(xì)或更概括的數(shù)據(jù),或者對不同的“維”如時(shí)間、商品等進(jìn)行切片操作。OLAP工具可用于對商業(yè)問題進(jìn)行分析,是最常用的輔助決策工具。
2、數(shù)據(jù)挖掘
2.1 數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中提取有用的信息和知識的過程。所發(fā)現(xiàn)的信息和知識是潛在的并隱藏在大量數(shù)據(jù)背后的,是用戶感興趣的、可理解、可運(yùn)用的知識。所以,數(shù)據(jù)挖掘有時(shí)也被人們稱為知識挖掘、知識提取、知識發(fā)現(xiàn)等。
數(shù)據(jù)挖掘也可視為是一類深層次的新型數(shù)據(jù)分析方法,它與傳統(tǒng)的數(shù)據(jù)分析的本質(zhì)區(qū)別在于:數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識,所得到的信息通常是預(yù)先未知的、也是很難預(yù)料到的,甚至與人的直覺是相背的,但又是非常有用的;而傳統(tǒng)的數(shù)據(jù)分析得到的信息則是浮在表面的、人的直覺能夠感受到的、或與人的直覺較為相近的。
2.2 數(shù)據(jù)挖掘的過程
數(shù)據(jù)挖掘過程,可以概括為數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘及結(jié)果的解釋和評價(jià)三部分。
2.2.1 數(shù)據(jù)準(zhǔn)備
數(shù)據(jù)準(zhǔn)備一般包括三個(gè)子步驟:數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理。數(shù)據(jù)集成將多文件或多數(shù)據(jù)庫運(yùn)行環(huán)境中的數(shù)據(jù)進(jìn)行合并處理,解決語義模糊性、處理數(shù)據(jù)中的遺漏和清洗“臟數(shù)據(jù)”等。數(shù)據(jù)選擇的目的是辨別出需要分析的數(shù)據(jù)集合,即目標(biāo)數(shù)據(jù)(Target Data),是以用戶需求驅(qū)動(dòng)的從原始數(shù)據(jù)庫中抽取的一組數(shù)據(jù),它使處理范圍縮小,提高數(shù)據(jù)挖掘的質(zhì)量。數(shù)據(jù)預(yù)處理一般包括消除噪聲、推導(dǎo)計(jì)算缺值數(shù)據(jù)、消除重復(fù)記錄、完成數(shù)據(jù)類型轉(zhuǎn)換,預(yù)處理目的是為了克服目前數(shù)據(jù)挖掘工具的局限性。
2.2.2 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘階段首先要決定挖掘的任務(wù)或目標(biāo),確定了任務(wù)或目標(biāo)之后我們才能決定使用什么樣的挖掘方法。確定挖掘任務(wù)后選擇合適的算法,可進(jìn)行數(shù)據(jù)挖掘操作,獲取相應(yīng)的模式。
2.2.3 結(jié)果的解釋和評價(jià)
經(jīng)過數(shù)據(jù)挖掘階段后,獲得了一些模式結(jié)果,但通常存在冗余或無關(guān)的模式。有可能這些模式不滿足用戶要求,這時(shí)則需退回到發(fā)現(xiàn)過程的前面階段,可能需要獲取新的數(shù)據(jù),采用新的數(shù)據(jù)預(yù)處理方法,換一種挖掘方法等等。
2.3 數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)主要分為:關(guān)聯(lián)分析、時(shí)序模式、聚類、分類、偏差檢測和預(yù)測等。
2.3.1 關(guān)聯(lián)分析
關(guān)聯(lián)分析用來發(fā)現(xiàn)關(guān)聯(lián)規(guī)則。它是從數(shù)據(jù)庫中發(fā)現(xiàn)知識的一類重要方法。關(guān)聯(lián)分析廣泛用于購物籃或事務(wù)數(shù)據(jù)分析。
2.3.2 時(shí)序模式
時(shí)間序列模式是用變量過去的值來預(yù)測未來的值。比如可以用前六天的數(shù)據(jù)來預(yù)測第七天的值,這樣就建立了一個(gè)區(qū)間大小為7的窗口。
2.3.3 聚類
聚類是把整個(gè)數(shù)據(jù)庫分成不同的組群。它的目的是使得群與群之間差別很明顯,而同一個(gè)群內(nèi)的數(shù)據(jù)盡量相似。劃分出來的組群具有一定的意義,我們稱為類。在同一類別中,個(gè)體之間的距離較小,而不同類別的個(gè)體之間的距離較大。
2.3.4 分類
數(shù)據(jù)挖掘應(yīng)用最多的任務(wù)要屬分類。分類找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型,以便能夠使用模型預(yù)測類標(biāo)記未知的對象類。該模式能把數(shù)據(jù)庫中的元組映射到給定類別中的某一個(gè)。
2.3.5 偏差檢測
所謂偏差檢測就是在數(shù)據(jù)分析中發(fā)現(xiàn)有很多異常情況存在于數(shù)據(jù)庫中,我們根據(jù)這種異常情況可以獲得很多有用的信息
2.3.6 預(yù)測
預(yù)測可以利用歷史數(shù)據(jù)或數(shù)據(jù)分布依據(jù)一定的模型計(jì)算出數(shù)值數(shù)據(jù)或識別出未來分布趨勢等。
2.4 數(shù)據(jù)挖掘面臨的主要問題及對策
2.4.1 數(shù)據(jù)挖掘面臨的主要問題
數(shù)據(jù)挖掘在不斷的實(shí)際應(yīng)用中,正不斷地吸取各種領(lǐng)域的經(jīng)驗(yàn)而逐漸成熟。從目前的情況來看,在運(yùn)用現(xiàn)代數(shù)據(jù)挖掘技術(shù)時(shí)還需要注意一些問題,如數(shù)據(jù)挖掘任務(wù)、數(shù)據(jù)挖掘方法、用戶交互、挖掘性能和數(shù)據(jù)類型多樣性等問題。
2.4.2 主要對策
針對數(shù)據(jù)挖掘現(xiàn)在面臨的主要問題,所應(yīng)用的對策有以下一些:(1)與數(shù)據(jù)倉庫技術(shù)結(jié)合。數(shù)據(jù)倉庫可以為數(shù)據(jù)挖掘提供經(jīng)過清洗的和轉(zhuǎn)換的、完整的數(shù)據(jù)資源。(2)挖掘多種類型的知識。數(shù)據(jù)挖掘除了最常見的關(guān)聯(lián)與分類之外,還有許多重要的任務(wù)待進(jìn)一步的開發(fā),包括聚合、預(yù)測模型以及時(shí)間相關(guān)分析等等。(3)發(fā)現(xiàn)語言的形式化描述,即研究專門用于知識發(fā)現(xiàn)的數(shù)據(jù)挖掘語言,如SQL語言一樣的形式化和標(biāo)準(zhǔn)化。(4)可視化數(shù)據(jù)挖掘。尋求數(shù)據(jù)挖掘過程中的可視化方法,使知識發(fā)現(xiàn)的過程便于用戶的理解,也便于在知識發(fā)現(xiàn)的過程中進(jìn)行人機(jī)交互。(5)高效的數(shù)據(jù)挖掘。高效性和可伸縮性是目前數(shù)據(jù)挖掘算法的焦點(diǎn)之一,隨著并行的、分布式的以及增長式的數(shù)據(jù)挖掘技術(shù)的研究與發(fā)展,這種趨勢將會(huì)繼續(xù)得到進(jìn)一步的發(fā)展。(6)數(shù)據(jù)挖掘的應(yīng)用。更加廣泛的將數(shù)據(jù)挖掘技術(shù)應(yīng)用于現(xiàn)實(shí)世界也是一個(gè)非常重要的研究方向。
3、數(shù)據(jù)挖掘與數(shù)據(jù)倉庫的關(guān)系
3.1 數(shù)據(jù)挖掘是數(shù)據(jù)倉庫發(fā)展的必然結(jié)果
隨著大量數(shù)據(jù)被收集,從原始數(shù)據(jù)中得到有價(jià)值的決策信息越來越困難,于是新的數(shù)據(jù)庫的體系結(jié)構(gòu)產(chǎn)生了,即出現(xiàn)了數(shù)據(jù)倉庫。數(shù)據(jù)倉庫中存放的是從原始數(shù)據(jù)中經(jīng)過計(jì)算和統(tǒng)計(jì)后得到的滿足決策者需要的數(shù)據(jù),這種數(shù)據(jù)也被稱為是信息型或分析型數(shù)據(jù)。聯(lián)機(jī)分析處理工具是基于數(shù)據(jù)倉庫的信息分析處理過程,具有匯總、合并和聚集功能,以及從不同的角度觀察信息的能力,但對于深層次的分析,如數(shù)據(jù)分類、聚類和數(shù)據(jù)隨時(shí)間變化的特性,仍然需要其他分析工具。數(shù)據(jù)挖掘可以看作是聯(lián)機(jī)分析處理的高級階段。
3.2 數(shù)據(jù)倉庫為數(shù)據(jù)挖掘提供應(yīng)用基礎(chǔ)
從數(shù)據(jù)挖掘的定義可以看出,數(shù)據(jù)挖掘包含一系列旨在從數(shù)據(jù)庫中發(fā)現(xiàn)有用而未發(fā)現(xiàn)的模式的技術(shù),如果將其與數(shù)據(jù)倉庫緊密聯(lián)系在一起,將獲得意外的成功。
4、結(jié)語
本章主要介紹了數(shù)據(jù)倉庫的概念、特點(diǎn)和體系結(jié)構(gòu),以及數(shù)據(jù)挖掘的概念、數(shù)據(jù)挖掘的過程和數(shù)據(jù)挖掘的技術(shù),和數(shù)據(jù)挖掘面臨的主要問題及對策,最后分析了數(shù)據(jù)挖掘與數(shù)據(jù)倉庫的關(guān)系。為數(shù)據(jù)挖掘與數(shù)據(jù)倉庫的實(shí)際運(yùn)用打下堅(jiān)實(shí)的理論基礎(chǔ)。
參考文獻(xiàn)
[1]吳慶慧.在金融數(shù)據(jù)庫營銷中的一種數(shù)據(jù)挖掘與決策分析的方法.中國科學(xué)技術(shù)大學(xué)學(xué)報(bào),2009,39(2):208~214.
[2]高祥濤.數(shù)據(jù)挖掘在水文相似年查找中的應(yīng)用研究.計(jì)算機(jī)工程與應(yīng)用,2009,45(5):243~245.
篇4
【關(guān)鍵詞】信息時(shí)代;數(shù)據(jù);利用;挖掘;應(yīng)用
1.數(shù)據(jù)挖掘的起源
隨著科學(xué)技術(shù)的日新月異,信息正在處于爆炸的時(shí)代,但是在數(shù)據(jù)龐大的背后,人們對其利用和提取的價(jià)值是有限的,有時(shí)候是不能滿足現(xiàn)實(shí)的需要。當(dāng)前大部分只是對所有的數(shù)據(jù)進(jìn)行儲(chǔ)存、統(tǒng)計(jì)、查詢,很難找出數(shù)據(jù)背后存在的某種關(guān)系和規(guī)律,更不能對數(shù)據(jù)的未來發(fā)展進(jìn)行準(zhǔn)確的預(yù)測。這也就導(dǎo)致了雖然信息數(shù)據(jù)非常多但是價(jià)值卻占到很少的一部分。正是因?yàn)橛羞@種情況的產(chǎn)生,信息挖掘技術(shù)才會(huì)得到發(fā)展和應(yīng)用。
2.數(shù)據(jù)挖掘的定義
所謂的信息挖掘通過對一些已有的數(shù)據(jù)存在不確定性、信息量大、不完整的數(shù)據(jù)進(jìn)行分析提取,提取出數(shù)據(jù)背后存在的一些價(jià)值和有用的信息。通過對這些數(shù)據(jù)的分析提取為一些技術(shù)部門和相關(guān)的人員的戰(zhàn)略決策提供很大的支持。
3.數(shù)據(jù)挖掘的過程
數(shù)據(jù)的挖掘是通過數(shù)據(jù)挖掘算法提取出數(shù)據(jù)模型,還有就是針對數(shù)據(jù)挖掘所采取的一些方法和步驟,一般都是經(jīng)歷幾次甚至多次的處理過程。最后才會(huì)在數(shù)據(jù)上提取到其存在的潛在價(jià)值,整個(gè)過程主要包括一下幾個(gè)階段。
(1)目標(biāo)定義階段
做任何事情之前通過對將要做的事情進(jìn)行計(jì)劃分析,然后制定對所做這件事情需要達(dá)到的目標(biāo),這樣事情就會(huì)很容易成功。數(shù)據(jù)挖掘也不例外,在對數(shù)據(jù)進(jìn)行挖掘的時(shí)候,需要相關(guān)的人員了解和明確對所挖掘的數(shù)據(jù)要達(dá)到的目的,這也很大程度上會(huì)決定數(shù)據(jù)挖掘的成功與否。因此相關(guān)人員要在指定明確的目標(biāo),然后選擇一定的技術(shù)手段和方式對數(shù)據(jù)進(jìn)行挖掘。
(2)數(shù)據(jù)準(zhǔn)備階段
根據(jù)已有的數(shù)據(jù)挖掘目標(biāo),就應(yīng)該對所有的數(shù)據(jù)進(jìn)行分析處理,大略的挑出能達(dá)到目標(biāo)的一些數(shù)據(jù),剔除一些沒有意義的數(shù)據(jù)。還有就是對數(shù)據(jù)進(jìn)行一些變化,主要就是為了能夠在一些有特征的數(shù)據(jù)找出符合要求的數(shù)據(jù),減少在數(shù)據(jù)挖掘過程中需要考慮的其他因素。
(3)數(shù)據(jù)挖掘階段
這個(gè)階段是整個(gè)數(shù)據(jù)挖掘階段最重要、最核心的階段。相關(guān)的工作人員應(yīng)該在已有的數(shù)據(jù)挖掘目標(biāo)的基礎(chǔ)上選擇合理、科學(xué)的數(shù)據(jù)挖掘方法對數(shù)據(jù)進(jìn)行挖掘,提取出數(shù)據(jù)背后隱藏的價(jià)值。
(4)數(shù)據(jù)挖掘結(jié)果解釋和評估階段
首先應(yīng)該對數(shù)據(jù)挖掘出來的信息進(jìn)行研究,把最終滿足要求的數(shù)據(jù)提取出來。因?yàn)閿?shù)據(jù)的挖掘的最終目的就是為客戶服務(wù),所以還應(yīng)該針對客戶的一些特殊要求對挖掘出來的數(shù)據(jù)進(jìn)行提煉,經(jīng)過客戶對所挖掘的數(shù)據(jù)結(jié)果的評估后,將一些不滿足要求的數(shù)據(jù)剔除。還有就是把挖掘的數(shù)據(jù)應(yīng)該進(jìn)行合理的優(yōu)化使其更加人性化,給客戶優(yōu)質(zhì)的服務(wù)。
4.數(shù)據(jù)挖掘的研究方向
(1)對于數(shù)據(jù)挖掘系統(tǒng)來說,其不可能對各類型的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,因此應(yīng)該針對不同類型的數(shù)據(jù)研究出不同的數(shù)據(jù)挖掘系統(tǒng),這樣就可以在數(shù)據(jù)挖掘時(shí)能夠快速、高效的對數(shù)據(jù)進(jìn)行挖掘。
(2)數(shù)據(jù)挖掘系統(tǒng)應(yīng)該具備能夠?qū)?shù)據(jù)進(jìn)行高效率的挖掘,因?yàn)殡S著信息化時(shí)代的到來,數(shù)據(jù)會(huì)越來越多,越來越復(fù)雜。如果其系統(tǒng)不能高效的工作,會(huì)很大程度上影響到數(shù)據(jù)挖掘的整體進(jìn)度。
(3)數(shù)據(jù)挖掘結(jié)果的準(zhǔn)確性、通俗性以及有效性也是數(shù)據(jù)挖掘所需要達(dá)到的,只有這幾方面都能滿足要求,才會(huì)能夠很好的服務(wù)客戶。
(4)隨著信息時(shí)代和科學(xué)技術(shù)的快速發(fā)展,人們也越來越關(guān)注到一些個(gè)人隱私。所以在對數(shù)據(jù)挖掘的過程中不應(yīng)該侵犯到他人的隱私。還有就是對挖掘出來的數(shù)據(jù)有一定的安全保護(hù)措施,防止數(shù)據(jù)丟失。
(5)挖掘出來的數(shù)據(jù)也應(yīng)該能夠及時(shí)的和現(xiàn)有的數(shù)據(jù)進(jìn)行結(jié)合和補(bǔ)充,這樣就能使數(shù)據(jù)得到更廣泛的應(yīng)用和利用。
5.數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域
隨著科技的不斷發(fā)展和信息化時(shí)代的到來,數(shù)據(jù)挖掘技術(shù)也取得了一些成就,在許多行業(yè)也得到了一定的應(yīng)用
(1)科學(xué)研究
因?yàn)樵S多科學(xué)研究的數(shù)據(jù)的大量性、復(fù)雜性使得一般的分析工具很大對數(shù)據(jù)進(jìn)行分析、提取,因此數(shù)據(jù)挖掘技術(shù)在這種情況下深受科學(xué)研究方面的廣大歡迎,其也在這個(gè)行業(yè)得到了快速的發(fā)展和應(yīng)用。通過數(shù)據(jù)挖掘在科學(xué)研究的應(yīng)用,促進(jìn)了科學(xué)的快速發(fā)展,使其能夠?yàn)樯鐣?huì)提供有價(jià)值的科學(xué)成果,為國家做出貢獻(xiàn)。
(2)風(fēng)險(xiǎn)分析和欺詐辨別
因?yàn)樵S多行業(yè)的數(shù)據(jù)存在具有龐大性、真假難辨性,所以對這些數(shù)據(jù)進(jìn)行挖掘分析,分析出有價(jià)值、真的數(shù)據(jù),防止因?yàn)榧俚臄?shù)據(jù)給我們帶來的不必要的麻煩。還可以經(jīng)過對數(shù)據(jù)的挖掘分析提高對風(fēng)險(xiǎn)的分析能力。還有就是一些行業(yè)的數(shù)據(jù)可能被不法分子利用對人們進(jìn)行欺詐,通過數(shù)據(jù)挖掘可以對這些數(shù)據(jù)進(jìn)行辨別,從而避免了經(jīng)濟(jì)損失。
(3)制造業(yè)的應(yīng)用
數(shù)據(jù)挖掘一般就是對制造業(yè)的制造部件的缺陷進(jìn)行分析,通過分析挖掘出能夠優(yōu)化制造部件的數(shù)據(jù),從而避免制造部件的缺陷。
(4)學(xué)校教育的應(yīng)用
學(xué)校的數(shù)據(jù)也是非常龐大、復(fù)雜的,因此數(shù)據(jù)挖掘也在學(xué)校的各個(gè)信息系統(tǒng)得到了一定的應(yīng)用。學(xué)校通過數(shù)據(jù)挖掘挖掘出對學(xué)校、老師、學(xué)生有價(jià)值的數(shù)據(jù),從而讓學(xué)??茖W(xué)的管理,老師更加高效的工作和教學(xué),學(xué)生更加高效的學(xué)習(xí)。
參考文獻(xiàn):
[1] Jiawei Han.Data Mining:Concepts and Techniques[M].機(jī)械工業(yè)出版社.2004
[2] 劉同明等.數(shù)據(jù)挖掘技術(shù)及其應(yīng)用[J].北京:國防工業(yè)出版社.2001.(9)
[3] 康曉東.基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)[J].北京:機(jī)械工業(yè)出版社.2004.(1):131~175
篇5
關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則
中圖分類號:TP311.13
1 數(shù)據(jù)挖掘技術(shù)
1.1 數(shù)據(jù)挖掘概念
所謂數(shù)據(jù)挖掘,簡單理解就是從海量數(shù)據(jù)中挖掘出對用戶有利用價(jià)值的信息,并根據(jù)分析結(jié)果判斷數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系。人們利用數(shù)據(jù)技術(shù)的主要目的就在于從混亂的數(shù)據(jù)信息中分析出能夠?qū)ξ磥斫?jīng)營策略有用的信息,進(jìn)而能夠更好更高效的經(jīng)營企業(yè),獲得更多經(jīng)營利潤。
1.2 數(shù)據(jù)挖掘技術(shù)分類
關(guān)于數(shù)據(jù)挖掘針對其挖掘的對象,大致的可以做出以下分類,具體分為時(shí)態(tài)數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫、文本數(shù)據(jù)源、關(guān)系數(shù)據(jù)庫面向?qū)ο髷?shù)據(jù)庫(Object-Oriented Database)、空間數(shù)據(jù)庫、遺產(chǎn)數(shù)據(jù)庫、多媒體數(shù)據(jù)庫以及web等比較具有針對性的挖掘?qū)ο蟆a槍?shù)據(jù)挖掘的方法大致的可以歸納為:計(jì)算機(jī)學(xué)習(xí)法、數(shù)理統(tǒng)計(jì)法、信息聚類分析法、遺傳算法Genetic Algorithm、神經(jīng)網(wǎng)絡(luò) Neural Network探索性分析法、不確定性推理和近似推理法、數(shù)據(jù)分析法、證據(jù)理論和元模式法、數(shù)據(jù)集成方法、當(dāng)代數(shù)學(xué)分析法等。
1.3 數(shù)據(jù)挖掘應(yīng)用分析
隨著當(dāng)前計(jì)算機(jī)技術(shù)和信息技術(shù)的飛速發(fā)展,數(shù)據(jù)分析已經(jīng)成為當(dāng)前各行各業(yè)的重要研究內(nèi)容,數(shù)據(jù)挖掘技術(shù)可以說是時(shí)展的產(chǎn)物。傳統(tǒng)意義上的數(shù)據(jù)收集已經(jīng)很難以應(yīng)付當(dāng)前數(shù)據(jù)信息瞬息萬變的局面,企業(yè)需要發(fā)展就需要高價(jià)值率的數(shù)據(jù)庫作保證。企業(yè)在市場競爭中,只有掌握了最為準(zhǔn)確的市場分析數(shù)據(jù),才能夠更好的去確定未來的發(fā)展方向,才能夠更好的提高資金利用率。高層次數(shù)據(jù)分析是很多企業(yè)所面臨的重點(diǎn)問題,不管是行政決策還是市場預(yù)判,均需要這類數(shù)據(jù)來提供可靠參考。所以,研究數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法具有非常重要的現(xiàn)實(shí)意義。
2 時(shí)態(tài)約束關(guān)聯(lián)規(guī)則挖掘問題及算法
2.1 聚焦挖掘任務(wù),提高挖掘效率
早期的數(shù)據(jù)挖掘理論主要研究方向是模型建立及挖掘算法設(shè)計(jì),不同企業(yè)所收集數(shù)據(jù)類型不同,所以在實(shí)際使用過程中模型及算法的確定也不同。傳統(tǒng)數(shù)據(jù)挖掘過程,首先需要做的是對提供的數(shù)據(jù)庫進(jìn)行全面分析,然后再結(jié)合用戶需求進(jìn)行更為深入細(xì)致的研究,制定出最佳數(shù)據(jù)挖掘模型,如果最終所得到的分析結(jié)果并未達(dá)到用戶滿意,則重新分析研究制定模型進(jìn)行二次數(shù)據(jù)挖掘。算法也是影響數(shù)據(jù)挖掘結(jié)果的關(guān)鍵,不同算法在不同模型下所得到的結(jié)果也不同,因此制定數(shù)據(jù)挖掘模型及算法是用戶是否能夠得到預(yù)期結(jié)果的重要參數(shù)。
2.2 保證挖掘的精確性
雖然數(shù)據(jù)挖掘的目的是為了能夠幫助用戶獲得更多有價(jià)值的參考結(jié)論,但其結(jié)果具有不可預(yù)測性的特點(diǎn)。數(shù)據(jù)挖掘過程中算法的運(yùn)用還會(huì)設(shè)計(jì)很多問題,這些問題的出現(xiàn)肯定會(huì)對最終的結(jié)果可靠性造成一定影響,因此必須要在算法中加入反饋機(jī)制,以便于在計(jì)算過程中對結(jié)果進(jìn)行測試和修正。
3 數(shù)據(jù)分割下的挖掘問題及算法
對于理論基礎(chǔ)比較成熟的算法――Apriori算法,研究的側(cè)重點(diǎn)已經(jīng)變?yōu)樾蕟栴},人們也提出了各種的改進(jìn)算法,本文選區(qū)幾種比較有代表性的加以介紹。
3.1 減少事務(wù)的個(gè)數(shù)
如果在事務(wù)處理過程中去除長度小于k的項(xiàng)目集,那么在后期計(jì)算過程中肯定不會(huì)再出現(xiàn)長度為k+1的項(xiàng)目集。因此,在數(shù)據(jù)挖掘過程中我們可以通過算法直接將無用事務(wù)濾除,以便于在下輪掃描過程中簡化操作過程,提高數(shù)據(jù)挖掘效率。
3.2 基于劃分的方法
這類算法的比較典型的是頻繁項(xiàng)目生成算法,該算法原理在于:把數(shù)據(jù)庫分解成邏輯上互不交叉的部分,而每次只需要單獨(dú)考慮一個(gè)分塊,在這樣的分塊中,研究怎樣能夠發(fā)掘頻繁項(xiàng)目集;而對于怎樣將數(shù)據(jù)進(jìn)入存儲(chǔ)中,可以把需要處理的分塊放入計(jì)算機(jī)內(nèi)存中,這樣有利于算法的并行處理,數(shù)據(jù)量相對于不分塊前減少,提高了數(shù)據(jù)挖掘的速度。
3.3 基于采樣的方法
數(shù)據(jù)庫抽樣計(jì)算的目的是獲得更直接的規(guī)則,進(jìn)而能夠方便于后期的數(shù)據(jù)挖掘過程,通過抽樣檢驗(yàn)我們可以更為直觀的判斷關(guān)聯(lián)規(guī)則是否有效,是否能夠更加簡便的獲得用戶所需目標(biāo)?;诓蓸拥臄?shù)據(jù)挖掘算法在實(shí)現(xiàn)方法上要容易一些,而且還可以最大限度的降低數(shù)據(jù)挖掘過程所需要提供的I/O成本。但同時(shí)這種算法也會(huì)使得抽樣數(shù)據(jù)隨機(jī)性大大增加,進(jìn)而使得數(shù)據(jù)挖掘過程中出現(xiàn)的問題增多,給數(shù)據(jù)挖掘帶來額外負(fù)擔(dān)?;诮y(tǒng)計(jì)學(xué)理論的抽樣算法,雖然在計(jì)算精度上無法與其他算法相媲美,但如果我們結(jié)合相關(guān)數(shù)據(jù)挖掘理論進(jìn)行更為深入的分析研究,還是能夠在精度上進(jìn)行一定的彌補(bǔ)。
4 交互式的可視化方法
關(guān)聯(lián)規(guī)則可視化研究是當(dāng)前關(guān)聯(lián)規(guī)則挖掘在數(shù)據(jù)挖掘技術(shù)走向?qū)嵱没闹匾獌?nèi)容之一,通過直觀的、易懂的方式展現(xiàn)給用戶是關(guān)聯(lián)規(guī)則挖掘是否能夠高效應(yīng)用的關(guān)鍵。當(dāng)前社會(huì)上可視化方法中使用最為廣泛的是有向圖、2D矩陣、3D顯示等幾種,這些方法中已經(jīng)在實(shí)際生活中得到了廣泛認(rèn)可。但它們均有一個(gè)共同的特點(diǎn)就是將數(shù)據(jù)挖掘所得到的所有結(jié)果一次性通過不同顏色或者不同形狀展現(xiàn)在表或者圖中,這種頁面顯示必然會(huì)存在一定的混亂性,以致于其顯示效果大打折扣。正是在這種前提下,交互式可視化方法受到了研究人員的關(guān)注。交互式可視化方法顯示方式為:
第一,從宏觀上來把握項(xiàng)與項(xiàng)之間存在的關(guān)系,通過不同圖形或者顏色來達(dá)到視覺突出的效果,進(jìn)而能夠讓用戶更加直觀的看到數(shù)據(jù)挖掘結(jié)果。關(guān)聯(lián)規(guī)則挖掘所得到的結(jié)果中不同項(xiàng)與項(xiàng)之間是使用線條連接起來的,在這種情況下,用戶可以通過了解某一個(gè)項(xiàng)其內(nèi)部的關(guān)聯(lián)信息,進(jìn)而解決由于線條過多而造成的頁面混亂情況。
第二,從微觀上更加精確的把握每一個(gè)關(guān)聯(lián)規(guī)則的支持度和信任度,通過數(shù)字化的形式來給出挖掘結(jié)果的表示比,進(jìn)而幫助用戶更直觀更準(zhǔn)確的獲得數(shù)據(jù)挖掘結(jié)果。
第三,從分類顯示的角度出發(fā),將數(shù)據(jù)挖掘所得出的沒有使用價(jià)值的規(guī)則剔除,通過不同圖形或者顏色來增加視覺效果,這樣從根本上提高了數(shù)據(jù)挖掘可視化目的。
5 結(jié)束語
數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法所包含的內(nèi)容有很多,本文只是簡單介紹了其中較為重要的一部分。在今后的工作中,筆者將繼續(xù)致力于該領(lǐng)域的研究工作,以期能夠獲得更多有價(jià)值的研究成果。
參考文獻(xiàn):
[1]孟海東,李丹丹,吳鵬飛.基于數(shù)據(jù)場的量化關(guān)聯(lián)規(guī)則挖掘方法設(shè)計(jì)[J].計(jì)算機(jī)與現(xiàn)代化,2013(01):8-11.
[2]陸新慧,吳陳,楊習(xí)貝.空間關(guān)聯(lián)規(guī)則挖掘技術(shù)的研究及應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013(05):26-29+33.
[3]劉愛宏,史春燕.基于數(shù)據(jù)挖掘的現(xiàn)代物流信息系統(tǒng)管理問題研究[J].物流技術(shù),2013(09):381-383.
篇6
1 空間數(shù)據(jù)挖掘研究概述
空間數(shù)據(jù)挖掘(spatial Data Mining,簡稱SDM),是指從空間數(shù)據(jù)庫中提取用戶感興趣的空間模式、普遍關(guān)系、數(shù)據(jù)特征的過程。空間數(shù)據(jù)挖掘技術(shù)綜合數(shù)據(jù)挖掘技術(shù)與空間數(shù)據(jù)庫技術(shù),可用于對空間數(shù)據(jù)的理解、空間關(guān)系和空間與非空間關(guān)系的發(fā)現(xiàn)、空間知識庫的構(gòu)造以及空間數(shù)據(jù)庫的重組和查詢的優(yōu)化等,其根本目標(biāo)是把大量的原始數(shù)據(jù)轉(zhuǎn)換成有價(jià)值的知識,發(fā)現(xiàn)大量的地學(xué)信息中所隱含的規(guī)則。
空間數(shù)據(jù)挖掘是計(jì)算機(jī)技術(shù)、數(shù)據(jù)庫應(yīng)用技術(shù)和管理決策支持技術(shù)等多學(xué)科交叉發(fā)展的新興邊緣學(xué)科,一般來說,空間數(shù)據(jù)挖掘可分成空間分類、空間聚類、空間趨勢分析和空間關(guān)聯(lián)規(guī)則四類??臻g分類的目的是在空間數(shù)據(jù)庫對象的空間屬性和非空間屬性之間發(fā)現(xiàn)分類規(guī)則,是近年來空間數(shù)據(jù)挖掘領(lǐng)域中比較活躍的一個(gè)方向,常用的方法是決策樹??臻g聚類是在一個(gè)比較大的多維數(shù)據(jù)集中根據(jù)距離的度量找出簇或稠密區(qū)域,目前提出的空間聚類方法有基于分割的方法、基于層次的方法、基于密度的方法和基于棚格的方法??臻g趨勢分析指離開一個(gè)給定的起始對象時(shí)非空間屬性的變化情況,例如,當(dāng)離城市中心越來越遠(yuǎn)時(shí)經(jīng)濟(jì)形勢的變化趨勢,空間趨勢分析需要使用回歸和相關(guān)的分析方法??臻g關(guān)聯(lián)規(guī)則是指空間鄰接圖中對象之間的關(guān)聯(lián),空間關(guān)聯(lián)挖掘多采用逐步求精的優(yōu)化思想,即首先用一種快速的算法粗略地對初始空間數(shù)據(jù)庫進(jìn)行一次挖掘,然后再在裁剪過的數(shù)據(jù)庫上用代價(jià)高的算法進(jìn)行進(jìn)一步精化挖掘。
空間數(shù)據(jù)挖掘過程一般可分為數(shù)據(jù)篩選(消除原始數(shù)據(jù)的噪聲或不一致數(shù)據(jù))、數(shù)據(jù)集成(將多種數(shù)據(jù)源組合在一起)、數(shù)據(jù)選擇(根據(jù)用戶的要求從空間數(shù)據(jù)庫中提取與空間數(shù)據(jù)挖掘相關(guān)的數(shù)據(jù))、數(shù)據(jù)變換(將數(shù)據(jù)統(tǒng)一成適合挖掘的形式)、空間數(shù)據(jù)挖掘(運(yùn)用選定的知識發(fā)現(xiàn)算法,從數(shù)據(jù)中提取用戶所需的知識)、模式評估(根據(jù)某種興趣度度量并識別表示知識的真正有趣的模式),知識表示(使用可視化技術(shù)和知識表示技術(shù),向用戶提供挖掘的知識)等階段(見圖1)??臻g數(shù)據(jù)挖掘?qū)嶋H上是一個(gè)“人引導(dǎo)機(jī)器,機(jī)器幫助人”的交互理解數(shù)據(jù)的過程。
2 空間數(shù)據(jù)挖掘在GIS中的應(yīng)用
空間數(shù)據(jù)挖掘技術(shù)與地理信息系統(tǒng)(GIS)的結(jié)合具有非常廣泛的應(yīng)用空間。數(shù)據(jù)挖掘與GIs集成具有三種模式:其一為松散耦合式,也稱外部空間數(shù)據(jù)挖掘模式,這種模式基本上將GIS當(dāng)作一個(gè)空間數(shù)據(jù)庫看待,在G IS環(huán)境外部借助其它軟件或計(jì)算機(jī)語言進(jìn)行空間數(shù)據(jù)挖掘,與GIS之間采用數(shù)據(jù)通訊的方式聯(lián)系。其二為嵌入式,又稱內(nèi)部空間數(shù)據(jù)挖掘模式,即在GIs中將空間數(shù)據(jù)挖掘技術(shù)融合到空間分析功能中去。第三為混合型空間模型法,是前兩種方法的結(jié)合,即盡可能利用GIS提供的功能,最大限度的減少用戶自行開發(fā)的工作量和難度,又可以保持外部空間數(shù)據(jù)挖掘模式的靈活性。
利用空間數(shù)據(jù)挖掘技術(shù)可以從空間數(shù)據(jù)庫中發(fā)現(xiàn)如下幾種主要類型的知識:普遍的幾何知識、空間分布規(guī)律、空間關(guān)聯(lián)規(guī)律、空間聚類規(guī)則、空間特征規(guī)則、空間區(qū)分規(guī)則,空間演變規(guī)則、面向?qū)ο蟮闹R。目前,這些知識已比較成熟地應(yīng)用于軍事、土地、電力、電信、石油和天然氣、城市規(guī)劃、交通運(yùn)輸、環(huán)境監(jiān)測和保護(hù)、110和1 20快速反應(yīng)系統(tǒng)等資源管理和城市管理領(lǐng)域。在市場分析、企業(yè)客戶關(guān)系管理、銀行保險(xiǎn)、人口統(tǒng)計(jì)、房地產(chǎn)開發(fā)、個(gè)人位置服務(wù)等領(lǐng)域也正得到廣泛關(guān)注與應(yīng)用,實(shí)際上,它正在深入到人們工作和生活的各個(gè)方面。
3 空間數(shù)據(jù)挖掘面臨的問題
(1) 多數(shù)空間數(shù)據(jù)挖掘算法是由一般的數(shù)據(jù)挖掘算法移植而來,并沒有考慮空間數(shù)據(jù)存儲(chǔ)、處理及空間數(shù)據(jù)本身的特點(diǎn)??臻g數(shù)據(jù)不同于關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),它有其特有的空間數(shù)據(jù)訪問方法,因而傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)往往不能很好地分析復(fù)雜的空間現(xiàn)象和空間對象。
(2) 空間數(shù)據(jù)挖掘算法的效率不高,發(fā)現(xiàn)模式不精練。面對海量的數(shù)據(jù)庫系統(tǒng),在空間數(shù)據(jù)挖掘過程中出現(xiàn)不確定性、錯(cuò)誤模式的可能性和待解決問題的維數(shù)都很大,不僅增大了算法的搜索空間,也增加了盲目搜索的可能性。因而必須利用領(lǐng)域知識發(fā)現(xiàn)、去除與任務(wù)無關(guān)的數(shù)據(jù),有效地降低問題的維數(shù),設(shè)計(jì)出更有效的知識發(fā)現(xiàn)算法。
(3) 沒有公認(rèn)的標(biāo)準(zhǔn)化空間數(shù)據(jù)挖掘查詢語言。數(shù)據(jù)庫技術(shù)飛速發(fā)展的原因之一就是數(shù)據(jù)庫查詢語言的不斷完善和發(fā)展,因此,要不斷完善和發(fā)展空間數(shù)據(jù)挖掘就必須發(fā)展空間數(shù)據(jù)挖掘查詢語言。為高效的空間數(shù)據(jù)挖掘奠定基礎(chǔ)。
(4) 空間數(shù)據(jù)挖掘知識發(fā)現(xiàn)系統(tǒng)交互性不強(qiáng),在知識發(fā)現(xiàn)過程中很難充分有效地利用領(lǐng)域?qū)<抑R,用戶不能很好掌控空間數(shù)據(jù)挖掘過程。
(5) 空間數(shù)據(jù)挖掘方法和任務(wù)單一,基本上都是針對某個(gè)特定的問題,因而能夠發(fā)現(xiàn)的知識有限。
(6) 空間數(shù)據(jù)挖掘與其他系統(tǒng)的集成不夠,忽視了GIS在空間知識發(fā)現(xiàn)過程中的作用。一個(gè)方法和功能單一的空間數(shù)據(jù)挖掘系統(tǒng)的適用范圍必然受到很多限制,目前開發(fā)的知識系統(tǒng)僅局限于數(shù)據(jù)庫領(lǐng)域,如果要在更廣闊的領(lǐng)域發(fā)現(xiàn)知識,知識發(fā)現(xiàn)系統(tǒng)就應(yīng)該是數(shù)據(jù)庫、知識庫、專家系統(tǒng)、決策支持系統(tǒng)、可視化工具、網(wǎng)絡(luò)等多項(xiàng)技術(shù)集成的系統(tǒng)。
上述問題使得從空間數(shù)據(jù)庫中提取知識比從傳統(tǒng)的關(guān)系數(shù)據(jù)庫中提取知識更為困難,這給空間數(shù)據(jù)挖掘研究帶來了挑戰(zhàn)。因此,空間數(shù)據(jù)挖掘在未來的發(fā)展中,還有很多理論和方法有待深入研究。
4 空間數(shù)據(jù)挖掘的發(fā)展趨勢
(1)空間數(shù)據(jù)挖掘算法和技術(shù)的研究??臻g關(guān)聯(lián)規(guī)則挖掘算法、時(shí)間序列挖掘技術(shù)、空間同位算法、空間分類技術(shù)、空間離群算法等是空間數(shù)據(jù)挖掘研究的熱點(diǎn),同時(shí)提高空間數(shù)據(jù)挖掘算法的效率也很重要。
(2) 多源空間數(shù)據(jù)的預(yù)處理??臻g數(shù)據(jù)內(nèi)容包括數(shù)字線劃數(shù)據(jù)、影像數(shù)據(jù)、數(shù)字高程模型和地物的屬性數(shù)據(jù),由于其本身的復(fù)雜性與數(shù)據(jù)采集的困難,空間數(shù)據(jù)中不可避免地存在著空缺值、噪聲數(shù)據(jù)及不一致數(shù)據(jù),多源空間數(shù)據(jù)的預(yù)處理就顯得格外重要。
(3)其他各種空間數(shù)據(jù)挖掘及其相關(guān)技術(shù)研究。如網(wǎng)絡(luò)環(huán)境下的空間數(shù)據(jù)挖掘、可視化數(shù)據(jù)挖掘、柵格矢量-體化空間數(shù)據(jù)挖掘、背景知識概念樹的自動(dòng)生成、基于空間不確定性(位置、屬性、時(shí)問等) 的數(shù)據(jù)挖掘、遞增式數(shù)據(jù)挖掘、多分辨率及多層次數(shù)據(jù)挖掘、并行數(shù)據(jù)挖掘、遙感圖像數(shù)據(jù)庫的數(shù)據(jù)挖掘、多媒體空間數(shù)據(jù)庫的知識發(fā)現(xiàn)等。
篇7
[關(guān)鍵詞]數(shù)據(jù)挖掘 企業(yè) 應(yīng)用
[中圖分類號]TP[文獻(xiàn)標(biāo)識碼]A[文章編號]1007-9416(2010)02-0079-02
1 前言
數(shù)據(jù)挖掘能幫助企業(yè)減少不必要投資的同時(shí)提高資金回報(bào)。數(shù)據(jù)挖掘給企業(yè)帶來的潛在的投資回報(bào)幾乎是無止境的。世界范圍內(nèi)具有創(chuàng)新性的公司都開始采用數(shù)據(jù)挖掘技術(shù)來判斷哪些是他們的最有價(jià)值客戶、重新制定他們的產(chǎn)品推廣策略,以用最小的花費(fèi)得到最好的銷售。
2 數(shù)據(jù)挖掘概述
數(shù)據(jù)挖掘是一種決策支持過程,是一類深層次的數(shù)據(jù)分析方法。它主要基于AI、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等技術(shù),高度自動(dòng)化地分析企業(yè)原有的數(shù)據(jù),作出歸納性地推理,從中挖掘出潛在的模式,預(yù)測客戶行為,幫助企業(yè)的決策者調(diào)整市場策略,減少風(fēng)險(xiǎn),做出正確的決策。數(shù)據(jù)挖掘的商業(yè)應(yīng)用可以描述為:按企業(yè)既定業(yè)務(wù)目標(biāo),對大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性,并進(jìn)一步將其模型化的先進(jìn)有效的方法。數(shù)據(jù)挖掘是一個(gè)利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間關(guān)系的過程,這些模型和關(guān)系可以用來做出預(yù)測。數(shù)據(jù)挖掘,還可以稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database, KDD),是從大量數(shù)據(jù)中提取出可信、新穎、有效并能被人理解的信息的高級處理過程。
2.1 數(shù)據(jù)挖掘是在數(shù)據(jù)庫技術(shù)、人工智能技術(shù)、概率與數(shù)理統(tǒng)計(jì)的基礎(chǔ)上發(fā)展起來的一種的技術(shù)。
2.1.1 數(shù)據(jù)庫技術(shù)
SQL統(tǒng)治數(shù)據(jù)庫查詢語言標(biāo)準(zhǔn)三十多年這一事實(shí)本身就與現(xiàn)在 IT 發(fā)展的節(jié)拍不符,難道我們“只會(huì)查詢”嗎?所以就有很多專家紛紛轉(zhuǎn)向數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù),從數(shù)據(jù)查詢轉(zhuǎn)向數(shù)據(jù)挖掘、從數(shù)據(jù)演繹轉(zhuǎn)向數(shù)據(jù)歸納。傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)的體系結(jié)構(gòu)也過于瘦少,只有不協(xié)調(diào)的兩層,這樣的結(jié)構(gòu)就造成了只有程序員能編程,老板只能求助于這些“專家”。
2.1.2 人工智能技術(shù)
人工智能技術(shù)的三大難題:“知識獲取、知識表示、缺乏常識”直接制約了它在現(xiàn)實(shí)技術(shù)市場上的作為。而在與數(shù)據(jù)倉庫技術(shù)的結(jié)合上,它可以發(fā)揮重要作用,這使得它轉(zhuǎn)向數(shù)據(jù)挖掘技術(shù)。
2.1.3 概率與數(shù)理統(tǒng)計(jì)
數(shù)理統(tǒng)計(jì)技術(shù)是應(yīng)用數(shù)學(xué)中最重要、最活躍的學(xué)科。但在與數(shù)據(jù)庫技術(shù)的結(jié)合上作為有限,這從 SQL 中那可憐的幾條匯總函數(shù)便可看出。隨著數(shù)據(jù)挖掘?qū)Σ樵?、歸納對演繹需求的進(jìn)化,概率與數(shù)理統(tǒng)計(jì)將獲得新的生命力。
2.2 數(shù)據(jù)挖掘中最常用的技術(shù):
2.2.1 工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks)
人工神經(jīng)網(wǎng)絡(luò)是仿照生理神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的非線性預(yù)測模型,通過學(xué)習(xí)進(jìn)行模式識別。神經(jīng)網(wǎng)絡(luò)常用于兩類問題:分類和回歸。在結(jié)構(gòu)上,可以把一個(gè)神經(jīng)網(wǎng)絡(luò)劃分為輸入層、輸出層和隱含層。而神經(jīng)網(wǎng)絡(luò)的知識體現(xiàn)在網(wǎng)絡(luò)連接的權(quán)值上,是一個(gè)分布式矩陣結(jié)構(gòu);神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)體現(xiàn)在神經(jīng)網(wǎng)絡(luò)權(quán)值的逐步計(jì)算上,為的是防止訓(xùn)練過度和控制訓(xùn)練的速度,如圖1所示:
2.2.2 決策樹 (Decision Tree)
決策樹方法是利用信息論中的互信息(信息增益)尋找數(shù)據(jù)庫中具有最大信息量的屬性字段,建立決策樹的一個(gè)節(jié)點(diǎn),再根據(jù)概述性字段的不同取值建立樹的分支;在每個(gè)分支子集中重復(fù)建立樹的下層節(jié)點(diǎn)和分支過程。決策樹的基本組成部分:決策節(jié)點(diǎn)、分支和葉子。比如,在貸款申請中,要對申請的風(fēng)險(xiǎn)大小做出判斷,為了解決這個(gè)問題而建立的一棵決策樹,如圖2所示:
2.2.3 臨近搜索方法(Nearest Neighbor Method)
臨近搜索方法將數(shù)據(jù)集合中每一個(gè)記錄進(jìn)行分類的方法。
2.2.4 規(guī)則推理(Rule Induction)
從統(tǒng)計(jì)意義上對數(shù)據(jù)中的“如果-那么”規(guī)則進(jìn)行尋找和推導(dǎo)。
2.3 數(shù)據(jù)挖掘步驟
數(shù)據(jù)挖掘的數(shù)據(jù)分析過程可以分為三個(gè)步驟:
2.3.1 確定業(yè)務(wù)對象
清晰地定義出業(yè)務(wù)問題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步,挖掘的最后結(jié)構(gòu)是不可預(yù)測的,但要探索的問題應(yīng)是有預(yù)見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會(huì)成功的。
2.3.2 數(shù)據(jù)準(zhǔn)備(Data Preparation)
本階段又可進(jìn)一步細(xì)分為兩步:數(shù)據(jù)集成、數(shù)據(jù)選擇和預(yù)分析。
(1)集成(Integration)。在這一步中,將從操作型環(huán)境中提取并集成數(shù)據(jù),解決語義二義問題,消除臟數(shù)據(jù)等等。很明顯,數(shù)據(jù)集成的目的和所利用的技術(shù)與數(shù)據(jù)倉庫的數(shù)據(jù)集成完全一致,都是為了建立統(tǒng)一的數(shù)據(jù)視圖。數(shù)據(jù)挖掘不一定需要建立在數(shù)據(jù)倉庫的基礎(chǔ)上,但如果數(shù)據(jù)挖掘與數(shù)據(jù)倉庫能協(xié)同工作,則必將大大地提高數(shù)據(jù)挖掘的工作效率。
(2)數(shù)據(jù)選擇和預(yù)分析(Data Selection and Pre-Analysis)。這一步將負(fù)責(zé)縮小數(shù)據(jù)范圍,提高數(shù)據(jù)挖掘的質(zhì)量,前面提到的驗(yàn)證型工具長于對數(shù)據(jù)的細(xì)致,深入地觀察和表述,在這一步中可以發(fā)揮相當(dāng)?shù)淖饔谩?/p>
2.3.3 挖掘(Mining)
數(shù)據(jù)挖掘(Data Mining processor)綜合利用前面提到的四種數(shù)據(jù)挖掘方法分析數(shù)據(jù)庫中的數(shù)據(jù)。
2.3.4 表述(Presentation)
與驗(yàn)證型工具一樣,數(shù)據(jù)挖掘?qū)@取的信息以便于用戶理解和觀察的方式反映給用戶,這時(shí)可以利用可視化工具。由于用戶要求的不同,DM分析的數(shù)據(jù)的范圍會(huì)有所不同,這樣DM系統(tǒng)會(huì)得出不同的結(jié)論。這些基于不同數(shù)據(jù)集合的分析結(jié)果除了通過可視化工具提供給用戶外還可以存儲(chǔ)在知識庫中,供日后進(jìn)一步分析和比較。
2.3.5 評價(jià)(Assess)
如果分析人員對分析結(jié)果不滿意,可以遞歸的執(zhí)行上述三個(gè)過程,直到滿意為止。
3 數(shù)據(jù)挖掘在企業(yè)決策過程中的作用
3.1 數(shù)據(jù)挖掘的功能
數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘就是對海量數(shù)據(jù)進(jìn)行精加工。嚴(yán)格地說,數(shù)據(jù)挖掘是一種技術(shù),從大量的數(shù)據(jù)中抽取出潛在的、不為人知的有價(jià)值信息、模式和趨勢,然后以易于理解的可視化形式表達(dá)出來,其目的是為了提高市場決策能力、檢測異常模式、控制可預(yù)見風(fēng)險(xiǎn)、在經(jīng)驗(yàn)?zāi)P突A(chǔ)上預(yù)言未來趨勢等。數(shù)據(jù)挖掘技術(shù)在商業(yè)領(lǐng)域已經(jīng)不是一個(gè)新名詞,最早成功應(yīng)用于高投入、高風(fēng)險(xiǎn)、高回報(bào)的金融領(lǐng)域,正在不斷向電信、保險(xiǎn)、零售等客戶資源信息密集的行業(yè)拓展。美國財(cái)富雜志500強(qiáng)之一的第一數(shù)據(jù)公司(First Data Corp.)就在為第一國家銀行(First National Bank)、美國在線交易(Ameritrade holding Co.)、奧馬哈保險(xiǎn)公司(Mutual of Omaha Co.)等著名的金融證券和保險(xiǎn)公司提供數(shù)據(jù)挖掘的產(chǎn)品服務(wù),這些企業(yè)在風(fēng)險(xiǎn)控制、挖掘客戶、降低成本方面的年收益數(shù)以億計(jì)。
3.2 在企業(yè)決策過程中利用數(shù)據(jù)挖掘的作用
本文為全文原貌 未安裝PDF瀏覽器用戶請先下載安裝 原版全文
目前,商業(yè)數(shù)據(jù)挖掘的應(yīng)用重點(diǎn)集中在對企業(yè)內(nèi)部信息資源的加工處理,指導(dǎo)企業(yè)運(yùn)營的戰(zhàn)術(shù)策略的實(shí)施。具體地說,就是在以客戶需求為價(jià)值源泉、進(jìn)銷存為價(jià)值鏈的各環(huán)節(jié)進(jìn)行數(shù)據(jù)增值分析,并將分析結(jié)果迅速向鏈條的上一環(huán)節(jié)傳遞,調(diào)整鏈條上游的執(zhí)行達(dá)到改善下游環(huán)節(jié)執(zhí)行結(jié)果的目的,最終形成以客戶終端需求為導(dǎo)向的價(jià)值增值。
部分企業(yè)資源計(jì)劃軟件中集成了對計(jì)劃、生產(chǎn)、產(chǎn)品銷售進(jìn)行數(shù)據(jù)挖掘的模塊,能夠提供商業(yè)智能的分析結(jié)果;另外,客戶需求的價(jià)值鏈終端是另一個(gè)數(shù)據(jù)挖掘技術(shù)應(yīng)用的重點(diǎn),客戶關(guān)系管理的目的就是創(chuàng)造、挽留客戶并不斷升級對客戶的服務(wù),以保證企業(yè)利潤的持續(xù)增長?!耙钥蛻魹橹行摹钡臄?shù)據(jù)挖掘內(nèi)容涵蓋了客戶需求分析、客戶忠誠度分析、客戶等級評估分析等三部分,有些還包括產(chǎn)品銷售。
客戶需求分析包括:消費(fèi)習(xí)慣、消費(fèi)頻度、產(chǎn)品類型、服務(wù)方式、交易歷史記錄、需求變化趨勢等因素分析。
客戶忠誠度分析包括:客戶服務(wù)持續(xù)時(shí)間、交易總數(shù)、客戶滿意程度、客戶地理位置分布、客戶消費(fèi)心理等因素分析。
客戶等級評估分析包括:客戶消費(fèi)規(guī)模、消費(fèi)行為、客戶履約情況、客戶信用度等因素分析。
產(chǎn)品銷售分析包括:區(qū)域市場、渠道市場、季節(jié)銷售等因素分析。
然而,數(shù)據(jù)挖掘不僅僅用于客戶關(guān)系管理,ERP更不能夠完全覆蓋數(shù)據(jù)挖掘的整個(gè)內(nèi)涵。企業(yè)數(shù)據(jù)挖掘的內(nèi)容不僅包括企業(yè)的內(nèi)部信息資源,更包括大量的企業(yè)外部信息資源。商業(yè)數(shù)據(jù)挖掘的下一個(gè)應(yīng)用熱點(diǎn)將建立在兩類信息資源充分整合的基礎(chǔ)上。
相對于內(nèi)部信息資源而言,企業(yè)外部的宏觀政策環(huán)境、市場需求動(dòng)向和競爭對手情報(bào)等信息資源左右著企業(yè)戰(zhàn)略決策與宏觀發(fā)展規(guī)劃,也直接決定企業(yè)市場戰(zhàn)術(shù)策略的實(shí)施,所以對信息資源的整合利用以及競爭情報(bào)分析將成為企業(yè)級數(shù)據(jù)挖掘應(yīng)用的重點(diǎn)。
以IBM為例,為了導(dǎo)正企業(yè)戰(zhàn)略決策方向,IBM于1993年提出三項(xiàng)競爭策略:立即加強(qiáng)對競爭對手的研究、建立一個(gè)協(xié)調(diào)統(tǒng)一的競爭情報(bào)運(yùn)行機(jī)制以及將可操作的競爭情報(bào)運(yùn)用于公司戰(zhàn)略、市場計(jì)劃及銷售策略。其新的競爭策略通過研究市場格局和競爭對手的狀況、合理定位并改善自身的產(chǎn)品和服務(wù)兩個(gè)途徑有效地提升了企業(yè)核心競爭力,采用的競爭情報(bào)運(yùn)行機(jī)制及競爭情報(bào)規(guī)劃能夠把全公司的競爭情報(bào)力量集中于主要的競爭對手和主要威脅,不斷地優(yōu)化現(xiàn)有的情報(bào)資源。
隨著企業(yè)市場競爭的日益加劇,企業(yè)競爭情報(bào)已經(jīng)不限于原有意義上的數(shù)據(jù)采集、整理、分類、的概念,“在線”需求逐步超越“離線”需求,“受動(dòng)式服務(wù)”正為“主動(dòng)式、自助式”服務(wù)所取代,數(shù)據(jù)挖掘技術(shù)已經(jīng)成為“信息分析”這個(gè)企業(yè)競爭情報(bào)系統(tǒng)中核心模塊的技術(shù)支撐?!皵?shù)據(jù)在線服務(wù)”和“競爭情報(bào)個(gè)性化服務(wù)”將成為企業(yè)級數(shù)據(jù)挖掘應(yīng)用的新熱點(diǎn)需求,也將成為知識經(jīng)濟(jì)下新興的數(shù)據(jù)服務(wù)模式。
4 結(jié)語
數(shù)據(jù)挖掘的核心技術(shù)是人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等,但一個(gè)DM系統(tǒng)不是多項(xiàng)技術(shù)的簡單組合,而是一個(gè)完整的整體,它還需要其他輔助技術(shù)的支持,才能完成數(shù)據(jù)采集、預(yù)處理、數(shù)據(jù)分析、結(jié)果表述這一系列任務(wù),最后將分析結(jié)果呈現(xiàn)在用戶面前。
[參考文獻(xiàn)]
[1] 胡百敬,SQL Server 2000 數(shù)據(jù)轉(zhuǎn)換服務(wù)[M],北京:中國鐵道出版社,2003.1.
[2] Reed Jacobson,SQL Server 2000 Analysis services 學(xué)習(xí)指南[M].北京:機(jī)械工業(yè)出版社,2001.
[3] 韓加煒J.(Han,JiaWei),數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2001.
[4] 陳京民,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M],北京:電子工業(yè)出版社,2002.
[5] 李真文, SQL Server 2000 開發(fā)人員指南[M].北京:北京希望電子出版社,2001.
[6] 石鈞.ADO編程技術(shù)[M].北京:清華大學(xué)出版社,2001.
[7] Jared Jackson,Jussi Myllymaki,基于Web的數(shù)據(jù)挖掘[C].網(wǎng)站獲取,2001.6.
篇8
1、數(shù)據(jù)挖掘技術(shù)的概念、功能及優(yōu)點(diǎn)
數(shù)據(jù)挖掘(Data Mining),從名字來看就是從大量復(fù)雜的數(shù)據(jù)信息中挖掘出有利用價(jià)值的信息。通常,這些大量的復(fù)雜的數(shù)據(jù)信息都被認(rèn)為是隨機(jī)的、模糊的、不完全的、有噪音的,完全沒有進(jìn)行處理的信息。然而經(jīng)過挖掘之后,這些原本看似沒有任何利用價(jià)值的信息,就會(huì)呈現(xiàn)出一種新穎、有效、潛在有用的狀態(tài),最終為人們的生活與生產(chǎn)提供便利。這種信息數(shù)據(jù)的處理變化過程,就常常被稱作是數(shù)據(jù)挖掘。它也可以理解成是在一些觀察數(shù)據(jù)或事實(shí)的集合中找正確模式的決策支持過程。數(shù)據(jù)挖掘是一門涉及面極其廣大的交叉學(xué)科,它可以簡單的認(rèn)為是經(jīng)濟(jì)信息轉(zhuǎn)換的一個(gè)過程,同時(shí)它還包含了機(jī)器學(xué)習(xí)、模式識別、數(shù)據(jù)庫、數(shù)理統(tǒng)計(jì)、神經(jīng)網(wǎng)絡(luò)、模糊數(shù)學(xué)等相關(guān)技術(shù)。
數(shù)據(jù)挖掘的大體步驟是:數(shù)據(jù)的準(zhǔn)備、數(shù)據(jù)的挖掘、結(jié)果的分析。在這樣一個(gè)完整的過程中,處于核心地位的就是數(shù)據(jù)的挖掘。而它的功能主要包括數(shù)據(jù)的聚類、模型的預(yù)測、分析等。除此之外,在挖掘信息數(shù)據(jù)的過程中,通常還會(huì)牽涉到其它方面的技術(shù),比如鏈接分析、聚集檢測、關(guān)聯(lián)規(guī)則等。
數(shù)據(jù)挖掘主要功能有:預(yù)測模型、分類、數(shù)據(jù)聚類、數(shù)據(jù)總結(jié)、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、序列模式發(fā)現(xiàn)等。根據(jù)數(shù)據(jù)挖掘技術(shù)的作用和特點(diǎn)來看,它具備的優(yōu)點(diǎn)是:它具有自動(dòng)找出有價(jià)值的數(shù)據(jù)信息的功能;它能夠處理大量的數(shù)據(jù)信息;它反映數(shù)據(jù)信息快速有效;它能夠有效的對數(shù)據(jù)信息進(jìn)行分析與評判,描繪過去和未來。
2、數(shù)據(jù)挖掘在經(jīng)濟(jì)統(tǒng)計(jì)中的體現(xiàn)
對于經(jīng)濟(jì)統(tǒng)計(jì)問題,對于我們所要探究的問題一定要定義,并且確定此次數(shù)據(jù)挖掘的目的。1.數(shù)據(jù)準(zhǔn)備。就是對我們即將要面對的經(jīng)濟(jì)問題中所涉及到的數(shù)據(jù)進(jìn)行相應(yīng)的采集,做好預(yù)處理這些工作,最終使數(shù)據(jù)得到簡化,使后續(xù)工作能順利進(jìn)行。2.數(shù)據(jù)挖掘。根據(jù)數(shù)據(jù)的特點(diǎn)以及數(shù)據(jù)的類型選擇相適應(yīng)的算法,利用統(tǒng)計(jì)、人工智能等方法,去挖掘有利用價(jià)值的信息3.結(jié)果分析。對第二步得到的結(jié)果進(jìn)行充分的分析和評估,同時(shí)也是通過這一步驟反過來去調(diào)整上面,來得到更好的方法,從而讓結(jié)果更加真實(shí)。4.知識的運(yùn)用。將得到的最符合實(shí)際的結(jié)果應(yīng)用到現(xiàn)實(shí)的經(jīng)濟(jì)問題中去,使得經(jīng)濟(jì)能更好的運(yùn)行和發(fā)展。
3、數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計(jì)中的可行性研究
3.1 能為經(jīng)濟(jì)統(tǒng)計(jì)提供有效的服務(wù)
數(shù)據(jù)挖掘技術(shù)雖然經(jīng)歷的時(shí)間不是很長,然而,它的研究與應(yīng)用水平已達(dá)到了一種相對穩(wěn)定的狀態(tài)。隨著科學(xué)技術(shù)的不斷發(fā)展,數(shù)據(jù)挖掘技術(shù)在各國也普遍受到關(guān)注,特別是在經(jīng)濟(jì)統(tǒng)計(jì)領(lǐng)域。數(shù)據(jù)挖掘技術(shù)能夠這樣的的迅速發(fā)展,在很大程度上也是依賴于它對經(jīng)濟(jì)統(tǒng)計(jì)的有效服務(wù)。
3.2 能夠?yàn)榻?jīng)濟(jì)統(tǒng)計(jì)的不同需要提供不同的需求
目前,最常見的數(shù)據(jù)挖掘工具主要有綜合工具、通用型工具、和面向特定應(yīng)用的工具。綜合工具,不僅能夠?yàn)樘幱谏虡I(yè)中的經(jīng)濟(jì)體拿出有效的管理報(bào)告,并且還能夠?qū)ζ胀ń?jīng)濟(jì)結(jié)構(gòu)中的數(shù)據(jù)信息經(jīng)行深入挖掘。通用型工,在市場上占最大比例,在應(yīng)用方面最為成熟的挖掘工具。面向特定應(yīng)用工具,從字面來理解,這種工具就是針對特定領(lǐng)域來提供服務(wù)的,具有很強(qiáng)的特別性。
3.3 建立宏觀經(jīng)濟(jì)數(shù)據(jù)庫,為數(shù)據(jù)挖掘的應(yīng)用提供了良好的電子平臺(tái)
在目前的情況下,全國范圍內(nèi)的大部分經(jīng)濟(jì)統(tǒng)計(jì)部門主要使用的還是應(yīng)用統(tǒng)計(jì)系統(tǒng)。大部分經(jīng)濟(jì)統(tǒng)計(jì)的數(shù)據(jù)信息都處于一種不相聚分散的狀態(tài),并沒有形成一套有效的管理系統(tǒng)。經(jīng)濟(jì)統(tǒng)計(jì)過程中一旦出現(xiàn)問題,嚴(yán)重的就會(huì)導(dǎo)致經(jīng)濟(jì)數(shù)據(jù)的有效性與準(zhǔn)確性受到影響。然而,當(dāng)建立了宏觀經(jīng)濟(jì)數(shù)據(jù)庫以后,以上問題就可以尋找到有效的解決辦法。當(dāng)宏觀經(jīng)濟(jì)數(shù)據(jù)庫與數(shù)據(jù)挖掘技術(shù)一起合理運(yùn)用,就能保證挖掘到的信息準(zhǔn)確、真實(shí)。這樣的情況下,在經(jīng)濟(jì)統(tǒng)計(jì)中數(shù)據(jù)挖掘技術(shù)就能為其提供更好的服務(wù),不僅滿足了現(xiàn)實(shí)中經(jīng)濟(jì)發(fā)展的需要,同時(shí)也為經(jīng)濟(jì)決策的制定提供了準(zhǔn)確、重要的依據(jù)。
4、數(shù)據(jù)挖掘在經(jīng)濟(jì)統(tǒng)計(jì)中的應(yīng)用
正是由于對數(shù)據(jù)的大量收集、數(shù)據(jù)算法的產(chǎn)生、經(jīng)濟(jì)數(shù)據(jù)庫的出現(xiàn)、先進(jìn)的計(jì)算機(jī)技術(shù)、對數(shù)據(jù)進(jìn)行精深統(tǒng)計(jì)方法計(jì)算的能力、數(shù)據(jù)訪問速度的提升等一系列東西的出現(xiàn),使得數(shù)據(jù)挖掘技術(shù)的作用越來越廣泛。由于經(jīng)濟(jì)統(tǒng)計(jì)中數(shù)據(jù)的實(shí)用性和準(zhǔn)確性的需要,數(shù)據(jù)挖掘技術(shù)也開始慢慢在經(jīng)濟(jì)統(tǒng)計(jì)中大展身手。數(shù)據(jù)挖掘技術(shù)的主要方法有:
4.1 統(tǒng)計(jì)分析法
經(jīng)濟(jì)數(shù)據(jù)庫字段項(xiàng)之間存在兩種關(guān)系,相關(guān)關(guān)系和函數(shù)關(guān)系。就是對于數(shù)據(jù)庫中的信息利用統(tǒng)計(jì)學(xué)原理來進(jìn)行分析。
4.2 決策樹
決策樹一般用于預(yù)測模型,通過對大量復(fù)雜無順序的數(shù)據(jù)有目的分類,找到有價(jià)值的信息。同時(shí),正是因?yàn)槊枋龊唵?分類速度快,特別適合運(yùn)用于經(jīng)濟(jì)運(yùn)行過程中出現(xiàn)的大規(guī)模數(shù)據(jù)的處理。
4.3 遺傳算法
它是一種根據(jù)生物遺傳機(jī)理和自然選擇的隨機(jī)搜索算法,其主要思路是依據(jù)特定的社會(huì)問題,然后在指定對象中去采集相關(guān)信息,最后通過對信息中隱含部分的歸整、分析,進(jìn)而得到結(jié)果。經(jīng)濟(jì)問題不是固定不變的,相反它是一個(gè)不斷發(fā)展變化的問題,內(nèi)部的聯(lián)系千絲萬縷,改變其中一項(xiàng)其他的也會(huì)相應(yīng)改變。按照遺傳算法的步驟,從源頭開始,我們就一步步向下探索,去提取信息數(shù)據(jù),對整體進(jìn)行分析,這樣就能把經(jīng)濟(jì)問題目標(biāo)化、具體化、直接化,使得在研究問題時(shí)可以更加直觀,把隱性的表現(xiàn)出來,使得經(jīng)濟(jì)統(tǒng)計(jì)工作更加直白、簡單。
4.4 粗集理論法
這是一種探究不確定知識、不精確的數(shù)學(xué)工具,它通過上下集比較而出來結(jié)果。它易于操作,算法簡單;簡化輸入信息的表達(dá)空間;不需要給出額外信息。特別適合那些不確定的經(jīng)濟(jì)因素,同時(shí)正是通過這種原則,才能使得制定的經(jīng)濟(jì)決策與需求更加接近,為獲得最大利益化給予了強(qiáng)有力支持。
4.5 神經(jīng)網(wǎng)絡(luò)法
神經(jīng)網(wǎng)絡(luò)法是一種高強(qiáng)度模擬人腦加工信息過程的智能現(xiàn)代信息技術(shù)。它和人的神經(jīng)運(yùn)動(dòng)過程一樣,首先進(jìn)行數(shù)據(jù)的輸入,然后進(jìn)行精準(zhǔn)的分析,最后輸出。在經(jīng)濟(jì)統(tǒng)計(jì)過程中得到了實(shí)際的應(yīng)用。神經(jīng)網(wǎng)絡(luò)法為我們提供了一種準(zhǔn)確的、完整的處理經(jīng)濟(jì)統(tǒng)計(jì)的過程,使得經(jīng)濟(jì)運(yùn)行模式和人在處理信息的過程很相像,一樣實(shí)用化、形象化、具體化。使經(jīng)濟(jì)過程中各個(gè)部分之間能取得更好的聯(lián)系,從而獲得對經(jīng)濟(jì)統(tǒng)計(jì)???題的處理辦法。
篇9
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);Web;應(yīng)用;
中圖分類號:TP319文獻(xiàn)標(biāo)識碼:A 文章編號:1674-098X(2015)05(a)-0000-00
所謂數(shù)據(jù)挖掘,就是在大量的、隨機(jī)的、無關(guān)的、不完全的數(shù)據(jù)中找出共同點(diǎn),提煉有價(jià)值的規(guī)律,從而有利于企業(yè)利用這些規(guī)律進(jìn)行決策,獲得超額利潤。而基于Web的數(shù)據(jù)挖掘技術(shù),是指在HTML文檔中或相關(guān)的服務(wù)中借助數(shù)據(jù)挖掘技術(shù)提取對用戶有價(jià)值的信息。
1 基于Web數(shù)據(jù)挖掘技術(shù)的原理和分類
1.1 基于Web數(shù)據(jù)挖掘技術(shù)的原理
基于Web數(shù)據(jù)挖掘技術(shù)主要利用統(tǒng)計(jì)學(xué)原理把Web頁面中用戶訪問的信息內(nèi)容和超鏈接結(jié)構(gòu)等進(jìn)行統(tǒng)計(jì)分類,然后總結(jié)出這些數(shù)據(jù)的規(guī)律和特征,并把這些大量的數(shù)據(jù)進(jìn)行篩選和過濾,從中挖掘出這些數(shù)據(jù)的潛在聯(lián)系,讓企業(yè)獲得用戶在訪問網(wǎng)頁時(shí)深層次的規(guī)律。
1.2 基于Web數(shù)據(jù)挖掘技術(shù)的分類
基于Web數(shù)據(jù)挖掘技術(shù)按照其技術(shù)原理可以分為三類:(1)、內(nèi)容挖掘。這里的“內(nèi)容挖掘”是指把Web網(wǎng)頁中數(shù)字,文字,表格,文檔等顯示的數(shù)據(jù)信息和其它隱示的數(shù)據(jù)信息整理并挖掘出來。(2)、使用挖掘。當(dāng)用戶通過瀏覽器訪問網(wǎng)頁內(nèi)容后,該網(wǎng)頁所在的服務(wù)器會(huì)自動(dòng)把這些訪問的行為記錄在訪問日志上,而通過分析這些訪問日志就可以掌握用戶在該網(wǎng)頁中的一些需求和動(dòng)向,這就是“使用挖掘”的作用。所以通過使用挖掘可以掌握用戶的行為動(dòng)向,有利于提高網(wǎng)站的收益或網(wǎng)站的點(diǎn)擊率。(3)、結(jié)構(gòu)挖掘。數(shù)據(jù)挖掘中的結(jié)構(gòu)挖掘是指分析Web頁面之間的超鏈接結(jié)構(gòu)關(guān)系,從中找到Web頁面結(jié)構(gòu)的有用模式及權(quán)威網(wǎng)頁。
2 基于Web數(shù)據(jù)挖掘技術(shù)分析
2.1 路徑分析技術(shù)
網(wǎng)絡(luò)中的信息是巨大的,因此人們不可能一下子就找到自己需要的內(nèi)容,總是要從一個(gè)頁面鏈接到另一個(gè)頁面,再從這個(gè)頁面鏈接到其它頁面。人們的這種訪問路徑會(huì)被記錄在服務(wù)器的日志文件中。路徑分析技術(shù)就是分析這些存有路徑信息的日志文件,分析后的結(jié)果有利于幫助網(wǎng)站管理員根據(jù)大多數(shù)用戶的需求改善網(wǎng)站的結(jié)構(gòu)。
2.2 分類分析技術(shù)
分類分析技術(shù)借助對示例數(shù)據(jù)的詳細(xì)分析建立一個(gè)分析的模型,再使用這個(gè)模型對網(wǎng)上的眾多數(shù)據(jù)進(jìn)行分類描述。使用分類分析技術(shù)可以在網(wǎng)絡(luò)銷售中向一個(gè)用戶推薦他可能喜愛的相關(guān)產(chǎn)品。
2.3 聚類技術(shù)
聚類技術(shù),就是把大量的用戶訪問數(shù)據(jù),如用戶喜歡的商品,以及訪問網(wǎng)頁的用戶本身的信息等進(jìn)行分析整理,然后按照一定的規(guī)則對它們進(jìn)行分類,并給出該類別的特征描述。例如在網(wǎng)絡(luò)營銷中聚類技術(shù)幫助企業(yè)把客戶分成不同的群體,并給出這些群體的喜好和需求,以便企業(yè)根據(jù)這些需求調(diào)整業(yè)務(wù)內(nèi)容以滿足不同的客戶群體。
2.4 關(guān)聯(lián)規(guī)則技術(shù)
關(guān)聯(lián)規(guī)則技術(shù)通過分析用戶在網(wǎng)站上的訪問記錄建立關(guān)聯(lián)模型,可以根據(jù)用戶的習(xí)慣和喜好為用戶提供方便快捷的訪問方式,也可以為用戶推薦喜愛的商品或服務(wù)。
3 基于Web數(shù)據(jù)挖掘技術(shù)的應(yīng)用
3.1 在遠(yuǎn)程教育中的應(yīng)用
傳統(tǒng)的教育方式?jīng)]有注重學(xué)生的個(gè)體差異性,也不可能給每一個(gè)學(xué)生制定一套教學(xué)方案。但是在應(yīng)用了數(shù)據(jù)挖掘技術(shù)的遠(yuǎn)程教育方式中,利用學(xué)生在網(wǎng)站的學(xué)習(xí)情況,通過數(shù)據(jù)挖掘技術(shù)可以為學(xué)生推薦適合他的教學(xué)方案,真正做到了“因材施教”,“以學(xué)生為中心”。而且利用分類分析數(shù)據(jù)挖掘技術(shù)、聚類數(shù)據(jù)挖掘技術(shù)和關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù)還可以對學(xué)生和教師進(jìn)行分類和關(guān)聯(lián),這樣可以為學(xué)生推薦適合他,同時(shí)也是學(xué)生喜歡的教師。數(shù)據(jù)挖掘技術(shù)在學(xué)生的學(xué)習(xí)過程中有利于學(xué)生快速的檢索需要的課件資源和學(xué)習(xí)內(nèi)容。
3.2 在電子商務(wù)中的應(yīng)用
隨著網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,電子商務(wù)已經(jīng)與人們的生活密不可分。將基于Web數(shù)據(jù)挖掘技術(shù)應(yīng)用在電子商務(wù)中,可以幫助企業(yè)獲得及時(shí)、準(zhǔn)確的商業(yè)信息和客戶信息,幫助企業(yè)制定正確的商業(yè)發(fā)展目標(biāo),從而獲得豐富的利潤。
(1)、為企業(yè)定制正確的商業(yè)發(fā)展目標(biāo)。在企業(yè)制定自己的商業(yè)發(fā)展目標(biāo)之前需要先考察市場,掌握商品的市場動(dòng)向,了解企業(yè)自身在同行業(yè)中的市場地位。采用基于Web數(shù)據(jù)挖掘技術(shù)幫助企業(yè)快速、準(zhǔn)確地完成了上述工作,有利于企業(yè)定制商業(yè)發(fā)展目標(biāo)。
(2)、提高了客戶的滿意度?;赪eb的數(shù)據(jù)挖掘技術(shù)可以幫助企業(yè)分析客戶信息和客戶行為,掌握客戶喜愛的商品類別,挖掘客戶潛在的消費(fèi)意向,為客戶提供滿意的服務(wù)。
(3)、提高了企業(yè)的資金使用效率。基于Web數(shù)據(jù)挖掘技術(shù)可以對企業(yè)的庫存,商品交易情況,財(cái)務(wù)報(bào)表等信息進(jìn)行分析后,為企業(yè)提供一份資金分配策劃單,從而保證企業(yè)購買的都是暢銷商品不會(huì)造成大量的庫存,提高了企業(yè)的資金使用效率。
(4)、延長用戶訪問網(wǎng)頁的時(shí)間。人們在網(wǎng)上購物時(shí)會(huì)感覺所有的商品都是一樣的,沒有區(qū)別,因?yàn)樗鼈兌际且跃W(wǎng)頁的形式存在的。所以如果企業(yè)希望有良好的銷售業(yè)績,就需要用戶在企業(yè)的網(wǎng)頁上停留更多的時(shí)間,因?yàn)橛脩敉A舻臅r(shí)間越長,越有可能購買商品。企業(yè)可以利用數(shù)據(jù)挖掘技術(shù)掌握用戶的習(xí)慣和喜好,為用戶提供方便快捷的訪問方式,這些快捷方式都是根據(jù)用戶的喜好推薦的商品,因此用戶愿意花費(fèi)更多的時(shí)間在這個(gè)Web頁面里。
(5)、挖掘潛在的商機(jī)。企業(yè)利用基于Web數(shù)據(jù)挖掘技術(shù)對服務(wù)器的日志文件進(jìn)行分析和處理,可以將用戶分類,并給出相應(yīng)的描述。如果一個(gè)新的用戶來到企業(yè)的網(wǎng)站時(shí),可以利用前面的分類結(jié)果對這個(gè)新用戶提供個(gè)性化的服務(wù),投其所好,挖掘潛在的商機(jī)。
除此之外,基于Web數(shù)據(jù)挖掘技術(shù)在醫(yī)療、金融、通訊等領(lǐng)域也得到了比較廣泛的應(yīng)用,而且比較成熟,但是在電子商務(wù)領(lǐng)域中Web數(shù)據(jù)挖掘技術(shù)還處于起步階段,有很多問題需要人們進(jìn)一步去探索,相信隨著網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,基于Web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)領(lǐng)域中會(huì)有更大的發(fā)展空間。
參考文獻(xiàn)
篇10
【關(guān)鍵詞】WEB數(shù)據(jù)挖掘技術(shù) 網(wǎng)絡(luò)營銷 應(yīng)用
網(wǎng)絡(luò)營銷是在電子商務(wù)發(fā)展下孕育而生的一種集市場營銷和現(xiàn)代信息技術(shù)為一體的新型市場營銷模式。網(wǎng)絡(luò)營銷主要是依托互聯(lián)網(wǎng)和計(jì)算機(jī)信息技術(shù),將營銷者與客戶之間的交易、交流行為實(shí)現(xiàn)信息化,而這其中則會(huì)產(chǎn)生大量的頻繁數(shù)據(jù)交換,再加之這些數(shù)據(jù)的種類較為分散,如何能夠有效的管理與應(yīng)用這些數(shù)據(jù)便成為網(wǎng)絡(luò)營銷者必須關(guān)注的問題。在本文研究中,筆者首先闡述看關(guān)于網(wǎng)絡(luò)營銷及WEB挖掘的基本理論知識以及技術(shù)原理,并就網(wǎng)絡(luò)營銷中的Web挖掘應(yīng)用技術(shù)及具體應(yīng)用方法進(jìn)行全面的探討分析。
一、網(wǎng)絡(luò)營銷和WEB數(shù)據(jù)挖掘技術(shù)的概念及類型
(一)網(wǎng)絡(luò)營銷概述
網(wǎng)絡(luò)營銷是近幾年來產(chǎn)生的一個(gè)新興名詞,其是指企業(yè)在市場營銷過程中利用計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)實(shí)現(xiàn)有效信息的獲取、處理與利用,在此基礎(chǔ)上制定有效的市場營銷策略,從而實(shí)現(xiàn)市場營銷工作。
通過網(wǎng)絡(luò)實(shí)施營銷可讓企業(yè)降低運(yùn)營成本,提升企業(yè)的市場占有率,降低了市場壁壘,尤其對與中小企業(yè)而言可以利用低成本營銷而平等的進(jìn)入國內(nèi)、國際市場。對于企業(yè)惡言,網(wǎng)絡(luò)營銷增加了企業(yè)與客戶之間的雙向互動(dòng)交流頻率,而對于消費(fèi)者而言,通過互聯(lián)網(wǎng)平臺(tái)不僅擴(kuò)大了商品選擇的空間個(gè)獲得更加低廉的價(jià)格,而且滿足了更加便捷的購物需求。
(二)WEB挖掘概述
WEB挖掘?qū)儆谑抢脭?shù)據(jù)挖掘技術(shù)在獲取WEB活動(dòng)文檔中的隱藏信息或者具有應(yīng)用價(jià)值的潛在應(yīng)用模式。WEB挖掘技術(shù)主要通過WWW資源、頁面的超鏈接結(jié)構(gòu)、Web頁面內(nèi)容以及用戶訪問信息等數(shù)據(jù)信息,利用歸納學(xué)習(xí)與統(tǒng)計(jì)分析方法獲取數(shù)據(jù)對象間的內(nèi)在特征。利用WEB挖掘可以發(fā)現(xiàn)更多的潛在的有趣應(yīng)用模式或者其他隱藏信息資源,并在信息過濾技術(shù)的輔助下讓客戶獲得更高層次的規(guī)律與知識。
根據(jù)相關(guān)技術(shù)原理,現(xiàn)將WEB挖掘技術(shù)分為以下三大類:
1.WEB結(jié)構(gòu)挖掘。WEB挖掘中的結(jié)構(gòu)挖掘是指利用Web組織結(jié)構(gòu)之間的鏈接關(guān)系而計(jì)算出網(wǎng)頁結(jié)構(gòu)中的有用模式。在大量的Web超鏈接信息中為Web頁面提供了相關(guān)聯(lián)的結(jié)構(gòu)與質(zhì)量方面信息資源,其能夠集中反映出文檔之間的引用、從屬及包含關(guān)系,另外通過分析Web文檔之間的超鏈接結(jié)構(gòu),還可發(fā)現(xiàn)網(wǎng)頁結(jié)構(gòu)中的有用模式,從而有利于找到權(quán)威頁面。在WEB結(jié)構(gòu)挖掘領(lǐng)域,應(yīng)用最多的算法是Page Rank和HITS算法,兩者都是通過使用一定的計(jì)算方法而獲得Web頁面之間超鏈接的質(zhì)量,例如:Google搜索引擎便是應(yīng)用此類計(jì)算方法[1]。
2.WEB使用挖掘。WEB挖掘中的使用挖掘是對網(wǎng)頁中的相應(yīng)站點(diǎn)數(shù)據(jù)和日志文件實(shí)施挖掘,以此來追尋相應(yīng)站點(diǎn)的訪問者的行為模式。由于在網(wǎng)頁資源中擁有大量的復(fù)雜、異質(zhì)信息,而每一個(gè)信息資源在服務(wù)器上都存在一個(gè)結(jié)構(gòu)化的Web訪問日志,當(dāng)網(wǎng)頁資源訪問者提出請求之后服務(wù)器將自動(dòng)將行動(dòng)數(shù)據(jù)記錄在訪問日志上。因此,分析不同的Web站點(diǎn)的訪問日志,則有利人們掌握WEB結(jié)構(gòu)以及客戶的行為動(dòng)態(tài),這樣有助于提升網(wǎng)站的工作效率。
3.WEB內(nèi)容挖掘。WEB挖掘中的內(nèi)容挖掘主要是收集有用的Web信息資源(如:數(shù)據(jù)、內(nèi)容、文檔等)。Web中含有不同在種類的信息資源,目前網(wǎng)絡(luò)信息資源的來源基本上都是來自于WWW 信息資源之中,這其中除了部分人們可以直接搜索、抓取以及實(shí)現(xiàn)服務(wù)的資源以外,還有部分資源是無法被索引的隱藏?cái)?shù)據(jù),因此便需要應(yīng)用WEB挖掘技術(shù)將其挖掘出來。
二、網(wǎng)絡(luò)營銷中的WEB挖掘技術(shù)分析
(一)路徑分析技術(shù)
實(shí)施Web數(shù)據(jù)挖掘,其所需要的路徑分析技術(shù)主要是通過對Web服務(wù)器的日志文件中訪問頻繁的路徑等其他相關(guān)路徑信息進(jìn)行判定,利用這些信息再對網(wǎng)站及頁面的設(shè)計(jì)結(jié)構(gòu)進(jìn)行不斷的完善和改進(jìn)。利用路徑分析技術(shù)實(shí)現(xiàn)數(shù)據(jù)挖掘必須經(jīng)過三個(gè)基本步驟[2],即:首先通過瀏覽過程中產(chǎn)生的站點(diǎn)所形成的序列來構(gòu)成原始路徑;其次是獲取最大引用序列;最后是確定最大引用序列。
(二)聚類技術(shù)
對于Web數(shù)據(jù)挖掘中的聚類技術(shù),其是將Web訪問信息數(shù)據(jù)中一些具有相似特征的數(shù)據(jù)項(xiàng)、訪問者信息等進(jìn)行集合,然后運(yùn)用隱式或顯式等方式來對不同的類別資源進(jìn)行描述。在實(shí)踐操作中,聚類分析在對數(shù)據(jù)分布分析時(shí)可單獨(dú)作為一個(gè)相對獨(dú)立的工具來集中觀察、分析每一個(gè)類型的特點(diǎn),具體來說就是幫助企業(yè)通過分析客戶數(shù)據(jù)庫而發(fā)現(xiàn)一些不同的客戶群,并通過運(yùn)用消費(fèi)模式來描述出這些不同客戶群的基本特征,從而幫助企業(yè)能夠更好的了解客戶,保障自己的服務(wù)能夠最大限度的滿足客戶需求。
(三)分類分析技術(shù)
在數(shù)據(jù)挖掘中利用分類分析技術(shù)可通過詳細(xì)分析示例數(shù)據(jù)并準(zhǔn)確描述不同類別或者建立分析模型,然后在利用這個(gè)分析模型對其他數(shù)據(jù)進(jìn)行細(xì)化分類。分類分析技術(shù)在網(wǎng)絡(luò)營銷中是使用較多的應(yīng)用技術(shù)之一,其能夠利用分類自動(dòng)推導(dǎo)而對相關(guān)數(shù)據(jù)進(jìn)行相關(guān)的推廣描述,以此來預(yù)測未來的數(shù)據(jù)發(fā)展趨勢。
(四)關(guān)聯(lián)規(guī)則挖掘技術(shù)
WEB挖掘技術(shù)中的關(guān)聯(lián)分析主要是利用同一個(gè)事件中出現(xiàn)的不同項(xiàng)的相關(guān)性來挖掘其中所隱藏在數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則。在網(wǎng)絡(luò)營銷活動(dòng)中,關(guān)聯(lián)分析主要是用于找尋客戶對網(wǎng)站中各種文件之間訪問現(xiàn)象的相互聯(lián)系,從而總結(jié)分析出客戶購買行為的關(guān)聯(lián)因素[3]。通過在Web上實(shí)施數(shù)據(jù)挖掘,以此來構(gòu)建一個(gè)關(guān)聯(lián)模型,這樣我們便可以更換的優(yōu)化組織站點(diǎn),降低客戶過濾信息頻率,并根據(jù)客戶的購買行為而為客戶提供一定的推薦服務(wù)。
三、WEB數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)營銷中的具體應(yīng)用
(一)有利于確定網(wǎng)絡(luò)營銷目標(biāo)
實(shí)施有效的市場營銷活動(dòng)前首要的工作是確定市場營銷目標(biāo),而這需要經(jīng)過三個(gè)既定步驟——細(xì)化目標(biāo)市場、選定目標(biāo)市場、定位目標(biāo)市場。在網(wǎng)絡(luò)營銷活動(dòng)中,企業(yè)確定目標(biāo)市場前必須對于商品目標(biāo)的應(yīng)用、銷售市場進(jìn)行細(xì)分,也就是考察商品的市場吸引力、企業(yè)自身的商品營銷經(jīng)驗(yàn)及未來發(fā)展目標(biāo)等等,通過上述細(xì)分之后確定商品目標(biāo)市場,最后在此基礎(chǔ)上定位目標(biāo)市場。如果企業(yè)在網(wǎng)絡(luò)營銷中應(yīng)用Web 挖掘技術(shù)確定市場營銷目標(biāo),其可以迅速對客戶數(shù)據(jù)進(jìn)行綜合分析,并自動(dòng)對各個(gè)層次的市場實(shí)施細(xì)分,形成一個(gè)詳細(xì)的目標(biāo)市場分類數(shù)據(jù)資料庫,從而為企業(yè)定位目標(biāo)市場提供真實(shí)、有效的數(shù)據(jù)依據(jù)。
(二)構(gòu)建市場營銷情報(bào)系統(tǒng)
為了降低市場營銷活動(dòng)的風(fēng)險(xiǎn),在此之前一般都需要收集大量的市場營銷信息來對目標(biāo)市場進(jìn)行細(xì)致分析。網(wǎng)絡(luò)營銷主要是通過Internet來獲取大量的相關(guān)聯(lián)信息資源,利用WEB數(shù)據(jù)挖掘技術(shù)可收集大量有效的市場營銷情報(bào),例如:對企業(yè)營銷中所需要的政策法規(guī)、行業(yè)技術(shù)、市場環(huán)境、競爭對手、國際行情等動(dòng)態(tài)信息進(jìn)行全面收集整理,并建立全面的營銷情況系統(tǒng),這樣有助于企業(yè)及時(shí)掌握市場、行業(yè)等發(fā)展新情況,制定并執(zhí)行具有針對性的營銷策略,保證企業(yè)在市場營銷中擁有絕對的主動(dòng)權(quán)[4]。
(三)數(shù)據(jù)挖掘在客戶關(guān)系管理中的應(yīng)用
1.延長客戶駐留時(shí)間。通過網(wǎng)絡(luò)平臺(tái)實(shí)施營銷活動(dòng),消除了銷售企業(yè)與客戶之間存在的空間距離,在Internet平臺(tái)上所有銷售企業(yè)相對于客戶而言都是一樣的。商家為了能夠讓訪問者盡量對在自己網(wǎng)站上駐留,都需要通過技術(shù)手段分析訪問者的瀏覽行為,也就是掌握訪問者的愛好或者需求,這樣有助于商家及時(shí)根據(jù)訪問者的行為動(dòng)態(tài)調(diào)整頁面設(shè)計(jì)和推薦商品信息,更新部分訪問者敢興趣的商品信息,一方面能夠滿足訪問者的需求,更重要的是能夠最大限度的延長訪問者的駐留時(shí)間。
2.挖掘潛在客戶。企業(yè)通過對Web日志記錄中的訪問規(guī)律進(jìn)行分析,根據(jù)訪問者的相關(guān)信息資源進(jìn)行科學(xué)分類,并確定訪問者分類的關(guān)鍵屬性及相互之間的關(guān)聯(lián)。如果有新的訪問者,則可在Web分類中識別出與已分類訪問者之間存在的一些公共描述,然后再對這些新訪問者進(jìn)行正確分類,最后從新訪問者的分類判斷中決定是否將其作為潛在客戶來對待[5]。如果將其作為潛在客戶對象,則可給予該客戶提供一些個(gè)性化的特殊頁面內(nèi)容,從而吸引客戶的注意力,激發(fā)客戶的消費(fèi)欲望。
(四)促進(jìn)優(yōu)化站點(diǎn)設(shè)計(jì)
在超市中我們經(jīng)常會(huì)發(fā)現(xiàn)他們將有關(guān)聯(lián)的物品放在一起,這樣有助于提升商品的銷售業(yè)績,而在網(wǎng)絡(luò)營銷中的Web站點(diǎn)結(jié)構(gòu)也是類似的,在瀏覽模式的設(shè)計(jì)過程中需要依據(jù)大部分訪問者的瀏覽習(xí)慣來安排、鏈接頁面內(nèi)容;若部分頁面訪問頻率較大時(shí)則可適當(dāng)增加頁面鏈接,這樣方便訪問者順暢瀏覽頁面;在訪問較為頻繁的頁面上放置重要商品信息,吸引客戶的注意力及商品的影響力,從而提升營銷業(yè)績。
四、結(jié)語
網(wǎng)絡(luò)營銷模式屬于是現(xiàn)代市場營銷進(jìn)入數(shù)字化時(shí)代最有力的證明,隨著電子商務(wù)體系不斷成熟,網(wǎng)絡(luò)營銷必將成為未來社會(huì)營銷領(lǐng)域中一種新的發(fā)展潮流與趨勢。在網(wǎng)絡(luò)營銷活動(dòng)中,Web數(shù)據(jù)挖掘技術(shù)有助于企業(yè)預(yù)測市場發(fā)展趨勢、客戶消費(fèi)動(dòng)態(tài),進(jìn)一步挖掘有價(jià)值的潛在商業(yè)信息資源,從而幫助企業(yè)制定具有前瞻性的營銷策略,保障企業(yè)能夠在激烈的競爭環(huán)境中把握有利發(fā)展機(jī)遇。目前,國內(nèi)外學(xué)術(shù)界對Web挖掘技術(shù)展開了深入的研究,雖然尚未形成一個(gè)成熟的理論與應(yīng)用體系,但是隨著電子商務(wù)的不斷發(fā)展,Web挖掘技術(shù)必將擁有廣闊的發(fā)展空間。
參考文獻(xiàn)
[1]李巖.基于Web挖掘的專題性智能信息搜索工具關(guān)鍵技術(shù)研究[D].北京:北京科技大學(xué)信息工程學(xué)院,2003.
[2]石磊,王偉華等.Web挖掘技術(shù)在電子商務(wù)中的應(yīng)用[A].信息時(shí)代—科技情報(bào)研究學(xué)術(shù)論文集(第三輯)[C];2008.
[3]朱凌云,趙韓,高先圣.Web挖掘在網(wǎng)絡(luò)營銷中的應(yīng)用研究[J].情報(bào)雜志,2006.1.
[4]藺莉,潘浩.Web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用[J].電腦知識與技術(shù),2010,(4):816-818.
[5]付泉.電子商務(wù)中數(shù)據(jù)挖掘技術(shù)的研究與應(yīng)用探討[J].科技廣場,2007(3):114-116.
熱門標(biāo)簽
數(shù)據(jù)分析論文 數(shù)據(jù)挖掘論文 數(shù)據(jù)安全論文 數(shù)據(jù)庫論文 數(shù)據(jù)管理論文 數(shù)據(jù)誤差 數(shù)據(jù)采集 數(shù)據(jù)挖掘總結(jié) 數(shù)據(jù)通信論文 數(shù)據(jù) 品味 拼圖閱讀策略 品行 貧血
相關(guān)文章
1政務(wù)數(shù)據(jù)協(xié)同治理的分析
3建筑業(yè)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量探討