數(shù)據(jù)倉(cāng)庫(kù)范文

時(shí)間:2023-04-04 18:28:37

導(dǎo)語(yǔ):如何才能寫(xiě)好一篇數(shù)據(jù)倉(cāng)庫(kù),這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公文云整理的十篇范文,供你借鑒。

篇1

關(guān)鍵詞:數(shù)據(jù)倉(cāng)庫(kù);體系結(jié)構(gòu);維度

中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2008)15-20998-02

The Summary of the Data Warehouse Technology

WANG Min1,2, ZHOU Cong-jun2,DU Cheng-Long2

(1. Hubei University of Technology,Wuhan,430068;2.Hubei Professional College of Land Resource,Jingzhou,434003)

Abstract: Data warehouse is a new progressing direction of database technology,and is also a popular research fields currently.This paper introduces the data warehouse definition,architecture and characters.The article also analyzes the procedure of building Data Warehouse .In the end,it describes the application of data warehouse to the national economy fields and the prospect of the data warehouse in the future.

Key words: data warehouse;architecture of the warehouse;dimension

1 引言

在過(guò)去的幾十年中,人們?yōu)榱四軌蚴占⒋鎯?chǔ)和處理大量的業(yè)務(wù)數(shù)據(jù)而開(kāi)發(fā)了數(shù)據(jù)庫(kù)管理系統(tǒng)(DBMS)。由于數(shù)據(jù)庫(kù)系統(tǒng)的開(kāi)發(fā)和使用,為企業(yè)記錄和處理業(yè)務(wù)提供了極大的方便,使得這種技術(shù)得以迅速的發(fā)展和應(yīng)用。但隨著數(shù)據(jù)庫(kù)系統(tǒng)記錄和處理的數(shù)據(jù)越來(lái)越多,人們不再滿足僅僅使用數(shù)據(jù)庫(kù)系統(tǒng)來(lái)記錄企業(yè)的業(yè)務(wù)活動(dòng)數(shù)據(jù)和對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理,人們需要對(duì)企業(yè)業(yè)務(wù)活動(dòng)的數(shù)據(jù)進(jìn)行各種分析,以便找出影響企業(yè)成功的要素和企業(yè)未來(lái)的發(fā)展趨勢(shì)。而如何將這些大量的數(shù)據(jù)轉(zhuǎn)化為對(duì)企業(yè)管理者有用的,可供輔助決策的信息,也逐漸成為研究的熱點(diǎn)。

2 數(shù)據(jù)倉(cāng)庫(kù)技術(shù)

2.1 數(shù)據(jù)倉(cāng)庫(kù)的定義

數(shù)據(jù)倉(cāng)庫(kù)的概念是由W.H.Inmon博士在1992年出版的《建立數(shù)據(jù)倉(cāng)庫(kù)》(Building the Data Warehouse)一書(shū)中提出的。他在書(shū)中對(duì)數(shù)據(jù)倉(cāng)庫(kù)是這樣說(shuō)明的:“數(shù)據(jù)倉(cāng)庫(kù)(data warehouse)是一個(gè)面向主題的、集成的、穩(wěn)定的、不同時(shí)間的數(shù)據(jù)集合,它用于支持經(jīng)營(yíng)管理中的決策制定過(guò)程。”[1]實(shí)際上可以理解為數(shù)據(jù)倉(cāng)庫(kù)就是從多個(gè)數(shù)據(jù)源收集數(shù)據(jù),存儲(chǔ)于一個(gè)統(tǒng)一的數(shù)據(jù)模式下的數(shù)據(jù)體。從本質(zhì)上講,數(shù)據(jù)倉(cāng)庫(kù)就是一種信息集成技術(shù)。數(shù)據(jù)倉(cāng)庫(kù)從多個(gè)信息源中獲取原始數(shù)據(jù),經(jīng)整理加工后,存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)部數(shù)據(jù)庫(kù)中,通過(guò)向用戶提供訪問(wèn)工具,向數(shù)據(jù)倉(cāng)庫(kù)用戶提供統(tǒng)一、協(xié)調(diào)和集成的信息環(huán)境,從企業(yè)的角度來(lái)支持用戶的決策和幫助企業(yè)的管理進(jìn)行深入綜合分析。[2]

2.2 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)的區(qū)別

數(shù)據(jù)倉(cāng)庫(kù)是在數(shù)據(jù)庫(kù)的基礎(chǔ)上發(fā)展起來(lái)的,因此數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)有著本質(zhì)的區(qū)別,主要體現(xiàn)在以下幾個(gè)方面:

(1)數(shù)據(jù)庫(kù)中存儲(chǔ)的都是當(dāng)前使用的值,而數(shù)據(jù)倉(cāng)庫(kù)的建立是一個(gè)企業(yè)日積月累的建立過(guò)程因而其存儲(chǔ)的數(shù)據(jù)都是一些歷史的、存檔的數(shù)據(jù),另外由于要提供分析決策,還需要存儲(chǔ)一些歸納的、計(jì)算的數(shù)據(jù);

(2)數(shù)據(jù)庫(kù)的數(shù)據(jù)主要是面向業(yè)務(wù)操作程序的,可以重復(fù)處理,主要是用來(lái)進(jìn)行事務(wù)處理的。而數(shù)據(jù)倉(cāng)庫(kù)卻是面向主題,主要是用來(lái)分析與應(yīng)用的;

(3)數(shù)據(jù)庫(kù)的數(shù)據(jù)結(jié)構(gòu)是高度結(jié)構(gòu)化的,比較復(fù)雜,適合于操作計(jì)算。而數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)卻比較簡(jiǎn)單,適合于分析處理;

(4)數(shù)據(jù)庫(kù)中的數(shù)據(jù)的使用頻率是很高的。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)的使用則不是很高;

(5)通常對(duì)數(shù)據(jù)庫(kù)中的事務(wù)的訪問(wèn),只需要訪問(wèn)少量的記錄數(shù)據(jù)。而對(duì)數(shù)據(jù)倉(cāng)庫(kù)的事務(wù)的訪問(wèn)就可能需要訪問(wèn)大量的記錄;

(6)對(duì)數(shù)據(jù)庫(kù)的響應(yīng)時(shí)間一般要求比較高,通常是以秒為單位。而對(duì)數(shù)據(jù)倉(cāng)庫(kù)的響應(yīng)時(shí)間要求則較低,通常比較長(zhǎng)。

2.3 數(shù)據(jù)倉(cāng)庫(kù)的主要特點(diǎn)

從數(shù)據(jù)倉(cāng)庫(kù)的定義我們可以看出,它的特點(diǎn)主要體現(xiàn)在以下幾個(gè)方面:

(1)數(shù)據(jù)倉(cāng)庫(kù)是面向主題的。也就是說(shuō)數(shù)據(jù)是按其自然屬性來(lái)進(jìn)行組織的。主題通常是在一個(gè)較高層次上將數(shù)據(jù)歸類的標(biāo)準(zhǔn),每個(gè)主題對(duì)應(yīng)一個(gè)宏觀分析領(lǐng)域。比如,在學(xué)生的學(xué)籍管理成績(jī)系統(tǒng)中,數(shù)據(jù)常被組織成“學(xué)生”、“課程”、“學(xué)生成績(jī)”等關(guān)系模式,描述了各個(gè)學(xué)生、各門(mén)課程以及學(xué)生學(xué)習(xí)各門(mén)課程的詳細(xì)信息。而在數(shù)據(jù)倉(cāng)庫(kù)中,我們則要對(duì)學(xué)生、課程、學(xué)生成績(jī)進(jìn)行綜合分析,以便進(jìn)行決策,因而應(yīng)重新組織數(shù)據(jù),完成業(yè)務(wù)數(shù)據(jù)向主題數(shù)據(jù)的轉(zhuǎn)換。主題的抽取則應(yīng)根據(jù)分析的要求進(jìn)行確定。[3]如針對(duì)學(xué)生成績(jī)分析數(shù)據(jù)倉(cāng)庫(kù)就可以設(shè)置以下主體:學(xué)生、課程、教師等。

(2)數(shù)據(jù)倉(cāng)庫(kù)是集成的。數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前,必須經(jīng)過(guò)加工與集成。對(duì)不同來(lái)源的數(shù)據(jù)進(jìn)行數(shù)據(jù)結(jié)構(gòu)統(tǒng)一編碼。統(tǒng)一原始數(shù)據(jù)中的所有矛盾之處,如字段的同名異義,單位不統(tǒng)一,字長(zhǎng)不一致等情況。即將原始數(shù)據(jù)結(jié)構(gòu)做一個(gè)從面向應(yīng)用到面向主題的大轉(zhuǎn)變。[4]

要將決策分析建立在數(shù)據(jù)倉(cāng)庫(kù)之上,數(shù)據(jù)系統(tǒng)就需要定期從各院系、各部門(mén)抽取適宜于進(jìn)行決策分析的細(xì)節(jié)數(shù)據(jù),然后按照不同的粒度要求匯總到各級(jí)數(shù)據(jù)集市或數(shù)據(jù)倉(cāng)庫(kù)中。以“教師”主題為例,關(guān)于教師的完整信息是分散在各個(gè)院系、各部門(mén)的,每個(gè)部門(mén)都沒(méi)有關(guān)于“教師”的完整信息,而且這些數(shù)據(jù)可能是不一致的。比如:“教師”主題中的教師編號(hào)在“圖書(shū)管理系統(tǒng)”和“科研信息系統(tǒng)”中可能不同;性別在各部門(mén)中的表示方法也可能不同,在“科研信息系統(tǒng)”中用“M”、“F”來(lái)表示,而在“教師基本信息系統(tǒng)”中用“0”和“1”來(lái)表示。在經(jīng)過(guò)了面向主題的數(shù)據(jù)組織后,消除同名異義、異名同義、單位不統(tǒng)一、字長(zhǎng)不統(tǒng)一等數(shù)據(jù)不一致之處,按照元數(shù)據(jù)的定義形成關(guān)于教師的完整、一致的信息集合。[3]

2.4 數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)

數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)通常由數(shù)據(jù)倉(cāng)庫(kù)(DW)、倉(cāng)庫(kù)管理和分析工具三部分組成,其結(jié)構(gòu)形式如下圖所示。

(1)源數(shù)據(jù):數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)來(lái)源多個(gè)不同的數(shù)據(jù)源,它可以是通常的數(shù)據(jù)庫(kù)系統(tǒng),也可以是非傳統(tǒng)的數(shù)據(jù),如文件、HTML文件、知識(shí)庫(kù)等。

(2)倉(cāng)庫(kù)數(shù)據(jù)管理系統(tǒng)(DWMS):倉(cāng)庫(kù)的管理主要包括對(duì)數(shù)據(jù)的案例、歸檔、備份、維護(hù)以及恢復(fù)等工作,這些工作需通過(guò)數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng)來(lái)完成。

(3)分析工具:數(shù)據(jù)倉(cāng)庫(kù)的查詢不是指對(duì)記錄級(jí)數(shù)據(jù)的查詢,而是指對(duì)分析要求的查詢。一般包含兩種工具。一種是查詢工具,用來(lái)對(duì)分析要求的查詢。一種是挖掘工具,用于在大量數(shù)據(jù)中進(jìn)行挖掘有規(guī)律性的知識(shí)。

2.5 數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施

數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā)要以數(shù)據(jù)為中心,可大體分為以下幾個(gè)步驟:

(1)明確目標(biāo),制訂計(jì)劃

根據(jù)需求確定相應(yīng)的數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)目標(biāo),并制定實(shí)施計(jì)劃,用發(fā)展的眼光創(chuàng)立架構(gòu)方案。

(2)建立技術(shù)環(huán)境

建立支撐平臺(tái)建立技術(shù)環(huán)境,選擇實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)的軟硬件資源,包括開(kāi)發(fā)平臺(tái)、DBMS、網(wǎng)絡(luò)通信、開(kāi)發(fā)工具、終端訪問(wèn)工具等等。

(3)確定主題

通過(guò)對(duì)用戶、管理層的需求進(jìn)行深入的了解與分析,然后對(duì)這些需求中比較迫切、重要程度初步確定幾個(gè)主題。

(4)概念模型設(shè)計(jì)

概念模型設(shè)計(jì)是主觀與客觀之間的橋梁,通過(guò)概念模型,可以用適合計(jì)算機(jī)世界的模型和語(yǔ)言對(duì)客觀世界中的問(wèn)題進(jìn)行具體的描述。主要包括事實(shí)的定義、維度的定義和級(jí)別的定義。所謂事實(shí),即指決策者分析的目標(biāo)數(shù)據(jù),可以幫助決策者了解全局,作出相應(yīng)決策。也稱為度量值。而維度,即指事實(shí)的屬性信息。也稱為考察事實(shí)的角度。

(5)邏輯模型設(shè)計(jì)

邏輯模型的設(shè)計(jì)是指根據(jù)事實(shí)、維度和級(jí)別之間的關(guān)系確定所采用的架構(gòu)。通常采用星型構(gòu)架進(jìn)行設(shè)計(jì),也就是以事實(shí)表為中心,四周與每個(gè)維度相關(guān)聯(lián),不存在維度與維度相關(guān)聯(lián)的情況。

(6)物理模型設(shè)計(jì)

物理設(shè)計(jì)主要完成開(kāi)發(fā)決策工具的選擇、數(shù)據(jù)表的創(chuàng)建與索引的創(chuàng)建。數(shù)據(jù)表主要包括事實(shí)表與維度表的創(chuàng)建。一般對(duì)維度都創(chuàng)建了主鍵索引,對(duì)事實(shí)表則設(shè)置了組合主鍵索引。

(7)數(shù)據(jù)轉(zhuǎn)換程序

實(shí)現(xiàn)從數(shù)據(jù)源中抽取、清理、聚集、轉(zhuǎn)換數(shù)據(jù)并加載數(shù)據(jù)等過(guò)程的設(shè)計(jì)。

(8)定義元數(shù)據(jù)

即定義數(shù)據(jù)的意義及系統(tǒng)各組成部件的關(guān)系。

(9)運(yùn)行與維護(hù)

管理數(shù)據(jù)倉(cāng)庫(kù)環(huán)境,定期進(jìn)行數(shù)據(jù)的更新,使數(shù)據(jù)倉(cāng)庫(kù)正常運(yùn)行。

3 數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的應(yīng)用

目前,國(guó)內(nèi)數(shù)據(jù)倉(cāng)庫(kù)的需求主要表現(xiàn)在如下方面:

(1)由于銀行商業(yè)化的步伐正在加大,各大、中型銀行開(kāi)始重新考慮自身的業(yè)務(wù),特別是加強(qiáng)對(duì)自身的信貸風(fēng)險(xiǎn)的管理,因而對(duì)有關(guān)信貸風(fēng)險(xiǎn)管理和風(fēng)險(xiǎn)規(guī)避的決策支持系統(tǒng)的需求逐漸多了起來(lái)。

(2)由于電子商務(wù)的迅速發(fā)展,不少網(wǎng)站開(kāi)始考慮如何提高對(duì)顧客的忠誠(chéng)度,為客戶提供更進(jìn)一步的“貼身”服務(wù)。

(3)各大型企業(yè)如移動(dòng)通信局等開(kāi)始考慮著手進(jìn)行決策支持以及數(shù)據(jù)倉(cāng)庫(kù)規(guī)則。

4 結(jié)束語(yǔ)

雖然目前國(guó)內(nèi)的數(shù)據(jù)倉(cāng)庫(kù)市場(chǎng)經(jīng)過(guò)了多年的發(fā)展,但是比起國(guó)外大企業(yè)所建的巨型企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)來(lái)講,還只能算是剛剛起步,還存在很多的不足之處,主要表現(xiàn)在計(jì)算機(jī)應(yīng)用水平較低,無(wú)法提出決策支持需求,所以很多企業(yè)無(wú)法馬上實(shí)施數(shù)據(jù)倉(cāng)庫(kù)。

但相信隨著相關(guān)計(jì)算機(jī)技術(shù)的進(jìn)步,數(shù)據(jù)倉(cāng)庫(kù)技術(shù)也一定能得到不斷的發(fā)展,為企業(yè)在商業(yè)競(jìng)爭(zhēng)中提供更好的幫助。

參考文獻(xiàn):

[1] w.H.Inmon.?dāng)?shù)據(jù)倉(cāng)庫(kù)管理[M].北京:機(jī)械工業(yè)出版社,1999,8-9.

[2] 鐘愛(ài)軍,宋麒.基于數(shù)據(jù)倉(cāng)庫(kù)的醫(yī)院決策支持系統(tǒng)的構(gòu)建.數(shù)理醫(yī)藥學(xué)雜志,2007,13-19.

篇2

信息技術(shù)的不斷推廣應(yīng)用,將企業(yè)帶入一個(gè)信息爆炸的時(shí)代。每時(shí)每刻都有潮水般的信息出現(xiàn)在管理者的面前,等待管理者去處理、去使用。這些管理信息的處理類型主要分事務(wù)型(操作型)處理和信息型(分析型)處理兩大類。事務(wù)型處理也就是通常所說(shuō)的業(yè)務(wù)操作處理。這種操作處理主要是對(duì)管理信息進(jìn)行日常的操作,對(duì)信息進(jìn)行查詢和修改等,目的是滿足組織特定的日常管理需要。在這類處理中,管理者關(guān)心的是信息能否得到快速的處理,信息的安全性能否得到保證,信息的完整性是否遭到破壞。信息型處理則是指對(duì)信息做進(jìn)一步的分析,為管理人員的決策提供支持。

1.1 數(shù)據(jù)倉(cāng)庫(kù)的定義

業(yè)界公認(rèn)的數(shù)據(jù)倉(cāng)庫(kù)概念創(chuàng)始人W.H.Inmon在《數(shù)據(jù)倉(cāng)庫(kù)》(Building the Data Warehouse)一書(shū)中對(duì)數(shù)據(jù)倉(cāng)庫(kù)的定義是:數(shù)據(jù)倉(cāng)庫(kù)就是面向主題的、集成的、不可更新的(穩(wěn)定性)、隨時(shí)間不斷變化(不同時(shí)間)的數(shù)據(jù)集合,用以支持經(jīng)營(yíng)管理中的決策制定。

數(shù)據(jù)倉(cāng)庫(kù)是將原始的操作數(shù)據(jù)進(jìn)行各種處理并轉(zhuǎn)換成綜合信息,提供功能強(qiáng)大的分析工具對(duì)這些信息進(jìn)行多方位的分析以幫助企業(yè)領(lǐng)導(dǎo)做出更符合業(yè)務(wù)發(fā)展規(guī)律的決策。因此,在很多場(chǎng)合,決策支持系統(tǒng)也成了數(shù)據(jù)倉(cāng)庫(kù)的代名詞。建立數(shù)據(jù)倉(cāng)庫(kù)的目的是把企業(yè)的內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)進(jìn)行有效的集成,為企業(yè)的各層決策和分析人員使用。

1.2 數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)

從W.H.Inmon關(guān)于數(shù)據(jù)倉(cāng)庫(kù)的定義中可以分析出數(shù)據(jù)倉(cāng)庫(kù)具有這樣一些重要的以下特性。

1.2.1 面向主題性

面向主題性表示了數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)組織的基本原則,數(shù)據(jù)倉(cāng)庫(kù)中的所有數(shù)據(jù)都是圍繞著某一主題組織展開(kāi)的。由于數(shù)據(jù)倉(cāng)庫(kù)的用戶大多是企業(yè)的管理決策者,這些人所面對(duì)的往往是一些比較抽象的、層次較高的管理分析對(duì)象。

1.2.2 集成性

所謂集成性是指在數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前,必須經(jīng)過(guò)數(shù)據(jù)加工和集成,這是建立數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵步驟。

1.2.3 時(shí)變性

所謂時(shí)變性是指數(shù)據(jù)倉(cāng)庫(kù)中的信息并不只是關(guān)于企業(yè)當(dāng)時(shí)或某一時(shí)點(diǎn)的信息,而是系統(tǒng)地記錄了企業(yè)從過(guò)去某一時(shí)點(diǎn)到目前的數(shù)據(jù),主要用于進(jìn)行時(shí)間趨勢(shì)分析。

1.2.4 非易失性

數(shù)據(jù)倉(cāng)庫(kù)總是物理地分離存放數(shù)據(jù),這些數(shù)據(jù)源于操作環(huán)境下的應(yīng)用數(shù)據(jù)。

1.3 數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)體系結(jié)構(gòu)

一個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的技術(shù)體系結(jié)構(gòu)總體來(lái)說(shuō)包括后臺(tái)數(shù)據(jù)預(yù)處理,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)管理和數(shù)據(jù)倉(cāng)庫(kù)的前臺(tái)查詢服務(wù)三大部分。

數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)來(lái)自企業(yè)內(nèi)部不同的業(yè)務(wù)系統(tǒng)甚至企業(yè)外部的商業(yè)數(shù)據(jù)庫(kù),這些數(shù)據(jù)庫(kù)對(duì)于數(shù)據(jù)倉(cāng)庫(kù)來(lái)說(shuō)被稱為數(shù)據(jù)源。數(shù)據(jù)源中的數(shù)據(jù)在數(shù)據(jù)的組織方式、數(shù)據(jù)格式等許多方面與數(shù)據(jù)倉(cāng)庫(kù)對(duì)數(shù)據(jù)的要求有很大的差別,因此這些數(shù)據(jù)不可能直接載入數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)庫(kù)中,為此必須進(jìn)行數(shù)據(jù)的預(yù)處理操作。數(shù)據(jù)的預(yù)處理包括數(shù)據(jù)源的定義、從數(shù)據(jù)源提取數(shù)據(jù)到預(yù)處理數(shù)據(jù)區(qū)(數(shù)據(jù)準(zhǔn)備區(qū))、在數(shù)據(jù)準(zhǔn)備區(qū)中對(duì)數(shù)據(jù)進(jìn)行凈化處理、作必要的轉(zhuǎn)換、再將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù),等等。實(shí)現(xiàn)這部分功能的是數(shù)據(jù)倉(cāng)庫(kù)的后臺(tái)數(shù)據(jù)預(yù)處理部分。

數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用服務(wù)部分提供了各種應(yīng)用工具,使用這些工具可以對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行復(fù)雜的查詢分析和知識(shí)挖掘等等。沒(méi)有一種工具可以滿足所有的應(yīng)用需求??蛇x擇的工具大致分為:數(shù)據(jù)挖掘工具:數(shù)據(jù)挖掘是基于人工智能來(lái)分析數(shù)據(jù)的一種技術(shù),通過(guò)對(duì)數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的分析去發(fā)現(xiàn)一些用戶可能沒(méi)有想到的模式和數(shù)據(jù)關(guān)系。特別查詢工具:特別查詢提供了一種能力,使得分析人員可以提交一些特別的問(wèn)題,并產(chǎn)生相應(yīng)的結(jié)果。在線分析處理(OLAP,On-Line Analytical Processing):在線分析處理以數(shù)據(jù)立方體或多維的方式來(lái)查看數(shù)據(jù),允許用戶進(jìn)行鉆取以獲得更詳細(xì)或更概括的數(shù)據(jù),或者對(duì)不同的“維”如時(shí)間、商品等進(jìn)行切片操作。OLAP工具可用于對(duì)商業(yè)問(wèn)題進(jìn)行分析,是最常用的輔助決策工具。

2、數(shù)據(jù)挖掘

2.1 數(shù)據(jù)挖掘的概念

數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中提取有用的信息和知識(shí)的過(guò)程。所發(fā)現(xiàn)的信息和知識(shí)是潛在的并隱藏在大量數(shù)據(jù)背后的,是用戶感興趣的、可理解、可運(yùn)用的知識(shí)。所以,數(shù)據(jù)挖掘有時(shí)也被人們稱為知識(shí)挖掘、知識(shí)提取、知識(shí)發(fā)現(xiàn)等。

數(shù)據(jù)挖掘也可視為是一類深層次的新型數(shù)據(jù)分析方法,它與傳統(tǒng)的數(shù)據(jù)分析的本質(zhì)區(qū)別在于:數(shù)據(jù)挖掘是在沒(méi)有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識(shí),所得到的信息通常是預(yù)先未知的、也是很難預(yù)料到的,甚至與人的直覺(jué)是相背的,但又是非常有用的;而傳統(tǒng)的數(shù)據(jù)分析得到的信息則是浮在表面的、人的直覺(jué)能夠感受到的、或與人的直覺(jué)較為相近的。

2.2 數(shù)據(jù)挖掘的過(guò)程

數(shù)據(jù)挖掘過(guò)程,可以概括為數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘及結(jié)果的解釋和評(píng)價(jià)三部分。

2.2.1 數(shù)據(jù)準(zhǔn)備

數(shù)據(jù)準(zhǔn)備一般包括三個(gè)子步驟:數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理。數(shù)據(jù)集成將多文件或多數(shù)據(jù)庫(kù)運(yùn)行環(huán)境中的數(shù)據(jù)進(jìn)行合并處理,解決語(yǔ)義模糊性、處理數(shù)據(jù)中的遺漏和清洗“臟數(shù)據(jù)”等。數(shù)據(jù)選擇的目的是辨別出需要分析的數(shù)據(jù)集合,即目標(biāo)數(shù)據(jù)(Target Data),是以用戶需求驅(qū)動(dòng)的從原始數(shù)據(jù)庫(kù)中抽取的一組數(shù)據(jù),它使處理范圍縮小,提高數(shù)據(jù)挖掘的質(zhì)量。數(shù)據(jù)預(yù)處理一般包括消除噪聲、推導(dǎo)計(jì)算缺值數(shù)據(jù)、消除重復(fù)記錄、完成數(shù)據(jù)類型轉(zhuǎn)換,預(yù)處理目的是為了克服目前數(shù)據(jù)挖掘工具的局限性。

2.2.2 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘階段首先要決定挖掘的任務(wù)或目標(biāo),確定了任務(wù)或目標(biāo)之后我們才能決定使用什么樣的挖掘方法。確定挖掘任務(wù)后選擇合適的算法,可進(jìn)行數(shù)據(jù)挖掘操作,獲取相應(yīng)的模式。

2.2.3 結(jié)果的解釋和評(píng)價(jià)

經(jīng)過(guò)數(shù)據(jù)挖掘階段后,獲得了一些模式結(jié)果,但通常存在冗余或無(wú)關(guān)的模式。有可能這些模式不滿足用戶要求,這時(shí)則需退回到發(fā)現(xiàn)過(guò)程的前面階段,可能需要獲取新的數(shù)據(jù),采用新的數(shù)據(jù)預(yù)處理方法,換一種挖掘方法等等。

2.3 數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘技術(shù)主要分為:關(guān)聯(lián)分析、時(shí)序模式、聚類、分類、偏差檢測(cè)和預(yù)測(cè)等。

2.3.1 關(guān)聯(lián)分析

關(guān)聯(lián)分析用來(lái)發(fā)現(xiàn)關(guān)聯(lián)規(guī)則。它是從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)的一類重要方法。關(guān)聯(lián)分析廣泛用于購(gòu)物籃或事務(wù)數(shù)據(jù)分析。

2.3.2 時(shí)序模式

時(shí)間序列模式是用變量過(guò)去的值來(lái)預(yù)測(cè)未來(lái)的值。比如可以用前六天的數(shù)據(jù)來(lái)預(yù)測(cè)第七天的值,這樣就建立了一個(gè)區(qū)間大小為7的窗口。

2.3.3 聚類

聚類是把整個(gè)數(shù)據(jù)庫(kù)分成不同的組群。它的目的是使得群與群之間差別很明顯,而同一個(gè)群內(nèi)的數(shù)據(jù)盡量相似。劃分出來(lái)的組群具有一定的意義,我們稱為類。在同一類別中,個(gè)體之間的距離較小,而不同類別的個(gè)體之間的距離較大。

2.3.4 分類

數(shù)據(jù)挖掘應(yīng)用最多的任務(wù)要屬分類。分類找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型,以便能夠使用模型預(yù)測(cè)類標(biāo)記未知的對(duì)象類。該模式能把數(shù)據(jù)庫(kù)中的元組映射到給定類別中的某一個(gè)。

2.3.5 偏差檢測(cè)

所謂偏差檢測(cè)就是在數(shù)據(jù)分析中發(fā)現(xiàn)有很多異常情況存在于數(shù)據(jù)庫(kù)中,我們根據(jù)這種異常情況可以獲得很多有用的信息

2.3.6 預(yù)測(cè)

預(yù)測(cè)可以利用歷史數(shù)據(jù)或數(shù)據(jù)分布依據(jù)一定的模型計(jì)算出數(shù)值數(shù)據(jù)或識(shí)別出未來(lái)分布趨勢(shì)等。

2.4 數(shù)據(jù)挖掘面臨的主要問(wèn)題及對(duì)策

2.4.1 數(shù)據(jù)挖掘面臨的主要問(wèn)題

數(shù)據(jù)挖掘在不斷的實(shí)際應(yīng)用中,正不斷地吸取各種領(lǐng)域的經(jīng)驗(yàn)而逐漸成熟。從目前的情況來(lái)看,在運(yùn)用現(xiàn)代數(shù)據(jù)挖掘技術(shù)時(shí)還需要注意一些問(wèn)題,如數(shù)據(jù)挖掘任務(wù)、數(shù)據(jù)挖掘方法、用戶交互、挖掘性能和數(shù)據(jù)類型多樣性等問(wèn)題。

2.4.2 主要對(duì)策

針對(duì)數(shù)據(jù)挖掘現(xiàn)在面臨的主要問(wèn)題,所應(yīng)用的對(duì)策有以下一些:(1)與數(shù)據(jù)倉(cāng)庫(kù)技術(shù)結(jié)合。數(shù)據(jù)倉(cāng)庫(kù)可以為數(shù)據(jù)挖掘提供經(jīng)過(guò)清洗的和轉(zhuǎn)換的、完整的數(shù)據(jù)資源。(2)挖掘多種類型的知識(shí)。數(shù)據(jù)挖掘除了最常見(jiàn)的關(guān)聯(lián)與分類之外,還有許多重要的任務(wù)待進(jìn)一步的開(kāi)發(fā),包括聚合、預(yù)測(cè)模型以及時(shí)間相關(guān)分析等等。(3)發(fā)現(xiàn)語(yǔ)言的形式化描述,即研究專門(mén)用于知識(shí)發(fā)現(xiàn)的數(shù)據(jù)挖掘語(yǔ)言,如SQL語(yǔ)言一樣的形式化和標(biāo)準(zhǔn)化。(4)可視化數(shù)據(jù)挖掘。尋求數(shù)據(jù)挖掘過(guò)程中的可視化方法,使知識(shí)發(fā)現(xiàn)的過(guò)程便于用戶的理解,也便于在知識(shí)發(fā)現(xiàn)的過(guò)程中進(jìn)行人機(jī)交互。(5)高效的數(shù)據(jù)挖掘。高效性和可伸縮性是目前數(shù)據(jù)挖掘算法的焦點(diǎn)之一,隨著并行的、分布式的以及增長(zhǎng)式的數(shù)據(jù)挖掘技術(shù)的研究與發(fā)展,這種趨勢(shì)將會(huì)繼續(xù)得到進(jìn)一步的發(fā)展。(6)數(shù)據(jù)挖掘的應(yīng)用。更加廣泛的將數(shù)據(jù)挖掘技術(shù)應(yīng)用于現(xiàn)實(shí)世界也是一個(gè)非常重要的研究方向。

3、數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)的關(guān)系

3.1 數(shù)據(jù)挖掘是數(shù)據(jù)倉(cāng)庫(kù)發(fā)展的必然結(jié)果

隨著大量數(shù)據(jù)被收集,從原始數(shù)據(jù)中得到有價(jià)值的決策信息越來(lái)越困難,于是新的數(shù)據(jù)庫(kù)的體系結(jié)構(gòu)產(chǎn)生了,即出現(xiàn)了數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)倉(cāng)庫(kù)中存放的是從原始數(shù)據(jù)中經(jīng)過(guò)計(jì)算和統(tǒng)計(jì)后得到的滿足決策者需要的數(shù)據(jù),這種數(shù)據(jù)也被稱為是信息型或分析型數(shù)據(jù)。聯(lián)機(jī)分析處理工具是基于數(shù)據(jù)倉(cāng)庫(kù)的信息分析處理過(guò)程,具有匯總、合并和聚集功能,以及從不同的角度觀察信息的能力,但對(duì)于深層次的分析,如數(shù)據(jù)分類、聚類和數(shù)據(jù)隨時(shí)間變化的特性,仍然需要其他分析工具。數(shù)據(jù)挖掘可以看作是聯(lián)機(jī)分析處理的高級(jí)階段。

3.2 數(shù)據(jù)倉(cāng)庫(kù)為數(shù)據(jù)挖掘提供應(yīng)用基礎(chǔ)

從數(shù)據(jù)挖掘的定義可以看出,數(shù)據(jù)挖掘包含一系列旨在從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)有用而未發(fā)現(xiàn)的模式的技術(shù),如果將其與數(shù)據(jù)倉(cāng)庫(kù)緊密聯(lián)系在一起,將獲得意外的成功。

4、結(jié)語(yǔ)

本章主要介紹了數(shù)據(jù)倉(cāng)庫(kù)的概念、特點(diǎn)和體系結(jié)構(gòu),以及數(shù)據(jù)挖掘的概念、數(shù)據(jù)挖掘的過(guò)程和數(shù)據(jù)挖掘的技術(shù),和數(shù)據(jù)挖掘面臨的主要問(wèn)題及對(duì)策,最后分析了數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)的關(guān)系。為數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)的實(shí)際運(yùn)用打下堅(jiān)實(shí)的理論基礎(chǔ)。

參考文獻(xiàn)

[1]吳慶慧.在金融數(shù)據(jù)庫(kù)營(yíng)銷中的一種數(shù)據(jù)挖掘與決策分析的方法.中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào),2009,39(2):208~214.

[2]高祥濤.數(shù)據(jù)挖掘在水文相似年查找中的應(yīng)用研究.計(jì)算機(jī)工程與應(yīng)用,2009,45(5):243~245.

篇3

(1)本單位的基本情況,包括本單位組織結(jié)構(gòu)、人員構(gòu)成、經(jīng)營(yíng)業(yè)務(wù)范圍規(guī)模、科研生產(chǎn)經(jīng)營(yíng)管理情況,單位在行業(yè)中的地位、優(yōu)勢(shì)、特色,以及取得的各種榮譽(yù)和獎(jiǎng)勵(lì)等。(2)本單位目前執(zhí)行的各種法規(guī)制度和內(nèi)控制度。(3)歷年財(cái)務(wù)數(shù)據(jù),包括會(huì)計(jì)科目余額匯總表、明細(xì)科目、全年每張憑證的明細(xì)內(nèi)容;還可能包括基建賬目的會(huì)計(jì)科目余額匯總表和序時(shí)賬,以及固定資產(chǎn)計(jì)提折舊、大修理基金的匯總表,分?jǐn)偟礁鱾€(gè)科研項(xiàng)目設(shè)備費(fèi)的分?jǐn)偯骷?xì)數(shù)據(jù)和分?jǐn)傄罁?jù)說(shuō)明;每年的管理費(fèi)用分?jǐn)偙砑捌涿骷?xì)表,以及對(duì)分?jǐn)傄罁?jù)進(jìn)行說(shuō)明,等等。(4)被審計(jì)項(xiàng)目的文件資料。(5)有關(guān)基礎(chǔ)數(shù)據(jù)。如固定資產(chǎn)增減變動(dòng)情況表、原材料出入庫(kù)匯總表和入庫(kù)單、領(lǐng)料單明細(xì)表、固定資產(chǎn)采購(gòu)合同、進(jìn)口設(shè)備結(jié)算單、施工合同、施工圖、工程預(yù)結(jié)算書(shū)、設(shè)計(jì)變更、工程洽商及現(xiàn)場(chǎng)鑒證資料、單項(xiàng)工程質(zhì)量評(píng)定材料、竣工驗(yàn)收文件,中介機(jī)構(gòu)提供的工程結(jié)算審核報(bào)告、客戶名錄、招投標(biāo)數(shù)據(jù)庫(kù)、各類合同,等等。(6)接受外部檢查的資料。如審計(jì)報(bào)告、審計(jì)意見(jiàn)書(shū)和專項(xiàng)審核報(bào)告等以及稅務(wù)、財(cái)政、社保、環(huán)保、消防安全機(jī)構(gòu)、質(zhì)量體系、集團(tuán)公司等對(duì)單位各項(xiàng)檢查結(jié)果檢查的結(jié)論性意見(jiàn)。(7)內(nèi)部審計(jì)的資料。(8)所屬子公司和附屬單位的數(shù)據(jù)資料。總之,滿足審計(jì)需要的數(shù)據(jù),眾多且龐雜。

二、建立和管理審計(jì)數(shù)據(jù)倉(cāng)庫(kù)

數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)是以現(xiàn)有業(yè)務(wù)系統(tǒng)的積累為基礎(chǔ)。數(shù)據(jù)倉(cāng)庫(kù)建設(shè)是一個(gè)工程,是一個(gè)過(guò)程。數(shù)據(jù)倉(cāng)庫(kù)建立不是一蹴而就的,一成不變的,需要平時(shí)不斷地收集和整理。根據(jù)數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn),數(shù)據(jù)內(nèi)容是歷史的、存檔的、歸納的、計(jì)算的數(shù)據(jù)。在管理中需要注意以下幾點(diǎn):1.傳統(tǒng)操作型數(shù)據(jù)庫(kù)中的數(shù)據(jù)要抽取、凈化和轉(zhuǎn)換成“干凈”數(shù)據(jù)后才能進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)。源數(shù)據(jù)可能有很多與審計(jì)無(wú)關(guān)的信息,經(jīng)過(guò)凈化和轉(zhuǎn)換的數(shù)據(jù)才是審計(jì)有用的數(shù)據(jù)。2.數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)特性是歷史的、靜態(tài)的、定時(shí)添加的,數(shù)據(jù)倉(cāng)庫(kù)內(nèi)已經(jīng)存在的數(shù)據(jù)不會(huì)改變,要定期持續(xù)對(duì)有關(guān)內(nèi)容進(jìn)行維護(hù),產(chǎn)生的新數(shù)據(jù)要及時(shí)添加補(bǔ)充,單位若有新的規(guī)章制度也需添加進(jìn)去。3.數(shù)據(jù)倉(cāng)庫(kù)里的數(shù)據(jù)和資料,一般可按年度來(lái)建立,跨年度的被審計(jì)項(xiàng)目數(shù)據(jù)就可以方便地從各個(gè)年度數(shù)據(jù)倉(cāng)庫(kù)中提取。4.數(shù)據(jù)倉(cāng)庫(kù)里的數(shù)據(jù)是有時(shí)效性的,而被審計(jì)項(xiàng)目往往跨越幾個(gè)年度,不同時(shí)期所遵循實(shí)施的標(biāo)準(zhǔn)和管理規(guī)定也不盡相同。在數(shù)據(jù)倉(cāng)庫(kù)中要合理劃分不同時(shí)間區(qū)段。5.遇審計(jì)項(xiàng)目?jī)?nèi)容的,只提供給有保密資質(zhì)的外審人員,并簽署保密協(xié)議;若外部審計(jì)單位沒(méi)有審計(jì)資質(zhì),則需要?jiǎng)h除數(shù)據(jù)倉(cāng)庫(kù)中的信息后轉(zhuǎn)化為非密版本,即可按和非準(zhǔn)備兩套版本,根據(jù)不同需要提供不同的版本。6.建立數(shù)據(jù)倉(cāng)庫(kù)需要各個(gè)部門(mén)的大力溝通配合共同建設(shè)。建立數(shù)據(jù)倉(cāng)庫(kù)之后,審計(jì)部門(mén)將所有收集來(lái)的審計(jì)相關(guān)信息存放在一個(gè)唯一的地方——數(shù)據(jù)倉(cāng)庫(kù)。倉(cāng)庫(kù)中的數(shù)據(jù)按照一定的方式組織,從而使得審計(jì)信息容易存取并且有使用價(jià)值,從而大大提高審計(jì)效率。

三、數(shù)據(jù)分析應(yīng)用于數(shù)據(jù)倉(cāng)庫(kù)

篇4

數(shù)據(jù)倉(cāng)庫(kù)十多年前開(kāi)始出現(xiàn)在企業(yè)中,其承諾相當(dāng)誘人:將關(guān)鍵數(shù)據(jù)集中在容易發(fā)現(xiàn)的統(tǒng)一站點(diǎn),這樣所有的商業(yè)人士就可根據(jù)具體的事實(shí)分析作出決策,而不是在信息不充分的條件下憑直覺(jué)作出決策?,F(xiàn)在,數(shù)據(jù)倉(cāng)庫(kù)仍是實(shí)力雄厚的公司的奢侈品,這些公司具有足夠的資金、員工以及耐心來(lái)購(gòu)買(mǎi)、安裝和維護(hù)數(shù)據(jù)倉(cāng)庫(kù)。

而開(kāi)源,這種破壞性的力量完全顛覆了數(shù)據(jù)倉(cāng)庫(kù)和其它許多市場(chǎng)。開(kāi)源交付的特許軟件成本很低或者根本無(wú)需成本,即使對(duì)再小的公司也開(kāi)放性能;而且對(duì)網(wǎng)絡(luò)社區(qū)開(kāi)放代碼和功能,只要社區(qū)能保證解決方案切實(shí)滿足主要標(biāo)準(zhǔn),解決方案在部署時(shí)變得更加直接、靈活,不再花里胡哨。

數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)源方案

現(xiàn)在,開(kāi)源的革命已經(jīng)滲入數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域。不僅有工具和技術(shù)可在實(shí)施數(shù)據(jù)倉(cāng)庫(kù)時(shí)構(gòu)建模塊,同時(shí)數(shù)據(jù)倉(cāng)庫(kù)本身也已成為開(kāi)源。下面是支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)的開(kāi)源方案。

第一,數(shù)據(jù)庫(kù)系統(tǒng)。成功部署數(shù)據(jù)倉(cāng)庫(kù)時(shí),開(kāi)源構(gòu)建模塊(building blocks)的數(shù)量取得了巨大增長(zhǎng),這表明采用開(kāi)源數(shù)據(jù)倉(cāng)庫(kù)的時(shí)機(jī)已經(jīng)成熟。例如,Gartner公司的報(bào)告指出:近幾年,開(kāi)源FIRMS引擎已顯著增長(zhǎng)。Gartner還發(fā)現(xiàn),47%的受調(diào)查公司已經(jīng)采用開(kāi)源數(shù)據(jù)倉(cāng)庫(kù),19%的公司正考慮在12個(gè)月內(nèi)采用開(kāi)源數(shù)據(jù)倉(cāng)庫(kù)。

在許多情況下,開(kāi)源數(shù)據(jù)倉(cāng)庫(kù)正得到廣泛采用的市場(chǎng)正是大型數(shù)據(jù)庫(kù)供應(yīng)商長(zhǎng)期忽略的市場(chǎng)。但是,如果公司以活躍的商業(yè)數(shù)據(jù)庫(kù)實(shí)施項(xiàng)目為主導(dǎo),那么公司內(nèi)部也會(huì)存在開(kāi)源數(shù)據(jù)倉(cāng)庫(kù)。一項(xiàng)針對(duì)獨(dú)立Oracle用戶組(IOUG)226個(gè)成員的研究表明,超過(guò)三分之一(35%)的站點(diǎn)也擁有開(kāi)源數(shù)據(jù)庫(kù),如運(yùn)行MySQL。

第二,ETL工具。與開(kāi)源數(shù)據(jù)庫(kù)同時(shí)出現(xiàn)的還有ETL、開(kāi)源分析/商業(yè)智能工具,這些工具在企業(yè)中逐步得到應(yīng)用。Gartner估計(jì),大約11%的受調(diào)查公司正在使用開(kāi)源ETL工具,16%的公司正考慮在未來(lái)幾個(gè)月內(nèi)采用這類工具。開(kāi)源ETL工具包括Pentaho公司的KETL、Talend、Clover.ETL以及Octopus等。

第三,商業(yè)智能。在商業(yè)智能和分析工具領(lǐng)域,Gartner指出,9%的受調(diào)查公司已經(jīng)采用開(kāi)源BI解決方案,18%的公司正考慮在未來(lái)12個(gè)月內(nèi)采用開(kāi)源方案。目前,市場(chǎng)中存在許多開(kāi)源BI或分析程序,以Pentaho和JasperSoft等供應(yīng)商為主導(dǎo)。同時(shí),Ventana Research對(duì)500家公司的調(diào)查結(jié)果證實(shí):BI受到廣泛關(guān)注,并且這種趨勢(shì)在繼續(xù)增長(zhǎng);對(duì)開(kāi)源商業(yè)智能感興趣的公司中有21%已部署開(kāi)源程序。顯然,仍有許多公司聲稱他們未來(lái)沒(méi)有此類項(xiàng)目,因?yàn)樗麄儾粫?huì)考慮開(kāi)源商業(yè)智能。

使用如此廣泛、客戶如此滿意,并且擁有開(kāi)源數(shù)據(jù)庫(kù)和開(kāi)源分析工具,開(kāi)源數(shù)據(jù)倉(cāng)庫(kù)在此時(shí)興起也就不足為奇了。之前,供應(yīng)商根據(jù)開(kāi)源數(shù)據(jù)庫(kù)(如MysQL、PostgreSQL和Ingres)生產(chǎn)數(shù)據(jù)倉(cāng)庫(kù)專有產(chǎn)品,現(xiàn)在,供應(yīng)商開(kāi)始引入全面的開(kāi)源數(shù)據(jù)倉(cāng)庫(kù)解決方案及其伴隨社區(qū)。

最近的產(chǎn)品ICE(Infobright Communicy Edition)及其在的伴隨社區(qū)就是一個(gè)很好的例子。論壇帖子表明社區(qū)用戶在不斷增加,其中一些用戶對(duì)數(shù)據(jù)庫(kù)非常了解,但是對(duì)數(shù)據(jù)倉(cāng)庫(kù)相對(duì)陌生。MySQL擴(kuò)展了數(shù)據(jù)庫(kù)市場(chǎng),ICE等開(kāi)源產(chǎn)品亦如此,因?yàn)閿?shù)據(jù)卷快速增長(zhǎng),分析需求也不斷增加。

開(kāi)源數(shù)據(jù)倉(cāng)庫(kù)的優(yōu)勢(shì)

開(kāi)源數(shù)據(jù)倉(cāng)庫(kù)可以解決當(dāng)前諸多問(wèn)題,而且足跡較少、運(yùn)作的管理資源較少。開(kāi)源模型運(yùn)用到數(shù)據(jù)倉(cāng)庫(kù)的優(yōu)勢(shì)為:

第一,開(kāi)源數(shù)據(jù)倉(cāng)庫(kù)在前期耗費(fèi)較少,維護(hù)和支持費(fèi)也較少。目前,市場(chǎng)中的開(kāi)源軟件產(chǎn)品通常比相應(yīng)的特許產(chǎn)品更加便宜。另外,開(kāi)發(fā)人員和IT管理人員可以下載開(kāi)源產(chǎn)品的源代碼,也可以定制產(chǎn)品或修改產(chǎn)品,從而進(jìn)一步簡(jiǎn)化操作。

第二,開(kāi)源數(shù)據(jù)倉(cāng)庫(kù)采用的技術(shù)很容易在市場(chǎng)中獲得。因此,公司如果具備現(xiàn)有數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)的專業(yè)知識(shí),在實(shí)施新的開(kāi)源數(shù)據(jù)庫(kù)工程時(shí),就不必進(jìn)一步研究。

第三,開(kāi)源數(shù)據(jù)倉(cāng)庫(kù)大大促進(jìn)了標(biāo)準(zhǔn)化。開(kāi)源代碼透明、支持社區(qū),因此,一些重要的標(biāo)準(zhǔn)就可獲得各種版本和實(shí)施方式的一致性支持。專有形式不能也不會(huì)在這些設(shè)置中獲得支持。

第四,開(kāi)源數(shù)據(jù)倉(cāng)庫(kù)相當(dāng)靈活。開(kāi)源許可方式使得企業(yè)能夠?qū)⒔鉀Q方案擴(kuò)展給無(wú)數(shù)用戶,而不像專有軟件包那樣:按用戶或處理器收取費(fèi)用。公司只需花費(fèi)很少甚至無(wú)需花費(fèi)就可添加用戶或者擴(kuò)展工程。另外,終端用戶公司不必?fù)?dān)心被某個(gè)供應(yīng)商的強(qiáng)制升級(jí)路徑鎖定,相反可以選擇系統(tǒng)的新版本。

第五,開(kāi)源數(shù)據(jù)倉(cāng)庫(kù)能從網(wǎng)絡(luò)社區(qū)效應(yīng)中獲利。開(kāi)源解決方案利用開(kāi)發(fā)人員和創(chuàng)新人員的社區(qū)促進(jìn)發(fā)展。將新代碼和新特性貢獻(xiàn)給社區(qū),不斷為終端用戶提供各種可用的新方案。網(wǎng)絡(luò)社區(qū)的方法也可應(yīng)用到數(shù)據(jù)倉(cāng)庫(kù)――開(kāi)創(chuàng)新領(lǐng)域,將能很好地適應(yīng)環(huán)境,因?yàn)橛性S多系統(tǒng)和數(shù)據(jù)種類需要集成到數(shù)據(jù)倉(cāng)庫(kù)中。單個(gè)供應(yīng)商提供的解決方案很難解決所有的集成問(wèn)題。另外,公司可以依靠社區(qū)快速修復(fù)bug或安全缺陷,通常只需花費(fèi)幾天時(shí)間,而不必等待幾個(gè)星期甚至幾個(gè)月,直到供應(yīng)商再次提供安全補(bǔ)丁或服務(wù)補(bǔ)丁。

第六,開(kāi)源數(shù)據(jù)倉(cāng)庫(kù)可以逐步實(shí)施。對(duì)于一項(xiàng)大型工程,切忌好大喜功。數(shù)據(jù)管理人員即使需要實(shí)施全新功能,也不必向預(yù)算委員會(huì)尋求資金支付公司昨天所需的性能。工程可以從小做起,在成功實(shí)施的基礎(chǔ)上逐步完成。這也可以緩解“承諾過(guò)多”的問(wèn)題――在確定數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目的最佳資金時(shí),“承諾過(guò)多”是不得已而為之。開(kāi)源數(shù)據(jù)倉(cāng)庫(kù)無(wú)需大量啟動(dòng)資金,而是首先瞄準(zhǔn)最迫切的商業(yè)問(wèn)題,隨著收效增長(zhǎng)而增加資金人投入。

實(shí)施開(kāi)源數(shù)據(jù)倉(cāng)庫(kù)的建議

如果中小企業(yè)需要管理和觀察大型數(shù)據(jù)卷,但是缺乏實(shí)施和支持大型專有數(shù)據(jù)庫(kù)所需的資金或資源,那么開(kāi)源數(shù)據(jù)倉(cāng)庫(kù)就非常合適。另外,開(kāi)源數(shù)據(jù)倉(cāng)庫(kù)提供專門(mén)針對(duì)大型企業(yè)的某些部門(mén)或業(yè)務(wù)單元的解決方案,一旦產(chǎn)生商業(yè)問(wèn)題,就可快速解決可以部署的解決方案。以下建議可以幫你最大程度地實(shí)施開(kāi)源數(shù)據(jù)倉(cāng)庫(kù)。

第一,開(kāi)源和專有數(shù)據(jù)倉(cāng)庫(kù)需要共存。開(kāi)源數(shù)據(jù)倉(cāng)庫(kù)將會(huì)增加,但是不會(huì)取代專有數(shù)據(jù)倉(cāng)庫(kù)。如前所述,調(diào)查中有超過(guò)三分之一的Oracle的公司采用MysQL等開(kāi)源數(shù)據(jù)庫(kù)。通常,這些數(shù)據(jù)倉(cāng)庫(kù)能夠很好地滿足策略需求,補(bǔ)充許多專有數(shù)據(jù)庫(kù)無(wú)法快速或有效滿足的新需求。

第二,尋找產(chǎn)品背后大型的活躍社區(qū)。不管是開(kāi)源數(shù)據(jù)倉(cāng)庫(kù)還是專有數(shù)據(jù)倉(cāng)庫(kù),都是非常復(fù)雜的工程,因?yàn)樾枰婕捌髽I(yè)中所有的數(shù)據(jù)。充分互動(dòng)的社區(qū)是必不可少的資料來(lái)源。

第三,終端用戶應(yīng)該無(wú)法見(jiàn)到開(kāi)源數(shù)據(jù)倉(cāng)庫(kù)。操作型數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)與生產(chǎn)數(shù)據(jù)密切相關(guān),是市場(chǎng)中增長(zhǎng)最快的數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)需要與前端用戶實(shí)時(shí)合作,但是幾乎無(wú)需終端用戶的輸入。在許多情況下,這些“普遍的BI”用戶沒(méi)有技術(shù)背景,操作應(yīng)該盡可能簡(jiǎn)單。相比之下,數(shù)據(jù)倉(cāng)庫(kù)的主要使用人員――分析人員或“超級(jí)用戶”――在過(guò)去擅長(zhǎng)構(gòu)建大量的查詢方式。開(kāi)源數(shù)據(jù)倉(cāng)庫(kù)應(yīng)該只需少量調(diào)整,就能支持普遍的BI用戶。

第四,開(kāi)源數(shù)據(jù)倉(cāng)庫(kù)應(yīng)該一如既往地支持開(kāi)源標(biāo)準(zhǔn)。之前市場(chǎng)中的“開(kāi)源”數(shù)據(jù)倉(cāng)庫(kù)都是根據(jù)開(kāi)源數(shù)據(jù)庫(kù),開(kāi)發(fā)專有接口,與開(kāi)源的本意背道而馳。開(kāi)源數(shù)據(jù)倉(cāng)庫(kù)應(yīng)該與相關(guān)的開(kāi)源環(huán)境兼容。

第五,尋找快速的部署方式和簡(jiǎn)便的使用方法。尋找這樣的開(kāi)源數(shù)據(jù)倉(cāng)庫(kù)工具和平臺(tái):具有數(shù)據(jù)壓縮功能,擁有較少的硬件和軟件足跡,只需較少的服務(wù)器和存儲(chǔ)空間就可支持TB級(jí)的數(shù)據(jù)。否則,維護(hù)費(fèi)用可能上升到專有數(shù)據(jù)倉(cāng)庫(kù)的水平。

篇5

關(guān)鍵詞:地理信息系統(tǒng);空間數(shù)據(jù)倉(cāng)庫(kù);數(shù)據(jù)倉(cāng)庫(kù);認(rèn)知過(guò)程

0引言

進(jìn)入21世紀(jì)后,對(duì)空間數(shù)據(jù)倉(cāng)庫(kù)的研究方興未艾,在許多次的國(guó)際學(xué)術(shù)會(huì)議上都有相關(guān)[1~3]。例如在泰國(guó)召開(kāi)的ISPRS第三屆動(dòng)態(tài)與多維GIS會(huì)議暨CPGIS第十屆地理信息年會(huì)、北京召開(kāi)的第20屆國(guó)際制圖協(xié)會(huì)國(guó)際學(xué)術(shù)會(huì)議、南非召開(kāi)的第21屆國(guó)際制圖協(xié)會(huì)國(guó)際學(xué)術(shù)會(huì)議等。還有一些ESRI公司的白皮書(shū)、全球性用戶大會(huì)、SSD國(guó)際會(huì)議、數(shù)字地球國(guó)際會(huì)議、GIS國(guó)際會(huì)議等也開(kāi)始討論空間數(shù)據(jù)倉(cāng)庫(kù)問(wèn)題[4~8]。將空間數(shù)據(jù)倉(cāng)庫(kù)技術(shù)引入到我國(guó)大概是20世紀(jì)90年代末,文獻(xiàn)[9~14]的發(fā)表開(kāi)創(chuàng)了我國(guó)空間數(shù)據(jù)倉(cāng)庫(kù)理論與技術(shù)研究的新局面,此后又陸續(xù)出現(xiàn)了一些這方面的論文。

總體說(shuō)來(lái),上述工作對(duì)空間數(shù)據(jù)倉(cāng)庫(kù)的理論和方法進(jìn)行了初步研究,在概念、原理、結(jié)構(gòu)、操作與算法等方面進(jìn)行了初步論述,已取得了卓有成效的成績(jī)。但是到目前為止,空間數(shù)據(jù)倉(cāng)庫(kù)的概念框架和認(rèn)知過(guò)程等方面還是缺乏系統(tǒng)的論述,沒(méi)有形成一套比較完整的空間數(shù)據(jù)倉(cāng)庫(kù)概念框架體系和認(rèn)知過(guò)程體系。

1概念框架

空間數(shù)據(jù)倉(cāng)庫(kù)是GIS技術(shù)和數(shù)據(jù)倉(cāng)庫(kù)技術(shù)相結(jié)合的產(chǎn)物,其定義很多,但中心思想包含三方面內(nèi)容:①空間數(shù)據(jù)倉(cāng)庫(kù)是在網(wǎng)絡(luò)環(huán)境下,實(shí)現(xiàn)對(duì)異地、異質(zhì)、異構(gòu)不同源數(shù)據(jù)庫(kù)中地理空間數(shù)據(jù)、專題數(shù)據(jù)及時(shí)間數(shù)據(jù)的統(tǒng)一、整合、集成處理,形成用戶獲取數(shù)據(jù)的共享操作模式;②空間數(shù)據(jù)倉(cāng)庫(kù)可根據(jù)需求對(duì)這些數(shù)據(jù)再進(jìn)行測(cè)繪專業(yè)處理,提供多種空間數(shù)據(jù)產(chǎn)品,滿足用戶更高層次——對(duì)數(shù)據(jù)產(chǎn)品的需求;③基于空間數(shù)據(jù)產(chǎn)品,空間數(shù)據(jù)倉(cāng)庫(kù)可從多維的角度進(jìn)行空間數(shù)據(jù)立方體分析和空間數(shù)據(jù)挖掘分析,提供綜合的、多維的、面向分析的空間輔助決策支持信息,滿足用戶空間決策分析的需求。

空間數(shù)據(jù)倉(cāng)庫(kù)的概念框架分為外部結(jié)構(gòu)、內(nèi)部結(jié)構(gòu)。外部結(jié)構(gòu)主要描述空間數(shù)據(jù)倉(cāng)庫(kù)與外部系統(tǒng)的關(guān)系;內(nèi)部結(jié)構(gòu)主要描述空間數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)部功能模塊組成。

1.1外部結(jié)構(gòu)

數(shù)據(jù)庫(kù)系統(tǒng)處于空間數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的最底層,管理著若干種不同的地理空間數(shù)據(jù)庫(kù)和專題數(shù)據(jù)庫(kù),它們各自獨(dú)立,形成了各式各樣的異地異質(zhì)異構(gòu)的數(shù)據(jù)庫(kù)系統(tǒng),它們主要為空間數(shù)據(jù)倉(cāng)庫(kù)提供數(shù)據(jù)源。應(yīng)用系統(tǒng)處于空間數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的最上層,它通過(guò)一個(gè)標(biāo)準(zhǔn)的接口從空間數(shù)據(jù)倉(cāng)庫(kù)中提取地理空間數(shù)據(jù)、空間數(shù)據(jù)產(chǎn)品和空間輔助決策分析信息,為應(yīng)用系統(tǒng)服務(wù)。其具體外部結(jié)構(gòu)如圖1所示。

1.2內(nèi)部結(jié)構(gòu)

空間數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)部組成應(yīng)由八個(gè)獨(dú)立功能模塊構(gòu)成,分層次實(shí)現(xiàn)空間數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)。其中,第一層次的功能模塊是空間數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)處理模塊,由多源空間數(shù)據(jù)抽取、多源空間數(shù)據(jù)整合、多源空間數(shù)據(jù)統(tǒng)一、空間數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)組成;第二層次的功能模塊是空間數(shù)據(jù)倉(cāng)庫(kù)的服務(wù)模塊,由空間數(shù)據(jù)產(chǎn)品服務(wù)、空間數(shù)據(jù)立方體分析、空間數(shù)據(jù)挖掘分析組成;第三層次的功能模塊是空間數(shù)據(jù)倉(cāng)庫(kù)的對(duì)外數(shù)據(jù)接口模塊,由對(duì)外數(shù)據(jù)交換格式組成。第一層次的功能模塊為第二層次的功能模塊服務(wù),第二層次的功能模塊為第三層次的功能模塊服務(wù)。其具體內(nèi)部結(jié)構(gòu)圖如圖2所示。

當(dāng)應(yīng)用系統(tǒng)提出需求時(shí):①多源空間數(shù)據(jù)抽取功能模塊從各源數(shù)據(jù)庫(kù)系統(tǒng)中抽取出相應(yīng)地理范圍(矩形、多邊形、橢圓)的不同種類的地理空間數(shù)據(jù)、專題數(shù)據(jù);②多源空間數(shù)據(jù)整合功能模塊對(duì)這些由圖幅范圍組織的地理空間數(shù)據(jù)進(jìn)行相應(yīng)地理范圍的裁剪、拼接、接邊、圖形編輯、拓?fù)渲亟M等整合處理,形成裁剪拼接和接邊好的、具有完整拓?fù)潢P(guān)系的、物理上無(wú)縫的、按區(qū)域范圍組織的地理空間數(shù)據(jù);③多源空間數(shù)據(jù)統(tǒng)一功能模塊對(duì)這些整合處理好的地理空間數(shù)據(jù)進(jìn)行數(shù)學(xué)基礎(chǔ)、數(shù)據(jù)編碼、數(shù)據(jù)格式、數(shù)據(jù)精度等方面的統(tǒng)一處理,形成能相互疊加的地理空間數(shù)據(jù);④將經(jīng)抽取、整合、統(tǒng)一處理好的地理空間數(shù)據(jù)提交給空間數(shù)據(jù)產(chǎn)品服務(wù)功能模塊,經(jīng)過(guò)集成、融合、派生和關(guān)聯(lián)等測(cè)繪專業(yè)算法處理,生成應(yīng)用系統(tǒng)所需的各種空間數(shù)據(jù)產(chǎn)品;⑤基于已生成的空間數(shù)據(jù)產(chǎn)品,進(jìn)行空間數(shù)據(jù)立方體分析和空間數(shù)據(jù)挖掘分析,得到面向空間輔助決策分析的結(jié)果;⑥將這些空間數(shù)據(jù)產(chǎn)品和空間輔助決策分析結(jié)果,以對(duì)外數(shù)據(jù)交換格式的形式提交給應(yīng)用系統(tǒng)使用。

2認(rèn)知過(guò)程

2.1認(rèn)知過(guò)程概念圖

空間數(shù)據(jù)倉(cāng)庫(kù)是描述地理現(xiàn)象的一個(gè)重要分支,其認(rèn)知過(guò)程應(yīng)與地理空間信息的認(rèn)知過(guò)程基本一致,不同之處在于其描述的內(nèi)容和范圍大小的區(qū)別。因此,建立空間數(shù)據(jù)倉(cāng)庫(kù)的認(rèn)知過(guò)程,實(shí)際上是要經(jīng)過(guò)一個(gè)地理現(xiàn)象認(rèn)識(shí)、抽象、組織、分析和應(yīng)用的過(guò)程。其具體的認(rèn)知過(guò)程概念框圖如圖3所示。

2.2認(rèn)知過(guò)程描述

這14個(gè)世界模型和13個(gè)轉(zhuǎn)換算子的組合構(gòu)成了三個(gè)層次世界,即實(shí)體世界、目標(biāo)世界和產(chǎn)品世界。其中,現(xiàn)實(shí)世界、地理現(xiàn)實(shí)世界、地理工程現(xiàn)實(shí)世界和地理工程概念世界這四個(gè)世界模型,以及命名、選擇、抽象這三個(gè)轉(zhuǎn)換算子,共同構(gòu)成實(shí)體世界;地理工程尺度世界、地理要素分類世界、地理要素編碼世界、地理要素幾何世界和地理要素集合世界這五個(gè)世界模型,以及度量、分層、編碼、測(cè)量和聚集這五個(gè)轉(zhuǎn)換算子,共同構(gòu)成目標(biāo)世界;地理空間抽取世界、地理空間整合世界、地理空間統(tǒng)一世界、地理空間產(chǎn)品世界、地理空間決策世界這五個(gè)世界模型,以及提取、處理、變換、計(jì)算、分析這五個(gè)轉(zhuǎn)換算子,共同構(gòu)成產(chǎn)品世界。

數(shù)據(jù)庫(kù)概念設(shè)計(jì)階段、地理空間數(shù)據(jù)庫(kù)實(shí)現(xiàn)階段和空間數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)階段構(gòu)成了空間數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)實(shí)現(xiàn)過(guò)程的三個(gè)階段,這三個(gè)階段分別對(duì)應(yīng)著三個(gè)層次世界,即實(shí)體世界、目標(biāo)世界和產(chǎn)品世界。其中,前兩個(gè)階段是為地理空間數(shù)據(jù)庫(kù)的建立服務(wù)的,由它們實(shí)現(xiàn)實(shí)體世界向目標(biāo)世界的轉(zhuǎn)換;后一個(gè)階段是為空間數(shù)據(jù)倉(cāng)庫(kù)的建立服務(wù)的,由它們實(shí)現(xiàn)目標(biāo)世界向產(chǎn)品世界的轉(zhuǎn)換。

由此可見(jiàn),空間數(shù)據(jù)倉(cāng)庫(kù)的認(rèn)知過(guò)程主要就是這14個(gè)世界模型通過(guò)這13個(gè)轉(zhuǎn)換算子的轉(zhuǎn)換實(shí)現(xiàn)三個(gè)層次世界的過(guò)程。這個(gè)認(rèn)知過(guò)程指導(dǎo)了空間數(shù)據(jù)倉(cāng)庫(kù)的實(shí)現(xiàn)。

3認(rèn)知的概念定義

3.1世界模型

實(shí)際上,這些世界模型主要是依靠具體的實(shí)體模型或數(shù)據(jù)模型描述來(lái)實(shí)現(xiàn)的。每個(gè)世界模型均有其描述的地理空間對(duì)象,因此這些世界模型描述的內(nèi)容大不相同,必須定義出這些世界模型。

3.1.1現(xiàn)實(shí)世界模型

現(xiàn)實(shí)世界中,人們能看到一系列物質(zhì)和現(xiàn)象,對(duì)于這些物質(zhì)和現(xiàn)象,不管是否能叫上名字,它們都是客觀存在的,并且相互之間通過(guò)它們的關(guān)系組成了自然界的千差萬(wàn)別。由此可見(jiàn),能將現(xiàn)實(shí)世界中所有物質(zhì)和現(xiàn)象集合以及它們之間的相互關(guān)系用一定的形式進(jìn)行描述就是現(xiàn)實(shí)世界模型。

現(xiàn)實(shí)世界的物質(zhì)和現(xiàn)象集合中,隱含著許多不同的地理現(xiàn)象類,如地質(zhì)、礦產(chǎn)、石油、自然地理等地理現(xiàn)象類。地理現(xiàn)象類是現(xiàn)實(shí)世界的一個(gè)子集。由此可見(jiàn),能將現(xiàn)實(shí)世界中所有地理現(xiàn)象類集合以及它們之間的相互關(guān)系用一定的形式進(jìn)行描述就是地理現(xiàn)實(shí)世界模型。

本文原文

3.1.3地理工程現(xiàn)實(shí)世界模型

地理現(xiàn)實(shí)世界的地理現(xiàn)象類集合中,特指一個(gè)或若干個(gè)地理現(xiàn)象就是地理工程現(xiàn)實(shí)世界,如自然地理等。地理工程現(xiàn)實(shí)世界是地理現(xiàn)實(shí)世界的一個(gè)子集。由此可見(jiàn),能將地理現(xiàn)實(shí)世界指的地理現(xiàn)象以及它們之間的相互關(guān)系用一定的形式進(jìn)行描述就是地理工程現(xiàn)實(shí)世界模型。

3.1.4地理工程概念世界模型

要用計(jì)算機(jī)來(lái)描述地理工程現(xiàn)實(shí)世界中的地理現(xiàn)象,就必須對(duì)它們進(jìn)行抽象描述,形成地理現(xiàn)象在人們頭腦中的反映,生成概念模型。由此可見(jiàn),能將地理工程現(xiàn)實(shí)世界指的地理現(xiàn)象以及它們的內(nèi)部關(guān)系用一定的形式進(jìn)行抽象的概念描述就是地理工程概念世界模型。

3.1.5地理工程尺度世界模型

將地理現(xiàn)象抽象成概念模型,僅有這些還遠(yuǎn)遠(yuǎn)不夠,因?yàn)楝F(xiàn)實(shí)世界中的所有地理現(xiàn)象均是有度量的,所以用計(jì)算機(jī)描述這些地理現(xiàn)象時(shí),也必須是可度量的。度量主要包括描述地理現(xiàn)象的歐幾里德幾何坐標(biāo)系和數(shù)學(xué)單位尺度。由此可見(jiàn),對(duì)地理工程概念世界中的抽象地理現(xiàn)象進(jìn)行歐幾里德幾何坐標(biāo)系和數(shù)學(xué)單位尺度描述就是地理工程尺度世界模型。3.1.6地理要素分類世界模型

按照GIS理論,概念中的地理現(xiàn)象最終都是通過(guò)多種地理要素來(lái)表達(dá)的,因此如何對(duì)地理要素進(jìn)行合理的設(shè)計(jì)和劃分就顯得十分重要。根據(jù)ARC/INFO的分層理論,只有將這些地理要素進(jìn)行分類分級(jí),才能高效地處理它們。由此可見(jiàn),對(duì)地理工程尺度世界中具有尺度度量的地理現(xiàn)象進(jìn)行地理要素的分類分級(jí)描述就是地理要素分類世界模型。

3.1.7地理要素編碼世界模型

要使計(jì)算機(jī)能識(shí)別和處理地理要素,就必須給這些地理要素進(jìn)行分類分級(jí)編碼,即用一串?dāng)?shù)字來(lái)表示它們,該分類分級(jí)編碼就成為該地理要素在計(jì)算機(jī)中的唯一標(biāo)志符,以便計(jì)算機(jī)能識(shí)別和處理。由此可見(jiàn),對(duì)地理要素分類世界中具有明確分類分級(jí)定義的地理要素進(jìn)行分類分級(jí)編碼描述就是地理要素編碼世界模型。

3.1.8地理要素幾何世界模型

為了便于計(jì)算機(jī)的存儲(chǔ)和管理,必須將地理要素細(xì)分為幾何目標(biāo)。地理要素幾何目標(biāo)包括基本目標(biāo)和復(fù)合目標(biāo)?;灸繕?biāo)按地理要素的空間特征劃分為點(diǎn)狀目標(biāo)、線狀目標(biāo)、面狀目標(biāo)、體狀目標(biāo)和表面狀目標(biāo)等五種;復(fù)合目標(biāo)由基本目標(biāo)集合嵌套構(gòu)成。由此可見(jiàn),對(duì)地理要素編碼世界中具有明確分類分級(jí)編碼的地理要素進(jìn)行幾何目標(biāo)的劃分和描述就是地理要素幾何世界模型。

3.1.9地理要素集合世界模型

因?yàn)榈乩硪卦谝欢ǖ臈l件下由相同或不同的點(diǎn)、線、面、表面和體等五類空間目標(biāo)組合而成,所以在實(shí)際使用中,必須通過(guò)計(jì)算機(jī)系統(tǒng)把數(shù)據(jù)庫(kù)中存儲(chǔ)的基本目標(biāo)、復(fù)合目標(biāo)還原成地理要素。由此可見(jiàn),對(duì)地理要素幾何世界中具有基本目標(biāo)、復(fù)合目標(biāo)描述的地理要素進(jìn)行數(shù)據(jù)庫(kù)的幾何目標(biāo)集合操作就是地理要素集合世界模型。

定義9地理要素集合世界模型。設(shè)Con中地理要素點(diǎn)狀目標(biāo)、線狀目標(biāo)、面狀目標(biāo)、體狀目標(biāo)、表面目標(biāo)集合分別表示為Po、Lo、Ao、To、So,Atr為地理要素的某一地理特征集合,則地理要素集合世界模型為Ent={e|(Po,Lo,Ao,To,So)∈Atr}。

3.1.10地理空間抽取世界模型

地理空間抽取的主要功能就是從源數(shù)據(jù)庫(kù)中按地理區(qū)域范圍(矩形、橢圓、多邊形等)抽取出滿足一定條件的不同種類的地理空間數(shù)據(jù)。由此可見(jiàn),對(duì)地理要素集合世界中的地理空間數(shù)據(jù)按一定地理區(qū)域范圍和地理特征進(jìn)行抽取的操作描述就是地理空間抽取世界模型。

3.1.11地理空間整合世界模型

數(shù)據(jù)庫(kù)中存儲(chǔ)的地理空間數(shù)據(jù)是以圖幅為單位組織的,但應(yīng)用系統(tǒng)使用數(shù)據(jù)是無(wú)圖幅概念的,是以地理區(qū)域范圍為組織的。由此可見(jiàn),對(duì)地理空間抽取世界中抽取出的地理空間數(shù)據(jù)進(jìn)行圖形裁剪、圖形拼接、圖形接邊、圖形編輯和拓?fù)渲亟M等整合處理,形成以地理區(qū)域范圍為組織的無(wú)縫數(shù)據(jù)集合操作就是地理空間整合世界模型。定義11地理空間整合世界模型。設(shè)Con中圖形裁剪、圖形拼接、圖形編輯、圖形接邊、拓?fù)渲亟M功能分別表示為Cut、Stitch、Meet、Edit和Topology,整合功能集合表示為Fun={Cut,Stitch,Meet,Edit,Topology},則地理空間整合世界模型Pro={e|(e∈Ext,e∈Fun)}。

3.1.12地理空間統(tǒng)一世界模型

實(shí)現(xiàn)地理空間數(shù)據(jù)整合后,必須對(duì)來(lái)自不同源數(shù)據(jù)庫(kù)中的地理空間數(shù)據(jù)進(jìn)行統(tǒng)一,因?yàn)榈乩砜臻g數(shù)據(jù)存在著差異。這些差異表現(xiàn)在如下方面,即數(shù)學(xué)基礎(chǔ)差異、數(shù)據(jù)編碼差異和數(shù)據(jù)格式差異、數(shù)據(jù)精度差異。由此可見(jiàn),對(duì)地理空間整合世界中的地理空間數(shù)據(jù)進(jìn)行數(shù)學(xué)基礎(chǔ)、數(shù)據(jù)編碼、數(shù)據(jù)格式、數(shù)據(jù)精度的統(tǒng)一操作和描述就是地理空間統(tǒng)一世界模型。

3.1.13地理空間產(chǎn)品世界模型

隨著應(yīng)用的深入,單純的地理空間數(shù)據(jù)已越來(lái)越不能滿足用戶的需求,用戶更加希望使用的是經(jīng)過(guò)測(cè)繪專業(yè)處理的、經(jīng)過(guò)二次加工處理的地理空間數(shù)據(jù)產(chǎn)品,后者在實(shí)際中具有更大的應(yīng)用價(jià)值。由此可見(jiàn),對(duì)地理空間統(tǒng)一世界中的地理空間數(shù)據(jù)進(jìn)行測(cè)繪專業(yè)處理生成空間數(shù)據(jù)產(chǎn)品的操作就是地理空間產(chǎn)品世界模型。

定義13地理空間產(chǎn)品世界模型。設(shè)Con中單一、集成、融合、派生和關(guān)聯(lián)的功能分別表示為Single、Integrate、Fuse、Derive和Relate,測(cè)繪專業(yè)處理算法集合為Fru={Single,Integrate,Fuse,Derive,Relate},則地理空間產(chǎn)品世界模型Pdu={e|(e∈Uni,e∈Fru}。

3.1.14地理空間決策世界模型

建立空間數(shù)據(jù)倉(cāng)庫(kù)的最終目的是為空間決策支持服務(wù),為用戶提供大量的具有空間決策支持的信息,這可通過(guò)空間數(shù)據(jù)倉(cāng)庫(kù)中的空間數(shù)據(jù)立方體分析和空間數(shù)據(jù)挖掘分析來(lái)實(shí)現(xiàn)。由此可見(jiàn),對(duì)地理空間產(chǎn)品世界中的空間數(shù)據(jù)產(chǎn)品進(jìn)行空間數(shù)據(jù)立方體分析和空間數(shù)據(jù)挖掘分析,生成空間決策支持信息的操作和描述就是地理空間決策世界模型。

定義14地理空間決策世界模型。設(shè)Con中的空間數(shù)據(jù)立方體分析和空間數(shù)據(jù)挖掘分析分別表示為Scube、Smine,空間決策分析算法集合為Sdss={Scube,Smine},則地理空間決策世界模型Dss={e|(e∈Pdu,e∈Sdss)}。

3.2轉(zhuǎn)換算子

在空間數(shù)據(jù)倉(cāng)庫(kù)的認(rèn)知過(guò)程中,14個(gè)世界模型的變換離不開(kāi)13個(gè)轉(zhuǎn)換算子,即命名、選擇、抽象、度量、分層、編碼、測(cè)量、聚集、提取、處理、變換、計(jì)算和分析,由它們實(shí)現(xiàn)每?jī)蓚€(gè)世界模型的轉(zhuǎn)換。這些轉(zhuǎn)換算子主要是依靠元數(shù)據(jù)來(lái)實(shí)現(xiàn)的,因?yàn)槊總€(gè)世界模型均有描述它的元數(shù)據(jù),要實(shí)現(xiàn)兩個(gè)世界模型的轉(zhuǎn)換,通曉這兩個(gè)世界的元數(shù)據(jù)是轉(zhuǎn)換的前提。雖然這些轉(zhuǎn)換算子的具體定義不同,但它們都是實(shí)現(xiàn)每?jī)蓚€(gè)世界模型的轉(zhuǎn)換,從數(shù)學(xué)的定義上說(shuō)就是由某個(gè)世界模型通過(guò)函數(shù)轉(zhuǎn)換到另一個(gè)世界模型上,因此這些轉(zhuǎn)換算子的宏觀數(shù)學(xué)定義是一致的。

4結(jié)束語(yǔ)

目前,空間數(shù)據(jù)倉(cāng)庫(kù)理論和技術(shù)研究才剛剛起步,其目標(biāo)是支持?jǐn)?shù)字地球發(fā)展、空間數(shù)據(jù)集成、空間決策支持發(fā)展的需求。因此應(yīng)該抓住這個(gè)千載難逢的好機(jī)會(huì),將我國(guó)的空間數(shù)據(jù)倉(cāng)庫(kù)研究與建立邁上一個(gè)新臺(tái)階,以支持我國(guó)的空間數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)。本文對(duì)空間數(shù)據(jù)倉(cāng)庫(kù)的概念框架和認(rèn)知過(guò)程體系進(jìn)行了一定程度的技術(shù)探討,希望能起到拋磚引玉的作用。

參考文獻(xiàn):

[1]ZOUYijiang.Theconceptualframeworkonthemulti-scaleandspatio-temporaldatawarehouse[C].Beijing:20thICCAcademicPress,2001:2823-2831.

[2]ZOUYijiang.Thedesignofspatlatldatawarehouse[C].Bangkok:GeoInformatics&DMGIS’2001AcademicPress,2001:421-426.

[3]ZOUYijiang.Theresearchofmetadataonspatialdatawarehouse[C].Durban:21thICCAcademicPress,2003:225-226.

[4]ESRI.ESRIopenstrategywhitepapersonSDE/CADclient&spatialdatawarehousing[EB/OL].(1998).Esri/com/base/compay/opengis.

[5]ESRI.AnESRIwhitepapers,mappingforthedatawarehouse[EB∕OL].(2002).Esri/com/base/compay/opengis.

[6]TOMB,GRAYJ,SLUTZD.Microsoftterraserver:aspatialdatawarehouse.microsoftresearchadvancedtechnologydivision[EB/OL].(2004)./.

[7]SHEKHARS,LUCT,TANX,etal.Avisualizationtoolforspatialdatawarehouses[EB/OL].(2003).cs.umn.edu/Research/Shashi-group.[8]DIMITRISP.EfficientOLAPoperationsinspatialdatawarehouses,HKUST-CS01-01[R].HongKong:[s.n.],2001:65-69.

[9]趙霈生,楊崇俊.空間數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)與實(shí)踐[J].遙感學(xué)報(bào),2000,4(2):157-160.

[10]李琦,楊超偉.空間數(shù)據(jù)倉(cāng)庫(kù)及其構(gòu)建策略[J].中國(guó)圖像圖形學(xué)報(bào),1999,4(11):984-990.

[11]楊群,閭國(guó)年,陳鐘明.地理信息數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)研究[J].中國(guó)圖像圖形學(xué)報(bào),1999,4(8):621-626.

[12]周炎坤,李滿春.大型空間數(shù)據(jù)倉(cāng)庫(kù)初探[J].測(cè)繪通報(bào),2000,22(8):22-23.

篇6

關(guān)鍵詞:空間數(shù)據(jù)倉(cāng)庫(kù)

中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2009)33-9532-02

The Application of Spatial Data Warehouse Technology

HUANG Hai-yan

(Faculty of Information Science and Technology,Jiujiang University,Jiujiang 332005,China)

Abstract: The article elaborate conception, characteristic and function of spatial Data Warehouse.It analyzes how spatial Data Warehouse help moden enterprise make decision.

Key words: spatial Data Warehouse

隨著企業(yè)管理技術(shù)的不斷提升和信息系統(tǒng)的廣泛應(yīng)用和逐趨完善,企業(yè)相應(yīng)的信息數(shù)據(jù)量也得到了極速增長(zhǎng)。同時(shí),隨著數(shù)據(jù)庫(kù)技術(shù)應(yīng)用的發(fā)展,企業(yè)決策人對(duì)于數(shù)據(jù)的應(yīng)用提出了更高的要求,己不僅僅滿足于對(duì)事務(wù)處理的電子化與自動(dòng)化,還希望能夠提供更多的對(duì)于數(shù)據(jù)進(jìn)行分析、統(tǒng)計(jì)、趨勢(shì)預(yù)測(cè),從而對(duì)于管理決策提供支持。由此,數(shù)據(jù)倉(cāng)庫(kù)及相關(guān)技術(shù)應(yīng)運(yùn)而生。

1 空間數(shù)據(jù)倉(cāng)庫(kù)的簡(jiǎn)述

空間數(shù)據(jù)倉(cāng)庫(kù)是今年來(lái)數(shù)據(jù)倉(cāng)庫(kù)思想在空間信息科學(xué)領(lǐng)域延伸的產(chǎn)物。數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成、穩(wěn)定的、包含歷史數(shù)據(jù)的數(shù)據(jù)集合,用于支持經(jīng)營(yíng)管理中的決策制定過(guò)程。傳統(tǒng)的數(shù)據(jù)庫(kù)是聯(lián)機(jī)事務(wù)處理系統(tǒng),處理和存儲(chǔ)日常業(yè)務(wù)數(shù)據(jù),無(wú)法實(shí)現(xiàn)更高層次的分析處理各種類型信息的任務(wù)。而數(shù)據(jù)倉(cāng)庫(kù)從各數(shù)據(jù)庫(kù)中按專題和內(nèi)容等提取數(shù)據(jù),并對(duì)所提取的數(shù)據(jù)進(jìn)行預(yù)處理,可以支持在線分析處理,利用存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)完成各種分析操作,以直觀易懂的形式將分析結(jié)果返回給決策分析分員。目前,數(shù)據(jù)倉(cāng)庫(kù)在許多需要大型數(shù)據(jù)庫(kù)管理海量數(shù)據(jù)和對(duì)數(shù)據(jù)進(jìn)行分析的行業(yè)如通信、金融等領(lǐng)域得到了成功的應(yīng)用。

空間數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn):與傳統(tǒng)空間數(shù)據(jù)庫(kù)面向應(yīng)用進(jìn)行數(shù)據(jù)組織的特點(diǎn)相對(duì)應(yīng),空間數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是面向主題進(jìn)行數(shù)據(jù)組織的。它在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)進(jìn)行綜合、歸類,并加以抽象地分析利用??臻g數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是從原有的空間數(shù)據(jù)庫(kù)數(shù)據(jù)中抽取來(lái)的。因此在數(shù)據(jù)進(jìn)入空間數(shù)據(jù)倉(cāng)庫(kù)之前,必然要經(jīng)過(guò)統(tǒng)一與綜合,這一步是空間數(shù)據(jù)倉(cāng)庫(kù)建設(shè)中最關(guān)鍵、最復(fù)雜的一步,所要完成的工作包括消除源數(shù)據(jù)中的不一致性和進(jìn)行數(shù)據(jù)綜合計(jì)算??臻g數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)主要供決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一般情況下并不進(jìn)行修改操作??臻g數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)反映的是一段相當(dāng)長(zhǎng)的時(shí)間內(nèi)的數(shù)據(jù)內(nèi)容,是不同時(shí)間的空間數(shù)據(jù)庫(kù)快照的集合和基于這些快照進(jìn)行統(tǒng)計(jì)、綜合和重組導(dǎo)出的數(shù)據(jù),而不是聯(lián)機(jī)處理的數(shù)據(jù)??臻g數(shù)據(jù)庫(kù)中進(jìn)行聯(lián)機(jī)處理的數(shù)據(jù)經(jīng)過(guò)集成輸入到空間數(shù)據(jù)倉(cāng)庫(kù)中,一旦空間數(shù)據(jù)倉(cāng)庫(kù)存放的數(shù)據(jù)已經(jīng)超過(guò)空間數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)期限,這些數(shù)據(jù)將從空間數(shù)據(jù)庫(kù)中刪去??臻g數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是隨時(shí)間的變化不斷變化的,它會(huì)不斷增加新的數(shù)據(jù)內(nèi)容,不斷刪去舊的數(shù)據(jù)內(nèi)容,不斷對(duì)數(shù)據(jù)按時(shí)間段進(jìn)行綜合。

2 空間數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用

2.1 空間數(shù)據(jù)倉(cāng)庫(kù)的功能

空間數(shù)據(jù)倉(cāng)庫(kù)在數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)上引入空間維,根據(jù)主題從不同的GIS應(yīng)用系統(tǒng)中截取從瞬態(tài)到區(qū)段直到全球系統(tǒng)的不同規(guī)模時(shí)空尺度上的信息??臻g數(shù)據(jù)倉(cāng)庫(kù)主要實(shí)現(xiàn)三個(gè)功能:1) 從分布式空間數(shù)據(jù)庫(kù)中獲取空間數(shù)據(jù);2) 對(duì)數(shù)據(jù)進(jìn)行動(dòng)態(tài)綜合、集成、管理和分析;3) 提供空間信息訪問(wèn)。通過(guò)空間數(shù)據(jù)倉(cāng)庫(kù)技術(shù),可以將來(lái)自不同專業(yè)領(lǐng)域的相關(guān)數(shù)據(jù),按照選定的主題轉(zhuǎn)換成統(tǒng)一的格式,集成、存儲(chǔ)在一起,實(shí)現(xiàn)空間和非空間的分析操作,然后借助各種專業(yè)模型通過(guò)數(shù)據(jù)挖掘技術(shù)從數(shù)據(jù)中發(fā)現(xiàn)知識(shí),為輔助決策提供支持。

2.2 空間數(shù)據(jù)倉(cāng)庫(kù)的作用

空間數(shù)據(jù)倉(cāng)庫(kù)是分析型數(shù)據(jù)庫(kù),根據(jù)主題通過(guò)專業(yè)模型中不同空間數(shù)據(jù)庫(kù)中的原始業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取和聚集,為用戶提供一個(gè)多視角、綜合、全面的分析決策支持環(huán)境??臻g數(shù)據(jù)倉(cāng)庫(kù)是一種基于空間數(shù)據(jù)管理和利用的綜合性技術(shù),它使得現(xiàn)有的傳統(tǒng)空間數(shù)據(jù)系統(tǒng)由操作型向分析型轉(zhuǎn)變。在競(jìng)爭(zhēng)日益激烈的市場(chǎng)中,能否迅速做出更好的決策關(guān)系到銀行是茍且偷生還是繁榮興旺。銀行需要對(duì)各種壓力迅速做出反應(yīng),包括不斷加劇的競(jìng)爭(zhēng)、行業(yè)的無(wú)規(guī)律發(fā)展、企業(yè)并購(gòu)、產(chǎn)品和市場(chǎng)革新、傳統(tǒng)系統(tǒng)的重組等。 如今大多數(shù)企業(yè)并不缺少?zèng)Q策的數(shù)據(jù),這些數(shù)據(jù)包括:聯(lián)機(jī)交易的歷史數(shù)據(jù)、研究分析結(jié)果、Internet提供的數(shù)據(jù)……數(shù)據(jù)幾乎無(wú)處不在。因此,關(guān)鍵不在于數(shù)量,而在于質(zhì)量――是否一致、準(zhǔn)確、具有時(shí)效性和復(fù)雜度。 在過(guò)去幾年中,許多企業(yè)認(rèn)識(shí)到了這一問(wèn)題,并開(kāi)發(fā)了各種系統(tǒng),如決策支持系統(tǒng)、管理信息系統(tǒng)、運(yùn)作信息系統(tǒng)。這些系統(tǒng)從各種源系統(tǒng)中下載數(shù)據(jù),通過(guò)運(yùn)行一些相應(yīng)的程序進(jìn)行查詢等操作。 但由于這些系統(tǒng)基本上都是基于主機(jī)的,功能有限,比如:聯(lián)機(jī)無(wú)法進(jìn)行數(shù)據(jù)分析;數(shù)據(jù)是離散的、冗余的;用戶訪問(wèn)過(guò)于復(fù)雜;用戶訪問(wèn)降低了業(yè)務(wù)操作的效率。聯(lián)機(jī)系統(tǒng)一般的設(shè)計(jì)原則是以最快速度更改一條記錄,而不是用于數(shù)據(jù)分析,也不是按照某一標(biāo)準(zhǔn)瀏覽數(shù)據(jù)和對(duì)數(shù)據(jù)進(jìn)行排序,以及對(duì)數(shù)據(jù)進(jìn)行計(jì)算。 與之相比,數(shù)據(jù)倉(cāng)庫(kù)卻能夠?qū)崿F(xiàn)快速數(shù)據(jù)查詢,幫助銀行挖掘其傳統(tǒng)系統(tǒng)中潛在的無(wú)法被直接利用的信息。

3 結(jié)束語(yǔ)

空間數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建是一個(gè)處理過(guò)程,空間數(shù)據(jù)倉(cāng)庫(kù)是―個(gè)從多個(gè)數(shù)據(jù)源收集的信息存儲(chǔ)庫(kù),存放在一個(gè)一致的模式下并且通常駐留在單個(gè)站點(diǎn)。數(shù)據(jù)倉(cāng)庫(kù)通過(guò)數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)裝入和定期數(shù)據(jù)刷新過(guò)程來(lái)構(gòu)造。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)由數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)工具三個(gè)部分組成。在整個(gè)系統(tǒng)中,DW居于核心地位,是信息挖掘的基礎(chǔ);數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng)負(fù)責(zé)管理整個(gè)系統(tǒng)的運(yùn)作;數(shù)據(jù)倉(cāng)庫(kù)工具則是整個(gè)系統(tǒng)發(fā)揮作用的關(guān)鍵,包含用于完成實(shí)際決策問(wèn)題所需的各種查詢檢索工具、多維數(shù)據(jù)的OLAP分析工具、數(shù)據(jù)挖掘DM工具等,以實(shí)現(xiàn)決策支持的各種要求。

參考文獻(xiàn):

[1] 鄒逸江.空間數(shù)據(jù)倉(cāng)庫(kù)研究綜述[J].測(cè)繪學(xué)院學(xué)報(bào),2002(3).

[2] 陳文偉.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘教程[M].北京:清華大學(xué)出版社,2006.

篇7

關(guān)鍵詞:數(shù)據(jù)庫(kù)技術(shù);聯(lián)機(jī)分析

中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1007-9599 (2011) 16-0000-01

The Analysis of Data Warehouse Technology and Application

Fu Shuguang

(Qingdao Hismile College,Qingdao266100,China)

Abstract:with the development of society,information has become an important feature of today's society, a lot of information and data are required to have a scientific technology to study and analysis,database technology will emerge as the times require,is a product of the development of the computer,business and other fields play a vital role.This article from the database technology and the characteristics of the development of analysis,analysis of the database in various fields of application.

Keywords:Database Technology;Online Analysis

數(shù)據(jù)倉(cāng)庫(kù)技術(shù)作為一門(mén)計(jì)算機(jī)應(yīng)用技術(shù),是新興的技術(shù),也是這個(gè)時(shí)代對(duì)信息化管理發(fā)展的一個(gè)產(chǎn)物,數(shù)據(jù)倉(cāng)庫(kù)是在企業(yè)管理和決策中面向主題的、集成的、與時(shí)間相關(guān)的、不可修改的數(shù)據(jù)集合數(shù)據(jù)倉(cāng)庫(kù),英文名稱為Data Warehouse,可簡(jiǎn)寫(xiě)為DW。在市場(chǎng)競(jìng)爭(zhēng)日益加劇的今天,不管是企業(yè)還是社會(huì)團(tuán)體,都需要把市場(chǎng)經(jīng)營(yíng)或者社會(huì)服務(wù)同各種需求相聯(lián)系起來(lái),把市場(chǎng)上的各種數(shù)據(jù)進(jìn)行有效的統(tǒng)計(jì)和分析,從而做出科學(xué)正確的決策。所以,對(duì)于數(shù)據(jù)倉(cāng)庫(kù)技術(shù)在各個(gè)企業(yè)和社會(huì)團(tuán)體進(jìn)行收集、存儲(chǔ)和研究各種數(shù)據(jù)的環(huán)節(jié)就起到了尤為重要的作用。

一、數(shù)據(jù)倉(cāng)庫(kù)技術(shù)概述

(一)含義

數(shù)據(jù)倉(cāng)庫(kù)概念創(chuàng)始人W.H.Inmon對(duì)數(shù)據(jù)倉(cāng)庫(kù)的定義:數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、集成的、相對(duì)穩(wěn)定的、隨時(shí)間不斷變化(不同時(shí)間)的數(shù)據(jù)集合,用以支持經(jīng)營(yíng)管理中的決策制定過(guò)程、數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)面向主題,與傳統(tǒng)數(shù)據(jù)庫(kù)面向應(yīng)用相對(duì)應(yīng)。

(二)數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展

數(shù)據(jù)倉(cāng)庫(kù)技術(shù)是信息化高速發(fā)展的產(chǎn)物,它是基于信息系統(tǒng)業(yè)務(wù)發(fā)展的需要,基于數(shù)據(jù)庫(kù)系統(tǒng)技術(shù)發(fā)展而來(lái)、并逐步獨(dú)立的一系列新的應(yīng)用技術(shù)。它是在傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)的基礎(chǔ)上發(fā)展而來(lái)的新的應(yīng)用技術(shù),傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)是一種單一的數(shù)據(jù)資源,是以數(shù)據(jù)庫(kù)為中心,進(jìn)行事務(wù)處理以及批處理再到?jīng)Q策分析的各種類數(shù)據(jù)處理工作。而數(shù)據(jù)倉(cāng)庫(kù)技術(shù)不單單是這種單一的數(shù)據(jù)資源,實(shí)現(xiàn)了對(duì)決策主題的存儲(chǔ)和綜合等特點(diǎn)。隨著數(shù)據(jù)倉(cāng)庫(kù)技術(shù)在應(yīng)用過(guò)程中的不斷深入,近些年,數(shù)據(jù)倉(cāng)庫(kù)技術(shù)得到了長(zhǎng)足的發(fā)展,各行各業(yè)已經(jīng)能夠接受“整合數(shù)據(jù),從數(shù)據(jù)中找知識(shí),運(yùn)用數(shù)據(jù)知識(shí)、用數(shù)據(jù)說(shuō)話”等新的關(guān)系到改良生產(chǎn)活動(dòng)各環(huán)節(jié)、提高生產(chǎn)效率、發(fā)展生產(chǎn)力的理念。

(三)數(shù)據(jù)倉(cāng)庫(kù)的作用

建立數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),可以更加科學(xué)的收集、存儲(chǔ)以及管理業(yè)務(wù)中的各種數(shù)據(jù),從而不斷分析市場(chǎng)已經(jīng)各種因素,不斷改善和提高工作人員的工作效率,更科學(xué)的分析數(shù)據(jù)用來(lái)指導(dǎo)管理過(guò)程中的各種行為,如在客戶的研究方面,在應(yīng)用系統(tǒng)和企業(yè)行為方面,以Internet和電子商務(wù)、專家系統(tǒng)、多媒體數(shù)據(jù)挖掘和人工智能以及呼叫中心等信息技術(shù)為基礎(chǔ),從而實(shí)現(xiàn)企業(yè)識(shí)別、保留以及挽回最具價(jià)值的客戶,從而提升企業(yè)的核心競(jìng)爭(zhēng)力。

二、企業(yè)數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用

數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用主要表現(xiàn)在數(shù)據(jù)的抽取、數(shù)據(jù)的存儲(chǔ)和管理、信息的探索、集成和轉(zhuǎn)換以及避免臟數(shù)據(jù)的進(jìn)入、質(zhì)量的管理和數(shù)據(jù)。總的來(lái)說(shuō),企業(yè)數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)環(huán)境,是通過(guò)有效的信息來(lái)不斷滿足企業(yè)的決策的制定過(guò)程,換言之就是通過(guò)企業(yè)數(shù)據(jù)倉(cāng)庫(kù)來(lái)對(duì)企業(yè)的一些決策進(jìn)行指導(dǎo)。也可以說(shuō)是一個(gè)企業(yè)的數(shù)據(jù)庫(kù)的平臺(tái),這些數(shù)據(jù)來(lái)源于各種各樣的數(shù)據(jù)源,并經(jīng)過(guò)一定的過(guò)程如抽取篩選清晰以及轉(zhuǎn)換后根據(jù)用戶的查詢適時(shí)的提供給用戶的這么一個(gè)平臺(tái)。企業(yè)數(shù)據(jù)倉(cāng)庫(kù)包含綜合數(shù)據(jù)、分粒度的數(shù)據(jù)、歷史數(shù)據(jù)、共享數(shù)據(jù),是一個(gè)企業(yè)決策的基礎(chǔ),擁有大的存儲(chǔ)量,對(duì)企業(yè)來(lái)說(shuō)具有極其重要的作用。

數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用在不同的企業(yè)和單位,在資源環(huán)境企業(yè)中的應(yīng)用,能夠利用空間數(shù)據(jù)倉(cāng)庫(kù)技術(shù)不斷規(guī)范、提煉和集成環(huán)境數(shù)據(jù),按照不同的決策主題來(lái)組織數(shù)據(jù),而且還能用于支持環(huán)境管理制定決策,使相關(guān)部門(mén)利用決策支持分析工具從資源環(huán)境的信息池中提取、分析數(shù)據(jù),為資源環(huán)境的發(fā)展做出有利的貢獻(xiàn)。在公路交通方面的應(yīng)用,公路數(shù)據(jù)倉(cāng)庫(kù)是一項(xiàng)綜合且復(fù)雜的信息化系統(tǒng)工程,是公路工程、大地測(cè)量、地理學(xué)、計(jì)算機(jī)科學(xué)、系統(tǒng)工程、統(tǒng)計(jì)學(xué)、管理學(xué)等學(xué)科還有技術(shù)的結(jié)晶,它改變了傳統(tǒng)的信息處理的方式,使交通規(guī)劃、建設(shè)、運(yùn)營(yíng)和管理變得直觀、輕松和高效??梢哉f(shuō)數(shù)據(jù)倉(cāng)庫(kù)是公路交通管理步入數(shù)字化的標(biāo)志。數(shù)據(jù)倉(cāng)庫(kù)在醫(yī)院中的應(yīng)用,現(xiàn)代醫(yī)院中,電子病歷廣泛使用,,挖掘海量病案數(shù)據(jù)中所潛藏的信息進(jìn)行支持決策是醫(yī)院提高管理水平的一個(gè)重要的手段,通過(guò)數(shù)據(jù)倉(cāng)庫(kù)在病案數(shù)據(jù)的分析中的應(yīng)用,如,根據(jù)某醫(yī)院常發(fā)疾病的治療和新生兒出生的情況,建立病案數(shù)據(jù)倉(cāng)庫(kù),借助聯(lián)機(jī)分析技術(shù)來(lái)對(duì)對(duì)病案中的發(fā)病率、治愈情況等進(jìn)行分析,為疾病的預(yù)防、醫(yī)院的管理決策,提供可靠的數(shù)據(jù)支持。數(shù)據(jù)倉(cāng)庫(kù)技術(shù)在銀行業(yè)的應(yīng)用,解決客戶關(guān)系以及企業(yè)在收入、成本、預(yù)算方面的分析,一些收入的發(fā)展、項(xiàng)目的狀況及預(yù)算狀況進(jìn)行全面分析,使領(lǐng)導(dǎo)能夠及時(shí)的得到企業(yè)發(fā)展情況報(bào)告。

三、結(jié)論

隨著數(shù)據(jù)倉(cāng)庫(kù)技術(shù)應(yīng)用的不斷擴(kuò)大,各行各業(yè)都已經(jīng)通過(guò)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)來(lái)對(duì)各種數(shù)據(jù)進(jìn)行分析以不斷地提升自身的各種競(jìng)爭(zhēng)力和競(jìng)爭(zhēng)水平。在信息化如此發(fā)達(dá)的今天,數(shù)據(jù)倉(cāng)庫(kù)技術(shù)已經(jīng)作為一門(mén)新興的技術(shù)在各個(gè)領(lǐng)域內(nèi)發(fā)揮著極其重要的作用,企業(yè)如何根據(jù)自己企業(yè)自身的情況來(lái)應(yīng)用這種技術(shù),如何在競(jìng)爭(zhēng)如此強(qiáng)烈的市場(chǎng)占有一席之地,應(yīng)用好數(shù)據(jù)倉(cāng)庫(kù)不斷解決企業(yè)發(fā)展中遇到的問(wèn)題,將對(duì)企業(yè)有著積極的作用。

參考文獻(xiàn):

[1]張維明等.數(shù)據(jù)倉(cāng)庫(kù)原理與應(yīng)用[M].北京:電子工業(yè)出版社,2002

[2]彭木根.數(shù)據(jù)倉(cāng)庫(kù)技術(shù)與實(shí)現(xiàn)[M].北京:電子工業(yè)出版社,2002

篇8

【關(guān)鍵詞】數(shù)據(jù)倉(cāng)庫(kù);科研管理;應(yīng)用

在科研項(xiàng)目質(zhì)量管理中,科研數(shù)據(jù)以及科研資源的管理、科研檔案管理等等,都是其中的重要組成部分,通過(guò)數(shù)據(jù)庫(kù),實(shí)現(xiàn)對(duì)科研管理的規(guī)范化、科學(xué)化,同時(shí),也應(yīng)當(dāng)努力規(guī)范和提高科研管理運(yùn)行機(jī)制,健全約束機(jī)制,完善科研項(xiàng)目的管理評(píng)標(biāo)體系,這都是提高我國(guó)科研管理水平行之有效的途徑。

一、數(shù)據(jù)倉(cāng)庫(kù)概述

數(shù)據(jù)采集是數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建中的重要內(nèi)容,從數(shù)據(jù)源中抽取所需要的數(shù)據(jù),然后對(duì)抽取到的數(shù)據(jù)進(jìn)行清洗,將其按照一定的數(shù)據(jù)倉(cāng)庫(kù)的模型,放到數(shù)據(jù)倉(cāng)庫(kù)中。數(shù)據(jù)采集中的數(shù)據(jù)抽取其實(shí)就是數(shù)據(jù)源接口,數(shù)據(jù)源接口從不同的系統(tǒng)中抽取所需要的數(shù)據(jù),將其作為數(shù)據(jù)倉(cāng)庫(kù)的輸入數(shù)據(jù),數(shù)據(jù)轉(zhuǎn)換是對(duì)不同系統(tǒng)中生成的數(shù)據(jù)源進(jìn)行處理,保證這些不同的數(shù)據(jù)源可以按照規(guī)定的要求輸入到數(shù)據(jù)倉(cāng)庫(kù)中。數(shù)據(jù)清洗是對(duì)所有的數(shù)據(jù)進(jìn)行處理,使得數(shù)據(jù)集中的所有數(shù)據(jù)值保持一致,并可以正確的對(duì)這些數(shù)據(jù)進(jìn)行記錄。而數(shù)據(jù)的裝載是按照一定的模型將以上經(jīng)過(guò)數(shù)據(jù)抽取、轉(zhuǎn)換、清除的所有數(shù)據(jù)裝入數(shù)據(jù)倉(cāng)庫(kù)中,在數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程中還包括了將數(shù)據(jù)域清除、對(duì)數(shù)據(jù)進(jìn)行有效的檢查等。

二、數(shù)據(jù)倉(cāng)庫(kù)在科研管理中的應(yīng)用研究

(一)數(shù)據(jù)倉(cāng)庫(kù)的核心技術(shù)――ETL技術(shù)

在科研管理中,管理人員需要隨時(shí)獲取所需要的數(shù)據(jù)和信息,因此,通過(guò)數(shù)據(jù)倉(cāng)庫(kù),將外部數(shù)據(jù)和內(nèi)部數(shù)據(jù)進(jìn)行整理和儲(chǔ)存,并且為數(shù)據(jù)的查詢提供了極大的便利。但是這些數(shù)據(jù)信息有不同的來(lái)源,具有數(shù)量、不清潔等諸多不良特點(diǎn),進(jìn)而不能直接對(duì)這些數(shù)據(jù)進(jìn)行使用,也不能直接將這些數(shù)據(jù)輸入到數(shù)據(jù)倉(cāng)庫(kù)中,所以需要對(duì)這些數(shù)據(jù)先進(jìn)行處理分析,然后再將這些數(shù)據(jù)以高質(zhì)量輸入到數(shù)據(jù)倉(cāng)庫(kù)中供用戶使用。因此,數(shù)據(jù)倉(cāng)庫(kù)的核心技術(shù)――ETL技術(shù)負(fù)責(zé)對(duì)數(shù)據(jù)信息進(jìn)行清洗、轉(zhuǎn)換等,保證數(shù)據(jù)信息質(zhì)量的一種技術(shù),ETL技術(shù)可以將數(shù)據(jù)分散、數(shù)據(jù)不清等問(wèn)題進(jìn)行解決,保證數(shù)據(jù)信息可以高質(zhì)量的輸入到數(shù)據(jù)倉(cāng)庫(kù)中供企業(yè)的各部門(mén)安全使用。

(二)數(shù)據(jù)倉(cāng)庫(kù)用于科研數(shù)據(jù)的快速檢索、查詢

數(shù)據(jù)倉(cāng)庫(kù)是為了實(shí)現(xiàn)數(shù)據(jù)的存儲(chǔ)、檢索以及表達(dá),例如當(dāng)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)需要從一種形式轉(zhuǎn)換成另一種形式時(shí),ETL的數(shù)據(jù)轉(zhuǎn)換就需要進(jìn)行考慮,同時(shí)ETL中的數(shù)據(jù)抽取、轉(zhuǎn)換、裝載等都需要變成轉(zhuǎn)換操作,所以對(duì)于數(shù)據(jù)倉(cāng)庫(kù)而言數(shù)據(jù)轉(zhuǎn)換是其核心部分。數(shù)據(jù)倉(cāng)庫(kù)實(shí)質(zhì)上是一個(gè)獨(dú)立的數(shù)據(jù)環(huán)境,它需要從不同的系統(tǒng)中抽取所需要的數(shù)據(jù),然后通過(guò)ETL技術(shù)將這些數(shù)據(jù)進(jìn)行處理,處理過(guò)后的數(shù)據(jù)信息才可以安全的輸入到數(shù)據(jù)倉(cāng)庫(kù)中。ETL技術(shù)主要涉及到互連、復(fù)制、轉(zhuǎn)換、監(jiān)控等方面的內(nèi)容,在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)不需要和處理系統(tǒng)中、或者其他相關(guān)系統(tǒng)中的數(shù)據(jù)保持同步,盡量保證數(shù)據(jù)倉(cāng)庫(kù)中信息的有效性。

為了將數(shù)據(jù)冗余等問(wèn)題進(jìn)行避免,在抽取的數(shù)據(jù)進(jìn)入到數(shù)據(jù)倉(cāng)庫(kù)之前,需要對(duì)其進(jìn)行有效性檢查,這項(xiàng)工作在數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)輸入中非常重要,如果沒(méi)有對(duì)這些即將輸入到數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)進(jìn)行有效性檢查,就會(huì)對(duì)整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的完整性產(chǎn)生破壞,或者將其破壞的幾率大大的增加。對(duì)數(shù)據(jù)進(jìn)行有效性檢查最好的方法就是源系統(tǒng)。在源系統(tǒng)中有專業(yè)的和非專業(yè)的技術(shù)知識(shí)人員,但是數(shù)據(jù)有效性檢查是一項(xiàng)費(fèi)時(shí)又不可省略的一個(gè)環(huán)節(jié),所以可以進(jìn)行自動(dòng)化的檢查。

(三)通過(guò)數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)科研數(shù)據(jù)的清除及轉(zhuǎn)換

由于數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)來(lái)自不同的數(shù)據(jù)源,這些數(shù)據(jù)源可能出現(xiàn)不同的平臺(tái)上,有不同的操作系統(tǒng),所以這些數(shù)據(jù)會(huì)以不同的形式輸入到數(shù)據(jù)倉(cāng)庫(kù)中。如何將這些數(shù)據(jù)加載,是數(shù)據(jù)倉(cāng)庫(kù)建立中需要考慮的一個(gè)問(wèn)題,在進(jìn)行數(shù)據(jù)遷移的過(guò)程中,會(huì)將數(shù)據(jù)以一種適合數(shù)據(jù)倉(cāng)庫(kù)的格式轉(zhuǎn)入數(shù)據(jù)倉(cāng)庫(kù)中,這就是數(shù)據(jù)的格式化,對(duì)數(shù)據(jù)的處理是數(shù)據(jù)倉(cāng)庫(kù)成功建立的關(guān)鍵,所以在數(shù)據(jù)提取的過(guò)程中,對(duì)數(shù)據(jù)進(jìn)行格式化,從操作中實(shí)現(xiàn)數(shù)據(jù)資源的共享。ETL技術(shù)進(jìn)行的數(shù)據(jù)有效性檢查是對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)給定的過(guò)程,如果數(shù)據(jù)的給定沒(méi)有在界定的范圍之內(nèi),那么它就是需要清除的對(duì)象。數(shù)據(jù)的清除包括了在給定界限范圍之外的數(shù)據(jù),對(duì)這些數(shù)據(jù)采取一定的糾正措施。

通過(guò)數(shù)據(jù)倉(cāng)庫(kù),實(shí)現(xiàn)科研數(shù)據(jù)的轉(zhuǎn)換,是為了體現(xiàn)這些數(shù)據(jù)的價(jià)值,使其更加有意義,進(jìn)一步推動(dòng)科研工作的進(jìn)程。在數(shù)據(jù)轉(zhuǎn)換的過(guò)程,使用最好的方法保證數(shù)據(jù)從原始儲(chǔ)存器到數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程是同步的,將數(shù)據(jù)轉(zhuǎn)換的重點(diǎn)放在語(yǔ)言的標(biāo)準(zhǔn)化、數(shù)據(jù)移動(dòng)、通信等方面,數(shù)據(jù)的轉(zhuǎn)換除了自動(dòng)化轉(zhuǎn)換以外,還具有一定的復(fù)雜性,所以在ETL數(shù)據(jù)轉(zhuǎn)換工具、技術(shù)不斷更新的同時(shí),還需要將其復(fù)雜性進(jìn)行解決。

(四)數(shù)據(jù)倉(cāng)庫(kù)與科研數(shù)據(jù)動(dòng)態(tài)更新

隨著科研進(jìn)程的推進(jìn),數(shù)據(jù)倉(cāng)庫(kù)也需要伴隨著科研數(shù)據(jù)的動(dòng)態(tài)進(jìn)行更新,這樣,才有助于實(shí)現(xiàn)數(shù)據(jù)的時(shí)效性。對(duì)檢查驗(yàn)收之后的業(yè)務(wù)數(shù)據(jù)進(jìn)行相應(yīng)的更新,其他的數(shù)據(jù)都是在年底的時(shí)候才進(jìn)行統(tǒng)一的更新。兩項(xiàng)或者兩項(xiàng)以上的、連續(xù)生產(chǎn)經(jīng)營(yíng)活動(dòng)的變化和更新,都會(huì)被看作是多次變化,需要分別進(jìn)行更新。數(shù)據(jù)倉(cāng)庫(kù)更新方法主要是主鍵關(guān)聯(lián)法,主鍵關(guān)聯(lián)法就是要求被更新的數(shù)據(jù)庫(kù)和更新數(shù)據(jù)庫(kù)具有相同標(biāo)識(shí)的小班唯一鍵值,然后才可以進(jìn)行一對(duì)一的關(guān)聯(lián),最后才可以進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的更新,主要更新的手段是字段更新。在對(duì)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行更新時(shí),必須保證的是一對(duì)一的關(guān)聯(lián),要不然會(huì)產(chǎn)生錯(cuò)誤的邏輯關(guān)系。

(五)數(shù)據(jù)倉(cāng)庫(kù)在科研檔案管理中的應(yīng)用

通過(guò)數(shù)據(jù)倉(cāng)庫(kù)來(lái)實(shí)現(xiàn)科研的檔案管理工作,對(duì)完善科研檔案管理具有重大的意義。對(duì)科研課題檔案資源進(jìn)行研究和開(kāi)發(fā)利用,檔案管理人員要注意聯(lián)合課題研究人員一起,及時(shí)的對(duì)各種課題檔案進(jìn)行整理,通過(guò)數(shù)據(jù)倉(cāng)庫(kù),對(duì)檔案資源進(jìn)行整合。然后積極的利用各種信息化技術(shù),有效實(shí)現(xiàn)檔案資源的共享。并努力的深入研究開(kāi)發(fā)各種檔案資源,更好的為經(jīng)濟(jì)建設(shè)提供服務(wù),最大程度的妥善利用各種檔案資源,保證科研究成果的最大化利用。從而有效的實(shí)現(xiàn)通過(guò)合理的利用促進(jìn)科研工作的快速發(fā)展的目的,取得較大的經(jīng)濟(jì)社會(huì)價(jià)值。

三、結(jié)語(yǔ)

針對(duì)現(xiàn)階段我國(guó)研究所科研項(xiàng)目管理工作中存在的問(wèn)題,積極運(yùn)用數(shù)據(jù)倉(cāng)庫(kù),來(lái)實(shí)現(xiàn)對(duì)科研數(shù)據(jù)資源的整合及管理。依靠數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)科研檔案的規(guī)范化管理,以科研動(dòng)態(tài)為基礎(chǔ),及時(shí)更新數(shù)據(jù)倉(cāng)庫(kù),保持?jǐn)?shù)據(jù)倉(cāng)庫(kù)的時(shí)效性。數(shù)據(jù)倉(cāng)庫(kù)在科研管理中的應(yīng)用,進(jìn)一步優(yōu)化了我國(guó)科研管理工作,提高了科研管理的質(zhì)量和效率。努力提升我國(guó)科研管理能力,完善科研項(xiàng)目管理程序,使該管理體系逐步趨向規(guī)范化、成熟化。

參考文獻(xiàn):

[1]焦振.基于Oracle的人事科研數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)與實(shí)現(xiàn)[J].安陽(yáng)師范學(xué)院學(xué)報(bào),2013,(2):46-50.

[2]湯雪,趙衛(wèi)東,呂萬(wàn)里等.高校教職工科研管理系統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)[J].福建電腦,2010,26(2):119-119,102.

[3]肖紅玉,黃靜,陳海等.數(shù)據(jù)庫(kù)技術(shù)在科研管理系統(tǒng)中的應(yīng)用[J].制造業(yè)自動(dòng)化,2010,32(10):68-70.

[4]巫莉莉,張波,李濤等.高??蒲泄芾硐到y(tǒng)智能分析模塊的分析與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31(11):2641-2644.

[5]胡君.基于數(shù)據(jù)倉(cāng)庫(kù)的科研管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].中國(guó)地質(zhì)大學(xué)(武漢),2011.

篇9

隨著社會(huì)的進(jìn)步與科技水平的提高,互聯(lián)網(wǎng)在各個(gè)領(lǐng)域被廣泛的使用,為了實(shí)現(xiàn)更好的組織決策和服務(wù),互聯(lián)網(wǎng)管理人員對(duì)大數(shù)據(jù)的重視程度越來(lái)越高,對(duì)大數(shù)據(jù)進(jìn)行了詳細(xì)的獲取、應(yīng)用以及分析的深入研究。就目前而言,手機(jī)使用率與普及程度已經(jīng)達(dá)到了很高的程度,移動(dòng)互聯(lián)網(wǎng)APP的用戶也在不斷的增加。為了有效的開(kāi)發(fā)和改良APP軟件,時(shí)其可以更好的服務(wù)于客戶,相關(guān)的APP管理人與開(kāi)發(fā)人員需要針對(duì)用戶群體進(jìn)行高度分析與調(diào)查,認(rèn)識(shí)客戶的需求,如此大量的數(shù)據(jù)分析也就需要構(gòu)建相應(yīng)移動(dòng)互聯(lián)網(wǎng)APP數(shù)據(jù)倉(cāng)庫(kù),開(kāi)發(fā)人員也需要對(duì)這項(xiàng)工作高度的重視。本文通過(guò)分析移動(dòng)互聯(lián)網(wǎng)APP數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用,提出有效的具體策略,以供開(kāi)發(fā)者參考與借鑒。

【關(guān)鍵詞】移動(dòng)互聯(lián)網(wǎng) APP 數(shù)據(jù)倉(cāng)庫(kù) 應(yīng)用分析

網(wǎng)絡(luò)信息技術(shù)如今正處于高速發(fā)展的階段,大數(shù)據(jù)逐漸被社會(huì)各界重視起來(lái),數(shù)據(jù)倉(cāng)庫(kù)作為數(shù)據(jù)挖掘和分析的重要平臺(tái),在各個(gè)行業(yè)中被廣泛的使用。數(shù)據(jù)倉(cāng)庫(kù)可以記錄每一個(gè)人網(wǎng)絡(luò)中進(jìn)行的操作與行為,并以數(shù)據(jù)的形式存儲(chǔ)起來(lái),為開(kāi)發(fā)者與管理者提供了大量的數(shù)據(jù)信息,穩(wěn)定了數(shù)據(jù)來(lái)源。移動(dòng)互聯(lián)網(wǎng)APP自身具備便捷、用戶流量較小、數(shù)據(jù)變化快速等特點(diǎn),對(duì)于此特點(diǎn)使用現(xiàn)有的大型數(shù)據(jù)倉(cāng)庫(kù)并不合適,可以針對(duì)移動(dòng)互聯(lián)網(wǎng)APP的特點(diǎn)開(kāi)發(fā)適用于其的數(shù)據(jù)倉(cāng)庫(kù),對(duì)移動(dòng)互聯(lián)網(wǎng)的用戶行為與需求進(jìn)行有效的收集和存儲(chǔ)。

1 建立適用于移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)倉(cāng)庫(kù)的必要性

數(shù)據(jù)挖掘與分析是目前人工智能與數(shù)據(jù)倉(cāng)庫(kù)的熱門(mén)要點(diǎn),目前這樣的數(shù)據(jù)處理技術(shù)是通過(guò)數(shù)據(jù)庫(kù),將其中的有價(jià)值的、隱藏的數(shù)據(jù)抽離出來(lái),為開(kāi)發(fā)者與管理者策略提供相應(yīng)的線索。數(shù)據(jù)倉(cāng)庫(kù)則是實(shí)現(xiàn)這一技術(shù)的重要平臺(tái),其通過(guò)將用戶的行為與需求已數(shù)據(jù)的形式進(jìn)行記錄,建立龐大的數(shù)據(jù)集合,為開(kāi)發(fā)者與管理者提供有效的信息。

目前,智能手機(jī)的普及程度在不斷的上升,移動(dòng)互聯(lián)網(wǎng)的用戶也在不斷的增加,可以說(shuō)現(xiàn)在每一個(gè)人都可以使用手機(jī)在互聯(lián)網(wǎng)上進(jìn)行活動(dòng),已經(jīng)成為了人們?nèi)粘I町?dāng)中不可缺少的必須品。手機(jī)具有通信、娛樂(lè)、購(gòu)物等眾多的功能,占據(jù)了人們?nèi)粘I畹拇蟛糠挚臻g與時(shí)間。為了跟隨時(shí)代的腳步,更好的為手機(jī)用戶提供服務(wù),移動(dòng)互聯(lián)網(wǎng)的開(kāi)發(fā)者開(kāi)始著手于對(duì)數(shù)據(jù)倉(cāng)庫(kù)的建設(shè),利用先進(jìn)的數(shù)據(jù)技術(shù),對(duì)用用戶的需求進(jìn)行詳細(xì)的分析與研究,就手機(jī)用戶流量小、數(shù)據(jù)變動(dòng)較快、數(shù)據(jù)復(fù)雜的特點(diǎn)而言,構(gòu)建適用于移動(dòng)互聯(lián)網(wǎng)的數(shù)據(jù)倉(cāng)庫(kù)迎合了時(shí)代的腳步又滿足了用戶的需求,是十分必要的。

2 移動(dòng)互聯(lián)網(wǎng)APP數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用需求

關(guān)于移動(dòng)互聯(lián)網(wǎng)APP的數(shù)據(jù)挖掘與分析,其自身具有一定的用戶使用的規(guī)律與特點(diǎn),因此要構(gòu)建適合移動(dòng)互聯(lián)網(wǎng)APP的數(shù)據(jù)倉(cāng)庫(kù)。首先,移動(dòng)互聯(lián)網(wǎng)APP其自身的數(shù)據(jù)規(guī)模并不是很大,由此可見(jiàn)數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建并不需要大型的,要更加的靈巧、便捷,并且不會(huì)占用大量的儲(chǔ)存空間,能夠及時(shí)的反應(yīng)用戶的行為。再者,移動(dòng)互聯(lián)網(wǎng)APP的數(shù)據(jù)是在時(shí)刻變動(dòng)的,沒(méi)有相應(yīng)的規(guī)律可循,這就需要數(shù)據(jù)庫(kù)頻繁的上傳數(shù)據(jù),盡快對(duì)實(shí)時(shí)的用戶數(shù)據(jù)進(jìn)行分析和處理,為開(kāi)發(fā)者和管理者留有充裕的時(shí)間做出決策。最后,數(shù)據(jù)倉(cāng)庫(kù)要具有一定的安全性與有效性,避免數(shù)據(jù)丟失與遺漏的情況出現(xiàn),為移動(dòng)互聯(lián)網(wǎng)APP開(kāi)發(fā)者上傳有效可觀的數(shù)據(jù)資料,保持其數(shù)據(jù)、信息與參數(shù)的高度統(tǒng)一,確保數(shù)據(jù)的準(zhǔn)確性與可行性。

3 移動(dòng)互聯(lián)網(wǎng)APP數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)思慮

在滿足移動(dòng)互聯(lián)網(wǎng)APP數(shù)據(jù)倉(cāng)庫(kù)的需求之后,開(kāi)發(fā)者對(duì)數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)思路只要符合移動(dòng)互聯(lián)網(wǎng)APP的特點(diǎn)與數(shù)據(jù)的規(guī)律就可以初步實(shí)現(xiàn)。構(gòu)建移動(dòng)互聯(lián)網(wǎng)APP數(shù)據(jù)倉(cāng)庫(kù)包括以下幾個(gè)方面:首先,需要明確用戶在使用APP的時(shí)候所展現(xiàn)的形態(tài),這種形態(tài)表現(xiàn)為關(guān)系型的數(shù)據(jù)聯(lián)系,其中包括了:個(gè)性信息、粉絲群體以及與其他用戶的互動(dòng)行為,以及用戶自身的登錄時(shí)間規(guī)律等。因此關(guān)于數(shù)據(jù)的分析與記錄的工作,需要從數(shù)據(jù)之間的兼容性以及數(shù)據(jù)看的從屬關(guān)系入手,將數(shù)據(jù)自動(dòng)同步到數(shù)據(jù)倉(cāng)庫(kù)之中。再者,用戶在使用移動(dòng)互聯(lián)網(wǎng)APP的時(shí)候,所產(chǎn)生操作數(shù)據(jù),可以及時(shí)的在服務(wù)器上產(chǎn)生相應(yīng)的日志。這些日志一般都是以文件的方式儲(chǔ)存而來(lái)的,規(guī)模較大、內(nèi)容較為隨意。對(duì)于這樣的數(shù)據(jù)我們需要做的就是在規(guī)律性的時(shí)間內(nèi)對(duì)這些數(shù)據(jù)進(jìn)行整理并錄入到數(shù)據(jù)倉(cāng)庫(kù)當(dāng)中,在轉(zhuǎn)化這些數(shù)據(jù)的時(shí)候,需要保證數(shù)據(jù)的安全性與有效性,避免對(duì)數(shù)據(jù)進(jìn)行改變。其次,客戶端產(chǎn)生的數(shù)據(jù),以及數(shù)據(jù)的形式都不具備規(guī)律性擁有較大的隨機(jī)性,但是這些數(shù)據(jù)往往反映了用戶對(duì)APP的使用情況。這類信息的存儲(chǔ)要保證一定的完整性,以便管理者與開(kāi)發(fā)者可以有效的分析用戶的行為規(guī)則,探索用戶實(shí)際的操作行為。最后,對(duì)于前端數(shù)據(jù)的錄入到數(shù)據(jù)倉(cāng)庫(kù)之中,首先需要對(duì)這些數(shù)據(jù)進(jìn)行檢驗(yàn),確保數(shù)據(jù)的一致性,排除多余參數(shù)與無(wú)效格式(如圖1)。

4 移動(dòng)互聯(lián)網(wǎng)APP數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用實(shí)踐

4.1 移動(dòng)互聯(lián)網(wǎng)APP數(shù)據(jù)庫(kù)收集的數(shù)據(jù)情況

在互聯(lián)網(wǎng)APP投入使用的過(guò)程當(dāng)中,原始數(shù)據(jù)和變遷數(shù)據(jù)的表現(xiàn)形式主要變現(xiàn)為以下三個(gè)方面:

(1)同步到繼承前端數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),這一類數(shù)據(jù),是未經(jīng)過(guò)加工的數(shù)據(jù),具有較好的即時(shí)性,以及自我同步與可隨時(shí)查閱的特性。由于這些數(shù)據(jù)沒(méi)有經(jīng)過(guò)處理,因此這一類的數(shù)據(jù)不利于整合與分析,更適合作為即時(shí)信息進(jìn)行查閱。

(2)通過(guò)服務(wù)器手機(jī)的數(shù)據(jù),這些數(shù)據(jù)是經(jīng)過(guò)格式化處理的信息,被收錄在數(shù)據(jù)倉(cāng)庫(kù)已經(jīng)建立的好的數(shù)據(jù)表格當(dāng)中。但是由于用戶的行為不斷的變動(dòng)所以日志的內(nèi)容也在不斷的增加與更行的,因此對(duì)于這一類的信息,通常需要經(jīng)過(guò)固定時(shí)間來(lái)進(jìn)行收集。在收集記錄這些數(shù)據(jù)的時(shí)候,系統(tǒng)會(huì)對(duì)于之前的信息進(jìn)行切斷性的總結(jié),避免數(shù)據(jù)出現(xiàn)丟失與損失。日志數(shù)據(jù)要比前一個(gè)數(shù)據(jù)占有更多的空間,對(duì)此,這部分?jǐn)?shù)據(jù)需要比之前的要大10倍,同時(shí)采用階段式的數(shù)據(jù)收集方式,避免別前端數(shù)據(jù)的影響。

(3)來(lái)自客戶端的集成日志。來(lái)自客戶端的操作日志,具備有序性、不完整性,它們是非格式化的數(shù)據(jù)。為保證其完整和規(guī)范,需要在導(dǎo)入到數(shù)據(jù)倉(cāng)庫(kù)前,集中對(duì)其進(jìn)行格式化的操作。首先,需要進(jìn)行數(shù)據(jù)清理和補(bǔ)齊。因?yàn)檫@部分?jǐn)?shù)據(jù)在收錄過(guò)程中會(huì)收錄到系統(tǒng)自動(dòng)生成的日志或者機(jī)器人操作產(chǎn)生的日志,因此,需要根據(jù) APP 自身的特點(diǎn),進(jìn)行數(shù)據(jù)清理。而部分?jǐn)?shù)據(jù)會(huì)有缺失字段的現(xiàn)象,通過(guò)設(shè)置,可以對(duì)發(fā)生字段缺失的數(shù)據(jù)進(jìn)行補(bǔ)齊。然后,對(duì)數(shù)據(jù)進(jìn)行格式化處理,將所有字段進(jìn)行整理,形成統(tǒng)一完整的文本。最后,在數(shù)據(jù)倉(cāng)庫(kù)中建立好與格式相匹配的數(shù)據(jù)表,將格式化后的數(shù)據(jù)信息導(dǎo)入到數(shù)據(jù)倉(cāng)庫(kù)中。

4.2 實(shí)際應(yīng)用與數(shù)據(jù)倉(cāng)庫(kù)的管理

移動(dòng)互聯(lián)網(wǎng)APP數(shù)據(jù)倉(cāng)庫(kù)的具體管理方式對(duì)應(yīng)其表現(xiàn)的數(shù)據(jù)形式,這一部分是數(shù)據(jù)倉(cāng)庫(kù)運(yùn)行的關(guān)鍵。移動(dòng)互聯(lián)網(wǎng)APP數(shù)據(jù)倉(cāng)庫(kù)的具體管理方式為一下這三個(gè)方面:

4.2.1 利用關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)

海量的數(shù)據(jù)存儲(chǔ),要保證其有序可操作行,就必須利用關(guān)系數(shù)據(jù)庫(kù)系統(tǒng),通過(guò)大量的時(shí)間積累,數(shù)據(jù)在不斷的增加,關(guān)系數(shù)據(jù)庫(kù)可以保證這些數(shù)據(jù)有序的運(yùn)行并且依然具備可操作性。

4.2.2 并發(fā)操作技術(shù)的應(yīng)用

對(duì)于APP而言其用戶的訪問(wèn)量較而且較為集中,數(shù)據(jù)之間常處于并行狀態(tài),這就需要采用并行操作,將用戶的需求都可均勻的滿足,不會(huì)出現(xiàn)網(wǎng)絡(luò)擁堵的狀態(tài)。此外關(guān)于整體數(shù)據(jù)的處理,并行操作還可以對(duì)所有的數(shù)據(jù)進(jìn)行查詢和分解,使得數(shù)據(jù)擁有高利用率。

4.2.3 優(yōu)化支持查詢

移動(dòng)互聯(lián)網(wǎng)APP數(shù)據(jù)倉(cāng)庫(kù)的關(guān)系數(shù)據(jù)對(duì)于決策的查詢功能還不完善。但是結(jié)合優(yōu)化過(guò)后的查詢其等技術(shù),可以使得決策的查詢處于合理化有效化(見(jiàn)圖2)。

數(shù)據(jù)倉(cāng)庫(kù)最主要的功能就是對(duì)數(shù)據(jù)的表現(xiàn)以及分析,其可以有效的反應(yīng)數(shù)據(jù)的具體情況,為開(kāi)發(fā)者與管理者提供相應(yīng)的對(duì)策。如今的移動(dòng)互聯(lián)網(wǎng)APP數(shù)據(jù)倉(cāng)庫(kù)對(duì)數(shù)據(jù)的表現(xiàn)形式主要集中在多想數(shù)據(jù)的挖掘以及分析上面。在數(shù)據(jù)倉(cāng)庫(kù)的運(yùn)用當(dāng)中,多為分析起到了重要的作用,可以幫助開(kāi)發(fā)者與管理者從多個(gè)元度進(jìn)行比較,數(shù)據(jù)統(tǒng)計(jì)的方式已經(jīng)被廣泛的運(yùn)用,并且其收益十分之高。

5 結(jié)語(yǔ)

移動(dòng)互聯(lián)網(wǎng)APP數(shù)據(jù)倉(cāng)庫(kù)的使用可以為APP開(kāi)發(fā)人員提供海量的參考信息,可以更加便捷快速的了解用戶的需求與滿意程度。數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用在數(shù)據(jù)挖掘中具有很高的使用價(jià)值和更高的性能,此外,數(shù)據(jù)倉(cāng)庫(kù)的投入較少,性價(jià)比極高。其在大數(shù)據(jù)挖掘、分析以及移動(dòng)互聯(lián)網(wǎng)APP領(lǐng)域有著較高的發(fā)展空間。要開(kāi)發(fā)者更深入的進(jìn)行了解與創(chuàng)新,使數(shù)據(jù)倉(cāng)庫(kù)發(fā)揮自身的價(jià)值與潛能,為開(kāi)發(fā)者提供更為有效的信息。

參考文獻(xiàn)

[1]黃國(guó)賢.移動(dòng)互聯(lián)網(wǎng)APP數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用實(shí)踐研究[J].科技傳播,2016,8(03):67,75.

[2]沈偉,汪海航.移動(dòng)互聯(lián)網(wǎng)APP數(shù)據(jù)倉(cāng)庫(kù)的實(shí)現(xiàn)與應(yīng)用[J].科技風(fēng),2015(06):93-94.

[3]賈慶華.移動(dòng)互聯(lián)網(wǎng)APP數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用實(shí)踐研究[J].通訊世界,2016(09):30-30.

[4]王恂.大數(shù)據(jù)背景下基于Hbase技術(shù)的移動(dòng)統(tǒng)計(jì)平臺(tái)研究[J].無(wú)線互聯(lián)科技,2015(13):47-48.

篇10

1.數(shù)據(jù)倉(cāng)庫(kù)的定義

目前,數(shù)據(jù)倉(cāng)庫(kù)一詞尚沒(méi)有一個(gè)統(tǒng)一的定義,著名的數(shù)據(jù)倉(cāng)庫(kù)專家W.H.Inmon在其著作《BuildingtheDataWarehouse》一書(shū)中給予如下描述:數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse)是一個(gè)面向主題的(SubjectOriented)、集成的(Integrate)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(TimeVariant)的數(shù)據(jù)集合,用于支持管理決策。對(duì)于數(shù)據(jù)倉(cāng)庫(kù)的概念我們可以從兩個(gè)層次予以理解,首先,數(shù)據(jù)倉(cāng)庫(kù)用于支持決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫(kù);其次,數(shù)據(jù)倉(cāng)庫(kù)是對(duì)多個(gè)異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進(jìn)行了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)一般不再修改。

2.數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)

(1)面向主題。操作型數(shù)據(jù)庫(kù)的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各個(gè)業(yè)務(wù)系統(tǒng)之間各自分離,而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織。主題是一個(gè)抽象的概念,是指用戶使用數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面,一個(gè)主題通常與多個(gè)操作型信息系統(tǒng)相關(guān)。

(2)集成的。面向事務(wù)處理的操作型數(shù)據(jù)庫(kù)通常與某些特定的應(yīng)用相關(guān),數(shù)據(jù)庫(kù)之間相互獨(dú)立,并且往往是異構(gòu)的。而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是在對(duì)原有分散的數(shù)據(jù)庫(kù)數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過(guò)系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。

(3)相對(duì)穩(wěn)定的。操作型數(shù)據(jù)庫(kù)中的數(shù)據(jù)通常實(shí)時(shí)更新,數(shù)據(jù)根據(jù)需要及時(shí)發(fā)生變化。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)以后,一般情況下將被長(zhǎng)期保留,也就是數(shù)據(jù)倉(cāng)庫(kù)中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。

(4)反映歷史變化。操作型數(shù)據(jù)庫(kù)主要關(guān)心當(dāng)前某一個(gè)時(shí)間段內(nèi)的數(shù)據(jù),而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過(guò)去某一時(shí)點(diǎn)(如開(kāi)始應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)的時(shí)點(diǎn))到目前的各個(gè)階段的信息,通過(guò)這些信息,可以對(duì)企業(yè)的發(fā)展歷程和未來(lái)趨勢(shì)做出定量分析和預(yù)測(cè)。

企業(yè)數(shù)據(jù)倉(cāng)庫(kù)的建設(shè),是以現(xiàn)有企業(yè)業(yè)務(wù)系統(tǒng)和大量業(yè)務(wù)數(shù)據(jù)的積累為基礎(chǔ)。數(shù)據(jù)倉(cāng)庫(kù)不是靜態(tài)的概念,只有把信息及時(shí)交給需要這些信息的使用者,供他們做出改善其業(yè)務(wù)經(jīng)營(yíng)的決策,信息才能發(fā)揮作用,信息才有意義。而把信息加以整理歸納和重組,并及時(shí)提供給相應(yīng)的管理決策人員,是數(shù)據(jù)倉(cāng)庫(kù)的根本任務(wù)。因此,從產(chǎn)業(yè)界的角度看,數(shù)據(jù)倉(cāng)庫(kù)建設(shè)是一個(gè)工程,是一個(gè)過(guò)程。

二、決策支持系統(tǒng)(DSS)

1.數(shù)據(jù)倉(cāng)庫(kù)化決策分析系統(tǒng)的體系結(jié)構(gòu)

這一結(jié)構(gòu)首先從各類異構(gòu)的數(shù)據(jù)庫(kù)中通過(guò)數(shù)據(jù)復(fù)制技術(shù),將數(shù)據(jù)復(fù)制到數(shù)據(jù)倉(cāng)庫(kù)中。然后,在數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)上建立數(shù)據(jù)立方體,實(shí)現(xiàn)OLAP。最后,客戶端訪問(wèn)服務(wù)器采用了三層結(jié)構(gòu),通過(guò)HTTP方式直接訪問(wèn)數(shù)據(jù)庫(kù)。而傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)一般采用C/S結(jié)構(gòu)。對(duì)于C/S結(jié)構(gòu),一般說(shuō)來(lái)客戶端維護(hù)比較困難,而且應(yīng)用局限在局域網(wǎng)內(nèi)。對(duì)于網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,訪問(wèn)需要經(jīng)過(guò)防火墻的情況,難以處理。這里采用三層結(jié)構(gòu)有效的解決了這一問(wèn)題。

2.構(gòu)建決策分析系統(tǒng)的幾個(gè)關(guān)鍵技術(shù)

(1)各庫(kù)管理系統(tǒng)。在DSS中有數(shù)據(jù)庫(kù)管理系統(tǒng)、模型庫(kù)管理系統(tǒng)、知識(shí)庫(kù)管理系統(tǒng)。它們分別對(duì)數(shù)據(jù)庫(kù)、模型庫(kù)、知識(shí)庫(kù)進(jìn)行有效的管理。各庫(kù)管理系統(tǒng)有其共性也有各自的特點(diǎn),需要進(jìn)行分別處理。

①數(shù)據(jù)庫(kù)管理系統(tǒng)。作為DSS中的數(shù)據(jù)庫(kù),系統(tǒng)可以采用已成熟的數(shù)據(jù)庫(kù)系統(tǒng),也可以根據(jù)需要自行設(shè)計(jì)。采用已成熟的數(shù)據(jù)庫(kù)系統(tǒng),可以減少實(shí)現(xiàn)數(shù)據(jù)庫(kù)管理系統(tǒng)的大量工作,但是要解決好決策支持系統(tǒng)與數(shù)據(jù)庫(kù)系統(tǒng)的接口。如果自行設(shè)計(jì)數(shù)據(jù)庫(kù)系統(tǒng),就要按數(shù)據(jù)庫(kù)系統(tǒng)的要求,設(shè)計(jì)和完成一套數(shù)據(jù)庫(kù)語(yǔ)言來(lái)實(shí)現(xiàn)數(shù)據(jù)庫(kù)的功能。

②模型庫(kù)管理系統(tǒng)。建立模型庫(kù)管理系統(tǒng)同數(shù)據(jù)庫(kù)管理系統(tǒng)一樣,要設(shè)計(jì)一套模型庫(kù)管理語(yǔ)言來(lái)實(shí)現(xiàn)對(duì)模型庫(kù)的一般管理和特殊管理功能。一般的管理包括對(duì)模型的增加、刪除、修改以及查詢等功能。由于模型有源程序文件和目標(biāo)程序文件的特點(diǎn),故需要增加對(duì)模型源文件的編輯和編譯等功能,這是模型庫(kù)的特殊管理功能。

③知識(shí)庫(kù)管理系統(tǒng)。知識(shí)庫(kù)是由知識(shí)文件庫(kù)組成。類似于數(shù)據(jù)庫(kù)管理系統(tǒng),知識(shí)庫(kù)管理系統(tǒng)需要有對(duì)各類知識(shí)的基本管理功能,即對(duì)知識(shí)進(jìn)行增加、刪除、修改等維護(hù)功能以及查詢功能等。對(duì)知識(shí)需要進(jìn)行特殊管理,即對(duì)知識(shí)的一致性檢查。

(2)接口技術(shù)。在數(shù)據(jù)庫(kù)系統(tǒng)、模型庫(kù)系統(tǒng)和知識(shí)庫(kù)系統(tǒng)建立以后,部件之間的接口技術(shù)就突出了。

①模型存取數(shù)據(jù)庫(kù)的接口。

②知識(shí)存取數(shù)據(jù)庫(kù)的接口。

③模型庫(kù)和知識(shí)庫(kù)之間的接口。

3.統(tǒng)一集成技術(shù)

DSS是人機(jī)交互、問(wèn)題處理、數(shù)據(jù)庫(kù)系統(tǒng)、模型庫(kù)系統(tǒng)、知識(shí)庫(kù)的有機(jī)集成體。對(duì)任一個(gè)實(shí)際決策問(wèn)題,首先需要建立數(shù)據(jù)庫(kù)系統(tǒng)、模型庫(kù)系統(tǒng)和知識(shí)庫(kù)系統(tǒng)。再在各庫(kù)間接口的基礎(chǔ)上,利用DSS集成語(yǔ)言,對(duì)決策問(wèn)題進(jìn)行形式

化描述,形成統(tǒng)一集成各庫(kù)的問(wèn)題處理系統(tǒng),即統(tǒng)一集成的DSS。