數據信息論文范文

時間:2023-03-31 21:55:40

導語:如何才能寫好一篇數據信息論文,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公文云整理的十篇范文,供你借鑒。

數據信息論文

篇1

在電子商務網站設計的應用在設計電子商務網站的時候,首選就需要幫助銷售商對客戶行為的了解,這樣才能使得站點的使用效率得到有效提高,此時就需要應用數據挖掘技術,這樣網絡管理員就可以根據客戶在上網過程中所瀏覽的網站頁面及其數據信息歸納分析經常訪問該站點的用戶類型,及其訪問途徑和通過怎樣的方式完成交易等內容,這樣才能讓建立的網站更吸引客戶,同時也為網站結構的進一步優(yōu)化、站點訪問量和效果的提升提供有利的依據。整個電子商務網站的設計包括三個步驟,分別為數據信息的采集、分析以及提供個性化服務。

1.數據信息的采集

因為只有將客戶相關的數據信息收集起來,才能在分析之后,將個性化的服務提供給客戶,也就是說電子商務網站向客戶提供個性化服務是基于說數據信息采集的。銷售商能夠得到客戶在注冊過程中保存的信息,即客戶的基本信息,包括姓名、籍貫、家庭住址、出生日期以及愛好等,同時還能根據客戶所瀏覽的網頁和商品等信息,對客戶關注和傾向的商品進行判斷,進而為客戶建立相應的服務檔案。而且客戶人員還能在計算機的數據庫中存儲客戶與自身交流時的數據信息。當客戶完成訂單和付款之后,可以對其收貨地址信息加以確定,進而掌握客戶的所在地等信息,進而進一步完善客戶對應的信息數據庫。同時還能夠對客戶的投訴和評價進行分類整理,使客戶的服務檔案得到不斷的完善,以此為網站的優(yōu)化提供更加有利的數據資料。與此同時還會將數據挖掘技術引入到網絡服務器中,進行一個可以對客戶瀏覽途徑和頁面以及點擊產品信息加以記載的數據庫系統(tǒng),實現各企業(yè)資源共享的目標,并且還不會對網絡服務器的訪問速度產生影響。

2.數據信息的分析

想要設計出一個成功的電子商務網站,就應該在保持對客戶完全透明的基礎上,及時、快速、準確的分析客戶資料及其訪問行為,進而保證客戶訪問頁面的處理時間不被占用的條件下,為客戶提供一個可以更方便、快捷的進行網購、網上交易等商務活動環(huán)境。首先,就要分析客戶行為和登錄方式,對網站客戶群進行劃分歸類;其次在進行內容設計的時候重點考慮客戶群的年齡、愛好和特點等方面,將網站內容加以歸類,并針對不同類別的客戶群,展示客戶感興趣的商品信息,最后再根據客戶的訪問、瀏覽信息以及訂單信息,為客戶的行為資料進行及時修改和完善。

3.個性化服務

這就是通過挖掘網絡數據信息,了解和掌握客戶的需求和興趣,準確的向客戶提供個性化的產品推薦,這不但要根據客戶的諸多方面對其提供滿足其需求的信息,而且還是主動為客戶提供所需信息,使網站的個性化服務的特點更為突出,進而吸引更多的客戶。并且為了使得客戶類型更加穩(wěn)定和準確,就需要優(yōu)先臭氧統(tǒng)計具有較長注冊時間、較多瀏覽記錄以及產品購買數量大的客戶。

二、結束語

篇2

1.對資料管理重視不夠,圖書資料管理工作基礎較差。縱觀大部分的企業(yè),普遍存在對資料管理工作忽視的問題。企業(yè)的管理層往往認為這項工作無足輕重,不會對企業(yè)的發(fā)展產生影響。較低的重視度使得企業(yè)對圖書資料管理要求寬泛,在工作人員、工作內容以及工作制度等方面沒有加以重視和關注,使得工作人員工作積極性不高、專業(yè)性不強,工作內容模糊,工作制度缺失等問題出現。另外,企業(yè)對圖書資料管理工作資金投入較少,使其軟硬件基礎設施落后。以上因素都使得圖書資料管理工作基礎變得薄弱,不能完全發(fā)揮自身職能去服務企業(yè)。

2.圖書資料利用率不足,利用效果不明顯。圖書資料在企業(yè)的發(fā)展中起著信息交流、互相溝通的作用,特別是在企業(yè)制定發(fā)展戰(zhàn)略時候能夠提供參考、借鑒和考證等方面的幫助。但是,對于大多數的企業(yè)而言卻沒有充分利用圖書資料這些特點。主要原因在于文書資源的管理缺乏網絡化和現代化,再加上對圖書資料的整理編排不科學等,當企業(yè)需要借助相關資料進行分析決策時,面對龐雜的圖書資料工作者不能及時地將對方所需的資料提取出來,給對方工作造成不便,打擊了企業(yè)其他部門取用圖書資料的積極性,造成了企業(yè)雖然占有大量的文書資源但是其他部門不充分利用的現狀。

3.圖書資料工作與檔案管理工作協調性差,工作漏洞時常存在。在企業(yè)里會出現圖書資料工作和檔案管理工作的對接偏差,使兩者間的協調性受到了嚴重地削弱,進而不能及時提供有效、全面的信息資源。造成兩者間工作協調性差的原因主要在于雙方不能明確各自的工作范圍和內容,不能夠做好相互的銜接工作。圖書資料工作與檔案管理工作不能夠很好地配合會導致一些漏洞的發(fā)生,如在圖書資料工作中,文種使用不當、初始稿件丟失、檔案收集工作不及時等;在檔案管理工作方面,存在著操作不規(guī)范,主要體現在對檔案的裝訂、添加附件、編號等工作上。

4.圖書資料管理軟硬件建設投入不足,制約了信息化管理進程。圖書資料管理軟硬件投入不足主要是指企業(yè)在其硬件設備以及人員配備方面沒有給與足夠的資金投入,使之不能夠滿足工作的需要,制約了信息化的管理進程。主要體現為現有的辦公設備較為成舊,在開展信息化建設時不能夠提供硬件支持。另外,人員配備方面也存在缺陷,表現為現有的工作人員素質較低,也沒有高素質的專業(yè)人員的引入。

二、大數據時代圖書資料信息化管理工作發(fā)展的建議

針對上述問題,應當從以下幾個方面出發(fā)對其進行改進:

1.做好圖書資料管理的基礎工作,加強企業(yè)部門之間資料管理的協調。為了更好地做好圖書資料管理的基礎工作,加強部門之間與圖書資料管理的溝通合作。企業(yè)需要對圖書資料工作人員加以規(guī)范和約束,督促其做好本職工作,諸如搜集,分類,鑒別,整理等,還要增強其服務意識。在提高重視度的同時還要針對圖書資料管理工作的性質制定完善的管理制度和工作方法、流程等。最后在加強基礎性工作方面還要對其進行有效的、全方位的監(jiān)管,確保工作的準確性、全面性、及時性。另外,在部門協調方面,負責圖書資料管理的部門也應加強和企業(yè)內部其他部門的聯系與互動,及時將搜集處理好的信息及時地提供給企業(yè)內部需要的部門,以幫助企業(yè)在制定目標或戰(zhàn)略時及時做出判斷,切實發(fā)揮自身的基礎性作用,在一定程度上也能夠增強企業(yè)對圖書資料管理的重視度。

2.實現圖書資料管理的數字化,簡化手動、整理和歸檔的過程。為了提高圖書資料的利用率,使之更加方便地為其他部分提供服務,企業(yè)應對現有的圖書資料管理模式進行改革創(chuàng)新。圖書資料管理部門要逐步實現圖書資料管理的數字化,即在原有紙質資料基礎上引入數字化處理技術。在對紙質資料進行整理、編號、儲存的同時,將大數據時代的技術優(yōu)勢應用于圖書資料的管理工作中,將圖書資料進行數字化處理,建立數據庫,從而簡化手動、整理和歸檔資料的過程,也能夠在很大程度上方便需要者查閱。數字化、網絡化的介入將徹底改變圖書資料傳統(tǒng)的處理方式,將不必要的、過于繁瑣的步驟和工作進行刪減和革新,不僅能夠提高了圖書資料管理者的工作效率,減輕了其工作負荷,還提高了圖書資料的利用效率。

3.強化員工管理意識,科學梳理圖書資料工作與圖書資料管理工作的配合度。為了增強圖書資料工作和圖書資料管理工作的配合度,企業(yè)應當對這兩項工作進行科學地梳理。首先,要對圖書資料工作和圖書資料工作各自的工作范圍和內容加以明確,要以條文的形式對其各自的職責進行規(guī)范,特別在涉及兩者工作銜接時的各項工作項目的歸屬加以明確。其次,要確保兩者在各自的工作中恪盡職守,嚴格按照各自的制度和規(guī)范要求來開展工作,避免因自己的工作疏忽或者漏洞給對方的工作帶來不便,進而影響兩者點的協調。再者,還要在意識方面對雙方加以增強,使之不僅能夠明確自身工作的重要性,還能夠充分認識到對方工作的重要性以及自身的工作對對方工作的影響力??傊箞D書資料工作和檔案管理工作雙發(fā)充分了解圖書資料和檔案資料之間的重要關系,明確兩者是相輔相成,相互依托的,只有這樣才能夠促進兩者間的有效配合。

4.加強資料管理的軟硬件建設,提供資料信息化管理支撐。在加強資料管理的軟硬件建設方面,企業(yè)需要做到以下幾點:1)加大對基礎設施的精力和財力投入。為了適應信息化的發(fā)展,企業(yè)要對現有的基礎設施加以升級或者更換,使之在辦公中滿足網絡搜索引擎、網絡信息平臺等各項信息化建設的需要。2)加大對現有的工作人員的培訓力度。企業(yè)要通過公共課、視頻教學、網絡會議、外派學習等手段對員工進行專業(yè)、服務意識等方面的培訓,提高其綜合素質。3)引進專業(yè)化的高素質人才。企業(yè)應適當提高圖書資料工作人員的任用門檻,聘用更多經過專業(yè)知識學習或經過專業(yè)培訓的人員,借助這些專業(yè)人員的力量來對現有的圖書資料工作進行信息化管理方向的創(chuàng)新和轉變。

三、結語

篇3

1.1惡意的對計算機進行攻擊伴隨著計算機的軟件發(fā)展,各種方面的軟件、硬件都在出現和更新中。作為計算機最基礎的數據統(tǒng)計等功能也進入了開放性越來越強的變新中。在醫(yī)院的SQL數據庫中使用的是局域網,在這個局域網里面的用戶基本都可以訪問到數據庫及應用系統(tǒng)。這樣的互享模式如果是在醫(yī)院內部倒也沒什么,只是各種惡意的軟件橫行,會導致不少來自外界未知的惡意軟件對醫(yī)院的計算機進行攻擊。這些都給醫(yī)院的信息管理系統(tǒng)的安全造成了極大的威脅。一旦醫(yī)院的數據庫信息被泄露,從收費的數據到醫(yī)療的信息、從病人隱私的保密到管理信息保密都會處于一個透明的狀態(tài),這對于醫(yī)院的信息管理是一個巨大的沖擊,也會帶給病人一些重大麻煩。為了避免這類事情發(fā)生。需要醫(yī)院信息管理系統(tǒng)和數據庫處在非常安全的環(huán)境里。這也是本文研究基于SQL數據庫的醫(yī)院信息管理綜合應用平臺設計的重心。

1.2被動的進行攻擊在不影響正常網絡使用的情況下,還會有更高明的竊取破譯數據庫的方法,這也是所謂的被動的進行攻擊。在這種竊取、破譯的行為下,當事人醫(yī)院數據庫很難查悉這行為,因此會造成非常重要的機密性文件數據的泄露。醫(yī)院的數據庫是整個醫(yī)院信息系統(tǒng)的靈魂,很多黑客病毒都會以此為突破點以獲得很重要的機密數據。無論是主動的還是被動的攻擊方式,都是現今使用的SQL數據庫系統(tǒng)的抖動,為了保證醫(yī)院的計算機信息安全,保證醫(yī)院和病人的隱私,有必要針對這些缺陷進行改進?;赟QL數據庫系統(tǒng)的綜合信息應用平臺設計可以更貼近實際,防止人為惡意的網絡安全的攻擊。這也是醫(yī)院今后采用SQL數據庫進行工作時的防范重點。

2SQL數據庫在醫(yī)院信息管理綜合應用中的完善

2.1根據具體的需要相應的增加或者減少相應的模塊數量醫(yī)院和個人可以根據自己的具體需要,進行一些簡單的維護,將系統(tǒng)的模塊進行增加或減少。并且在增減模塊的同時注意維護編程的界面,這樣才能設計出很友好的系統(tǒng)模塊。有了針對性的結構特點,這樣的數據庫應用平臺不僅更符合醫(yī)院信息管理系統(tǒng)的設計,而且還增大了獨立性和獨特性,因此也可以整體提高系統(tǒng)的可維護性和可靠性。選用這樣模塊化的SQL數據庫應用平臺也是設計結構的特點。

2.2采取開發(fā)式結構特點研究基于SQL數據庫的醫(yī)院信息管理綜合應用設計就必須要仔細斟酌這數據庫的系統(tǒng)硬件的結構設計。這個也是整個信息系統(tǒng)的核心內容。當前采取的數據統(tǒng)計模式執(zhí)行的是TCP/IP的協議。如果要進一步加強系統(tǒng)給的可靠性,保證醫(yī)院和病人信息的安全就應當采取開發(fā)式結構特點的系統(tǒng)硬件結構設計。采取這樣的硬件結構設計可以減少冗余的配置,保證系統(tǒng)可靠性。在整體的醫(yī)院數據信息系統(tǒng)中,最重要的就是這個系統(tǒng)。在完善機遇SQL數據庫的應用設計時自然需要通過增強系統(tǒng)給的整體可靠性,以聯合增強SQL數據庫的互聯網安全機密新能。SQL依然可支持遠程的訪問,這也是醫(yī)院信息數據庫需要有的特點。因此,雖然可支持遠程訪問的功能會導致醫(yī)院的信息保密功能不太安全,卻也不能刪除。但是可具體根據醫(yī)療方面的任務對應的增加遠程訪問的時間限制、地點限制和次數限制。這也是開發(fā)式硬件結構的特點。

2.3系統(tǒng)性能優(yōu)化SQL數據庫歷經幾年的研究和使用已經近乎完美,因此對數據庫的性能進行優(yōu)化是個非常困難的任務。然而,只要是實際工作有需要的,都應當做出針對性的系統(tǒng)性能優(yōu)化。為了保證醫(yī)院信息的安全,也為了保證醫(yī)院工作的效率,系統(tǒng)性能優(yōu)化的完善勢在必行。在醫(yī)院日常的工作中,最繁重的就是數據統(tǒng)計和索引了,若性能得到優(yōu)化,就可以大大加快數據庫的反應速度,這樣也能使醫(yī)院的工作和服務得到提升。

3結論

篇4

近年來,數據挖掘與商務智能技術發(fā)展迅速,充分借鑒國外相關研究,尤其是ACMSIGKDD課程委員會對數據挖據課程建設建議,對進行數據挖掘類課程的教學建設研究有重要意義。ACM(美國計算機協會)于1998年成立了SIGKDD(知識發(fā)現興趣小組),致力于知識發(fā)現與數據挖掘的相關研究,ACMSIGKDD課程委員會連續(xù)多年多次更新其主要課程———數據挖據課程的建議,其中委員會將數據挖掘課程分為基礎部分與高級主題,基礎部分覆蓋了數據挖掘的基本方法,高級主題既有數據挖掘基本方法的深入研究,又有更高級算法的介紹。國外很多大學的計算機科學學院、商學院都開設了數據挖掘類課程并同時進行相關研究。波士頓大學開設了“數據管理與商務智能”課程,課程主要包括基礎、核心技術、應用三部分。許多國外著名大學建立了教學管理系統(tǒng),提供大量的案例、在線討論和在線輔導功能。國內很多學校都開設了數據挖掘的相關課程,我國大多數高校的課程大綱內容與國外大致相同,只是在實踐部分選用了不同的商務案例。數據挖掘的應用領域廣泛,因此可以根據開課學院和專業(yè)選擇合適的實例。

二、根據信息管理專業(yè)本科生培養(yǎng)要求確定課程目標

數據挖掘課程是一門綜合性很強的前沿學科,對計算機軟硬件、數據庫、人工智能技術、統(tǒng)計學算法、優(yōu)化算法等基礎知識都有較高的要求。因此該門課程開設在學生大三下學期,既有相關知識的基礎,又為大四做畢業(yè)設計提供了一種思路。信息管理專業(yè)是計算機與管理相結合的專業(yè),旨在培養(yǎng)具備信息系統(tǒng)開發(fā)能力與信息資源分析與處理能力的綜合應用型人才。對信息管理專業(yè)的學生而言,本課程主要的目標是數據挖掘算法原理理解、數據挖掘算法在商務管理問題中的應用以及常用數據倉庫與數據挖掘軟件的熟練應用和二次開發(fā)。

三、基于模塊化方法的課程內容分析

模塊化教學模式是按照程序模塊化的構想和原則來設計教學內容的一整套教學體系,它是在既定的培養(yǎng)目標指導下,將全部教學內容按照一定標準或規(guī)則進行分解,使其成為多個相對獨立的教學模塊,且各教學模塊之間可以按照一定的規(guī)則有選擇性的重新組合。學生可以根據個人興趣和職業(yè)取向在不同模塊之間進行選擇和搭配,從而實現不同的教學目標和人才培養(yǎng)要求。模塊化教學本質上是以知識點與實踐的細化為出發(fā)點研究的。商務智能方法本身非常豐富,實踐應用也是課程的主要特點之一,因此十分適合使用模塊化的知識分解方式。本課程的知識點模塊管理分為兩個層次,一是從宏觀角度設計課程的基礎內容模塊和高級主題模塊;二是從微觀角度針對較為復雜的教學內容進行的知識點劃分。

1.課程主要內容模塊化分析。目前該課程包括十章理論內容,分別為數據倉庫與數據挖掘的基本知識、數據倉庫的OLAP技術、數據預處理、數據挖掘系統(tǒng)的結構、概念描述:特征化與比較、挖掘大型數據庫中的關聯規(guī)則、分類與預測、聚類分析、復雜類型數據挖掘和序列模式挖掘。根據模塊化管理的宏觀角度分類,課程內容的第一至五章屬于基礎理論部分和簡單數據挖掘技術的介紹,可以作為基礎內容模塊;第六至八章為數據挖掘的核心算法,其中既有基礎理論與技術方法,又可深入到較難的方法和復雜的應用,因此介于基礎內容與高級主題之間;第九、十章可以算做課程的高級主題模塊;另外,課程的實踐模塊既包含數據倉庫的建設又包含數據挖掘算法的應用,難度也介于基礎內容與高級主題之間。

2.復雜知識點的模塊化管理。從微觀角度對知識點進行設計主要針對的是上述的高級主題、以及難度介于基礎內容與高級主題之間的章節(jié),由于這些章節(jié)知識點在難度上有一定層次,講授內容彈性比較大,因此需要在課程設計中明確一定課時量所要達到的難度。以商務智能技術中的分類算法為例:首先一般的入門課程都會介紹分類算法的概念和基本原理;接著開始介紹分類算法的基礎算法———決策樹,而決策樹算法中又包含ID3等多種算法,并且除了決策樹外,還有其他更高級的分類算法;在真正使用分類法進行預測時,還要分析預測準確度;最終要將所學知識加以應用。這樣就形成了一個結構清晰、難度循序漸進的知識點模塊的層次關系。在宏觀角度、微觀角度對教學內容進行分類的前提下進行相應的授課方法與考查方法的研究,才能真正有助于學生的學習。

四、授課與考核方法設計

對不同層次學生要求不同,這種不同既體現在知識點的要求上,又直接體現在任務的難易性程度上,這都需要教師在課程設計時充分考慮不同要求情況下的不同的授課方式,并使學生清楚自己需要掌握的程度。對于高級算法和實現部分,通常可以選擇一到兩章內容采用專題探討式的教學方法。這種方法是指在教師啟發(fā)和引導下,以學生為主體,選擇某個基本教學單元為專題,學生自主研究作為知識傳遞的基本形式,將多種靈活的教學方式綜合運用到教學環(huán)節(jié)的教學方法。根據信管專業(yè)培養(yǎng)方案的培養(yǎng)目標、以及對學生調研的情況,實踐環(huán)節(jié)比較適合選擇成熟的商務智能工具進行數據的整合和多維數據建模,也就是直接使用現成的;或者使用數據挖掘軟件進行數據建模,完善數據挖掘算法。可以針對學生管理基礎課與IT基礎課知識的掌握情況,選擇合適的工具為學生設計綜合性實驗。實驗中給出部分操作步驟,并在實驗后期僅給出數據與工具,讓學生自己設計數據倉庫、進行數據挖掘、并對挖掘結果進行多種形式的展示。

五、結論

篇5

作為數據庫管理系統(tǒng)的最內層結構,物理數據庫的主要作用就是存儲數據,而且物理數據庫中存儲的各種數據都屬于最原始的數據,一般都是由字符、字符串等共同構成的,因此其大部分都屬于用戶加工的對象。作為最中間的數據庫管理系統(tǒng)結構,概念數據庫技術對數據之間的邏輯關系進行了一定程度的解釋,因此其屬于整個數據管理系統(tǒng)的邏輯表現。從某種程度上來講,用戶使用數據的全部內在聯系就是所謂的邏輯數據層,用戶會對全部數據庫中的數據進行使用。

2在信息管理中計算機數據庫的應用現狀分析

計算機技術發(fā)展越來越快,相應的,也出現了包括網絡安全問題在內的很多問題。對于計算機管理系統(tǒng)的發(fā)展而言,安全系統(tǒng)也具有十分重要的作用。數據庫技術要想實現更好地發(fā)展,必須先解決可能會出現的數據安全問題。業(yè)內人士開展了大量關于計算機數據庫的探究,而且在信息管理中數據庫技術的應用性能也得到了極大提升。在信息管理中處理數據具有十分重要的作用,很多企業(yè)的數據資料都具有機密、敏感的特點,他們非常關注數據資料的安全性,因此其具有較高的信息管理技術要求。對信息的管理是數據庫管理技術的主要功能,而建立有效的數據模型是對信息進行管理的主要特點。以建立的數據模型為根據,可將數據庫體系劃分為層次型數據庫、關系型數據庫以及網狀型數據庫。計算機技術與數據庫技術之間的結合具有非常好的發(fā)展前景,其已經在包括農業(yè)、工業(yè)以及其他產業(yè)中得到十分廣泛的應用,兩種技術結合使很多行業(yè)信息管理的條理性、有效性和安全性得以極大提升。在信息管理中充分運用計算機數據庫技術,除了能使信息管理變得更加方便外,還可以有效保證信息的安全管理。與此同時,信息系統(tǒng)還具有備份和恢復信息的作用,這可以在數據遭到破壞的時候,實現對有用數據的無成本恢復,從而解決誤刪資料的問題。如今,數據庫的安全系數越來越高,企業(yè)機構不僅能更好地保護數據庫,還能有效避免信息系統(tǒng)被黑客侵入,防止機密信息流失。

3計算機數據庫技術在信息管理中應用的前景分析

3.1安全性越來越高

數據不會出現被非法盜取、篡改和使用等各種安全問題就是數據庫的安全性,數據庫的安全性是衡量系統(tǒng)質量好壞的一個非常重要的標準。作為數據庫的特色應用之一,數據的共享很容易導致數據出現安全問題,因此,一些機密文件不能實現共享。然而很多信息用戶并不具備較高的信息安全意識,也沒有充分重視網絡安全,嚴重影響數據的安全管理工作。未來計算機數據庫技術在信息管理中應用的一個重要的趨勢就是具有越來越高的計算機數據庫技術安全性。

3.2數據完整性越來越強

篇6

一、對稅務數據深度利用的理解

長期以來,稅收工作中數據利用比較常見的形式有:報表瀏覽、簡單查詢、復雜查詢、稅源分析、稅負分析、收入預測、過程監(jiān)控等,多數專家認為,目前稅務數據應用的一般特征是基于匯總、分類、簡單計算基礎之上的原始稅收數據的“復制式”展現和對稅收現象的“陳列式”描述。

隨著經濟、社會的發(fā)展,稅收數據的般利用已經不能滿足稅收信息化深化和稅收管理現代化的內在需求,為了加強稅收征管、規(guī)范稅收秩序,國務院于1994年開始實施“金稅工程”?!敖鸲惞こ獭背跗谝浴霸鲋刀惐O(jiān)管”為主要目標;二期時,內容已拓寬為增值稅防偽稅控開票系統(tǒng)、防偽稅控認證系統(tǒng)、增值稅計算機交叉稽核系統(tǒng)、發(fā)票協查信息管理系統(tǒng)的四個系統(tǒng);到了三期,其目標已經成為:在二期基礎上,建立七個子系統(tǒng)(管理子系統(tǒng)、征收子系統(tǒng)、稽查子系統(tǒng)、處罰子系統(tǒng)、執(zhí)行子系統(tǒng)、救濟子系統(tǒng)、監(jiān)控子系統(tǒng)),35個模塊。依據美國學者Richard.L-Nolan的理論(對于任何行業(yè),信息化大體要經歷初始、蔓延、控制、集成、數據管理和成熟這樣幾個發(fā)展階段,這是信息化發(fā)展的般規(guī)律。)和Mische的補充(他認為集成和數據管理是密不可分的,因此信息化發(fā)展的必然路徑是起步、增長、成熟和更新四個階段),目前,稅務信息化的發(fā)展階段已開始向成熟階段過渡。于是稅收數據的深度利用便提上日程。我們可以從稅收管理戰(zhàn)略和稅收政策分析兩方面來看這種需求的提出。

從稅務管理戰(zhàn)略來看,在納稅前如何綜合評價簡化管理制度(法律)及照章納稅宣傳的相對效果;在納稅中如何核算稅收結構和管理程度的實際資源成本(管理、照章納稅、效率、逃稅),以及納稅后對稅收差距的衡量(包括潛在稅收與申報稅收的差距、申報稅收與實收稅收的差距、實收稅收與送達國庫稅收的差距),都涉及到稅收數據的深度利用問題。

從稅收政策分析的角度來看,稅收經濟的和諧發(fā)展度量、稅制改革方案分析、稅收減免和優(yōu)惠的成本和政策收益、稅收政策的經濟影響等等也涉及到稅收數據的深度利用和挖掘問題。

這些問題都從以下兩方面引發(fā)了我們對稅務數據深度利用的理解和思考:一方面提出了我們需要全面檢視擁有的稅務數據信息的需求。在各國稅務數據信息深度利用的經驗當中,提出過一些全面檢視的標準,例如按照稅基到稅收收入的實現途徑,可以檢視:稅基的規(guī)模,包括真實稅基和潛在稅基;稅收管理資源使用方向的詳細分類;管理資源使用的效用;稅收管理的效果,例如收到稅款的多少,處理案件的數量等。

另一方面,更為關鍵的是,提出了如何科學利用、深度利用的問題。總結以上兩方面,我們認為稅收數據的深度利用是指:在數據集中和系統(tǒng)整合的基礎上,建立全面的稅務數據信息,既包括稅務系統(tǒng)內部數據,也包括其他政府部門、企業(yè)、居民等外部數據,并且進一步在各種模型的幫助下,發(fā)現數據的內在規(guī)律。就目前而言,重點任務是在稅務管理方面提出適用中國實踐的模型并且應用,同時初步探索在稅收經濟方面能夠刻畫符合我國國情的模型。

二、構建模型是數據深度利用的切入口

如前所述,稅務數據深度利用和挖掘的關鍵在于模型的應用,下面我們就來討論模型是什么?我們?yōu)槭裁葱枰P?我們需要什么樣的模型?就稅收數據深度利用的模型而言,大致可以分為兩類:以科學化管理、定量化管理、精細化管理為內在思想的管理工具和手段所形成的模型;以研究稅收經濟關系協調發(fā)展為目的的稅收經濟模型。

在基本認識了稅務數據深度利用中的模型是什么之后,雖然我們達成了一種共識,我們需要模型,但是如果我們思考過為什么需要模型?顯然會對模型應用更能得心應手。我們認為模型所發(fā)揮的作用無外乎以下三種:

首先,刻畫稅收經濟關系。一般而言,我們經常提到的是模型在刻畫稅收經濟關系當中所起的作用,即采用代數形式的定量分析將稅收經濟理論模型化,然后適當根據實踐情況把理論模型予以修正,并將相關數據應用到修正模型中,對模型結果進行經驗分析。這種利用的過程是階段性的,是從初級到高級的過程,是一個水平不斷提高、效果不斷改進的發(fā)展過程。

其次,歸納稅收管理實踐。模型起到的作用是將復雜的稅收征納活動通過數字化的形式總結歸納,將稅收征納的每一個過程精細化、每一個結果數據化,并且建立起投入到產出之間的對應關系。最后,數據組織的導向性作用。這種導向性作用的發(fā)揮是通過模型應用過程當中對各類數據提出的要求實現的,通過該作用,隨著時間的發(fā)展,數據集中的有效性與目的性不斷加強,反之,模型應用空間不斷擴展。在這一方面,美國個人所得稅模型應用為我們提供了很好的啟迪。

結合目前的稅務數據基礎及其發(fā)展趨勢來看,金稅三期將成為稅收數據深度利用的良好契機,構建相應模型是我們形成稅務數據深度利用良好局面的切入口。

對于“我們需要什么樣的模型”的回答,是一個不斷結合實際進行摸索的過程,但是就現階段而言,從可操作性的角度出發(fā),我們還是需要給所應用的模型框定一個邊界:數據可利用性,如果沒有數據的支持,模型應用將無從談起;可計算性,模型應用迅速發(fā)展的基石之一就是現代計算技術的發(fā)展,沒有計算工具的支持,具有龐大計算量的各種稅收模型的完成無法想象,支持稅收模型應用的計算工具包括硬件具備的計算能力和軟件具有的算法能力兩種。

三、數據深度利用平臺建設的體厶

數據深度利用和挖掘最終必須落實到具體計算平臺上,否則縱然有大量的數據積累,仍然擺脫不了研究與實踐部門脫節(jié)的窘態(tài)。雖然目前我們擁有大量的計算軟件平臺,然而,總感覺到這些應用平臺離我們的實際需要有一定距離。

目前我們正在參與完成一個國家自然科學基金研究項目:稅收政策分析模型支持系統(tǒng)的實現及其在稅制改革中的應用研究,其主要內容和實質就是探索構建一個有利干數據深度利用的計算平臺。從該平臺的構建來看,有幾點體會:首先,平臺的構建必須結合具體的研究問題展開。通用性的平臺雖然很好,但是由于前面所提到的數據可利用性和可計算性的原因,加上實際工作的緊迫性需求,往往使得通用性平臺的規(guī)劃會落空,甚至于進一步影響數據深度利用工作本身。在該問題上,我們的平臺研究就結合了增值稅轉型的測算問題,利用了CGE平臺進行實證性的應用。

其次,考慮針對具體問題研究的通用性拓展。雖然實用為先,然而要做到持續(xù)性的數據利用,必然要考慮拓展的問題。在這個問題上,我們的平臺通過稅制表示方法、稅收政策分析模型描述語言中國稅收政策分析模型支持系統(tǒng)等方法進行嘗試。

更為重要的是,對適合中國國情的稅收經濟模型的提出。由于長期以來的數據缺少原因,在我國模型建設方面沒有進一步的探索。這種缺陷在海量的數據突然呈現在我們面前的時候更加突出。我們正在嘗試提出適用干中國的稅收經濟模型,雖然肯定會比較艱難,但是這是一條必經之路。

篇7

心電圖蜂窩大數據網絡系統(tǒng)包括心電圖中心服務器、報告診斷中心(可接收由全球各地醫(yī)療機構傳來的心電信息)、多種檢查設備(心電圖機、運動平板、動態(tài)心電圖等)和終端瀏覽器4個部分。心電圖中心服務器由數據庫、數據儲存和數據轉換系統(tǒng)組成。它運行的系統(tǒng)主要包括:預約檢查申請模塊系統(tǒng)、排隊叫號系統(tǒng)、檢查系統(tǒng)、心電圖輔助分析系統(tǒng)、終端瀏覽系統(tǒng)、專業(yè)查詢及統(tǒng)計系統(tǒng)。其中,預約檢查申請模塊與HIS緊密結合,可準確查詢到患者的預約就診信息;排隊叫號系統(tǒng)幫助患者及時了解大約需要的就診等待時間,以便安排檢查行程。在心電圖檢查結束后,心電圖機通過檢查系統(tǒng)將心電圖數據與HIS中的患者信息進行匹配,再發(fā)送到心電圖服務器;服務器運行數字接收程序(MedExXDTJReceived),將心電圖數據入庫。而報告診斷中心通過FTP文件傳送服務自動從服務器下載病歷數據,在心電圖輔助分析系統(tǒng)的協助下,完成心電圖分析、報告編輯等,保存后自動將數據上傳到服務器。醫(yī)生工作站打開ECGWeb瀏覽、IE瀏覽等終端瀏覽系統(tǒng),通過服務器上的臨床心電圖MedExECGWebSetup服務程序瀏覽心電圖及報告[5-6]。

2網絡系統(tǒng)技術方案

心電圖蜂窩大數據網絡系統(tǒng)能夠將分散的心電數據進行集中儲存、轉化、管理、分析和統(tǒng)計,將完成史無前例的心電大數據管理,為全人類的心電學研究提供全面而豐富的病例資料。除此之外,它還可實現與各級醫(yī)療機構的HIS等信息系統(tǒng)的對接,實現心電數據的共享。該網絡系統(tǒng)所涉及的相關技術包括以下幾方面。

2.1心電設備網絡化連接

系統(tǒng)支持將動態(tài)心電圖、運動心電圖、數字心電圖機等心電檢查設備連入網絡,從而實現全部心電檢查的網絡化。利用數字化技術,將心電檢查設備等所采集的心電信號數據轉換成心電圖,發(fā)送到心電圖中心服務器,實現全院醫(yī)生的臨床Web瀏覽。

2.2門診與病房技術支持配備門診預約、登記、心電檢查網絡系統(tǒng),與醫(yī)院HIS進行無縫連接。病房將可使用的不同型號心電設備之間進行數字連接,以打通與全球心電信息網絡的聯系。

2.2.1便攜式心電檢查儀該設備應用于床旁心電圖檢查,支持心電圖的采集、存儲、回放與傳輸。臨床采集心電信號后,通過無線傳輸技術,將心電圖快速傳到心電圖診斷中心,再由診斷中心出具報告。這樣一來,就實現了邊檢查、邊報告,簡化了以往“檢查后再集中報告”的傳統(tǒng)流程,為患者節(jié)約了診治時間[7]。

2.2.2心電診斷中心中心設有多功能心電分析系統(tǒng),心電圖醫(yī)生根據專有用戶名和密碼登錄系統(tǒng),不僅可分析已有記錄的波形和參數,還可隨時調閱相關類型的心電圖進行對比分析與統(tǒng)計等操作;所發(fā)出的心電圖報告可保存、打印、審核及傳送。目前,山西醫(yī)科大學第二醫(yī)院在網絡心電監(jiān)測診斷方面開展了卓有成效的工作:建立有完備的遠程心電監(jiān)測中心,構建了城市、社區(qū)和農村三級會診系統(tǒng)服務模式,并正逐步健全山西省心電監(jiān)測數據庫,為解決省內醫(yī)療基礎資料分布不均的問題找到了良策。我院自2012年3月起全面開展院內、院外、院前心電網絡信息化管理,覆蓋全院所有病房、門/急診和體檢中心,并發(fā)展院外站點51個,年心電圖檢查量達13萬人次,且呈逐年增長之勢。

2.2.3心電圖中心服務器設立在全球各國家和地區(qū)或各級醫(yī)院的服務器中心,接收特定范圍內的心電數據并進行數據儲存及轉換,再傳回服務器所在醫(yī)院的心電圖數據管理庫,并提供終端計算機的FTP文件傳送服務,與臨床ECGWeb瀏覽、WebService等相應匹配。

2.3統(tǒng)計檢索

該系統(tǒng)具備多種查詢條件,可進行醫(yī)生工作量、檢查工作量、設備工作量等的管理統(tǒng)計。不僅如此,它還能方便地對心電圖數據進行查詢、歸納與統(tǒng)計分析,為科研創(chuàng)新和教學工作提供了有力保障。

3全球心電信息網絡系統(tǒng)設計目標

當今在大數據時代背景下,傳統(tǒng)的心電信息業(yè)務管理模式正悄然發(fā)生著改變。在傳統(tǒng)模式下,人工干預過多,如檢查收費、報告生成等流程皆需人力介入,易造成監(jiān)管混亂;心電圖與患者病史及臨床診斷脫節(jié),難以實現心電圖數據共享;記錄在熱敏紙上的心電圖容易丟失且保存不便,給心電圖分析及科研資料的積累造成很大的困難[6]。隨著全球心電信息網絡系統(tǒng)的建立,上述問題均能引刃而解。它能為心電圖原始資料的積累和共享搭建理想的平臺,還能實現傳統(tǒng)心電信息業(yè)務管理模式下無法完成的目標:(1)實現全球各國、各醫(yī)院區(qū)域范圍內的患者基礎資料和心電檢查資料的全面共享。(2)實現基層醫(yī)院與中心醫(yī)院以及各國專家之間的心電檢查會診功能,從而實現區(qū)域內心電圖檢查設備和高端人才資源的全面共享,乃至從整體上提高全球心電診斷質量和衛(wèi)生服務水平。(3)搭建院前120急救心電圖檢查遠程診斷平臺,中心醫(yī)院根據傳回的心電圖報告及早做好心臟病患者搶救的手術準備。(4)提供對疑難病例的會診支持。(5)患者能夠在區(qū)域范圍內任何一家醫(yī)療機構獲得同等質量的心電診斷服務,從而方便患者就近就診且避免重復檢查。此外,還能夠方便患者上網查詢自己的心電檢查報告。(6)實現科研素材與業(yè)務學習資料的方便獲取,解決了基層醫(yī)院心電診斷醫(yī)生工作、培訓難以兼顧的難題;能夠促進心電工作者在工作中學習,從而快速提高業(yè)務素質。(7)建立各國區(qū)域性的心電圖像資料庫和典型病例數據庫,供教學和科研使用;建立各國區(qū)域范圍內各家醫(yī)院的心電診斷質量追蹤數據庫,以形成從源頭上把關的心電診斷質控體系,從而全面提升各國心電診斷水平。(8)促進各國區(qū)域內醫(yī)療信息化建設,為今后構建基于人體健康檔案的衛(wèi)生信息服務平臺奠定基礎。

4結語

篇8

【關鍵詞】大數據環(huán)境;文書檔案管理;信息化;企業(yè)發(fā)展

企業(yè)在發(fā)展中各項管理活動增多,必然會生成非常多的企業(yè)文書檔案,是對企業(yè)經營、管理各項信息記錄的保存與管理。在信息化時代下,企業(yè)發(fā)展離不開信息技術,不管是企業(yè)還是機關單位,均構建了信息化管理平臺,文書檔案管理信息化趨勢也加強。信息技術為載體的管理方法比起傳統(tǒng)文書檔案管理存儲數量增大,檔案信息瀏覽與查詢更加便捷,檔案儲存時間更長,但是依然受到以下因素限制,出現一些管理上的問題,仍面臨挑戰(zhàn)。

一、大數據環(huán)境與企業(yè)文書檔案信息化管理

(一)大數據概述。人類社會不斷發(fā)展中以及網絡行為日漸增多的背景下,作為一種信息記錄與數據保存下來的內容就是大數據,其中不僅包含了生產信息、數據,還包括其他涉及企業(yè)發(fā)展的隱私。在網絡逐漸普及下,大數據應用日漸普遍,儲存容量不斷增大,期間會產生非常多的難以加工與應用的數據,為應用與管理帶來難度。在數據容量不斷增大的背景下,很多用戶可以通過查詢、文件檢索、下載、加工、復制等方法應用這些數據,使數據復雜與繁瑣程度進一步增大,為管理帶來了阻礙。

在信息技術不斷發(fā)展的背景下,各種信息數據獲取也更加有難度,激烈的市場競爭中誰最先獲得了這些信息,誰就獲得了發(fā)展機會,增加了搶占市場的籌碼,對于數據資產的保護任何企業(yè)都沒有懈怠過。大數據獲取不僅體現在數據源獲得上,更體現在借助這些數據源,對真正有價值的數據進一步發(fā)掘,增加數據潛在價值。當前,網絡應用體量大幅度增加,大數據成為人們生活不可缺少的信息。

(二)企業(yè)文書檔案與信息化管理概述。企業(yè)文書系統(tǒng)地記錄了企業(yè)成立到發(fā)展期間各項經營與管理活動,比如,財務管理、人事管理、外事管理等,都是企業(yè)有顯著價值的資源,通常,文書信息由企業(yè)專門部門負責,包括對文書的收集、整理、排列以及轉送、開發(fā)、處理等。在大數據環(huán)境下,企業(yè)文書檔案信息化管理在信息技術下會大大提高管理效率,發(fā)揮其內在的服務價值。

二、大數據環(huán)境下企業(yè)文書檔案信息化管理的主要內容

(一)企業(yè)文書檔案的數字化管理。企業(yè)文書檔案以紙質為主,其中記錄著各項文字信息,錄入信息的過程較為漫長,考驗著工作人員的耐心,需要付出一定勞動,如果信息量龐大,容易出現錄入錯誤等,查詢信息時也較為困難。但是大數據下企業(yè)文書檔案可以實現信息化管理,應用計算機的自動篩選技術可以有效節(jié)省人力、物力,提高工作效率。大數據環(huán)境下企業(yè)文書檔案管理一個顯著特點就是可以對紙質檔案進行數字處理,且不改變檔案中的信息內容,更加利于保存、查詢等,這就是電子檔案價值的體現,也是大數據環(huán)境下企業(yè)文書檔案信息化管理的重要內容之一。

(二)企業(yè)文書檔案網絡化管理。經過從紙質到數字化的轉換后,還需要對數字化檔案進行管理,依據互聯網可以進行不分時間、不分地點的修改與添加,使電子檔案更加細化、具體,用戶查詢更加方便,體現了檔案網絡化管理的便捷性。企業(yè)文書檔案利用功能很多,包括網絡檢索、借閱、歸檔、復制、分類等。

三、大數據環(huán)境中企業(yè)文書檔案信息化利用

企業(yè)文書不僅為企業(yè)發(fā)展提供了支持,體現了生產與經營的價值,比如,人事管理、財務管理、科研成果等,為企業(yè)發(fā)展積累了寶貴經驗,也是企業(yè)發(fā)展成果的體現。由此,企業(yè)文書檔案參考價值也很顯著,實施檔案化管理,可為用戶提供更多、更全面的檔案資源服務。企業(yè)發(fā)展中還能對文書檔案進行重建,依據不同需求提供不同功能的服務,也是大數據環(huán)境下企業(yè)文書檔案信息化服務的一種體現。與此同時,借助不同地域下的網絡可供用戶隨時下載、查詢,使用戶對企業(yè)文化、產品等的了解更加全面、細致,還能對某個文書檔案進行跟蹤服務,體現開放式服務的優(yōu)勢。

四、結語

總之,大數據環(huán)境下,企業(yè)文書檔案在信息技術基礎上可以為用戶提供更為全面、周到的服務。在企業(yè)生產日益增多的前提下,人力、物力成本會逐漸提高,由此,信息化檔案的應用可節(jié)省成本與資源,為用戶在查詢、應用、下載檔案信息中提供了便利。

【參考文獻】

[1]庫俊平.大數據環(huán)境中企業(yè)文書檔案的信息化管理及利用[J].創(chuàng)新科技,2013(9):50-51.

[2]江鴻.探析大數據環(huán)境中企業(yè)文書檔案的信息化管理[J].中國科技投資,2016(4):144.

篇9

論文關鍵詞:滇池流域,昆明主城,排水系統(tǒng)診斷

 

排水系統(tǒng)是城市基礎設施重要組成部分,可分為合流制和分流制兩種類型,其中合流制排水系統(tǒng)按雨、污、廢水產生的次序及處理程度的不同可分為直排式合流制、截流處理式合流制和全處理式合流制[1]。排水體制的選擇應根據城鎮(zhèn)和工業(yè)企業(yè)規(guī)劃、當地降雨情況和排放標準、原有排水設施、污水處理和利用情況、地形和水體等條件,綜合考慮確定,同一城鎮(zhèn)的不同地區(qū)可采用不同的排水制度,新建地區(qū)的排水系統(tǒng)宜采用分流制[2]。

昆明主城地處滇池流域北岸濱湖上游區(qū)域,污染負荷比重大,占流域污染負荷總量約80%[3],目前昆明北岸主城二環(huán)路內區(qū)域為合流制排水系統(tǒng),二環(huán)路外為分流制排水系統(tǒng),雨季雨、污合流污水溢流污染問題嚴重。為保護下游滇池水環(huán)境,昆明市政府將雨污分流管網改造和完善工程列為近期治滇重大工程,本研究針對昆明主城區(qū)排水系統(tǒng)存在的問題,在昆明市地下管線探測工作的基礎上,利用ARCGIS高效的空間分析手段,構建排水片區(qū)-子排水片區(qū)-排水單元結構網絡,建立污染源與排水系統(tǒng)拓撲關系,對研究范圍內排水系統(tǒng)進行全過程診斷,分析旱季污水收集率和雨季合流污水溢流率水利工程論文,為排水系統(tǒng)完善工程的全面開展提供數據支持。

1 研究方法

1.1 空間數據信息處理

系統(tǒng)空間數據信息建立的基礎是原有的以AutoCAD繪制的排水管網圖。由基礎空間要素和管網要素組成,基礎空間要素包括地表構筑物、下墊面、道路、河流等;管網要素包括管線和管網中的附屬設施(雨水篦子、排水口、檢查井、排水泵站等)。需要處理的工作包括以下兩方面:

1.1.1排水系統(tǒng)結構分層

排水單元:可以為一棟樓、一個庭院、一個小區(qū)或一個街區(qū),劃分的依據為庭院排水管網和市政排水支管系統(tǒng)的相對獨立性,其意義在于界定出了排水系統(tǒng)管理和污染控制的最小且有效的可操作對象。

子排水片區(qū):在排水單元劃分的基礎上,以市政排水干管和輸水泵站為主線索,根據排水系統(tǒng)主次脈絡,串聯排水單元,形成基于排水干管和泵站的子排水片區(qū)。

排水片區(qū):即污水處理廠納污范圍,由基于排水干管和輸送泵站的子排水片區(qū)組成。

1.1.2拓撲關系構建

城市排水空間數據龐大、復雜、多層次,各要素間具有特定關聯性,且由此關聯性構成了排水系統(tǒng)結構。拓撲是反映空間要素和要素類之間關系的數據模型或格式。利用拓撲規(guī)則可以指定要素類中的要素之間有何種空間關系,或者多個不同要素類中的要素之間的空間關系。系統(tǒng)中涉及到的排水單元、排水管線、檢查井以及其他排水構筑物之間的特定關系利用GIS提供的拓撲規(guī)則建立,并利用拓撲處理功能進行有效的管理。

1.2屬性數據信息處理

針對主要管網要素,錄入屬性信息論文的格式。

表1管網要素屬性信息

Tab.1 Attribute information of sewageelement

 

要素

數據信息

節(jié)點

X、Y坐標、井底標高、地面標高、點源污水排放量(m3/s)、點源污染負荷排放量(t/s);

管線

管徑、管材、長度、坡度、埋深、起點標高、終點標高、起始節(jié)點、終點節(jié)點;

篇10

關鍵詞:區(qū)域發(fā)展;面板數據質量;信息熵;FCM;可行性論證

中圖分類號:F224.9

文獻標識碼:A文章編號:

16721101(2015)02003605

Abstract: Based on information entropy from the perspective of data quantity under index system of regional development, this paper establishes the way of evaluation by the standard of information entropy, explores how to improve the information of data using fuzzy c-means algorithm, and validates the the proposed method from theoretical proof and empirical analysis.The paper makes improving experiments via panel data under comprehensive index system of regions of northern Anhui and along the Huaihe river.Its result suggests diversity in data by information entropy standard and marked improvement of information, which lays good basis of better data quality for consequent data mining.

Key words:regional development; quality of panel data; information entropy; fuzzy c-means algorithm; feasibility demonstration

在現代信息技術迅猛發(fā)展的背景下,越來越多的領域都采用數據驅動的方式進行研究。應運而生的數據技術從傳統(tǒng)的統(tǒng)計分析到數據挖掘,再到現今的云計算和大數據都很好的給生產生活帶來更多的價值。但是隨之而來的數據量度和尺度都變得紛繁復雜,再加上各行業(yè)所取觀測指標的不同使得數據在單位、量綱和指標含義等客觀情況下呈現很大差異性和不確定性,特別是經濟數據指標的數值差距過大,因此給數據技術方法本身的可行性以及所得結果的可靠性帶來很大挑戰(zhàn)。傳統(tǒng)的數據預處理中多采用清理、變換和規(guī)約等方法來提高數據質量[1,2],在大多數文獻中多采用Min-Max標準化[3,4]、Z-score標準化[4]、Decimal scaling小數定標標準化[5]以及Log和Atan函數轉化[6]來處理數據,并不著重討論數據達到的質量程度。但是由于標準化方法的一些理論局限性,容易在處理中降低數據的信息量。所以在研究中如何能夠判斷標準化后數據信息量的改變程度,這對采用的技術方法本身和后續(xù)結果分析將起到重要的作用。本文將嘗試探討數據信息量衡量熵標準,并從理論層面和結合皖北沿淮區(qū)域經濟發(fā)展數據做相應的實證分析。

一、構建熵標準下FCM分類改進模型

(一)信息熵與FCM準備

1.數據質量的信息熵標準

熱力學第二定律表明孤立系統(tǒng)中任何變化都不可能減少熵值,1948年Shannon定義通信信號中平均信息量為熵[7],從此熵作為衡量信息量的一種方式被廣泛應用。信息熵是數據含載信息程度的一種度量方式,當信息熵越大時表明數據越無序,需要理清數據所需信息就越多,也說明數據的信息量越大。離散隨機變量的信息熵定義為自信息的平均值

H(X)=Ep(x)[I(x)]=-∑xp(x)logp(x)

其中I(x)為事件的自信息,Ep(x)表示對隨機變量的概率取平均運算。其具有熵的非負性、對稱性、擴展性和可加性等相關性質。

2.模糊C均值聚類FCM

模糊C均值聚類[8,9](FCM)是由Bezdek在1981年提出的一種模糊分類方法,FCM需要根據類中距和類間距構造分類準則,利用預先給定的分類數C對所給樣本點進行分類。即求解規(guī)劃問題:

minJm(U,Z,c)=∑ci=1∑Nk=1μhikd2ik,

s.t.∑ci=1μik=1,l≤k≤N;0≤μik≤1;

通過求解上面規(guī)劃問題,利用得到的隸屬矩陣Uik=∑cj=1(dikdjk)-2m-1和聚類中心

Ci=∑nk=1umikXk∑nk=1umik,進行迭代運算得到分類結果。

(二) 熵標準下FCM分類改進模型

由于熵值代表了數據的信息量,而通過衡量信息量可以產生評價策略,陳衍泰等在綜合評價方法分類的研究中總結了信息熵方法應用在評價領域的情況[10],張樹森等將熵與聚類算法結合提出改進的模糊聚類算法EFC[11],韓宇平等將最大熵原理用于評價區(qū)域水資源短缺問題[12],劉紅琴等將信息熵應用到能源消費的分配衡量中[13],本文考慮將信息熵引入到數據質量的評價中。

再由于區(qū)域發(fā)展數據在數值上差距過大,如果僅僅統(tǒng)一進行z-score標準化處理則可能帶來信息損失,本文考慮利用FCM方法將數據進行分類標準化,這樣也同時帶來數據扁平化特征,而由離散最大熵定理[7]可知,數據出現概率越相同,那么數據的信息熵越大。

設n維數據集{xi}ni=1進行z-score標準化后{xi-μσ}ni=1在D段中出現的概率為{Pj(x)}Dj=1,利用FCM對數據分C類后原始數據重新組合變?yōu)閧xij}i=1,…C,j=1…ni,在每個數據集中表轉化得到數據集{xij-μiσ}i=1,…C,j=1…ni在D段中出現的概率為{Qj(x)}Dj=1,當分段數D足夠體現數據概率分布時Q(x)比P(x)更加趨近相同概率。利用P(x)對Q(x)的散度D(P//Q)非負特征,有如下推導:

D(P//Q)=∑xP(x)logP(x)Q(x)=

∑xP(x)logP(x)-

∑xP(x)logQ(x)≥0

Hp(x)=-

∑xP(x)logP(x)≤

-∑xP(x)logQ(x)≤-

∑xQ(x)logQ(x)=HQ(x)

因此在分類標準化后的數據信息量比直接標準化的信息量要大。從分類的角度來看,分類后數據標準化數值會產生比整體標準化更多的多樣性,從而帶來的信息量的增加,而數據信息量的增加也給后續(xù)的研究方法提供更好的數據質量。

二、基于區(qū)域發(fā)展面板數據的實證分析

(一)指標體系構建與數據來源說明

1.區(qū)域發(fā)展指標體系構建

結合前期工作制定指標體系[14]21,指標的選取原則兼顧經濟、生活、環(huán)境、社會、特征產業(yè)和可持續(xù)發(fā)展的指標體系,構建一級指標,細化二級指標共選取5個一級指標和69個二級指標如圖1所示,并由此構建整體指標模型和各級別體系。

具體指標表現為:(1)在經濟發(fā)展與產業(yè)結構方面:GDP;城鎮(zhèn)固定資產投資額;出口總額;進口總額;農業(yè)總產值;工業(yè)總產值;建筑業(yè)鄉(xiāng)村從業(yè)人員數;交通運輸、倉儲及郵政業(yè)鄉(xiāng)村從業(yè)人員數;鄉(xiāng)村私營企業(yè)從業(yè)人員數;農、林、牧、漁業(yè)鄉(xiāng)村從業(yè)人員數;鄉(xiāng)村個體從業(yè)人員數;工業(yè)從業(yè)人員年平均人數;城鎮(zhèn)房地產開發(fā)投資額;(2)民生能力與生活質量:職工工資總額;總戶數;農民人均純收入;城鄉(xiāng)居民儲蓄存款余額;社會消費品零售總額;城鎮(zhèn)居民最低生活保障人數;新型農村合作醫(yī)療參合率;建成區(qū)綠化覆蓋率;城市出租汽車數;公共汽(電)車客運總量(市轄區(qū));人口自然增長率;城市公共汽(電)車客運總量;城市每萬人擁有公共交通車輛數;城市人口密度;人口密度;基本養(yǎng)老保險基金支出;基本醫(yī)療保險參保人數;人均公園綠地面積;(3)政府管理與社會服務:財政收入;財政支出;財政用于教育的支出;財政支出中衛(wèi)生經費;等級公路里程;公路貨物周轉量;公路旅客周轉量;公路客運量;鐵路客運量;城市道路長度;城市供水總量;城市清掃保潔面積;城市天然氣供氣量;地質災害防治投資;城市公園數;街道辦事處數量;(4)資源實力與可持續(xù)發(fā)展:降水量;人均水資源量;土地面積;林業(yè)用地面積;水田耕地面積;城市污水排放量;生活垃圾無害化處理率;城市排水管道長度;城市污水處理率;工業(yè)廢氣排放量;工業(yè)廢水排放量;“三廢”綜合利用產品產值;(5)教育產業(yè)與創(chuàng)新科技:財政用于教育的支出;普通高等學校數;普通高等學校在校學生數;普通高中在校學生數;普通小學在校生數;發(fā)明專利申請受理量;發(fā)明專利授權量;科技活動人員數;

圖1綜合區(qū)域發(fā)展指標結構圖

基于以上初步指標體系充分涵蓋從經濟發(fā)展到人民生活,從政府能力到社會服務,從可持續(xù)發(fā)展到特色產業(yè)的方方面面,兼顧發(fā)展的效率、速度、質量、潛力和能力。但是在數據收集中往往遇到很多實際情況需要做修正,對于少部分的數據遺漏采用數據擬合回歸和缺省值補充等傳統(tǒng)數據預處理方法進行修整[1],對于大部分的數據遺漏則采用指標替換的方式進行變通。

2.面板數據來源說明

本文依托皖北沿淮地區(qū)6市39縣區(qū)的區(qū)域發(fā)展研究,因為在皖北沿淮地區(qū)中蚌埠市和淮南市具有相同的地緣特征和相似生活特征,所以對兩個地區(qū)指標的衡量具有很好的實際意義,故而采用2005年到2012年蚌埠市和淮南市數據,數據來源于中國知網提供的《中國統(tǒng)計年鑒》、《中國城市統(tǒng)計年鑒》和各地區(qū)發(fā)展統(tǒng)計年鑒等。同時本文數據屬于面板數據,可以克服時間序列分析受多重共線性的困擾,能夠提供更多信息、變化、自由度和估計效率。

(二)具體實證分析

本文的具體實證分析分為以下三個方面:(1)對于原始數據的處理過程:按照論文前面介紹的科學指標模型和數據采集來源,將兩個城市69個屬性從2005年到2012年共8年的數據進行矩陣化,得到一個138行8列的原始數據矩陣,對于原始數據矩陣中的缺省值采用外插和內插法進行相應的差值擬合得到完整的使用數據。(2)對于使用數據的分析過程:第一步根據本文前期工作[14]22通過對數據進行譜系聚類、HCM和FCM三種聚類方法,采用Matlab2012b進行編程,比較從分2類到分10類的由R方統(tǒng)計量和偽F統(tǒng)計量得到的半偏相關統(tǒng)計量SPRSQ數值,發(fā)現當分三類時譜系聚類方法和HCM的SPRSQ數值達到最高值分別為0.400 1和0.023 9,而FCM的SPRSQ數值在分四類時達到最高值0.027 0,因此在進行分類構建信息熵時,將分三類和分四類的情況均予以考慮。第二步根據論文前面討論的信息熵構建過程進行分類信息熵構建,首先將利用FCM對數據分三類和分四類得到的數據集

{xij}i=1,…C,j=1…ni(其中C=3或者4),在每個數據集進行z-score標準化:{xij-μiσi}i=1,…C,j=1…ni;然后討論這些數據在分D段中出現的概率{Qj(x)}Dj=1,其中分段數D的大小要足夠體現數據概率分布特征 [7,11]取D分別為10和20兩種情況,計算相關信息熵數值H(X)=

EQ(x)[I(x)]=-∑xQ(x)logQ(x)

;最后通過和沒有進行分段改進的原始數據集的未標準化和統(tǒng)一標準化兩種情況進行比較得到相關結論。(3)對于數值比較的分析結果:通過比較未標準化、普通的列統(tǒng)一標準化和采用FCM分三類和四類的類標準化的三種方法在取分段數為10和20下的信息熵大小,得到了相關的數值結果表1。

對表1中的相關數值做圖進行直觀的表達,可以得到在分10段情況下的圖2和分20段情況下的圖3,其中橫坐標為從2005年到2012年每一年的數據情況,從圖中可以發(fā)現不論哪一年的數據數值在分類標準化后的熵值都高于圖中最下面的線,即統(tǒng)一標準化的數據熵值。

從以上圖表的結果來看,采用FCM算法對于數據分類標準化后得到的信息熵提升效果是明顯的,具體可以概括為以下的一些結論:

1.未標準化和統(tǒng)一標準化的結果數值完全一樣,這是因為z-score標準化過程并不改變數據分布特征,因此他們擁有相同的概率分布,則信息熵也完全一致,故而數據所含信息不變,因此在作圖階段就不體現未標準化的結果圖形。

2.分段標準化后所有的數據結果均大于統(tǒng)一標準化的數據值,即信息熵在分段標準化后都有顯著提高,這和理論推導的結果一致。故而分段標準化的方法可以有效消除量綱差異,同時還能有效的提高數據信息熵,從而使得數據含有更好的信息量。

3.就分段標準化而言從所有列信息熵的總和數值可以發(fā)現,在兩種最佳聚類數時信息熵的總和情況分別可以表示為:分10段3類時的9.07高于4類時的7.8,分20段3類時的12.19高于4類時的11;同時數據信息熵隨著分段的增大數值也在增大,這是信息熵本身性質所決定的,因為分段越多概率分布越接近均勻分布,由離散最大熵定理以及本文理論推導可知數據信息熵在增加。但是如果分段過多,甚至達到數據總量的一定比例,此時再高的信息熵數值也并不能夠說明很好的信息量,所以在分段數的選取需要與數據總量相互匹配。

三、結論

根據以上論證發(fā)現,從理論角度和實證分析都驗證了分類標準化可以有效的提高數據信息量。所以在相應數據分析方法使用之前,對于數據標準化處理階段可以嘗試采用分類標準化的方式,這樣既可以消除數據量綱差異,也可以有效的提高數據含載信息,為進一步使用數據挖掘方法得到更好的數據結論提供較好的前期準備。

同時由于在數據集統(tǒng)一標準化中均值唯一,相當于只有一個中心節(jié)點。但是在分類標準化后,在不同類中都有相應的均值作為中心節(jié)點,所以分類標準化比傳統(tǒng)的統(tǒng)一標準化更符合現代互聯網思維,那就是去中心化和多節(jié)點多分類,以及扁平化結構體系的相關思想。參考文獻:

[1]Jiawei Han.Data Mining Concepts and Techniques, Second Edition[M].BeiJing: China Machine Press,2008:30-65.

[2]韓京宇.數據質量研究綜述[J].計算機科學,2008(2):1-5.

[3]程惠芳,唐輝亮.開放條件下區(qū)域經濟轉型升級綜合能力評價研究――中國31個省市轉型升級評價指標體系分析[J].管理世界,2011(8):173-174.

[4]張鋼.長江三角洲16個城市政府能力的比較研究[J].管理世界,2004(8):18-27.

[5]安悅.基于微博客的手機供應商排名推薦[J].數學的認識與實踐,2013(10):23-29.

[6]汪冬華.我國滬深300股指期貨和現貨市場的交叉相關性及其風險[J].系統(tǒng)工程理論與實踐,2014(3):631-639.

[7]田寶玉.信息論基礎[M].北京:人民郵電出版社,2008:18-26.

[8]史小松,黃勇杰,劉永革.數據挖掘技術中聚類的幾種常用方法比較[J].中國科技信息,2009(20):99-105.

[9]諸克軍,蘇順華,黎金玲.模糊C均值中的最優(yōu)聚類與最佳聚類數[J].系統(tǒng)工程理論與實踐,2005(3):52-61.

[10]陳衍泰.綜合評價方法分類及研究進展[J].管理科學學報,2004(2):69-77.

[11]張樹森.改進的基于熵的中心聚類算法[J].計算機與現代化,2014(3):53-56.

[12]韓宇平.基于最大熵原理的區(qū)域水資源短缺風險綜合評估[J].安徽農業(yè)科學,2011(1):397-399.

[13]劉紅琴.基于信息熵的省域內能源消費總量分配研究[J].長江流域資源與環(huán)境,2014(4):482-489.