網(wǎng)絡(luò)爬蟲范文
時(shí)間:2023-04-05 04:14:48
導(dǎo)語:如何才能寫好一篇網(wǎng)絡(luò)爬蟲,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公文云整理的十篇范文,供你借鑒。

篇1
關(guān)鍵詞:網(wǎng)絡(luò)爬蟲;反爬蟲機(jī)制;搜索引擎
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)07-0061-03
信息和知識(shí)爆炸增長的時(shí)代,搜索引擎成為人們獲取信息的重要工具。搜索引擎釋放出來的網(wǎng)絡(luò)爬蟲會(huì)大量占用互聯(lián)網(wǎng)帶寬,很可能在短時(shí)間內(nèi)導(dǎo)致網(wǎng)站訪問速度緩慢,甚至無法訪問。應(yīng)對(duì)此種情況,許多網(wǎng)站采取了一些措施來攔截網(wǎng)絡(luò)爬蟲的爬取。本文在分析網(wǎng)絡(luò)爬蟲原理的基礎(chǔ)上,針對(duì)“反爬”網(wǎng)站提出了一些有效的爬取策略。
1網(wǎng)絡(luò)爬蟲概述
網(wǎng)絡(luò)爬蟲是抓取網(wǎng)頁信息的一種程序,它可用來檢查一系列站點(diǎn)的有效性,當(dāng)按照需求抓取并保存數(shù)據(jù)時(shí),是搜索引擎的重要組成部分。它還可以定向采集某些網(wǎng)站下的特定信息,比如招聘、二手買賣等信息。
網(wǎng)絡(luò)上的網(wǎng)頁許多都由超鏈接連接,故形成了一張網(wǎng),網(wǎng)絡(luò)爬蟲因此也叫做網(wǎng)絡(luò)蜘蛛,順著網(wǎng)爬,每到一個(gè)網(wǎng)頁就抓取信息并抽取新的超鏈接,用于進(jìn)一步爬行的線索。網(wǎng)絡(luò)爬蟲爬行的起點(diǎn)叫做種子,可以自己設(shè)定也可以從某些系列網(wǎng)站獲取。
1.1網(wǎng)絡(luò)爬蟲的組成
網(wǎng)絡(luò)爬蟲主要由控制器、解析器和資源庫三部分組成??刂破魇蔷W(wǎng)絡(luò)爬蟲的控制中心,它負(fù)責(zé)分配線程并調(diào)用爬蟲為其分配爬取任務(wù);解析器是網(wǎng)絡(luò)爬蟲的核心,它的主要工作是下載網(wǎng)頁并對(duì)網(wǎng)頁中的信息進(jìn)行處理,例如刪除一些JS腳本、HTML標(biāo)簽和空格字符等,抽取特殊HTML標(biāo)簽的功能,分析數(shù)據(jù)功能;資源庫是用于保存下載的網(wǎng)頁資源,并提供生成索引的目標(biāo)源。一般采用中大型的數(shù)據(jù)庫存儲(chǔ),如Oracle、Sql Server等。
1.2網(wǎng)絡(luò)爬蟲的工作原理
網(wǎng)絡(luò)爬蟲的基本工作流程如下:
1)選取初始種子URL集合;
2)將URL集合放入待抓取URL隊(duì)列;
3)從待抓取URL隊(duì)列中取出待抓取URL,解析DNS,得到主機(jī)IP,將URL對(duì)應(yīng)網(wǎng)頁下載并存儲(chǔ)至網(wǎng)頁資源庫。結(jié)束后將這些URL放入已抓取URL隊(duì)列。
4)從已抓取URL隊(duì)列中的URL分析出新的滿足需求的URL,放入待抓取URL隊(duì)列。
5)循環(huán)第3步,直至滿足停止條件。
傳統(tǒng)網(wǎng)絡(luò)爬蟲框架如圖1所示。
1.3網(wǎng)絡(luò)爬蟲的搜索策略
網(wǎng)絡(luò)爬蟲在運(yùn)行過程中,待抓取URL隊(duì)列是很重要的一部分。待抓取URL隊(duì)列中的URL如何排序也是一個(gè)值得研究的問題,因?yàn)檫@涉及先抓取那個(gè)頁面,后抓取哪個(gè)頁面。而排列URL順序的方法,叫做抓取策略。常見的網(wǎng)絡(luò)爬蟲策略有:
1)廣度優(yōu)先搜索策略。在抓取過程中,由根節(jié)點(diǎn)開始,完成當(dāng)前層次的搜索后才跳到下一層次的搜索。該策略實(shí)現(xiàn)較為簡單,其基本思想是認(rèn)為與初始URL在一定鏈接距離內(nèi)的網(wǎng)頁具有主題相關(guān)性的概率很大。
2)深度優(yōu)先搜索策略。這種策略的主要思想是網(wǎng)絡(luò)爬蟲從起始頁開始,一個(gè)鏈接一個(gè)鏈接跟蹤下去,處理完這條線路之后再轉(zhuǎn)入下一個(gè)起始頁,繼續(xù)跟蹤鏈接。
3)最佳優(yōu)先搜索策略。該策略通過計(jì)算 URL 描述文本與目標(biāo)網(wǎng)頁的相似度,或者與主題的相關(guān)性,根據(jù)所設(shè)定的閾值選出有效 URL 進(jìn)行抓取。
4)反向鏈接數(shù)策略,反向鏈接數(shù)是指一個(gè)網(wǎng)頁被其他網(wǎng)頁鏈接指向的數(shù)量。反向鏈接數(shù)表示的是一個(gè)網(wǎng)頁的內(nèi)容受到其他人的推薦的程度。因此,很多時(shí)候搜索引擎的抓取系統(tǒng)會(huì)使用這個(gè)指標(biāo)來評(píng)價(jià)網(wǎng)頁的重要程度,從而決定不同網(wǎng)頁的抓取先后順序。
2如何應(yīng)對(duì)站點(diǎn)反爬蟲機(jī)制
網(wǎng)絡(luò)爬蟲會(huì)對(duì)目標(biāo)站點(diǎn)發(fā)送大量請(qǐng)求,而這樣的爬蟲機(jī)制會(huì)消耗不少網(wǎng)站資源,這對(duì)于中小型網(wǎng)站的負(fù)載是 巨大的,甚至因此而崩潰,故不少網(wǎng)站都采取了反爬蟲的機(jī)制。例如:通過識(shí)別爬蟲的User-Agent信息來拒絕爬蟲,通過Filter過濾網(wǎng)絡(luò)爬蟲,通過網(wǎng)站流量統(tǒng)計(jì)系統(tǒng)和日志分析來識(shí)別爬蟲,利用網(wǎng)站的實(shí)時(shí)反爬蟲防火墻實(shí)現(xiàn)策略。為了不被站點(diǎn)判斷為爬蟲而被拒絕訪問請(qǐng)求,此處提供兩種方法來維持爬蟲的正常運(yùn)轉(zhuǎn)。
2.1降低訪問請(qǐng)求頻率
降低訪問請(qǐng)求頻率,在一定程度上是,模仿真人瀏覽頁面的動(dòng)作,故而不會(huì)輕易被網(wǎng)站所封殺,拒絕訪問。實(shí)現(xiàn)的方法為在訪問URL的程序中,將訪問請(qǐng)求的線程休眠一段時(shí)間。
具體代碼如下:
try { Thread.currentThread().sleep(4000);
} catch (InterruptedException e) {
e.printStackTrace();
}
Sleep的休眠時(shí)間按照需求而定,以毫秒(ms)為單位。這種策略的優(yōu)點(diǎn)是減少了目標(biāo)站點(diǎn)單位時(shí)間內(nèi)的負(fù)載,而缺點(diǎn)則為爬蟲爬取效率的降低。
2.2設(shè)置服務(wù)器
設(shè)置服務(wù)器,較之前一種方法來說則以爬蟲的效率為首要要求,實(shí)質(zhì)就是某些網(wǎng)站的反爬蟲機(jī)制會(huì)封殺爬蟲請(qǐng)求頻率過高的主機(jī)的IP,為了解決這一問題,使用服務(wù)器,更換IP以及端口,解除站點(diǎn)對(duì)訪問頻率高的主機(jī)訪問的限制。
有兩種調(diào)用的方法,具體代碼如下:
方法一:
Jsoup.connect("http:///cityjson").proxy(Proxy.Type.HTTP, "61.158.237.35", 3128).get();
方法二:
System.setProperty("proxySet", "true"); System.setProperty("http.proxyHost", "61.158.237.35"); System.setProperty("http.proxyPort", "3128");
Document a = Jsoup.connect("http:///cityjson").get();
System.out.println(a);
其中的IP與端口為 61.158.237.35:3128。
前后的效果如圖2,3所示。
優(yōu)點(diǎn):保證爬蟲執(zhí)行不被站點(diǎn)封殺。只要有足夠IP可滿足爬取條件。
缺點(diǎn):單位時(shí)間內(nèi)消耗資源過多,給站點(diǎn)帶來較大的負(fù)載。延遲加大,失敗率提高。
2.3偽裝用戶
用戶User-agent是HTTP協(xié)議中的一個(gè)字段,作用是描述發(fā)出HTTP請(qǐng)求終端的一些信息。通俗來說,就是判斷訪問網(wǎng)站對(duì)象的類別,每個(gè)瀏覽器和正規(guī)的爬蟲都有固定的user-agent,因此只要將這個(gè)字段改成知名的user-agent就可以成功偽裝了。對(duì)于偽裝瀏覽器user-agent或知名爬蟲user-agent,更推薦偽裝瀏覽器,因?yàn)闉g覽器使用者可以是任何人,沒有固定的IP,而知名爬蟲user-agent一般都有固定IP。下面給出若干個(gè)瀏覽器的user-agent,每次發(fā)送請(qǐng)求時(shí)可隨機(jī)選取一個(gè)。
Mozilla/4.0( compatible ;MSIE 8.0;Windows NT 6.0)
Mozilla/4.0( compatible ;MSIE 7.0;Windows NT 5.2)
Mozilla/4.0( compatible ;MSIE 6.0;Windows NT 5.1)
設(shè)置代碼如下:
HttpGet getMethod = new HttpGet(“URl”);
getMethod.setHeader(“User-Agent”,”user agent內(nèi)容”);
2.4 自動(dòng)登錄
有些網(wǎng)站一檢測到某IP的訪問量異常,就會(huì)馬上提出要登錄的要求。針對(duì)這種“反爬”策略,在登錄前需要做一些準(zhǔn)備,查清楚POST登錄請(qǐng)求時(shí)要附帶的參數(shù),建議先用badboy錄制登錄過程,然后將這一過程導(dǎo)出為jmeter文件,最后用jmeter查看登錄所需的參數(shù)。
3結(jié)束語
總之,為了防止爬蟲被封,原則就是偽裝成正常的用戶,只要按照這個(gè)原則總有方法可循。不過若是能熟知一些反爬蟲的原理,然后有針對(duì)地進(jìn)行拆招應(yīng)該還是十分有效的。
傳統(tǒng)網(wǎng)絡(luò)爬蟲應(yīng)用于抓取靜態(tài)Web網(wǎng)頁的信息,而AJAX/Web2.0的流行使得如何抓取動(dòng)態(tài)頁面信息成為目前網(wǎng)絡(luò)爬蟲的瓶頸。另外,網(wǎng)絡(luò)爬蟲的效率與網(wǎng)站穩(wěn)定安全還未能完全達(dá)到兩者兼得的狀態(tài)。對(duì)于搜索引擎,它抓取的消耗較大,因此爬蟲的效率、特性和抓取的質(zhì)量就顯得更為重要。在未來的大數(shù)據(jù)時(shí)代,網(wǎng)絡(luò)爬蟲技術(shù)地位更為重要,和人工智能技術(shù)相結(jié)合將是熱門的課題。
參考文獻(xiàn):
[1] 郭小丹.幾種開源網(wǎng)絡(luò)爬蟲功能比較[J].黑龍江科技信息,2015(25).
[2] 林雄強(qiáng).網(wǎng)絡(luò)爬蟲[J].中國科技博覽,2014(24).
[3] 趙全軍,成功,李小正,等.一種改進(jìn)的網(wǎng)絡(luò)爬蟲搜索策略[J].中國科技信息,2014(14).
[4] 劉慶杰,孫旭光,王小英.通過Filter抵御網(wǎng)頁爬蟲[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2010(1).
[5] 吳曉暉,紀(jì)星.Web爬蟲檢測技術(shù)綜述[J].湖北汽車工業(yè)學(xué)院學(xué)報(bào),2012(1).
篇2
>> 基于垂直搜索引擎的主題爬蟲技術(shù) Heritrix在垂直搜索引擎中的應(yīng)用 用開源軟件建垂直搜索引擎 垂直搜索引擎爬蟲系統(tǒng)DIPRE算法及改進(jìn) 應(yīng)用已有的開源搜索引擎 垂直搜索引擎應(yīng)用研究 淺談垂直搜索引擎技術(shù)的應(yīng)用 淺析垂直搜索引擎的應(yīng)用 網(wǎng)絡(luò)化制造資源垂直搜索引擎的研究與應(yīng)用 搜索引擎也開源 主題搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略研究 垂直搜索引擎異軍突起 垂直搜索引擎在旅游企業(yè)中應(yīng)用的探索 用戶興趣模型在垂直搜索引擎檢索模塊中的應(yīng)用 垂直搜索引擎在金融信息技術(shù)分析中的應(yīng)用 基于C#的網(wǎng)絡(luò)爬蟲搜索引擎的設(shè)計(jì) 主題搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)研究 基于神經(jīng)網(wǎng)絡(luò)的搜索引擎應(yīng)用 垂直搜索:搜索引擎的激情所在 基于垂直搜索技術(shù)的搜索引擎 常見問題解答 當(dāng)前所在位置:(|l)$,這樣就把服務(wù)器域名下的網(wǎng)頁所有信息全部抓取下來。但是,考慮垂直搜索引擎的使用范圍和聚焦爬蟲對(duì)網(wǎng)頁主題的過濾功能,需要設(shè)計(jì)與實(shí)際主題搜索應(yīng)用相匹配的專用解析器,專用解析器extract(CrawlURL)要實(shí)現(xiàn)以下功能:
(1)對(duì)所有不含有要抓取的結(jié)構(gòu)化信息頁面的 URL、又不含有可以集中提取前者 URL 的種子型 URL,都不作處理。
(2)從可以集中提取含結(jié)構(gòu)化信息頁面 URL 的種子型 URL(如地方新聞目錄 URL),提取全部的含結(jié)構(gòu)化信息頁面的 URL(如地方信息列表 URL)。
(3)從含結(jié)構(gòu)化信息頁面的 URL 提取所需的結(jié)構(gòu)化信息,并加以記錄。
3.2.2 擴(kuò)展 Frontierscheduler模塊
FrontierScheduler 是一個(gè) PostProcessor,其作用是將 Extractor所分析得出的鏈接加入到 Frontier 中,以待繼續(xù)處理,聚焦爬蟲實(shí)現(xiàn)關(guān)鍵詞對(duì)主題的判斷算法就在該模塊中構(gòu)建并執(zhí)行。主題相關(guān)度判斷的關(guān)鍵代碼如下:
public void GetCount(String path,CandidateURI caUri)
{//判斷待抓取網(wǎng)頁與主題是否相關(guān)
try {
String s=sb.getStrings();//s 取網(wǎng)頁正文字符
Len=length(s);//求網(wǎng)頁字符數(shù)
float d=0;//初始化 d,用于計(jì)算所有導(dǎo)向詞的權(quán)重和
for(int i=0;i
{count=0,int j=1;//count為導(dǎo)向詞出現(xiàn)次數(shù),j 為導(dǎo)向詞在字符串的位置
t= length(a[i]);//求第 i 個(gè)導(dǎo)向詞的字符個(gè)數(shù)
While(j
int index=s.indexOf(a[i],j,len);//查找字串在 j+1 到 end 之間第一個(gè)字符首次出現(xiàn)的位置
if(index!=-1)//找到后,繼續(xù)在余下的字符串中找
{count++;
j=index+t+1;}
Else
Break;
}
D(i)=count*b(i);//D(i)是第 i 個(gè)導(dǎo)向詞的權(quán)重,b(i)表示 i 個(gè)導(dǎo)向詞的權(quán)值。
d=d+ D(i);//將所有導(dǎo)向詞的權(quán)重求和
}
k=1/len * 1/100 * d;//k 是網(wǎng)頁主題相關(guān)度,len是文章字符數(shù),100個(gè)導(dǎo)向詞
if(k>0.6) ; //相關(guān)度判斷
{System.out.println("count:"+count);//表示輸出
getController().getFrontier().schedule(caUri); //當(dāng)前 url 加入 heritix 采集隊(duì)列 }
}
3.3 Heritrix聚焦爬蟲接口的設(shè)計(jì)
Heritrix 網(wǎng)絡(luò)爬蟲是一個(gè)通用的網(wǎng)頁采集工具,需要對(duì)Heritrix 抓取和分析網(wǎng)頁的行為進(jìn)行一定的控制,修改Extractor和 Frontierscheduler模塊后,需要對(duì)其各個(gè)功能接口進(jìn)行操作調(diào)試,由此保證聚焦爬蟲功能的全面實(shí)現(xiàn)。下面即對(duì)重要功能接口進(jìn)行必要介紹。
(1)應(yīng)用接口
在設(shè)計(jì)聚焦爬蟲時(shí),應(yīng)定制一個(gè)應(yīng)用接口模塊以供用戶使用,具體將負(fù)責(zé)與Heritrix 軟件關(guān)聯(lián),以提供啟、停爬蟲、獲取網(wǎng)址、采集關(guān)鍵詞等功能實(shí)現(xiàn)。
(2)數(shù)據(jù)庫查詢和修改接口
在設(shè)計(jì)聚焦爬蟲時(shí),應(yīng)設(shè)計(jì)相應(yīng)的數(shù)據(jù)庫接口,負(fù)責(zé)下載并發(fā)現(xiàn)與主題相關(guān)的網(wǎng)頁信息、再保存到數(shù)據(jù)庫的表中。存儲(chǔ)的字段包括:網(wǎng)頁URL,本地存儲(chǔ)相對(duì)路徑,下載時(shí)間,HTTP頭中抽取的網(wǎng)頁編碼,關(guān)鍵詞id等。
(3)去重接口
因?yàn)镠eritrix對(duì)相同的URL不進(jìn)行替換,爬蟲工作時(shí)會(huì)下載大量重復(fù)的網(wǎng)頁,為了節(jié)省空間、并獲取準(zhǔn)確的采集結(jié)果,就必須按照設(shè)定規(guī)則對(duì)重復(fù)下載的網(wǎng)頁進(jìn)行刪除。
4 結(jié)束語
通過以上對(duì)開源Heritrix軟件的改進(jìn),聚焦爬蟲已能根據(jù)預(yù)設(shè)的關(guān)鍵詞進(jìn)行網(wǎng)站抓取,并按照算法判斷,當(dāng)網(wǎng)頁的主題相關(guān)度閾值大于0.6時(shí),即聚焦爬蟲下載網(wǎng)頁,至此爬蟲實(shí)現(xiàn)了指定網(wǎng)站的主題搜索。綜上可見,可以改進(jìn)開源網(wǎng)絡(luò)爬蟲并使其在垂直搜索引擎中獲得成功立項(xiàng)使用。
參考文獻(xiàn):
[1]劉運(yùn)強(qiáng). 垂直搜索引擎的研究與設(shè)計(jì)[J]. 計(jì)算機(jī)應(yīng)用與軟件,2010, 127(7): 130-132.
[2]劉偉光. 一種基于改進(jìn)向量空間模型的藏文主題網(wǎng)頁采集方法[J]. 圖書館學(xué)研究,2014, 16:55-62.
[3]陳歡. 面向垂直搜索引擎的聚焦網(wǎng)絡(luò)爬蟲關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D]. 華中師范大學(xué), 2014.
[4] 焦賽美. 網(wǎng)絡(luò)爬蟲技術(shù)的研究[J]. 瓊州學(xué)院學(xué)報(bào), 2010, 18(5): 28-30.
篇3
【關(guān)鍵詞】競爭情報(bào);網(wǎng)絡(luò)零售;主題爬蟲;在線商品;輔助決策
根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心的研究數(shù)據(jù),2010年網(wǎng)絡(luò)零售市場上用戶比例(存在重復(fù)選項(xiàng))第一的是服裝鞋帽,為70.1%;第二的是電腦數(shù)碼產(chǎn)品,為31.6%;第三的是圖書音像制品,為31.4%。當(dāng)前,網(wǎng)絡(luò)零售商家收集競爭情報(bào)的途徑主要為手工使用各種搜索引擎(如百度),或購買網(wǎng)絡(luò)零售平臺(tái)提供的分析工具(如淘寶的“數(shù)據(jù)魔方”)。手工使用搜索引擎效率較低,分析工具對(duì)大部分零售商家來說價(jià)格較貴,且只能獲取單個(gè)平臺(tái)的銷售數(shù)據(jù)。主題爬蟲是一個(gè)能自動(dòng)從網(wǎng)頁中提取指定相關(guān)內(nèi)容的程序,它從一個(gè)或若干初始URL開始,不斷獲取當(dāng)前頁面上的新URL,循環(huán)深入進(jìn)行相關(guān)內(nèi)容抽取,直到達(dá)到停止條件。當(dāng)前有很多免費(fèi)的爬蟲程序,例如Java開源的Heritrix。針對(duì)網(wǎng)絡(luò)零售業(yè),完全可以通過借助這些比較成熟的爬蟲程序,為商家量身定制競爭情報(bào)系統(tǒng)。
一、系統(tǒng)的基本構(gòu)成
系統(tǒng)分為兩大部分,第一部分為接受商家指定主題和范圍,然后在基本資料庫中抽取關(guān)鍵詞(含URL)推薦。基本資料庫由系統(tǒng)在空閑時(shí)利用主題爬蟲檢索并智能生成,盡量涵蓋常用網(wǎng)絡(luò)零售領(lǐng)域和商品種類,可以增加檢索準(zhǔn)確度和提高效率。第二部分為商家確定關(guān)鍵詞后,由系統(tǒng)利用主題爬蟲深入全面地檢索競爭情報(bào),并將結(jié)果匯總為按時(shí)間排序的詞條呈現(xiàn)。結(jié)果的呈現(xiàn)可以分為商家隨時(shí)查看,以及定時(shí)自動(dòng)匯總兩種模式。商家還可以隨時(shí)在基本資料庫中進(jìn)行關(guān)鍵詞調(diào)整或者手工加入新的關(guān)鍵詞,以改進(jìn)情報(bào)搜集效果。系統(tǒng)整體結(jié)構(gòu)如圖1所示。
圖1 系統(tǒng)的功能結(jié)構(gòu)圖
二、系統(tǒng)的主要功能實(shí)現(xiàn)
1.主題爬蟲的整合。以現(xiàn)有的Heritrix作為抽取指定URL內(nèi)容的工具,抽取出來的內(nèi)容則需進(jìn)行主題分析、過濾,相關(guān)度足夠高的內(nèi)容中包含的URL才能放入隊(duì)列,等待下一步抽取。(1)主題的表示。主題可以概括為關(guān)鍵詞(不含URL)的向量組合。設(shè)主題共有n個(gè)關(guān)鍵詞,則主題的關(guān)鍵詞集合表示為T={t1,t2,...,tn},ti為主題的第i個(gè)關(guān)鍵詞。設(shè)ti的權(quán)重為wi(ti的重要性),則主題向量α表示為:ω=(w1,w2,...,wn), wi=1。(2)相關(guān)性的概念。URL中內(nèi)容與主題的相關(guān)性,可以利用主題的向量表示來衡量。設(shè)關(guān)鍵詞ti在內(nèi)容中出現(xiàn)的次數(shù)為ci,則整個(gè)URL與主題的相關(guān)性γ可表示為:γ=wici,ci=0,1,2...??梢愿鶕?jù)已知的確定相關(guān)的若干URL計(jì)算出γ的平均值作為閾值M,γ值超過M的URL認(rèn)為相關(guān),小于的則過濾掉。主題相關(guān)性γ可用來確定主題爬蟲每層抽取URL的廣度。主題爬蟲每次利用Heritrix抽取URL內(nèi)容的深度固定為1,通過循環(huán)調(diào)用Heritrix來逐層深入。當(dāng)某層次所有URL中與主題相關(guān)的比例低于某個(gè)值(比如50%)時(shí),結(jié)束抽取。主題爬蟲的抽取深度也可以由每層URL的主題相關(guān)性γ來綜合決定。
2.基本資料庫的創(chuàng)建?;举Y料庫是為了提高情報(bào)搜集效率,也是為了提升系統(tǒng)智能化水平而特意創(chuàng)建的一個(gè)關(guān)鍵詞庫,也包含URL在內(nèi)。因?yàn)橐粋€(gè)情報(bào)主題所含關(guān)鍵詞很難完整而準(zhǔn)確地被描述,系統(tǒng)會(huì)先利用主題爬蟲收集商家提交的主題關(guān)鍵詞在常用搜索引擎(如谷歌、百度)和零售平臺(tái)(如淘寶)中的檢索結(jié)果,統(tǒng)計(jì)其中的關(guān)鍵詞和URL,將其中相關(guān)性高的放入基本資料庫中,充實(shí)主題內(nèi)涵。
以“手機(jī)”情報(bào)主題為例:將其百度檢索結(jié)果URL“.2011(6)
[2]鐘原勝.淘寶的“魔方”[J].互聯(lián)網(wǎng)天地.2010(5):72~73
[3]王芳,陳海建.深入解析Web主題爬蟲的關(guān)鍵性原理[J].微型電腦應(yīng)用.2011(7):76~78
篇4
關(guān)鍵詞:網(wǎng)絡(luò)爬蟲;網(wǎng)絡(luò)并行處理;搜索策略;網(wǎng)頁結(jié)構(gòu)挖掘
中圖分類號(hào):TP393.08文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1007-9599 (2012) 03-0000-02
Web Access and Improvement Study on Detection System of the Web Chat Rooms
Sun Qun1,2,Qi Zhengdong3
(1. Hubei University of Technology,Wuhan430068,China;2.Jiangxi College of Construction,Nanchang330200,China;3.China Nerin Engineering Co.,Ltd.,Nanchang330031,China)
Abstract:Web chat with its low-cost,high-efficiency advantages of online real-time communication capabilities,thus becoming the most widely used Internet network services to network users.Detection of Internet chat rooms as a carrier-depth study of Web access to technical problems and the pretreatment.Of the principles and workflow of the web crawler,Web crawler in the introduction of network parallel multi-threading technology.Discuss the technical features of the WebLech and implementation technology,improvements made WebLech.
Keywords:Web crawler;Network parallel processing;Search strategy;Web structure mining
通過Google、Baidu等通用的搜索引擎或大型的網(wǎng)站資源在互聯(lián)網(wǎng)上手工檢索已不能滿足目前部分網(wǎng)絡(luò)應(yīng)用的要求。本文以網(wǎng)絡(luò)聊天室探測系統(tǒng)為研究載體,突出深入討論網(wǎng)絡(luò)專門搜索功能的優(yōu)化。網(wǎng)頁獲取和預(yù)處理模塊是其技術(shù)核心,如何合理設(shè)計(jì)或優(yōu)化一種有效的網(wǎng)頁獲取程序顯得尤其重要。主要針對(duì)網(wǎng)絡(luò)爬蟲的工作原理,引入并行多線程處理技術(shù),解決網(wǎng)絡(luò)爬蟲器運(yùn)行速度和準(zhǔn)確性問題,最后提出可行的優(yōu)化WebLech網(wǎng)絡(luò)爬蟲程序的方案應(yīng)用于聊天室探測系統(tǒng)。
一、網(wǎng)絡(luò)爬蟲信息抓取分析
(一)網(wǎng)絡(luò)爬蟲的概念
網(wǎng)絡(luò)爬蟲是一個(gè)自動(dòng)提取網(wǎng)頁的程序,它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。傳統(tǒng)爬蟲從一個(gè)或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件。網(wǎng)絡(luò)爬蟲的工作流程較為復(fù)雜,需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊(duì)列。然后,它將根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁URL,并重復(fù)上述過程,直到達(dá)到系統(tǒng)的某一條件時(shí)停止。
(二)網(wǎng)絡(luò)爬蟲的工作原理和流程
網(wǎng)絡(luò)爬蟲是頁面中最關(guān)鍵的部分,它的性能好壞直接影響著頁面搜索的性能和處理速度。網(wǎng)絡(luò)爬蟲一般都維護(hù)者一個(gè)URL隊(duì)列,利用該數(shù)據(jù)結(jié)構(gòu)來存儲(chǔ)已經(jīng)發(fā)現(xiàn)并待訪問和抓取的URL。URL的遍歷方式一般有:廣度優(yōu)先、深度優(yōu)先、隨機(jī)訪問等。網(wǎng)絡(luò)爬蟲的功能結(jié)構(gòu)見圖1。
圖1 網(wǎng)絡(luò)爬蟲的功能結(jié)構(gòu)圖
網(wǎng)絡(luò)爬蟲的各個(gè)模塊的主要功能介紹如下:
(1)下載模塊:該模塊是爬蟲與Internet的接口,作用是通過web協(xié)議對(duì)網(wǎng)頁的數(shù)據(jù)進(jìn)行采集,將采集到的頁面遞給后續(xù)模塊處理。
(2)頁面解析模塊:該模塊的主要功能是將下載模塊采集下來的頁面進(jìn)行解析,解析成html的統(tǒng)一代碼,提取其中具有超鏈接錨標(biāo)記的超鏈接地址,加入到超鏈接隊(duì)列中。將獲取的代碼轉(zhuǎn)化成統(tǒng)一的格式。
(3)鏈接過濾模塊:該模塊主要是針對(duì)重復(fù)鏈接和循環(huán)鏈接的篩選與過濾。
(4)URL數(shù)據(jù)庫:用來儲(chǔ)存經(jīng)過過濾的URL地址,以標(biāo)準(zhǔn)的數(shù)據(jù)結(jié)構(gòu)進(jìn)行存儲(chǔ),為下一個(gè)環(huán)節(jié)的URL隊(duì)列提供數(shù)據(jù)。
(5)URL隊(duì)列:用來存放由URL數(shù)據(jù)庫傳遞的URL地址,當(dāng)URL為空時(shí)爬蟲程序終止。
(6)Web數(shù)據(jù)庫:將所有爬蟲抓取的網(wǎng)頁中與搜索特征相關(guān)的頁面進(jìn)行本地存儲(chǔ)。
二、頁面采集的并行處理
(一)并行處理概念的引入
計(jì)算必須在“合理”的時(shí)間內(nèi)完成就需要高計(jì)算速度的領(lǐng)域包括科學(xué)和工程問題的數(shù)學(xué)建模和模擬。用當(dāng)今計(jì)算機(jī)在合理的時(shí)間內(nèi)完成求解的那些問題。在存儲(chǔ)海量信息的環(huán)境必然存在時(shí)刻的更新和添加刪除等操作,任何用戶是無法忍受耗費(fèi)大量時(shí)間與資源最后得到?jīng)]有價(jià)值或錯(cuò)誤的輸出結(jié)果。因此,該聊天室探測系統(tǒng)需要高效的頁面抓取模塊,以保證網(wǎng)頁庫的更新,鏈接的有效性以及輸出結(jié)果準(zhǔn)確性。
(二)并行處理技術(shù)在網(wǎng)絡(luò)爬蟲器中的應(yīng)用
為了提高網(wǎng)絡(luò)爬蟲的運(yùn)行效率,并行爬行器一般包含多個(gè)爬蟲,每個(gè)爬蟲需要完成的任務(wù)和單個(gè)的爬行器類似,它們從互聯(lián)網(wǎng)上下載網(wǎng)頁,并把網(wǎng)頁保存在本地的磁盤,從中抽取URL并沿著這些URL的指向繼續(xù)爬行。由于并行爬行器需要分割下載任務(wù),可能爬蟲會(huì)將自己抽取的URL發(fā)送給其他爬蟲。這些爬蟲可能分布在同一個(gè)局域網(wǎng)之中,或者分散在不同的地理位置。圖2描述了并行爬行器的一般架構(gòu)。
圖2 并行爬行器的一般架構(gòu)
三、WebLech網(wǎng)絡(luò)爬蟲的改進(jìn)
WebLech是一款很優(yōu)秀的多線程網(wǎng)絡(luò)爬蟲程序,但如果直接做為搜索引擎的網(wǎng)絡(luò)爬蟲程序,還存在著不足,針對(duì)二個(gè)方面,做以下改進(jìn):
(一)擴(kuò)充起始地址
WebLech運(yùn)行時(shí),從配置文件里獲取定義的地址(startLocation)作為起始地址,并且僅能設(shè)置一個(gè)起始地址。如果Web服務(wù)器不設(shè)置啟動(dòng)網(wǎng)頁時(shí),WebLech可能抓取不到服務(wù)器中的任何網(wǎng)頁。因此將起始地址和一些系統(tǒng)默認(rèn)的啟動(dòng)文檔組合后作為擴(kuò)充后的起始地址,以增大搜索的范圍。
把啟動(dòng)文件名連接在startLocation設(shè)置的IP后形成的新地址作為WebLech運(yùn)行時(shí)的startLocation。遍歷ipset地址集中的每個(gè)地址,把擴(kuò)充后的每個(gè)ipaddress寫入屬性類對(duì)象props,然后執(zhí)行隨后的原程序至結(jié)束即可。
最后修改配置文件config/spider.properties里startLocation屬性為ipaddress,代碼如下:
props.setProperty("startLocation",ipaddress)
圖3為WebLech的配置文件WebLech.config.spider。
圖3 WebLech的配置文件
(二)修改鏈接
WebLech是依靠網(wǎng)頁文件中的超鏈接工作的。超鏈接可分為圖像超鏈接和文字超鏈接。圖像超鏈包括背景圖像的鏈接和鏈入圖像,文字超鏈接包括鏈入文字、多窗口頁面、浮動(dòng)窗口和表單。為完善鏈接的處理,在類WebLech.spider.HTMLParser的函數(shù)List parseAsHTML(URL sourceURL,String textContent)的第4行之后增加浮動(dòng)窗口和表單鏈接。
例如:extractAttributesFromTags("iframe","src",sourceURL,newURLs,newURLSet,textContent);
基于內(nèi)容的搜索引擎不需要搜索圖像,可刪除與圖像匹配有關(guān)的代碼。
參考文獻(xiàn):
[1]劉強(qiáng)國.主題搜索引擎設(shè)計(jì)與研究[D].成都電子科技大學(xué),2007
篇5
【關(guān)鍵詞】 聚焦爬蟲 移動(dòng)互聯(lián)網(wǎng)
一、引言
聚焦爬蟲(又稱為網(wǎng)頁蜘蛛、網(wǎng)絡(luò)機(jī)器人)是一種按照一定的規(guī)則、自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳本。隨著網(wǎng)絡(luò)的迅速發(fā)展,萬維網(wǎng)成為大量信息的載體,如何有效地提取并利用這些信息成為一個(gè)巨大的挑戰(zhàn)。搜索引擎(Search Engine),作為一個(gè)輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指南。但是,這些通用性搜索引擎也存在著一定的局限性,如:(1) 不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁。(2) 通用搜索引擎的目標(biāo)是盡可能大的網(wǎng)絡(luò)覆蓋率,有限的搜索引擎服務(wù)器資源與無限的網(wǎng)絡(luò)數(shù)據(jù)資源之間的矛盾將進(jìn)一步加深。(3) 萬維網(wǎng)數(shù)據(jù)形式的豐富和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,圖片、數(shù)據(jù)庫、音頻、視頻多媒體等不同數(shù)據(jù)大量出現(xiàn),通用搜索引擎往往對(duì)這些信息含量密集且具有一定結(jié)構(gòu)的數(shù)據(jù)無能為力,不能很好地發(fā)現(xiàn)和獲取。(4) 通用搜索引擎大多提供基于關(guān)鍵字的檢索,難以支持根據(jù)語義信息提出的查詢。
為了解決上述問題,定向抓取相關(guān)網(wǎng)頁資源的聚焦爬蟲應(yīng)運(yùn)而生。聚焦爬蟲是一個(gè)自動(dòng)下載網(wǎng)頁的程序,它根據(jù)既定的抓取目標(biāo),有選擇的訪問萬維網(wǎng)上的網(wǎng)頁與相關(guān)的鏈接,獲取所需要的信息。與通用爬蟲(general purpose web crawler)不同,聚焦爬蟲并不追求大的覆蓋,而將目標(biāo)定為抓取與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁,為面向主題的用戶查詢準(zhǔn)備數(shù)據(jù)資源。CollegeNews系統(tǒng)是一套包含高校教育類新聞獲取、相應(yīng)數(shù)據(jù)庫建立以及移動(dòng)端軟件應(yīng)用的系統(tǒng)。在整套系統(tǒng)中,如何獲取與主題相關(guān)的新聞網(wǎng)頁數(shù)據(jù)是至關(guān)重要的一個(gè)部分,該部分由聚焦爬蟲程序予以實(shí)現(xiàn)。
二、 聚焦爬蟲簡介
網(wǎng)絡(luò)爬蟲是一個(gè)自動(dòng)提取網(wǎng)頁的程序,它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。傳統(tǒng)爬蟲從一個(gè)或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件。聚焦爬蟲的工作流程較為復(fù)雜,需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊(duì)列。然后,它將根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁URL,并重復(fù)上述過程,直到達(dá)到系統(tǒng)的某一條件時(shí)停止。另外,所有被爬蟲抓取的網(wǎng)頁將會(huì)被系統(tǒng)存貯,進(jìn)行一定的分析、過濾,并建立索引,以便之后的查詢和檢索;對(duì)于聚焦爬蟲來說,這一過程所得到的分析結(jié)果還可能對(duì)以后的抓取過程給出反饋和指導(dǎo)。
相對(duì)于通用網(wǎng)絡(luò)爬蟲,聚焦爬蟲還需要解決三個(gè)主要問題:(1) 對(duì)抓取目標(biāo)的描述或定義;(2) 對(duì)網(wǎng)頁或數(shù)據(jù)的分析與過濾;(3) 對(duì)URL的搜索策略。
抓取目標(biāo)的描述和定義是決定網(wǎng)頁分析算法與URL搜索策略如何制訂的基礎(chǔ)。而網(wǎng)頁分析算法和候選URL排序算法是決定搜索引擎所提供的服務(wù)形式和爬蟲網(wǎng)頁抓取行為的關(guān)鍵所在。這兩個(gè)部分的算法又是緊密相關(guān)的。
三、聚焦爬蟲在獲取高校教育新聞中的應(yīng)用
在CollegeNews系統(tǒng)中,所有的數(shù)據(jù)來源均為高校教育類新聞,因此聚焦爬蟲的功能即為從互聯(lián)網(wǎng)上獲取與高校相關(guān)的新聞,并將相關(guān)內(nèi)容存入系統(tǒng)的數(shù)據(jù)庫中。用戶在使用高校新聞應(yīng)用時(shí),客戶端向系統(tǒng)的服務(wù)器發(fā)送相關(guān)的請(qǐng)求,系統(tǒng)服務(wù)器返回所請(qǐng)求新聞的URL,由客戶端對(duì)相應(yīng)的URL進(jìn)行解析,從而獲取相關(guān)的新聞資訊。通過使用聚焦爬蟲獲取高校新聞的原始數(shù)據(jù),可以避免傳統(tǒng)爬蟲爬取網(wǎng)頁所帶來的獲取內(nèi)容不符合所需主題、獲取到的無用處的內(nèi)容量過大的問題,對(duì)于處理能力較弱的系統(tǒng)來說很有益處。
3.1 需要解決的問題
若想讓聚焦爬蟲完成其功能,首先需要確定合適的種子URL集合,爬蟲自種子URL開始按照一定的搜索策略進(jìn)行網(wǎng)頁爬取,在網(wǎng)頁爬取的過程中,需要提前確定待爬取頁面與所需主題的相關(guān)程度與重要性,依據(jù)相關(guān)度和重要性決定是否爬取該網(wǎng)頁。最后,還需要解決數(shù)據(jù)的更新周期問題,保證數(shù)據(jù)源的新鮮程度。在解決了上述問題之后,用戶即可獲取合適的新聞數(shù)據(jù)。
3.2 確定合適的種子URL集合
在聚焦爬蟲的算法設(shè)計(jì)中,種子URL集合的選取是十分重要的一環(huán)。如果選取的種子URL集合不合適,可能會(huì)導(dǎo)致程序爬取大量與主題無關(guān)的數(shù)據(jù),造成系統(tǒng)資源的浪費(fèi)。
在CollegeNews系統(tǒng)中,為了充分保證系統(tǒng)的運(yùn)行效率,即盡量避免爬取非高校教育新聞的網(wǎng)頁,在構(gòu)建種子URL集合時(shí),采用使用指定起始網(wǎng)頁的方式,選擇了各類高校及相關(guān)新聞的入口地址作為起始網(wǎng)頁,從而確保了初始網(wǎng)頁的
在爬蟲運(yùn)行的過程中,另一個(gè)重要的問題是如何去除已經(jīng)獲取過的重復(fù)頁面。該問題又可以分解為兩個(gè)部分:一是在某次爬蟲程序運(yùn)行的過程中,如何去除本次運(yùn)行已經(jīng)獲取過的頁面;二是在某次爬蟲程序運(yùn)行的過程中,如何去除過往運(yùn)行后已經(jīng)獲取過的頁面。針對(duì)第一個(gè)問題,本系統(tǒng)在每次爬蟲程序運(yùn)行時(shí),都會(huì)將已經(jīng)爬取過的網(wǎng)頁和尚未爬取的網(wǎng)頁分別存在兩個(gè)哈希表中,聚焦爬蟲每爬取一個(gè)網(wǎng)頁,會(huì)先比較該網(wǎng)頁是否存在于已經(jīng)爬取網(wǎng)頁的哈希表中,若不存在,則進(jìn)行爬取操作。操作完成后,將該網(wǎng)頁從尚未爬取網(wǎng)頁的哈希表中刪除,同時(shí)添加到已經(jīng)爬取網(wǎng)頁的哈希表中。針對(duì)第二個(gè)問題,本系統(tǒng)在每次運(yùn)行爬蟲程序時(shí)會(huì)預(yù)先設(shè)定一個(gè)閾值,同時(shí)爬蟲程序中也會(huì)設(shè)定一個(gè)初始的計(jì)數(shù)值為0。每當(dāng)爬蟲程序向數(shù)據(jù)庫中添加一條新數(shù)據(jù),若數(shù)據(jù)庫返回重復(fù)信息,則將計(jì)數(shù)值加一。若下一個(gè)網(wǎng)頁不是重復(fù)網(wǎng)頁,則將計(jì)數(shù)值清零。直到計(jì)數(shù)值大于閾值后,認(rèn)定所有新網(wǎng)頁已經(jīng)獲取完畢,結(jié)束本次爬取。
3.3 網(wǎng)頁搜索策略
一般而言,爬蟲程序的網(wǎng)頁搜索策略可以分為以下三種:深度優(yōu)先搜索、廣度優(yōu)先搜索和最佳優(yōu)先搜索。本系統(tǒng)的搜索策略充分考慮了新聞?lì)惥W(wǎng)站的結(jié)構(gòu)特點(diǎn),使用了深度優(yōu)先與最佳優(yōu)先相結(jié)合的搜索方法。
如前所述,本系統(tǒng)爬蟲程序的起始地址為各類高校及相關(guān)新聞的入口地址,以此實(shí)現(xiàn)局部最優(yōu)效果。由于絕大部分新聞?lì)惥W(wǎng)站的結(jié)構(gòu)為目錄式結(jié)構(gòu),即網(wǎng)站由若干頁面(目錄)組成,每個(gè)頁面含有若干條新聞的超鏈接(項(xiàng))。因此,本系統(tǒng)的爬蟲程序首先由起始地址獲取到該網(wǎng)站的目錄,此后再依次對(duì)每個(gè)目錄進(jìn)行解析,獲取該目錄的所有項(xiàng)。按此流程進(jìn)行網(wǎng)頁爬取后,即可獲得所需的新聞數(shù)據(jù)。
3.4 數(shù)據(jù)庫更新頻率
由于新聞具有一定的時(shí)效性,因此爬蟲程序需要不斷對(duì)網(wǎng)站進(jìn)行掃描,將新增的網(wǎng)頁加入數(shù)據(jù)庫中。因?yàn)榻逃愋侣劦臅r(shí)效性并沒有要點(diǎn)新聞或天氣預(yù)報(bào)那么強(qiáng),因此CollegeNews系統(tǒng)在對(duì)數(shù)據(jù)庫進(jìn)行數(shù)據(jù)更新時(shí),充分考慮了教育新聞的這一特點(diǎn),并未將更新頻率設(shè)計(jì)得過快,避免給服務(wù)器和網(wǎng)絡(luò)帶寬帶來太大的壓力。本系統(tǒng)以一定的頻率對(duì)種子URL集合中的網(wǎng)站起始地址進(jìn)行檢查,若掃描到新的新聞,則繼續(xù)聚焦爬蟲程序,將新增的網(wǎng)頁添加到數(shù)據(jù)庫中;否則,中斷本次掃描,等待下一次檢查。
篇6
搜索引擎的工作原理為:從互聯(lián)網(wǎng)上抓取網(wǎng)頁建立索引數(shù)據(jù)庫在索引數(shù)據(jù)庫中搜索排序。從互聯(lián)網(wǎng)上抓取網(wǎng)頁利用能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁的Spider系統(tǒng)程序,自動(dòng)訪問互聯(lián)網(wǎng),并沿著任何網(wǎng)頁中的所有URL爬到其它網(wǎng)頁,重復(fù)這過程,并把爬過的所有網(wǎng)頁收集回來。建立索引數(shù)據(jù)庫由分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進(jìn)行分析,提取相關(guān)網(wǎng)頁信息根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每1個(gè)網(wǎng)頁針對(duì)頁面內(nèi)容中及超鏈中每1個(gè)關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。
在索引數(shù)據(jù)庫中搜索排序當(dāng)用戶輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁。最后由頁面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁面內(nèi)容摘要等內(nèi)容組織起來返回給用戶。
搜索引擎按其工作方式可分為三種,全文搜索引擎,目錄搜索引擎和元搜索引擎。
1全文搜索引擎
全文搜索引擎的代表是網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲是一個(gè)自動(dòng)提取網(wǎng)頁的程序,它為搜索引擎從Internet網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。傳統(tǒng)爬蟲從一個(gè)或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件。聚焦爬蟲的工作流程較為復(fù)雜,需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接,保留有用的鏈接并放入等待抓取的URL隊(duì)列。然后,它將根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁,并重復(fù)上述過程,直到達(dá)到系統(tǒng)的某一條件時(shí)停止。所有被爬蟲抓取的網(wǎng)頁將會(huì)被系統(tǒng)存貯,進(jìn)行一定的分析、過濾,并建立索引,以便之后的查詢和檢索;對(duì)于聚焦爬蟲來說,這一過程所得到的分析結(jié)果還可能對(duì)以后的抓取過程給出反饋和指導(dǎo)。
爬蟲設(shè)計(jì)是否合理將直接影響它訪問Web的效率,影響搜索數(shù)據(jù)庫的質(zhì)量,另外在設(shè)計(jì)爬蟲時(shí)還必須考慮它對(duì)網(wǎng)絡(luò)和被訪問站點(diǎn)的影響,因?yàn)榕老x一般都運(yùn)行在速度快,帶寬高的主機(jī)上,如果它快速訪問一個(gè)速度較慢的目標(biāo)站點(diǎn),可能導(dǎo)致該站點(diǎn)出現(xiàn)阻塞。Robot應(yīng)遵守一些協(xié)議,以便被訪問站點(diǎn)的管理員能夠確定訪問內(nèi)容,Index是一個(gè)龐大的數(shù)據(jù)庫,爬蟲提取的網(wǎng)頁將被放入到Index中建立索引,不同的搜索引擎會(huì)采取不同方式來建立索引,有的對(duì)整個(gè)HTML文件的所有單詞都建立索引,有的只分析HTML文件的標(biāo)題或前幾段內(nèi)容,還有的能處理HTML文件中的META標(biāo)記或特殊標(biāo)記。
2目錄搜索引擎
目錄搜索引擎的數(shù)據(jù)庫是依靠專職人員建立的,這些人員在訪問了某個(gè)Web站點(diǎn)后撰寫一段對(duì)該站點(diǎn)的描述,并根據(jù)站點(diǎn)的內(nèi)容和性質(zhì)將其歸為一個(gè)預(yù)先分好的類別,把站點(diǎn)URL和描述放在這個(gè)類別中,當(dāng)用戶查詢某個(gè)關(guān)鍵詞時(shí),搜索軟件只在這些描述中進(jìn)行搜索。很多目錄也接受用戶提交的網(wǎng)站和描述,當(dāng)目錄的編輯人員認(rèn)可該網(wǎng)站及描述后,就會(huì)將之添加到合適的類別中。
目錄的結(jié)構(gòu)為樹形結(jié)構(gòu),首頁提供了最基本的入口,用戶可以逐級(jí)地向下訪問,直至找到自己的類別,另外,用戶也可以利用目錄提供的搜索功能直接查找一個(gè)關(guān)鍵詞。由于目錄式搜索引擎只在保存了對(duì)站點(diǎn)的描述中搜索,因此站點(diǎn)本身的變化不會(huì)反映到搜索結(jié)果中,這也是目錄式搜索引擎與基于Robot的搜索引擎之間的區(qū)別。分類目錄在網(wǎng)絡(luò)營銷中的應(yīng)用主要有下列特點(diǎn):
通常只能收錄網(wǎng)站首頁(或者若干頻道),而不能將大量網(wǎng)頁都提交給分類目錄;網(wǎng)站一旦被收錄將在一定時(shí)期內(nèi)保持穩(wěn)定;無法通過"搜索引擎優(yōu)化"等手段提高網(wǎng)站在分類目錄中的排名;在高質(zhì)量的分類目錄登錄,對(duì)于提高網(wǎng)站在搜索引擎檢索結(jié)果中的排名有一定價(jià)值;緊靠分類目錄通常與其他網(wǎng)站推廣手段共同使用。
3元搜索引擎
我們可將元搜索引擎看成具有雙層客戶機(jī)/服務(wù)器結(jié)構(gòu)的系統(tǒng)。用戶向元搜索引擎發(fā)出檢索請(qǐng)求,元搜索引擎再根據(jù)該請(qǐng)求向多個(gè)搜索引擎發(fā)出實(shí)際檢索請(qǐng)求,搜索引擎執(zhí)行元搜索引擎檢索請(qǐng)求后將檢索結(jié)果以應(yīng)答形式傳送給元搜索引擎,元搜索引擎將從多個(gè)搜索引擎獲得的檢索結(jié)果經(jīng)過整理再以應(yīng)答形式傳送給實(shí)際用戶。當(dāng)然,某些元搜索引擎具有略微不同的機(jī)制。元搜索引擎在接受用戶查詢請(qǐng)求時(shí),同時(shí)在其他多個(gè)引擎上進(jìn)行搜索,將結(jié)果進(jìn)行相關(guān)處理,以整體統(tǒng)一的格式反饋給用戶。
它的特點(diǎn)是本身并沒有存放網(wǎng)頁信息的數(shù)據(jù)庫。多數(shù)元搜索引擎在處理其它的搜索引擎返回結(jié)果時(shí),只提取出每個(gè)搜索引擎的結(jié)果中考前的條目,然后將這些條目合并在一起返回給用戶,元搜索引擎實(shí)現(xiàn)起比較簡單,但是它也有一定的局限性,例如多數(shù)元搜索引擎都只能訪問少數(shù)幾個(gè)搜索引擎,并且通常不支持這些搜索引擎的高級(jí)搜索功能,在處理邏輯查詢時(shí)也常常會(huì)出現(xiàn)錯(cuò)誤。在這幾種檢索工具中,目錄式搜索引擎成本高,信息t少的缺點(diǎn),但它的信息準(zhǔn)確這一優(yōu)點(diǎn)使其在一定的領(lǐng)域和時(shí)間內(nèi)仍會(huì)被使用,機(jī)器人搜索引擎是當(dāng)前各種搜索引擎的主流,但隨著網(wǎng)絡(luò)信息量的增加,單一搜索引擎已經(jīng)難已滿足要求,結(jié)合目錄式搜索引擎,機(jī)器人搜索引擎的優(yōu)勢,以元搜索引擎為核心的多層搜索引擎是搜索引擎的發(fā)展方向。
搜索引擎技術(shù)功能強(qiáng)大,提供的服務(wù)也全面,它們的目標(biāo)不僅僅是提供單純的查詢功能,而是把自己發(fā)展成為用戶首選的Internet入口站點(diǎn)。目前的搜索引擎主要有幾個(gè)特點(diǎn):多樣化和個(gè)性化的服務(wù)。強(qiáng)大的查詢功能。目錄和基于Robot的搜索引擎相互結(jié)合。目前搜索引擎是網(wǎng)絡(luò)上被使用頻率最高的服務(wù)項(xiàng)目之一,隨著Internet的發(fā)展,網(wǎng)上龐大的數(shù)字化信息和人們獲取所需信息能力之間的矛盾突出。搜索結(jié)果豐富的搜索引擎技術(shù)正在被信息更集中的局域網(wǎng)取代,因?yàn)樗阉飨到y(tǒng)的表現(xiàn)與用戶的期望值相差太大,諸如數(shù)據(jù)量高速增長的視頻、音頻等多媒體信息的檢索,仍然無法實(shí)現(xiàn)。
搜索引擎越來越不能滿足用戶的各種信息需求,如收集的網(wǎng)頁數(shù)量和其數(shù)據(jù)庫的更新速度存在著不可調(diào)和的矛盾。用戶經(jīng)常無法打開查詢的結(jié)果。網(wǎng)絡(luò)信息時(shí)刻變動(dòng),實(shí)時(shí)搜索幾乎不可能。網(wǎng)絡(luò)信息收集與整理是搜索引擎工作的重要部分。搜索引擎需要定期不斷地訪問網(wǎng)絡(luò)資源。目前網(wǎng)絡(luò)帶寬不足,網(wǎng)絡(luò)速度慢,遍歷如此龐雜的網(wǎng)絡(luò)時(shí)間花費(fèi)非常龐大,這就是不能實(shí)時(shí)搜索的原因。(編選: 勇全)
參考文獻(xiàn)
[1]張興華.搜索引擎技術(shù)及研究[J].現(xiàn)代情報(bào),2004,(4).
[2]唐銘杰.論搜索引擎的發(fā)展概況及發(fā)展趨勢[J].情報(bào)雜志,2001,(5).
[3]陽小華.分布式WWW信息收集技術(shù)[J].計(jì)算機(jī)工程與應(yīng)用,2000,(5).
篇7
關(guān)鍵詞:信息檢索;聚焦爬蟲;鄰居規(guī)則;分類算法;鏈接優(yōu)先級(jí)
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)14-0151-113
1概述
隨著網(wǎng)絡(luò)數(shù)據(jù)的不斷增長,如何有效地發(fā)現(xiàn)、過濾、處理和利用這些數(shù)據(jù)成為了一個(gè)需要解決的問題。適合特定主題和個(gè)性化搜索的聚焦爬蟲是一個(gè)有效的解決途徑。聚集爬蟲可被分作三類:經(jīng)典聚焦爬蟲,基于錨文本與主題詞匯集的相似性,利用機(jī)器學(xué)習(xí)評(píng)估鏈接優(yōu)先級(jí);語義聚焦爬蟲,分析頁面與主題的語義相關(guān)性計(jì)算各鏈接下載優(yōu)先級(jí);在線增量自學(xué)習(xí)聚焦爬蟲,采用可更新的分類器指定頁面優(yōu)先級(jí),爬行過程中分類器可在線增強(qiáng)學(xué)習(xí),從而提高分類準(zhǔn)確性和爬行精度。本文提出了一種基于錨文本和網(wǎng)頁類型的聚焦爬蟲,相對(duì)于經(jīng)典聚焦爬蟲,本文爬蟲考慮了鏈接所在頁面是否是主題相關(guān)網(wǎng)頁或?qū)Ш骄W(wǎng)頁,并以此評(píng)估鏈接優(yōu)先級(jí)。
2聚焦爬蟲模型
2.1確定鏈接屬性
錨文本與主題間的相似度通過式(1)來確定。
2.2評(píng)估鏈接優(yōu)先級(jí)
本文采用基于鄰居規(guī)則的分類算法[1],根據(jù)鏈接與主題的相似度和鏈接的類別將鏈接分為0到5級(jí),5級(jí)優(yōu)先級(jí)最高,0級(jí)優(yōu)先級(jí)最低,爬蟲爬行過程中優(yōu)先爬取優(yōu)先級(jí)高的鏈接并舍棄0級(jí)鏈接。
本文爬蟲通過有標(biāo)注的訓(xùn)練樣本D完成算法訓(xùn)練過程,得到特征屬性集合S,在確定鏈接屬性sim(q,p)和類別后,通過算法分類過程得到鏈接類別,即確定鏈接優(yōu)先級(jí)。
2.3系統(tǒng)結(jié)構(gòu)
根據(jù)上述原理建立的聚焦爬蟲模型如圖1。與通用web爬行器相比,圖3增加了三個(gè)組件:鏈接優(yōu)先級(jí)評(píng)估器、主題相關(guān)判定器和導(dǎo)航網(wǎng)頁判定器。主題相關(guān)判定器和導(dǎo)航網(wǎng)頁判定器用于確定抽取出來的鏈接類別,鏈接優(yōu)先級(jí)評(píng)估器用于確定提供主題相關(guān)頁面的可能性。
該系統(tǒng)運(yùn)行過程如下:從種子鏈接開始爬取網(wǎng)頁,判定下載下來的網(wǎng)頁是否主題相關(guān)、是否是導(dǎo)航頁面,并由此確定抽取出來的鏈接的類別;計(jì)算鏈接錨文本與主題的相似度;利用鏈接優(yōu)先級(jí)評(píng)估器評(píng)估鏈接的優(yōu)先級(jí),舍棄其中0級(jí)的鏈接后放入到優(yōu)先級(jí)隊(duì)列中;爬蟲不停地從優(yōu)先級(jí)隊(duì)列隊(duì)首取得最高優(yōu)先級(jí)鏈接進(jìn)行爬取,爬取了指定數(shù)目的鏈接后終止。
3系統(tǒng)實(shí)現(xiàn)及實(shí)驗(yàn)
3.1系統(tǒng)實(shí)現(xiàn)
根據(jù)上述的系統(tǒng)模型,在windows系統(tǒng)下MyEclipse 2013實(shí)現(xiàn)了一個(gè)聚焦爬蟲原型系統(tǒng)webcollector。主題相關(guān)判別器和導(dǎo)航頁面判別器均使用樸素貝葉斯分類器,鏈接優(yōu)先級(jí)評(píng)估器使用基于鄰居規(guī)則分類算法的分類器,將鏈接分為0到5級(jí)。主題相關(guān)判別器的計(jì)算和訓(xùn)練采用頁面特征文本,包含當(dāng)前頁面的標(biāo)題、meta中keywords、description和tabs以及網(wǎng)頁正文;導(dǎo)航頁面判別器的計(jì)算和訓(xùn)練采用頁面中所有鏈接的錨文本,包括相似度大于0的鏈接總數(shù)、鏈接相似度總和、平均鏈接相似度等。在計(jì)算主題相似度sim時(shí),先進(jìn)行分詞并過濾中文中”?!?、”,”、”的”等常用符號(hào)和停用詞。系統(tǒng)實(shí)現(xiàn)參考了中國科學(xué)院計(jì)算所的漢語詞法分析系統(tǒng)ICTCLAS和懷卡托大學(xué)的weka機(jī)器學(xué)習(xí)軟件。
3.2實(shí)驗(yàn)
為了檢驗(yàn)本文所用算法的有效性,將本文模型的某些功能去掉,分別形成標(biāo)準(zhǔn)通用爬蟲模型和標(biāo)準(zhǔn)聚焦爬蟲模型,然后比較3種模型。實(shí)驗(yàn)中爬蟲的種子網(wǎng)頁為新浪體育(http:∥.cn)、網(wǎng)易體育(http:∥.cn)、搜狐體育(http:∥)。實(shí)驗(yàn)選擇的評(píng)測指標(biāo)為搜索到的主題相關(guān)頁面的個(gè)數(shù)、訪問鏈接數(shù)和搜索主題相關(guān)頁面的回調(diào)率。實(shí)驗(yàn)平臺(tái)為windows 10,CPU為IntelI5-5200U 2.19GHz,內(nèi)存為8GB,實(shí)驗(yàn)主題為”足球”。用標(biāo)準(zhǔn)通用爬蟲從上述種子網(wǎng)頁爬取了495個(gè)頁面,進(jìn)行兩次標(biāo)記后分別作為主題相關(guān)判別器和導(dǎo)航網(wǎng)頁判別器的訓(xùn)練數(shù)據(jù)。然后從中選取9個(gè)典型網(wǎng)頁抽取出1131鏈接,進(jìn)行標(biāo)記后作為鏈接優(yōu)先級(jí)評(píng)估器的訓(xùn)練數(shù)據(jù)。爬蟲在爬行過程中記錄訪問的鏈接數(shù)、下載的頁面數(shù),以最終下載的最大相關(guān)頁面數(shù)為1計(jì)算回調(diào)率。
3.3實(shí)驗(yàn)結(jié)果討論
由圖4可以看出,在爬取9500個(gè)頁面的過程中,基于CRN分類算法的聚焦爬蟲和標(biāo)準(zhǔn)聚焦爬蟲都比通用網(wǎng)絡(luò)爬蟲具有更好的性能。另外可以看出,本文聚焦爬蟲在下載頁面抽取鏈接的過程中,由于采用了CRN分類算法識(shí)別更有可能指向主題相關(guān)頁面的鏈接,爬行的主題相關(guān)頁面數(shù)高于標(biāo)準(zhǔn)聚焦爬蟲。由圖5可以看出,基于CRN分類算法的聚焦爬蟲能夠比較穩(wěn)定地爬取到主題相關(guān)頁面。
篇8
關(guān)鍵詞:高職教育園區(qū);網(wǎng)絡(luò)輿情;監(jiān)測管理
中圖分類號(hào):G640文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1002-4107(2014)05-0066-02
進(jìn)入21世紀(jì)信息社會(huì)網(wǎng)絡(luò)媒體已成為第四媒體,它作為反映社會(huì)輿情的主要載體,一旦形成網(wǎng)絡(luò)輿情對(duì)社會(huì)將造成巨大影響。為此,黨和政府以及各級(jí)組織對(duì)其密切關(guān)注,許多地方政府要求建有互聯(lián)網(wǎng)絡(luò)的單位必須有網(wǎng)絡(luò)信息管理組織保障機(jī)制,并對(duì)網(wǎng)絡(luò)輿情進(jìn)行監(jiān)測管理分析。高職教育園區(qū)涉及學(xué)校多、學(xué)生年齡均在十七八歲左右,學(xué)生上網(wǎng)人數(shù)達(dá)100%。校園網(wǎng)絡(luò)、園區(qū)網(wǎng)絡(luò)已成為高等職業(yè)院校信息快速傳播的主要載體,并由于大學(xué)生的自身因素及網(wǎng)絡(luò)的實(shí)時(shí)性與交互性,網(wǎng)絡(luò)可以集中表達(dá)學(xué)生群體對(duì)校園中的某些現(xiàn)象以及社會(huì)敏感問題所表達(dá)出的態(tài)度、意見,并宣泄自己的情緒。為此,研究與構(gòu)建高職教育園區(qū)網(wǎng)絡(luò)輿情監(jiān)測管理體系顯得尤為迫切。
一、高職教育園區(qū)網(wǎng)絡(luò)輿情的特點(diǎn)
從過去傳統(tǒng)校園的公眾表達(dá)方式到今天的網(wǎng)絡(luò)公眾表達(dá)方式的轉(zhuǎn)變,對(duì)一些熱點(diǎn)敏感問題的傳播速度更快、規(guī)模更大,輿情事件的不斷增多,使社會(huì)影響面廣,易引發(fā)過激行為。因此,分析高職教育園區(qū)網(wǎng)絡(luò)輿情特點(diǎn),對(duì)其進(jìn)行監(jiān)測管理分析并解決出現(xiàn)的問題,適時(shí)正確引導(dǎo)是構(gòu)建一個(gè)和諧高職教育園區(qū),促進(jìn)高職學(xué)生健康成長的一項(xiàng)長期艱巨的任務(wù)。
(一)高職教育園區(qū)網(wǎng)絡(luò)客觀因素
當(dāng)互聯(lián)網(wǎng)絡(luò)傳播公眾對(duì)某些難點(diǎn)、熱點(diǎn)問題所表現(xiàn)的有一定影響力的意見或言論情況時(shí),使用校園網(wǎng)絡(luò)、園區(qū)網(wǎng)絡(luò)的在校大學(xué)生群體亦會(huì)關(guān)注,并參與表達(dá)態(tài)度意見和情緒,同時(shí)他們還會(huì)關(guān)注校園中的一些現(xiàn)象,這些因素的總和都基于網(wǎng)絡(luò)傳播當(dāng)前某些焦點(diǎn)事件。網(wǎng)絡(luò)是把雙刃劍,如何建設(shè)、維護(hù)園區(qū)網(wǎng)絡(luò)安全,應(yīng)對(duì)不良信息引起的聚眾趨勢,并利用技術(shù)手段監(jiān)測管理園區(qū)網(wǎng)絡(luò),是防范高職教育園區(qū)網(wǎng)絡(luò)輿情的一項(xiàng)重要特點(diǎn)。
(二)高職學(xué)生自身因素
由于參與高職教育的學(xué)生年輕氣盛,大多數(shù)都為十七八歲的獨(dú)生子女,自律能力、挫折適應(yīng)能力和環(huán)境適應(yīng)能力相對(duì)弱一些,思想情緒極易產(chǎn)生波動(dòng)。再者大部分高職學(xué)生由于高中時(shí)成績不理想,考進(jìn)高職院校心里有一定的失落感,為此缺乏自信心,加上當(dāng)前社會(huì)上追求高學(xué)歷現(xiàn)象更使得高職學(xué)生產(chǎn)生更大的心理壓力,一旦社會(huì)輿情蔓延到校園極易產(chǎn)生疊加的網(wǎng)絡(luò)輿情群體效應(yīng)。
二、高職教育園區(qū)網(wǎng)絡(luò)輿情監(jiān)測管理體系的構(gòu)建
從高職教育園區(qū)網(wǎng)絡(luò)輿情特點(diǎn)可見構(gòu)建園區(qū)網(wǎng)絡(luò)輿情監(jiān)測管理體系應(yīng)考慮以下幾方面。
(一)園區(qū)網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)的基礎(chǔ)設(shè)施建設(shè)
目前高職教育園區(qū)各院校都建有各自的校園網(wǎng)絡(luò),在校園網(wǎng)絡(luò)基礎(chǔ)上組建園區(qū)網(wǎng)絡(luò),實(shí)現(xiàn)校園網(wǎng)絡(luò)互聯(lián)。如常州高職教育園區(qū)共有5所院校,是江蘇省唯一的示范性高職教育園區(qū),全日制在校學(xué)生約7.6萬余名。實(shí)現(xiàn)園區(qū)網(wǎng)絡(luò)互聯(lián)其網(wǎng)絡(luò)架構(gòu)示意圖,如圖1所示。
圖1園區(qū)網(wǎng)絡(luò)架構(gòu)示意圖
(二)網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)的框架結(jié)構(gòu)
目前輿情信息抓取主要使用以下幾種技術(shù):元搜索采集技術(shù)、傳統(tǒng)網(wǎng)絡(luò)爬蟲技術(shù)、論壇爬蟲技術(shù)。整個(gè)園區(qū)網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)分為輿情信息采集、輿情數(shù)據(jù)處理及輿情信息查詢展示三層,如圖2所示。
在輿情信息采集層主要根據(jù)用戶的監(jiān)測目標(biāo)以盡可能小的代價(jià)從園區(qū)網(wǎng)上盡可能全面地得到所有輿情信息,它是監(jiān)測網(wǎng)絡(luò)輿情的前提和保證。園區(qū)網(wǎng)絡(luò)輿情信息的主要爆發(fā)點(diǎn)有:博客、論壇、微博及新聞等網(wǎng)站,輿情信息分布散、各種類型網(wǎng)站結(jié)構(gòu)不同,為此針對(duì)不同類型的站點(diǎn)采用不同的爬蟲采集輿情信息是一種明智的做法。例如,采集源著重抓取論壇數(shù)據(jù)時(shí),專為網(wǎng)站論壇設(shè)計(jì)的一類爬蟲稱為論壇爬蟲。由于網(wǎng)站論壇的鏈接種類較多,且有較多的無效鏈接,還有一些鏈接的同一話題和動(dòng)態(tài)性分布在多個(gè)頁面上,這樣使用傳統(tǒng)爬蟲會(huì)在論壇站點(diǎn)上出現(xiàn)“爬蟲陷阱”,“相同話題下的頁面會(huì)喪失頁面關(guān)系”,并且“爬行的頁面質(zhì)量低下”等問題。而使用基于層次模型論壇爬蟲LMFC(Based on the level model of forum crawler下載效率高、信息更新速度更快。這種基于模板要求網(wǎng)頁信息提取法,其提取鏈接的效果是由模板中的規(guī)則決定的,采用模板法比程序自動(dòng)提取法更加準(zhǔn)確。但是隨著論壇爬蟲持續(xù)運(yùn)行URL(統(tǒng)一資源定位)庫會(huì)逐漸增大,因而對(duì)LMFC數(shù)據(jù)更新特點(diǎn)往往用“話題更新率”、“帖子更新率”評(píng)價(jià)其性能。
輿情信息處理層是針對(duì)采集到的數(shù)據(jù)進(jìn)行過濾、分析。采用基于本體的挖掘技術(shù)。如通過信息采集層獲取到的網(wǎng)頁根據(jù)其頁面的特性,并使用基于模板的抽取網(wǎng)頁信息方法抽取其中的文本信息,也可直接存入數(shù)據(jù)庫中。另外,將需要存入索引的文本信息進(jìn)一步做索引和文本分詞處理。針對(duì)存入索引的文本采用基于本體的文本分類法進(jìn)行過濾,除去與檢測目標(biāo)不符的信息,最后基于本體的聚類法得到輿情熱點(diǎn)。
輿情信息查詢與展示層是輿情監(jiān)測系統(tǒng)的主要功能。有園區(qū)全網(wǎng)搜索、本地搜索、熱點(diǎn)查看與統(tǒng)計(jì)、輿情報(bào)警。例如:園區(qū)全網(wǎng)搜索采用了元搜索引擎技術(shù),無須下載檢索項(xiàng)中的URL對(duì)應(yīng)的頁面,將提取各搜索引擎返回的檢索項(xiàng),剔除廣告和重復(fù)信息,并重新排序。將檢索結(jié)構(gòu)保存到緩存區(qū),最終展示給用戶。
園區(qū)網(wǎng)絡(luò)輿情監(jiān)測體系有效地推進(jìn)高職教育園區(qū)信息化建設(shè),充分利用技術(shù)手段達(dá)到園區(qū)網(wǎng)絡(luò)監(jiān)、管、控,保障了高職教育園區(qū)的和諧穩(wěn)定。
三、提高學(xué)生信息素養(yǎng)的策略
建立高職教育園區(qū)網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)積極防御園區(qū)網(wǎng)絡(luò)輿情時(shí),還需特別重視提高學(xué)生信息素養(yǎng)。
(一)采取跟進(jìn)式管理
高職學(xué)生思想及心理處于不穩(wěn)定期。在園區(qū)網(wǎng)絡(luò)、校園網(wǎng)絡(luò)交流過程中,網(wǎng)絡(luò)輿情使部分學(xué)生個(gè)體表達(dá)受影響而發(fā)生變化,容易產(chǎn)生從眾心理,形成一種集體心理。對(duì)社會(huì)現(xiàn)象、現(xiàn)實(shí)問題反映比較敏感。高職學(xué)生理想獨(dú)立勇于維護(hù)自身利益。一旦網(wǎng)絡(luò)信息涉及學(xué)生自身利益的問題都極易造成學(xué)生關(guān)注和共鳴,進(jìn)而引發(fā)起各類網(wǎng)絡(luò)輿情,甚至可以導(dǎo)致一些群體突發(fā)性事件。為此對(duì)高職教育園區(qū)的學(xué)生采取跟進(jìn)式管理。(1)輔導(dǎo)員跟進(jìn)學(xué)生的思想工作,及時(shí)理解學(xué)生的想法,掌握思想動(dòng)態(tài)。(2)任課教師跟進(jìn)課堂啟發(fā)式教育,在講授專業(yè)文化基礎(chǔ)知識(shí)課的同時(shí),培養(yǎng)學(xué)生利用網(wǎng)絡(luò)主動(dòng)學(xué)習(xí)獲取課外知識(shí),調(diào)動(dòng)學(xué)生的學(xué)習(xí)興趣。(3)跟進(jìn)校園文化建設(shè)。積極營造和諧、綠色、積極向上、學(xué)術(shù)氣息濃厚的校園文化氛圍,使得學(xué)生置身于校園感受的是正能量。
(二)規(guī)范學(xué)生上網(wǎng)行為
組織高職學(xué)生學(xué)習(xí)有關(guān)國家、省、市、校的互聯(lián)網(wǎng)絡(luò)管理規(guī)定,在網(wǎng)絡(luò)這個(gè)虛擬社會(huì)中必須遵守有關(guān)法律法規(guī),加強(qiáng)學(xué)生的自律性。并以知名度高、學(xué)生崇拜、社會(huì)影響力高的專家為主,開設(shè)學(xué)生喜愛、高度關(guān)注并踴躍參與的專題講座、通識(shí)課程、品牌論壇、使得園區(qū)校園網(wǎng)絡(luò)成為弘揚(yáng)正能量的重要陣地。
培養(yǎng)學(xué)生文明的網(wǎng)絡(luò)行為。網(wǎng)絡(luò)作為推動(dòng)素質(zhì)教育的重要平臺(tái),在網(wǎng)站建設(shè)中不僅需考慮內(nèi)容豐富多彩而且要貼近實(shí)踐、貼近師生和貼近生活,成為師生溝通交流平臺(tái)。只有學(xué)生能自覺抵制不良信息,才能不斷減輕和消除網(wǎng)絡(luò)的負(fù)面影響。
(三)提高學(xué)生辨別網(wǎng)絡(luò)虛假信息的能力
互聯(lián)網(wǎng)上虛假信息及不良信息往往引發(fā)錯(cuò)誤輿論導(dǎo)向。如何提高學(xué)生判斷網(wǎng)上不良信息能力是高校教育工作者研究重要課題之一,從客觀上分析一些交互性比較強(qiáng)的網(wǎng)站上,存在網(wǎng)絡(luò)信息人為操作,產(chǎn)生的虛假信息極大地?fù)p害了網(wǎng)絡(luò)媒體的公信度。為此學(xué)生在日常學(xué)習(xí)生活中需不斷建立獲得正確媒體信息和判斷信息價(jià)值的知識(shí)結(jié)構(gòu),其次增強(qiáng)自身對(duì)是非、美丑、正誤的判斷能力,逐漸培養(yǎng)對(duì)網(wǎng)絡(luò)信息的辨析和選擇能力。熟練掌握在網(wǎng)上如何獲取有效及健康的信息方法,使學(xué)生成為網(wǎng)絡(luò)媒體的主動(dòng)參與者,而不只是網(wǎng)絡(luò)媒介信息的被動(dòng)接受者。
學(xué)生學(xué)會(huì)將獲取的信息進(jìn)行分類歸納,根據(jù)自己的學(xué)習(xí)需求去選擇和辨析哪些是自己所需要的網(wǎng)絡(luò)信息,運(yùn)用好網(wǎng)絡(luò)這個(gè)先進(jìn)的工具進(jìn)行文化知識(shí)的學(xué)習(xí)和學(xué)科知識(shí)的研究。并準(zhǔn)確地表達(dá)自己的思想理念、對(duì)待事物的看法與態(tài)度及時(shí)與他人溝通與交流。
高職教育園區(qū)網(wǎng)絡(luò)輿情監(jiān)測與管理體系的建立,為校園穩(wěn)定并高效地開展教學(xué)、科研提供有力保障。網(wǎng)絡(luò)新技術(shù)飛速發(fā)展,迫使網(wǎng)絡(luò)輿情監(jiān)測與管理也要以更新的技術(shù)及更快的反應(yīng)速度來應(yīng)對(duì)復(fù)雜的變化,對(duì)園區(qū)網(wǎng)絡(luò)輿情監(jiān)測與管理還需不斷地加強(qiáng)理論研究,并不斷地開展實(shí)踐研究。
參考文獻(xiàn):
[1]李榮素,趙衛(wèi)利.高等職業(yè)院校網(wǎng)絡(luò)輿情特點(diǎn)及管理研究[J].產(chǎn)業(yè)與科技論壇,2011,(20).
[2]伍海江.面向網(wǎng)絡(luò)輿情監(jiān)測的關(guān)鍵技術(shù)研究[D].北京:華北電力大學(xué),2012.
篇9
關(guān)鍵詞:惡意發(fā)帖檢測;文本情感分析;SVM;分類;聚類
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)07-1403-04
隨著互聯(lián)網(wǎng)( Internet)的蓬勃發(fā)展,網(wǎng)絡(luò)作為一種新的媒介形式,已被人們廣泛使用?;ヂ?lián)網(wǎng)的發(fā)展過程“是一個(gè)時(shí)時(shí)處處有人參與的、不斷演化的、自適應(yīng)的、不斷涌現(xiàn)出新的整體特性的過程,是一個(gè)開放的、人在其中與社會(huì)系統(tǒng)緊密耦合的復(fù)雜巨系統(tǒng)[1]”,其業(yè)務(wù)流量自相似、拓?fù)浣Y(jié)構(gòu)無尺度等特性的發(fā)現(xiàn)為人們正確認(rèn)識(shí)和管理互聯(lián)網(wǎng)起到了重要作用。
網(wǎng)絡(luò)論壇是網(wǎng)絡(luò)輿論形成的一股重要力量,廣大網(wǎng)民通過網(wǎng)絡(luò)來表達(dá)觀點(diǎn),一旦遇到社會(huì)熱點(diǎn)問題,瞬間就能形成巨大網(wǎng)絡(luò)的輿論。網(wǎng)民通過“發(fā)帖”發(fā)表意見、參與輿論形成,與論壇網(wǎng)站共同構(gòu)成了人機(jī)結(jié)合的虛擬系統(tǒng)[2]。以網(wǎng)絡(luò)水軍為主體的惡意發(fā)帖能主導(dǎo)輿論走勢,產(chǎn)生錯(cuò)誤的輿論導(dǎo)向以及消極的影響,所以對(duì)惡意發(fā)帖的檢測就顯得尤為重要。
本文通過對(duì)大量論壇發(fā)帖信息進(jìn)行收集分析,形成帖子庫,并對(duì)帖子內(nèi)容進(jìn)行文本情感分析,產(chǎn)生惡意發(fā)帖聚類,接著使用支持向量機(jī)(SVM)對(duì)惡意帖子進(jìn)行分類,實(shí)時(shí)產(chǎn)生預(yù)警信息,并對(duì)發(fā)帖源頭進(jìn)行干預(yù)。
1 理論背景
基于情感分析的惡意發(fā)帖檢測系統(tǒng)的分析與研究中,涉及到的理論主要有三個(gè)方面,分別是數(shù)據(jù)挖掘技術(shù),文本情感分析和支持向量機(jī)。
1.1 數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘(Data Mining,DM)又稱數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(Knowledge Discover in Database,KDD),是目前人工智能和機(jī)器學(xué)習(xí)領(lǐng)域的熱點(diǎn)問題,所謂數(shù)據(jù)挖掘是指從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價(jià)值的信息的過程[3]。
數(shù)據(jù)挖掘的分類、聚類、關(guān)聯(lián)規(guī)則、預(yù)測算法能很好的應(yīng)用到惡意發(fā)帖的分析檢測與追蹤之中。主要處理如下:
1) 可以對(duì)帖子庫中的惡意帖子根據(jù)惡意的等級(jí)不同進(jìn)行分類處理;
2) 可以對(duì)惡意帖子進(jìn)行聚類分析,找出它們的團(tuán)伙關(guān)系;
3) 利用關(guān)聯(lián)規(guī)則,找出發(fā)帖人與不同帖子之間的關(guān)聯(lián)關(guān)系;
4) 利用預(yù)測技術(shù)預(yù)測出哪些發(fā)帖人有惡意發(fā)帖的趨勢;
5) 利用帖子間的文本的近似的比對(duì),找出某個(gè)人多次改變手法發(fā)帖。
1.2 文本情感分類
文本情感分類是指通過挖掘和分析文本中的立場、觀點(diǎn)、看法、好惡等主觀信息,對(duì)文本的情感傾向做出類別判斷[4]。文本情感分析使用文本極性分析將帖子分為正面或負(fù)面,論壇發(fā)帖文本情感分析具體工作流程如圖1所示。
1) 觀點(diǎn)摘要。從一個(gè)或若干包含主觀性信息的文本文檔中概述出其中主觀性信息的主要內(nèi)容。基于觀點(diǎn)的摘要分為兩種,一種是單文檔摘要,另一種是多文檔摘要。
2) 文本極性分類。針對(duì)給定的文本,使用情感分類方法,識(shí)別其中主觀性信息的傾向是正面還是負(fù)面的。Naive Bayes、最大熵分類(Maximum Entropy Classification)和支持向量機(jī)是常用的情感分類方法。
3) 主觀和客觀識(shí)別或分類。識(shí)別文本是對(duì)事實(shí)的描述(客觀的文本)還是包含有意見、評(píng)價(jià)等主觀性信息(主觀性文本)。
1.3 支持向量機(jī)
支持向量機(jī)(SVM)是由Vapnik在1963年解決模式識(shí)別問題時(shí)提出了支持向量方法,這種方法從訓(xùn)練集中選擇一組特征子集,使得對(duì)特征子集的劃分等價(jià)于對(duì)整個(gè)數(shù)據(jù)集的劃分[5]。
SVM從線性可分情況下的最優(yōu)分類面發(fā)展而來,廣泛應(yīng)用于數(shù)據(jù)分類、手寫識(shí)別等領(lǐng)域。SVM考慮尋找一個(gè)滿足分類要求的超平面,并且使訓(xùn)練集中的點(diǎn)距離分類面盡可能的遠(yuǎn),也就是尋找一個(gè)分類面使它兩側(cè)的空白區(qū)域(Margin)最大。
3 系統(tǒng)功能分析
整個(gè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),包括網(wǎng)絡(luò)發(fā)帖采集系統(tǒng),網(wǎng)絡(luò)發(fā)帖傾向性分析,惡意發(fā)帖分析檢測引擎和惡意發(fā)帖分析監(jiān)測與監(jiān)控追蹤系統(tǒng),下面就四個(gè)系統(tǒng)的功能進(jìn)行分析。
3.1網(wǎng)絡(luò)發(fā)帖采集系統(tǒng)
網(wǎng)絡(luò)發(fā)帖采集系統(tǒng)主要功能是完成網(wǎng)絡(luò)發(fā)帖數(shù)據(jù)的實(shí)時(shí)采集整理,其中負(fù)責(zé)采集數(shù)據(jù)的是網(wǎng)絡(luò)爬蟲,其運(yùn)行具體步驟如下:
1) 用戶通過配置管理界面配置爬蟲的數(shù)據(jù)源、頁面解析邏輯、數(shù)據(jù)存取邏輯和高級(jí)設(shè)置,配置數(shù)據(jù)將保存在爬蟲配置數(shù)據(jù)庫中;
2) 用戶在數(shù)據(jù)抓取監(jiān)控界面開始運(yùn)行數(shù)據(jù)抓取任務(wù)時(shí),系統(tǒng)通過讀取頁面表中配置數(shù)據(jù)利用爬蟲裝配器組裝爬蟲執(zhí)行體,讀取高級(jí)配置爬蟲控制器為爬蟲執(zhí)行體分配執(zhí)行線程、URL隊(duì)列等運(yùn)行時(shí)參數(shù),爬蟲將在爬蟲控制器的管理下運(yùn)行,可進(jìn)行任務(wù)調(diào)度、定時(shí)執(zhí)行、自動(dòng)更新、實(shí)時(shí)監(jiān)控等操作;
3) 爬蟲抓取的數(shù)據(jù)將根據(jù)配置自動(dòng)保存到相應(yīng)數(shù)據(jù)庫中,用戶可以通過數(shù)據(jù)庫管理界面進(jìn)行查看、導(dǎo)出等操作。
3.2網(wǎng)絡(luò)發(fā)帖傾向性分析
網(wǎng)絡(luò)發(fā)帖傾向性分析主要文本情感分析的方法進(jìn)行帖子分析,因?yàn)橐粋€(gè)發(fā)帖主體可能在多個(gè)評(píng)論地點(diǎn)(論壇)上進(jìn)行評(píng)論,本系統(tǒng)在文檔情感分析的基礎(chǔ)上,結(jié)合語義傾向,基于LDA模型,使用SVM方法對(duì)惡意發(fā)帖進(jìn)行分類。其具體算法流程描述如下。
1) 文檔集合預(yù)處理。將每個(gè)文檔中的文本分割為句子,以句子為單位進(jìn)行詞性標(biāo)注,得到句子中每個(gè)詞的詞性。
2) LDA構(gòu)建。將句子集合中的每個(gè)句子當(dāng)作LDA模型中的文檔,為整個(gè)句子文檔集合建立一個(gè)LDA模型。
3) 主題重要度計(jì)算。根據(jù)LDA模型得到句子的主題分布和主題詞匯分布,計(jì)算每個(gè)潛在主題的重要度。
4) 句子重要度計(jì)算。根據(jù)主題重要度,結(jié)合主題詞分布和語義傾向,計(jì)算主題中每個(gè)句子的權(quán)重。
5) 語句排序。根據(jù)句子權(quán)重對(duì)句子進(jìn)行排序,如果權(quán)重相同,非停用詞在句子占比重大的排在前面。
6) 帖子分類。按照句子排序順序結(jié)果使用SVM方法對(duì)帖子的惡意情況進(jìn)行分類。
3.3惡意發(fā)帖分析檢測引擎
惡意發(fā)帖分析檢測引擎為本系統(tǒng)的核心,其主要包括以下功能:熱點(diǎn)識(shí)別能力、自動(dòng)分類、聚類分析、傾向性分析與統(tǒng)計(jì)、主題跟蹤、信息自動(dòng)摘要功能、截取證據(jù)、趨勢分析、突發(fā)事件分析、報(bào)警系統(tǒng)、統(tǒng)計(jì)報(bào)告。
惡意發(fā)帖分析檢測的核心技術(shù)在于惡意發(fā)帖分析檢測引擎,涉及最主要的技術(shù)包括文本分類、聚類、觀點(diǎn)傾向性識(shí)別、主題檢測與跟蹤等技術(shù)。惡意發(fā)帖分析檢測引擎是惡意發(fā)帖分析與檢測系統(tǒng)的核心,主要功能如下:
1) 熱點(diǎn)(敏感)話題識(shí)別與追蹤。利用關(guān)鍵詞布控和語義分析,識(shí)別敏感話題。
2) 情感傾向分析。對(duì)于每個(gè)話題,對(duì)每個(gè)發(fā)貼人發(fā)表帖子的觀點(diǎn)、傾向性(正負(fù)面、褒貶義)進(jìn)行分析與統(tǒng)計(jì)。
3) 主題跟蹤。分析新發(fā)表文章、貼子的話題是否與已有主題相同。
4) 帖子自動(dòng)摘要。對(duì)各類主題,各類傾向能夠形成自動(dòng)摘要。
5) 發(fā)帖趨勢分析。分析某個(gè)主題在不同的時(shí)間段內(nèi),網(wǎng)民的關(guān)注程度。
6) 突發(fā)事件分析。對(duì)突發(fā)事件進(jìn)行跨時(shí)間、跨空間綜合分析,獲知事件發(fā)生的全貌并預(yù)測事件發(fā)展的趨勢。
7) 實(shí)時(shí)預(yù)警。對(duì)突發(fā)事件、涉及敏感話題及時(shí)發(fā)現(xiàn)并發(fā)出預(yù)警信息。
8) 統(tǒng)計(jì)報(bào)告。根據(jù)輿情分析引擎處理后的結(jié)果庫生成報(bào)告,用戶可以瀏覽、檢索。根據(jù)指定條件對(duì)熱點(diǎn)話題、傾向性進(jìn)行查詢,提供決策支持。
3.4惡意發(fā)帖分析監(jiān)測與追蹤系統(tǒng)
惡意發(fā)帖分析監(jiān)測與追蹤系統(tǒng)主要是對(duì)指定網(wǎng)站的帖子進(jìn)行數(shù)據(jù)采集存儲(chǔ)到數(shù)據(jù)庫中,再對(duì)庫中的帖子情況進(jìn)行分析,實(shí)現(xiàn)實(shí)時(shí)監(jiān)測和追蹤。主要功能如下:
1) 對(duì)庫中的帖子提取關(guān)鍵詞,進(jìn)行文本傾向性分析。
2) 根據(jù)極性不一樣,利用分類算法為帖子指定不同的惡意等級(jí),并根據(jù)等級(jí)不一樣不同的預(yù)警信息。
3) 利用聚類算法對(duì)帖子實(shí)現(xiàn)自動(dòng)歸類,挖掘出發(fā)帖人之間的團(tuán)伙關(guān)系。
4) 文本近似度分析,發(fā)現(xiàn)改變手法多次發(fā)帖的發(fā)帖人。
5) 利用IP地址及發(fā)帖人之間的關(guān)系定位發(fā)帖人,實(shí)現(xiàn)對(duì)惡意發(fā)帖的檢測與追蹤。
帖子檢測是本系統(tǒng)的核心,即帖子按惡意度分級(jí),將一定級(jí)別的惡意帖子收集到一個(gè)庫中,然后進(jìn)行統(tǒng)計(jì),分為兩種情況:
1) 完全相同的人發(fā)帖(同一個(gè)人用一個(gè)賬號(hào)多次發(fā)帖和同一個(gè)人用多個(gè)賬號(hào)一次發(fā)帖,如果多個(gè)賬號(hào)發(fā)的是同一個(gè)帖子,那么應(yīng)該是同一個(gè)人)。
2) 類似的人發(fā)帖(一個(gè)人改變手法,多次發(fā)帖),或者可以看成是一個(gè)團(tuán)伙。
惡意帖子檢測流程如圖4所示。
建立惡意帖子庫后,利用相應(yīng)的字段信息,例如:發(fā)帖者,發(fā)帖網(wǎng)站,發(fā)帖者賬號(hào),帖子內(nèi)容,跟帖者,跟帖內(nèi)容。利用數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則挖掘技術(shù)以及其他技術(shù),實(shí)現(xiàn)如下功能。
1) 找出同一個(gè)賬號(hào)多次發(fā)出同一惡意帖子,進(jìn)而定位這個(gè)賬號(hào),進(jìn)行跟蹤,同IT部門和技術(shù)部門合作,找出發(fā)帖者的IP地址,確認(rèn)發(fā)帖者的位置和身份。
2) 直接根據(jù)發(fā)帖內(nèi)容進(jìn)行比對(duì),如果是內(nèi)容相同的帖子,來自于不同和和不同賬號(hào),根據(jù)這些賬號(hào)是否由同一個(gè)IP地址發(fā)出,確認(rèn)是否為同一個(gè)人用多個(gè)賬號(hào)發(fā)帖;如果IP不同就有可能是一個(gè)同伙或組織用多個(gè)賬號(hào)發(fā)出同一個(gè)帖子。
3) 根據(jù)內(nèi)容的相似度,找出類似的發(fā)帖,找出其賬號(hào)之間的關(guān)聯(lián),確定是否為一個(gè)人改變手法,多次發(fā)帖。
4) 找出惡意帖子庫中的跟帖關(guān)系,建立關(guān)系網(wǎng)絡(luò)圖,利用網(wǎng)絡(luò)理論中子圖發(fā)現(xiàn)和查詢技術(shù),找出密集型子圖,發(fā)現(xiàn)惡意發(fā)帖團(tuán)伙。
5) 根據(jù)密集子圖的密集程度和活躍程度,確定發(fā)帖信息的危害程度以及突發(fā)事件的可能性,以便及時(shí)預(yù)警。
4 結(jié)束語
本系統(tǒng)建立面向主題的、關(guān)鍵詞的、行業(yè)的、主流網(wǎng)絡(luò)平臺(tái)的惡意發(fā)帖信息的語料庫;搭建了惡意發(fā)帖檢測分析平臺(tái),及時(shí)識(shí)別惡意發(fā)帖信息,使用網(wǎng)絡(luò)發(fā)帖分析檢測引擎,對(duì)惡意發(fā)帖信息進(jìn)行分析處理;制定通用的惡意發(fā)帖分級(jí)制度,建立惡意發(fā)帖監(jiān)控預(yù)警標(biāo)準(zhǔn)。建立惡意發(fā)帖控制處理平臺(tái),建立惡意發(fā)帖信息的追蹤和預(yù)警體系。系統(tǒng)運(yùn)行穩(wěn)定正常,具有良好的實(shí)際價(jià)值。
參考文獻(xiàn):
[1] 山秀明.互聯(lián)網(wǎng)復(fù)雜性研究進(jìn)展[J].北京郵電大學(xué)學(xué)報(bào), 2006,29 (1): 1-8.
[2] 謝新洲,肖雯.我國網(wǎng)絡(luò)信息傳播的輿論化趨勢及其所帶來的問題分析[J].情報(bào)理論與實(shí)踐,2006,29 (6) :645-649.
[3] Jiawei Han.數(shù)據(jù)挖掘概念與技術(shù)[M].北京.機(jī)械工業(yè)出版社,2012.
篇10
關(guān)鍵詞:職位 找工作 推薦系統(tǒng) 微博 好友的公司
中圖分類號(hào):TP391.3 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2013)11-0123-04
1 引言
社交網(wǎng)絡(luò)(Social Networking Service)[1],指旨在幫助人們建立社會(huì)性的互聯(lián)網(wǎng)應(yīng)用服務(wù)或者網(wǎng)站平臺(tái)。在國內(nèi),緊隨國外社交網(wǎng)絡(luò)的節(jié)奏,誕生了人人網(wǎng),新浪微博,騰訊朋友網(wǎng)等用戶過億的社交網(wǎng)絡(luò),中國有3億人活躍在社交網(wǎng)絡(luò),預(yù)計(jì)未來兩年將達(dá)到5億人。中國正在成為世界上最大的社交網(wǎng)絡(luò)國家[2]。
當(dāng)前伴隨著社交網(wǎng)絡(luò)的流行,社交招聘[3]開始嶄露頭角,成為大部分企業(yè)和求職者的首選工具之一。僅在新浪微博,就活躍著超過5萬家企業(yè)。
數(shù)據(jù)顯示,2012年在美國的受訪公司中有超過五分之四的職位將通過社交網(wǎng)絡(luò)來招聘,職業(yè)社交網(wǎng)站Linkedln已經(jīng)取代報(bào)紙成為新職位的信息來源[4],73%的財(cái)富100強(qiáng)公司通過其進(jìn)行人員招聘。據(jù)艾瑞咨詢調(diào)查數(shù)據(jù)顯示,比起傳統(tǒng)的簡歷招聘,職業(yè)社交網(wǎng)絡(luò)的招聘成功率更高,兩者比例大致為2:8[5]。
國內(nèi)網(wǎng)絡(luò)招聘的應(yīng)用面逐漸擴(kuò)大,社交網(wǎng)站作為新興的網(wǎng)絡(luò)招聘方式正在興起。根據(jù)艾瑞咨詢報(bào)告顯示,2010年中國網(wǎng)絡(luò)招聘市場[6]規(guī)模逼近15億元,2011年三季度中國網(wǎng)絡(luò)招聘市場營收規(guī)模達(dá)5.9億元,同比增長32.7%,環(huán)比增長10.0%,較以往呈現(xiàn)出較快增長。微博作為一個(gè)新興社交媒介,僅在2010年,國內(nèi)微博訪問用戶規(guī)模已達(dá)到12521.7萬人。
而利用社交網(wǎng)絡(luò)求職,求職者面臨著兩大問題:
一是,活躍的企業(yè)及個(gè)人招聘者實(shí)時(shí)動(dòng)態(tài)的招聘信息,對(duì)求職者來說信息過載,無法快速找到合適的職位。
二是,通過內(nèi)部推薦,求職者能更容易獲取匹配的職業(yè)機(jī)會(huì)。但目前用戶在社交網(wǎng)絡(luò)上通過自己的好友推薦工作機(jī)會(huì)[7]的流程復(fù)雜,需要先鎖定感興趣的職位,篩選出感興趣的公司,再從自己的好友中檢索與目標(biāo)公司,職位相關(guān)的好友進(jìn)行聯(lián)系,非常繁復(fù)。
以上問題就是本文設(shè)計(jì)的推薦系統(tǒng)[8]試著解決的問題,設(shè)計(jì)一套基于求職者職業(yè)信息和求職者及其社交網(wǎng)絡(luò)好友之間的相關(guān)性來過濾社交網(wǎng)絡(luò)職位信息的系統(tǒng),它的意義在于:
根據(jù)求職者的社交網(wǎng)絡(luò)信息,簡歷,偏好,為求職者提供個(gè)性化推薦[9]來獲取更好相關(guān)性的工作機(jī)會(huì)。
根據(jù)求職者社交網(wǎng)絡(luò)好友所在的公司,向求職者推薦這些公司的工作機(jī)會(huì),使求職者得到更符合自己圈子的工作機(jī)會(huì)。
2 項(xiàng)目功能介紹
2.1 搜索、訂閱、推送實(shí)時(shí)社交網(wǎng)絡(luò)職位
為解決當(dāng)前社交網(wǎng)絡(luò)信息過載,難以實(shí)時(shí)檢索出有效的職位相關(guān)信息,本文設(shè)計(jì)的系統(tǒng)首先設(shè)計(jì)爬蟲系統(tǒng), 并進(jìn)行分詞判斷, 提取可能是職位的社交信息作為做一個(gè)社交化職位推薦系統(tǒng)的職位數(shù)據(jù)源,提供社交網(wǎng)絡(luò)職位的實(shí)時(shí)搜索,訂閱,推送。
2.2 利用社交關(guān)系挖掘來推薦職位
為用戶推薦自己社交網(wǎng)絡(luò)中的好友所在的公司正在招聘的職位是一種基于社交化的推薦(Social Recommendation[10]), 本文設(shè)計(jì)的推薦系統(tǒng)利用用戶現(xiàn)有的“新浪微博”好友關(guān)系,分析用戶的好友所在的公司分布,基于這個(gè)好友的公司的集合為用戶推薦相關(guān)社交網(wǎng)絡(luò)職位,提高職位與用戶的相關(guān)度。
3 基于社交關(guān)系的職位推薦系統(tǒng)的實(shí)現(xiàn)
基于社交關(guān)系的推薦需要基于用戶現(xiàn)有社交網(wǎng)絡(luò)的好友進(jìn)行數(shù)據(jù)挖掘,那么選擇從什么社交網(wǎng)絡(luò)導(dǎo)入好友信息就非常重要,經(jīng)過我個(gè)人新浪微博賬號(hào)測試,我新浪微博上的互粉好友大概204人,其中填寫了職業(yè)信息的有70人,大概有30%左右;而人人和騰訊微博,豆瓣等社交網(wǎng)絡(luò)的已有職業(yè)信息還太少,Linkedin的國內(nèi)用戶數(shù)相對(duì)較少,所以首先導(dǎo)入新浪微博的好友能解決推薦的冷啟動(dòng)問題,幫用戶挖掘出他的好友都在哪里工作,圖1為在系統(tǒng)有4萬條職位信息時(shí),以我個(gè)人賬號(hào)數(shù)據(jù)為原型的基于好友公司職位推薦的職位情況:
3.1 微博職位信息的獲取
從社交網(wǎng)絡(luò)海量信息中獲取職位信息需要數(shù)據(jù)的采集,語義分析,判斷,我們首先選取了新浪微博作為數(shù)據(jù)源,通過一組特定的招聘領(lǐng)域常用詞匯,利用新浪微博API獲取匹配的微博作為源數(shù)據(jù)。下圖展示了通過新浪微博獲取微博職位信息的全過程,詳見實(shí)現(xiàn)細(xì)節(jié)如圖2:
3.1.1 分布式爬蟲
爬蟲是指自動(dòng)化抓取信息的程序,在本系統(tǒng)中主要為了獲取新浪微博上的微博信息,供語義分析后提取系統(tǒng)所需的職位信息。
本文中的爬蟲程序基于Python[11]實(shí)現(xiàn),由于新浪微博api受限,單個(gè)爬蟲賬號(hào)一次只能采集500粉絲,歷史微博數(shù)據(jù)只能采集最新的200條,同時(shí)對(duì)IP也進(jìn)行了限制,所以我們需要用多賬號(hào)分布式的方式來采集微博數(shù)據(jù)。
分布式爬蟲[12]采用主從結(jié)構(gòu),控制器和終端:(1)控制器控制(master)全部爬行器,負(fù)責(zé)爬蟲任務(wù)的調(diào)度,同步和終止命令。(2)終端(slave)負(fù)責(zé)信息的采集,將拓?fù)湫畔⒎答伩刂破鳌?/p>
3.1.2 中文分詞
為了能夠?qū)Σ杉降奈⒉?shù)據(jù)進(jìn)行是否為職位的語義分析,首先要將微博分詞,這里我們采用了Jieba分詞引擎,下面對(duì)分詞用到的算法做一個(gè)簡單分析:
(1)基于Trie樹結(jié)構(gòu)實(shí)現(xiàn)高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構(gòu)成的有向無環(huán)圖(DAG)。
(2)采用了動(dòng)態(tài)規(guī)劃查找最大概率路徑, 找出基于詞頻的最大切分組合。
(3)對(duì)于未登錄詞,采用了基于漢字成詞能力的HMM模型,使用了Viterbi算法。
總結(jié)一下Jieba的分詞過程:加載字典,包括Jieba的詞典和我們手工錄入的領(lǐng)域信息詞典,包括公司中文名稱,職業(yè)名等,生成trie樹。?給定待分詞的句子,使用正則獲取連續(xù)的中文字符和英文字符,切分成短語列表,對(duì)每個(gè)短語使用DAG(查字典)和動(dòng)態(tài)規(guī)劃,得到最大概率路徑,對(duì)DAG中那些沒有在字典中查到的字,組合成一個(gè)新的片段短語,使用HMM模型進(jìn)行分詞,也就是作者說的識(shí)別新詞,即識(shí)別字典外的新詞。使用python的yield語法生成一個(gè)詞語生成器,逐詞語返回.當(dāng)然,我認(rèn)為直接返回list,效果也差不到哪里去。
通過Jieba,我們對(duì)所有采集到的微博信息進(jìn)行全分詞,將分詞結(jié)果作為索引和微博信息一并存入數(shù)據(jù)庫,供職位判斷程序進(jìn)行是否是職位的判斷,同時(shí)索引也為系統(tǒng)提供了搜索功能。
3.1.3 基于布爾邏輯的職位信息判斷
微博信息限定只有140字,而短文本自然語言的語義理解是非常困難的,所以我們采用了一個(gè)簡單的布爾邏輯判斷+人工審核的方法。
首先我們建立了兩個(gè)關(guān)鍵詞庫A和B:
A中加入職位可能包含的關(guān)鍵字,包括招聘關(guān)鍵字,職位名稱,技能名稱等;B中加入需要過濾的關(guān)鍵字,必如會(huì)引起混淆的詞語。
然后,對(duì)微博文本進(jìn)行全模式分詞,配合我們已經(jīng)在上面說的加入自定義詞庫,將微博文本分詞為一個(gè)關(guān)鍵字集合。
最后,我們根據(jù)A和B對(duì)微博進(jìn)行匹配:
If A and B:該微博非職位信息
If A and NOT B:該微博可能為職位信息
根據(jù)我們初期的數(shù)據(jù)量,每天采集1000條左右職位,固定時(shí)間進(jìn)行人工審核能保證職位的質(zhì)量。同時(shí)此職位判斷程序的輸出接口固定,可以在之后的開發(fā)中替換為基于神經(jīng)網(wǎng)絡(luò)或決策樹的自動(dòng)化判斷程序。
3.2 用戶的好友關(guān)系及其好友的職業(yè)信息的獲取
向用戶做社交化職位推薦需要用戶的好友關(guān)系,現(xiàn)在很多主流的社交平臺(tái)都已經(jīng)開放了自己的好友關(guān)系,作為我們職位數(shù)據(jù)源的新浪微博也開放了自己的好友關(guān)系,這為我們基于用戶好友公司向用戶推薦職位提供了數(shù)據(jù)支持。
要獲取用戶在新浪微博上的社交關(guān)系,首先我們需要經(jīng)過用戶身份驗(yàn)證,新浪微博使用的是OAuth2.0[13]協(xié)議來鑒權(quán)。OAuth2.0的協(xié)議授權(quán)流程如下:其中Client指第三方應(yīng)用,Resource Owner指用戶,Authorization Server是我們的授權(quán)服務(wù)器,Resource Server是API服務(wù)器。
獲取用戶好友職業(yè)信息的流程:(1)用戶OAuth授權(quán)。(2)獲取用戶的互粉好友列表。(3)讀取用戶互粉好友的職業(yè)信息
3.3 職業(yè)信息中公司名的預(yù)處理
社交網(wǎng)絡(luò)大都未對(duì)用戶的職業(yè)信息進(jìn)行校驗(yàn),所以會(huì)出現(xiàn)大量重復(fù)的公司或者公司的不同名稱,那么進(jìn)行搜索和推薦的前提職業(yè)信息中公司名的預(yù)處理。
3.3.1 重復(fù)公司合并
按公司名搜索職位必須保證公司的獨(dú)一性,但從社交網(wǎng)絡(luò)采集來得公司名稱比較混亂,不能直接用于檢索,所以我們開發(fā)了工具合并所有收錄入系統(tǒng)的公司名。
3.3.2 為合并后的公司名添加別名
職位搜索引擎需要考慮用戶搜索公司或職位的習(xí)慣,用戶可能會(huì)用產(chǎn)品名稱或者團(tuán)隊(duì)名稱搜索該產(chǎn)品團(tuán)隊(duì)是否搜索職位,比如“百度人才”是百度的招聘產(chǎn)品,在我們將公司名稱合并后,為了盡量覆蓋我們搜索某一公司關(guān)鍵字時(shí)能夠?qū)⑼灰馑嫉脑~匯一并搜索,我們需要給公司名加上別名,比如將“百度人才”加為“百度”的別名,這樣用戶在搜索“百度”時(shí)我們會(huì)將“百度人才”的關(guān)鍵字一并返回,來給用戶提供更多的相關(guān)信息。
3.3.3 添加同義詞
當(dāng)用戶搜索公司時(shí),會(huì)用一些中文簡寫,或者英文翻譯,比如淘寶網(wǎng)可以簡寫為“淘寶”或者翻譯為“Taobao”,這時(shí)這三個(gè)詞是同義的,我們會(huì)都轉(zhuǎn)換為“淘寶網(wǎng)”進(jìn)行搜索,同時(shí)因?yàn)槲覀優(yōu)椤疤詫毦W(wǎng)”加入大量的別名,可以保證用戶搜索出最為豐富的結(jié)果。
3.4 好友公司職位的匹配
在獲取用戶關(guān)系和用戶好友公司信息時(shí),我們已經(jīng)獲得了一個(gè)用戶好友公司分布的集合,經(jīng)過公司名合并之后,獲取到了用戶真實(shí)的好友公司分布,用新的集合里的公司名依次搜索職位,將得到的職位集合返回,作為用戶好友公司的職位,過程圖解如下:
進(jìn)過上述過程,我們可以獲取到系統(tǒng)中用戶好友所在的公司招聘的職位分別有哪些,以本人新浪微博賬號(hào)@Wangchao0721索引3個(gè)月以內(nèi)[14]的職位,得到的效果如下圖所示:
4 結(jié)論
本文中作者運(yùn)用社交網(wǎng)絡(luò)數(shù)據(jù)采集和挖掘,利用用戶現(xiàn)有的社交網(wǎng)絡(luò)中的社交關(guān)系,構(gòu)建推薦系統(tǒng),為用戶推薦其好友所在的公司正在招聘的職位,并介紹了整個(gè)系統(tǒng)架構(gòu)的原理,從數(shù)據(jù)的采集,中文分詞的原理,職位的判斷,用戶所填的公司名的歸并,到最后好友公司職位的提煉。
現(xiàn)在社交網(wǎng)絡(luò)愈演愈烈,有大量潛在的求職者和招聘者沉淀了大量數(shù)據(jù),但國內(nèi)招聘領(lǐng)域并沒有很好的產(chǎn)品利用到這些數(shù)據(jù)。本文希望能夠通過推薦系統(tǒng)的方式,讓用戶擺脫千人一面的求職網(wǎng)站,做到基于社交關(guān)系的個(gè)人化推薦,同時(shí)給招聘行業(yè)提供一種技術(shù)解決方案,利用現(xiàn)有的公司員工推薦靠譜的求職者,能夠盡量降低人力在整個(gè)招聘過程中的比重,從而降低整個(gè)流程的成本問題。
參考文獻(xiàn)
[1]Louis Yu,Valerie King.The Evolution of Friendships in Chinese Online Social Networks.IEEE International Conference on Social Computing - SocialCom , pp. 81-87, 2010.
[2]Louis Yu,Valerie King.The Evolution of Friendships in Chinese Online Social Networks.IEEE International Conference on Social Computing - SocialCom , pp. 81-87, 2010.
[3]Digging social networks by mashups to support recruitment and selection functions in university student intake process.IEEE International Workshop on Business Applications of Social Network Analysis - BASNA ,2010.10.1109/BASNA.2010.5730303.
[4]李豫川.探析網(wǎng)絡(luò)招聘現(xiàn)狀.
[5]Knowing Me, Knowing You:A Case Study of Social Networking Sites and Participant Recruitment[J]Andrew L.Brooks Elizabeth F.Churchill.
[6]Xianbi Huang.FINDING NICHES:SOCIAL NETWORKS AND JOB SEARCH IN TRANSITIONAL CHINA.
[7]?;蹖?,徐辰雪.社交網(wǎng)站——人才招聘的新渠道.全國商情?理論研究,2011,(9).
[8]劉建國,周濤,郭強(qiáng),等.個(gè)性化推薦系統(tǒng)評(píng)價(jià)方法綜述[J].復(fù)雜系統(tǒng)與復(fù)雜性科學(xué). 2009, 6(003): 1-10.
[9]劉建國,周濤,汪秉宏.個(gè)性化推薦系統(tǒng)的研究進(jìn)展[J].自然科學(xué)進(jìn)展. 2009, 19(001): 1-15.
[10]J.Srivastava:Data mining for social network analysis. Intelligence and Security Informatics,2008.
[11]Magnus Lie Hetland . Python and the Web.
[12]王鳳紅.簡單分布式網(wǎng)絡(luò)爬蟲模型的設(shè)計(jì)與分析.中國現(xiàn)代教育裝備.2008.
熱門標(biāo)簽
網(wǎng)絡(luò)安全論文 網(wǎng)絡(luò)營銷論文 網(wǎng)絡(luò)倫理 網(wǎng)絡(luò)銀行論文 網(wǎng)絡(luò)輿論論文 網(wǎng)絡(luò)輿情論文 網(wǎng)絡(luò)文學(xué)論文 網(wǎng)絡(luò)經(jīng)濟(jì)論文 網(wǎng)絡(luò)建設(shè)論文 網(wǎng)絡(luò)輿論 市場服務(wù)中心 市場服務(wù) 市場共分理論 市場供需
相關(guān)文章
2神經(jīng)網(wǎng)絡(luò)在工程造價(jià)中的運(yùn)用
3企業(yè)社會(huì)化網(wǎng)絡(luò)招聘探討
4網(wǎng)絡(luò)時(shí)代對(duì)分課堂對(duì)學(xué)生的影響