蜘蛛池出租蜘蛛池出租

蜘蛛池網(wǎng)站收錄技術(shù)

站群收錄:面向網(wǎng)站群的主題爬蟲(chóng)研

引言

從 Web 上收集特定主題數(shù)據(jù)的技術(shù)可分為兩類:

①基于搜索的發(fā)現(xiàn)技術(shù)[1-3],主要依靠搜索引擎查找網(wǎng)頁(yè);

②基 于爬行的發(fā)現(xiàn)技術(shù)[4-6],主要利用 Web 鏈接結(jié)構(gòu)從已下載的 網(wǎng)頁(yè)中提取新鏈接,從而發(fā)現(xiàn)更多潛在的目標(biāo)網(wǎng)頁(yè)。

前者 適用于存在一些關(guān)鍵字可區(qū)分主題數(shù)據(jù)和其它數(shù)據(jù)的情 況,后者靈活性更強(qiáng),代表技術(shù)就是聚焦爬蟲(chóng)。 與普通爬蟲(chóng)相比,聚焦爬蟲(chóng)有明確的目標(biāo)指向性,在 爬取網(wǎng)頁(yè)過(guò)程中能夠丟棄不相關(guān)頁(yè)面,并始終跟蹤可能導(dǎo) 向“相關(guān)”頁(yè)面的超鏈接,因而能更有效地收集特定主題的 數(shù)據(jù)。聚焦爬蟲(chóng)框架與一般爬蟲(chóng)基本相同,也即是說(shuō),它 從幾個(gè)種子鏈接(Seed URL)開(kāi)始,下載相關(guān)頁(yè)面并提取其 中包含的超鏈接,然后跟蹤這些超鏈接以獲取更多頁(yè)面。 不斷重復(fù)該過(guò)程,直到無(wú)法以這種方式找到更多網(wǎng)頁(yè)。

聚 焦爬蟲(chóng)的特殊之處在于,其會(huì)引入兩個(gè)分類器——路徑判 別器目標(biāo)判別器,以決定某個(gè)超鏈接是否值得進(jìn)一步訪 問(wèn),以及某頁(yè)面是否值得保存。其中,路徑判別器負(fù)責(zé)判 斷鏈接值得跟蹤與否,目標(biāo)判別器負(fù)責(zé)根據(jù)網(wǎng)頁(yè)與主題相關(guān)與否對(duì)其進(jìn)行歸類。 聚焦爬蟲(chóng)研究主要集中在 3 個(gè)方面:

一是如何獲得更 有效的分類器,例如使用在線學(xué)習(xí)策略構(gòu)建路徑判別器 (目標(biāo)判別器依然需要進(jìn)行預(yù)訓(xùn)練)[7,14-18];

二是如何獲得更 好的種子鏈接,

例如維埃拉等[3] 利用 Bing 搜索引擎,使用相 關(guān)反饋(Relevance Feedback)收集種子;

三是如何設(shè)計(jì)更好 的爬行策略[8-12,19-22]。盡管這些研究從各個(gè)方面對(duì)聚焦爬 蟲(chóng)進(jìn)行了改進(jìn),預(yù)先訓(xùn)練分類器的工作仍不可省略,因此 造成了爬蟲(chóng)使用的不便。

由于其分類器是任務(wù)相關(guān)的,換 一個(gè)目標(biāo)主題就要重新手動(dòng)構(gòu)建數(shù)據(jù)集進(jìn)行訓(xùn)練。 

最近,KIEN[13] 將聚焦爬行描述為一個(gè)排序問(wèn)題,其跳 過(guò)分類器訓(xùn)練,只使用一些示例網(wǎng)站作為輸入。從樣本網(wǎng) 站中提取關(guān)鍵詞,再通過(guò)關(guān)鍵字搜索、前向爬行和后向爬 行擴(kuò)展樣本網(wǎng)站集,其設(shè)計(jì)的系統(tǒng)根據(jù)與當(dāng)前樣本網(wǎng)站的 相似性選擇新的樣本網(wǎng)站。結(jié)果表明,通過(guò)適當(dāng)?shù)南嗨菩?度量,基于排序的聚焦爬蟲(chóng)可取得與基于分類器的聚焦爬 蟲(chóng)相似的性能表現(xiàn)。但其問(wèn)題設(shè)置與本文不同,其目標(biāo)是 得到相關(guān)網(wǎng)站,而不是網(wǎng)頁(yè)。因此,以上實(shí)踐啟發(fā)了本文 用排序器替換預(yù)訓(xùn)練分類器構(gòu)建自舉聚焦爬蟲(chóng),以解決網(wǎng) 站群內(nèi)部的主題網(wǎng)頁(yè)發(fā)現(xiàn)問(wèn)題。 本 文 設(shè) 計(jì) 一 種 自 舉 聚 焦 爬 蟲(chóng)(Bootstrapping Focused Crawler,簡(jiǎn)稱 BFC),該方法為聚焦爬蟲(chóng)提供一些示例網(wǎng)頁(yè), 而不是預(yù)先訓(xùn)練的分類器,從而可略過(guò)繁復(fù)的分類器訓(xùn)練 過(guò)程。該方法適用于特定網(wǎng)站群中的主題數(shù)據(jù)收集,例如 收集各大學(xué)錄取信息、各公司招聘信息、各政府網(wǎng)站的政 策信息等。圖 1 展示了兩個(gè)爬取任務(wù)示例。任務(wù)難點(diǎn)在 于,上千所高校、公司雖然網(wǎng)站架構(gòu)類似,但每個(gè)節(jié)點(diǎn)對(duì)應(yīng) 的超鏈接文字用詞千差萬(wàn)別,路徑深度與目標(biāo)頁(yè)面特征也 存在顯著差異。因此,在不預(yù)訓(xùn)練分類器的前提下,只提 供少量樣例網(wǎng)頁(yè)充當(dāng)爬蟲(chóng)向?qū)?,是一種新的嘗試。 由于特定網(wǎng)站群是眾多一手信息的源頭,如果能及 時(shí)、有效地收集相關(guān)信息并匯聚起來(lái),將極大地降低信息 瀏覽門檻,并催生出數(shù)據(jù)可視化等應(yīng)用。因此,本文提出 的網(wǎng)站群爬蟲(chóng)具有很強(qiáng)的現(xiàn)實(shí)意義

image.png

image.png

1 網(wǎng)站群爬蟲(chóng)爬取任務(wù)示例 

注:粗體字表示爬蟲(chóng)從網(wǎng)站根節(jié)點(diǎn)出發(fā)的最優(yōu)爬行路徑


1 自舉聚焦爬蟲(chóng) 自舉聚焦爬蟲(chóng)框架如圖 2 所示

image.png


2 自舉聚焦爬蟲(chóng)框架 程序有兩個(gè)輸入:

一個(gè)是網(wǎng)站群站點(diǎn)(Website)列表, 一個(gè)是少量樣例網(wǎng)頁(yè),每個(gè)樣例網(wǎng)頁(yè)包含其所在站點(diǎn)的根 鏈接和自身鏈接這一對(duì)元素。

首先,對(duì)樣例網(wǎng)頁(yè)進(jìn)行路徑 提取與特征提取。在傳統(tǒng)聚焦爬蟲(chóng)框架下,需要一個(gè)能引 導(dǎo)爬蟲(chóng)到目標(biāo)節(jié)點(diǎn)的向?qū)В窂脚袆e器),以及能夠區(qū)分目 標(biāo)節(jié)點(diǎn)與其它節(jié)點(diǎn)的評(píng)委(目標(biāo)判別器)。路徑提取目標(biāo) 是構(gòu)建路徑判別器,而特征提取目標(biāo)是構(gòu)建目標(biāo)判別器。 區(qū)別在于,本文提出的自舉聚焦爬蟲(chóng)用相似度排序模塊替 代傳統(tǒng)框架下的目標(biāo)判別器,用類似于強(qiáng)化學(xué)習(xí)的手段在 · 110 ·8 期 線構(gòu)建路徑判別器。然后利用兩個(gè)判別器從輸入的網(wǎng)站 群根節(jié)點(diǎn)開(kāi)始循環(huán)抓取網(wǎng)頁(yè),并不斷把最相關(guān)的網(wǎng)頁(yè)加入 網(wǎng)頁(yè)樣例庫(kù),用于更新兩個(gè)判別器。該流程循環(huán)進(jìn)行,直 到無(wú)法發(fā)現(xiàn)更多網(wǎng)頁(yè)或達(dá)到迭代次數(shù)上限為止。 1.1 路徑判別器 

路徑判別器本質(zhì)上是一個(gè)二分類器:輸入一個(gè)超鏈接 短文本,輸出其是否與要爬取的主題相關(guān),或沿著該鏈接 是否能找到與主題相關(guān)網(wǎng)頁(yè)。在網(wǎng)站群爬蟲(chóng)這個(gè)具體應(yīng) 用場(chǎng)景中,存在一條從站點(diǎn)根節(jié)點(diǎn)到當(dāng)前頁(yè)面的超鏈接路 徑(見(jiàn)圖 1),可利用這條路徑上的前序文本增強(qiáng)當(dāng)前鏈接 短文本的判斷準(zhǔn)確度。因此,本文通過(guò)路徑提取將傳統(tǒng)路 徑判別器的單一短文本輸入擴(kuò)充為短文本列表。 在頁(yè)面爬取過(guò)程中,對(duì)每個(gè)待判別的路徑 t 打分,如果 分?jǐn)?shù)大于閾值,則判定為相關(guān)鏈接。計(jì)算公式如下: f (t) = ?w ? tαw 其中,超文本 w 是路徑 t 中的詞,αw w 的權(quán)重,其 初始化使用了樣例庫(kù)提供的信息。具體而言,本文把從樣 例網(wǎng)頁(yè)中提取的路徑集中起來(lái),分詞后統(tǒng)計(jì)每個(gè)詞的詞 頻,形成各詞的初始權(quán)重。其它詞默認(rèn)初始權(quán)重為-1,以 懲罰路徑中存在過(guò)多未知詞。在爬取過(guò)程中,αw 采用類似 強(qiáng)化學(xué)習(xí)的策略進(jìn)行更新。每當(dāng)一個(gè)路徑 t 被判定為相 關(guān),其包含詞的對(duì)應(yīng)權(quán)重都消耗 1;每當(dāng)找到一個(gè)目標(biāo)網(wǎng) 頁(yè),其對(duì)應(yīng)路徑中的詞權(quán)重獎(jiǎng)勵(lì) 2。


1.2 相似度排序 

在目標(biāo)判別環(huán)節(jié),本文用排序器替換預(yù)訓(xùn)練的分類 器。

具體而言,爬蟲(chóng)根據(jù)訪問(wèn)頁(yè)面與示例網(wǎng)頁(yè)的相似性對(duì) 其進(jìn)行排序,將相似度大于閾值的網(wǎng)頁(yè)作為相關(guān)網(wǎng)頁(yè)輸 出,并同時(shí)將排名前 p%的網(wǎng)頁(yè)添加到示例庫(kù),開(kāi)始下一輪 迭代。 在計(jì)算網(wǎng)頁(yè)相似度時(shí),采用以下公式: s( x) = -dcos( xx) 其中,dcos 是余弦距離,x 是從待評(píng)估網(wǎng)頁(yè)標(biāo)題和內(nèi)容 中提取文本的詞袋模型(Bag of Words)向量表示,x 是樣例 網(wǎng)頁(yè)整合成單一文檔生成的詞袋模型向量表示。該公式 計(jì)算的相似度是目標(biāo)網(wǎng)頁(yè)與樣例庫(kù)的總體平均相似性。 

2 爬取效果

2.1 實(shí)驗(yàn)任務(wù)與數(shù)據(jù)集 

本文按照中國(guó)大學(xué)排行榜,收集了中國(guó)排名前 200 的 大學(xué)官方網(wǎng)站頁(yè)面集合作為實(shí)驗(yàn)數(shù)據(jù)集。為檢驗(yàn)爬蟲(chóng)性 能,定義主題爬取任務(wù)如下:獲取高校歷史錄取分?jǐn)?shù)相關(guān) 頁(yè)面。本文手動(dòng)標(biāo)記每個(gè)站點(diǎn)與所需主題相關(guān)頁(yè)面(URL) 作為真實(shí)標(biāo)簽,數(shù)據(jù)集頁(yè)面總數(shù)為 41 600,其中正樣本數(shù)量 為 1 033。 為得到樣例網(wǎng)頁(yè)庫(kù)作為算法輸入,本文從 200 個(gè)網(wǎng)站 中隨機(jī)抽取 3 個(gè)網(wǎng)站,并為每個(gè)網(wǎng)站標(biāo)記一個(gè)示例頁(yè)面,得 到 3 個(gè)樣例(每個(gè)樣例含有一對(duì)數(shù)據(jù),即目標(biāo)網(wǎng)頁(yè)的 URL 以 及所在網(wǎng)站根節(jié)點(diǎn)的 URL)。通過(guò)對(duì) 4 組使用不同樣例集 的爬蟲(chóng)計(jì)算平均得分,得到 BFC 性能得分。 

2.2 效果展示 

本 文 選 取 傳 統(tǒng) 聚 焦 爬 蟲(chóng)(FC)作 為 基 線 算 法 進(jìn) 行 對(duì) 比。出于公平性考慮,FC 所需分類器基于樣例網(wǎng)頁(yè)庫(kù)的少 量正樣本,采用 KNN 算法獲得。本文提出的自舉聚焦爬蟲(chóng) (BFC)與基線算法 FC 在高校歷史錄取分?jǐn)?shù)爬取任務(wù)中的 表現(xiàn)對(duì)比如表 1 所示。 1 BFC FC 在錄取分?jǐn)?shù)爬取任務(wù)中表現(xiàn)對(duì)比 FC BFC Precision 0.62 0.35 Recall 0.16 0.62 F1 0.25 0.45 由表 1 可以看到,BFC 的準(zhǔn)確率(Precision)比傳統(tǒng)方法 FC 低很多,其原因是 FC 爬取頁(yè)面數(shù)量較少,以極低的召回 率(Recall)為代價(jià)獲得了較高準(zhǔn)確率。然而,在爬蟲(chóng)實(shí)際 使用過(guò)程中,召回率更為重要,因?yàn)橐M可能全面地收集 所需信息,而在自動(dòng)篩選環(huán)節(jié)一旦遺漏相關(guān)信息,就很難 再找到目標(biāo)網(wǎng)頁(yè)。在召回率方面,BFC 的表現(xiàn)遠(yuǎn)好于 FC。 綜合準(zhǔn)確率和召回率的指標(biāo) F1-Score 也顯示 BFC 的性能 優(yōu)于 FC。 爬取部分結(jié)果如

3 所示。圖中 name 列輸出爬取站 點(diǎn),url 列輸出任務(wù)相關(guān)頁(yè)面網(wǎng)址,path 列輸出從網(wǎng)站根節(jié) 點(diǎn)到頁(yè)面的路徑,score是該頁(yè)面相關(guān)性得分

image.png

參考文獻(xiàn): 

1DISHENG Q,LUCIANO BXIN L,et al. Dexterlarge-scale discov? ery and extraction of product specifications on the webC. Proceed? ings of the VLDB Endowment20152194-2205. 

2XUEZHI W,CONG Y,SIMON B,et al. Relevant document discovery for fact-checking articlesC. In Companion Proceedings of the Web Conference,2018525-533. 

3KARANE VLUCIANO B,ALTIGRAN S D S,et al. Finding seeds to bootstrap focused crawlersC. In The World Wide Web Confer? ence,2016449-474. 

4LUCIANO B,SRINIVAS B,VIVEK K R S. Crawling back and forthusing back and out links to locate bilingual sitesC. In Proceedings of 5th International Joint Conference on Natural Language Processing, 2011429-437. 

5TSUYOSHI M. Finding related web pages based on connectivity infor? mation from a search engineC. In WWW Posters2001. 

6LUCIANO B. Harvesting forum pages from seed sitesC. In Interna? tional Conference on Web Engineering,2017457-468. 

7MCCALLUM A,NIGAM K,RENNIE Jet al. A machine learning ap? proach to building domain-specific search enginesC. Proceedings of the Sixteenth International Joint Conference on Artificial Intelli? gence,1999662-667. 

8MICHAEL HMICHAL J,YOELLE S M,et al. The shark-search al? gorithm. An applicationtailored Web site mappingJ. Computer Networks & Isdn Systems1998,301-7):317-326. 9BERGMARK D,LAGOZE C,SBITYAKOV A. Focused crawls,tun? neling,and digital libraries C. Proceedings of the 6th European Conference on Research and Advanced Technology for Digital Librar? ies,2002. 10MARISTELLA A,COSTANTINO T. Research and Advanced Tech? nology of digital librariesM. Springer Berlin Heidelberg,200291-106. 

11] 葉勤勇. 基于 URL 規(guī)則的聚焦爬蟲(chóng)及其應(yīng)用[D. 杭州:浙江大 學(xué),2007 

12BRA P M E D,POST R D J. Information retrieval in the World-Wide Webmaking client-based searching feasibleJ. Computer Net? works & Isdn Systems,1994,272):183-192. 

13KIEN PAECIO S,JULIANA F. Bootstrapping domain-specifific con? tent discovery on the WebC. In The World Wide Web Conference, 20191476-1486. 

14] 傅向華,馮博琴,馬兆豐,等. 可在線增量自學(xué)習(xí)的聚焦爬行方法 [J. 西安交通大學(xué)學(xué)報(bào),2004386):599-602. 

15] 劉國(guó)靖,康麗,羅長(zhǎng)壽. 基于遺傳算法的主題爬蟲(chóng)策略[J. 計(jì)算機(jī) 應(yīng)用,20072712):172-174. 

16] 曾廣樸,范會(huì)聯(lián). 基于遺傳算法的聚焦爬蟲(chóng)搜索策略[J. 計(jì)算機(jī) 工程,20103611):167-169. 

17] 童亞拉. 自適應(yīng)動(dòng)態(tài)演化粒子群算法在 Web 主題信息搜索中的應(yīng) 用[J. 武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),20083312):1296-1299. 

18] 賀晟,程家興,蔡欣寶. 基于模擬退火算法的主題爬蟲(chóng)[J. 計(jì)算機(jī) 技術(shù)與發(fā)展,2009,1912):55-58. 

19] 宋海洋,劉曉然,錢???/span>. 一種新的主題網(wǎng)絡(luò)爬蟲(chóng)爬行策略[J. 計(jì) 算機(jī)應(yīng)用與軟件,2011,2811):264-267. 

20] 謝志妮. 一種新的基于概念樹(shù)的主題網(wǎng)絡(luò)爬蟲(chóng)方法[J. 計(jì)算機(jī)與 現(xiàn)代化,2010,1764):103-106. 

21] 左薇,張熹,董紅娟,等. 主題網(wǎng)絡(luò)爬蟲(chóng)研究綜述[J. 軟件導(dǎo)刊, 2020,192):278-281. 

22] 韓 瑞 昕. 基 于 時(shí) 效 性 的 爬 蟲(chóng) 調(diào) 度[J. 軟 件 導(dǎo) 刊 ,2020,191): 108-112.

|轉(zhuǎn)載請(qǐng)注明來(lái)源地址:蜘蛛池出租 http://www.wholesalehouseflipping.com/
專注于SEO培訓(xùn),快速排名黑帽SEO https://www.heimao.wiki

版權(quán)聲明:本文為 “蜘蛛池出租” 原創(chuàng)文章,轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明;

原文鏈接:http://www.wholesalehouseflipping.com/post/48718.html

上一篇: 其他

相關(guān)文章

評(píng)論列表

發(fā)表評(píng)論:

◎歡迎參與討論,請(qǐng)?jiān)谶@里發(fā)表您的看法、交流您的觀點(diǎn)。

?    2025年12月    ?
1234567
891011121314
15161718192021
22232425262728
293031

搜索

控制面板

您好,歡迎到訪網(wǎng)站!
  查看權(quán)限

網(wǎng)站分類

最新留言

標(biāo)簽列表

最近發(fā)表

作者列表

站點(diǎn)信息

  • 文章總數(shù):10735
  • 頁(yè)面總數(shù):3
  • 分類總數(shù):7
  • 標(biāo)簽總數(shù):40
  • 評(píng)論總數(shù):804
  • 瀏覽總數(shù):3684674

友情鏈接

免费国产亚洲天堂AV,国产又粗又猛又黄又爽视频,亚州国产精品一线北,国产线播放免费人成视频播放