引言
從 Web 上收集特定主題數(shù)據(jù)的技術(shù)可分為兩類:
①基于搜索的發(fā)現(xiàn)技術(shù)[1-3],主要依靠搜索引擎查找網(wǎng)頁(yè);
②基 于爬行的發(fā)現(xiàn)技術(shù)[4-6],主要利用 Web 鏈接結(jié)構(gòu)從已下載的 網(wǎng)頁(yè)中提取新鏈接,從而發(fā)現(xiàn)更多潛在的目標(biāo)網(wǎng)頁(yè)。
前者 適用于存在一些關(guān)鍵字可區(qū)分主題數(shù)據(jù)和其它數(shù)據(jù)的情 況,后者靈活性更強(qiáng),代表技術(shù)就是聚焦爬蟲(chóng)。 與普通爬蟲(chóng)相比,聚焦爬蟲(chóng)有明確的目標(biāo)指向性,在 爬取網(wǎng)頁(yè)過(guò)程中能夠丟棄不相關(guān)頁(yè)面,并始終跟蹤可能導(dǎo) 向“相關(guān)”頁(yè)面的超鏈接,因而能更有效地收集特定主題的 數(shù)據(jù)。聚焦爬蟲(chóng)框架與一般爬蟲(chóng)基本相同,也即是說(shuō),它 從幾個(gè)種子鏈接(Seed URL)開(kāi)始,下載相關(guān)頁(yè)面并提取其 中包含的超鏈接,然后跟蹤這些超鏈接以獲取更多頁(yè)面。 不斷重復(fù)該過(guò)程,直到無(wú)法以這種方式找到更多網(wǎng)頁(yè)。
聚 焦爬蟲(chóng)的特殊之處在于,其會(huì)引入兩個(gè)分類器——路徑判 別器和目標(biāo)判別器,以決定某個(gè)超鏈接是否值得進(jìn)一步訪 問(wèn),以及某頁(yè)面是否值得保存。其中,路徑判別器負(fù)責(zé)判 斷鏈接值得跟蹤與否,目標(biāo)判別器負(fù)責(zé)根據(jù)網(wǎng)頁(yè)與主題相關(guān)與否對(duì)其進(jìn)行歸類。 聚焦爬蟲(chóng)研究主要集中在 3 個(gè)方面:
一是如何獲得更 有效的分類器,例如使用在線學(xué)習(xí)策略構(gòu)建路徑判別器 (目標(biāo)判別器依然需要進(jìn)行預(yù)訓(xùn)練)[7,14-18];
二是如何獲得更 好的種子鏈接,
例如維埃拉等[3] 利用 Bing 搜索引擎,使用相 關(guān)反饋(Relevance Feedback)收集種子;
三是如何設(shè)計(jì)更好 的爬行策略[8-12,19-22]。盡管這些研究從各個(gè)方面對(duì)聚焦爬 蟲(chóng)進(jìn)行了改進(jìn),預(yù)先訓(xùn)練分類器的工作仍不可省略,因此 造成了爬蟲(chóng)使用的不便。
由于其分類器是任務(wù)相關(guān)的,換 一個(gè)目標(biāo)主題就要重新手動(dòng)構(gòu)建數(shù)據(jù)集進(jìn)行訓(xùn)練。
最近,KIEN[13] 將聚焦爬行描述為一個(gè)排序問(wèn)題,其跳 過(guò)分類器訓(xùn)練,只使用一些示例網(wǎng)站作為輸入。從樣本網(wǎng) 站中提取關(guān)鍵詞,再通過(guò)關(guān)鍵字搜索、前向爬行和后向爬 行擴(kuò)展樣本網(wǎng)站集,其設(shè)計(jì)的系統(tǒng)根據(jù)與當(dāng)前樣本網(wǎng)站的 相似性選擇新的樣本網(wǎng)站。結(jié)果表明,通過(guò)適當(dāng)?shù)南嗨菩?度量,基于排序的聚焦爬蟲(chóng)可取得與基于分類器的聚焦爬 蟲(chóng)相似的性能表現(xiàn)。但其問(wèn)題設(shè)置與本文不同,其目標(biāo)是 得到相關(guān)網(wǎng)站,而不是網(wǎng)頁(yè)。因此,以上實(shí)踐啟發(fā)了本文 用排序器替換預(yù)訓(xùn)練分類器構(gòu)建自舉聚焦爬蟲(chóng),以解決網(wǎng) 站群內(nèi)部的主題網(wǎng)頁(yè)發(fā)現(xiàn)問(wèn)題。 本 文 設(shè) 計(jì) 一 種 自 舉 聚 焦 爬 蟲(chóng)(Bootstrapping Focused Crawler,簡(jiǎn)稱 BFC),該方法為聚焦爬蟲(chóng)提供一些示例網(wǎng)頁(yè), 而不是預(yù)先訓(xùn)練的分類器,從而可略過(guò)繁復(fù)的分類器訓(xùn)練 過(guò)程。該方法適用于特定網(wǎng)站群中的主題數(shù)據(jù)收集,例如 收集各大學(xué)錄取信息、各公司招聘信息、各政府網(wǎng)站的政 策信息等。圖 1 展示了兩個(gè)爬取任務(wù)示例。任務(wù)難點(diǎn)在 于,上千所高校、公司雖然網(wǎng)站架構(gòu)類似,但每個(gè)節(jié)點(diǎn)對(duì)應(yīng) 的超鏈接文字用詞千差萬(wàn)別,路徑深度與目標(biāo)頁(yè)面特征也 存在顯著差異。因此,在不預(yù)訓(xùn)練分類器的前提下,只提 供少量樣例網(wǎng)頁(yè)充當(dāng)爬蟲(chóng)向?qū)?,是一種新的嘗試。 由于特定網(wǎng)站群是眾多一手信息的源頭,如果能及 時(shí)、有效地收集相關(guān)信息并匯聚起來(lái),將極大地降低信息 瀏覽門檻,并催生出數(shù)據(jù)可視化等應(yīng)用。因此,本文提出 的網(wǎng)站群爬蟲(chóng)具有很強(qiáng)的現(xiàn)實(shí)意義。


圖 1 網(wǎng)站群爬蟲(chóng)爬取任務(wù)示例
注:粗體字表示爬蟲(chóng)從網(wǎng)站根節(jié)點(diǎn)出發(fā)的最優(yōu)爬行路徑
1 自舉聚焦爬蟲(chóng) 自舉聚焦爬蟲(chóng)框架如圖 2 所示

圖 2 自舉聚焦爬蟲(chóng)框架 程序有兩個(gè)輸入:
一個(gè)是網(wǎng)站群站點(diǎn)(Website)列表, 一個(gè)是少量樣例網(wǎng)頁(yè),每個(gè)樣例網(wǎng)頁(yè)包含其所在站點(diǎn)的根 鏈接和自身鏈接這一對(duì)元素。
首先,對(duì)樣例網(wǎng)頁(yè)進(jìn)行路徑 提取與特征提取。在傳統(tǒng)聚焦爬蟲(chóng)框架下,需要一個(gè)能引 導(dǎo)爬蟲(chóng)到目標(biāo)節(jié)點(diǎn)的向?qū)В窂脚袆e器),以及能夠區(qū)分目 標(biāo)節(jié)點(diǎn)與其它節(jié)點(diǎn)的評(píng)委(目標(biāo)判別器)。路徑提取目標(biāo) 是構(gòu)建路徑判別器,而特征提取目標(biāo)是構(gòu)建目標(biāo)判別器。 區(qū)別在于,本文提出的自舉聚焦爬蟲(chóng)用相似度排序模塊替 代傳統(tǒng)框架下的目標(biāo)判別器,用類似于強(qiáng)化學(xué)習(xí)的手段在 · 110 ·第 8 期 線構(gòu)建路徑判別器。然后利用兩個(gè)判別器從輸入的網(wǎng)站 群根節(jié)點(diǎn)開(kāi)始循環(huán)抓取網(wǎng)頁(yè),并不斷把最相關(guān)的網(wǎng)頁(yè)加入 網(wǎng)頁(yè)樣例庫(kù),用于更新兩個(gè)判別器。該流程循環(huán)進(jìn)行,直 到無(wú)法發(fā)現(xiàn)更多網(wǎng)頁(yè)或達(dá)到迭代次數(shù)上限為止。 1.1 路徑判別器
路徑判別器本質(zhì)上是一個(gè)二分類器:輸入一個(gè)超鏈接 短文本,輸出其是否與要爬取的主題相關(guān),或沿著該鏈接 是否能找到與主題相關(guān)網(wǎng)頁(yè)。在網(wǎng)站群爬蟲(chóng)這個(gè)具體應(yīng) 用場(chǎng)景中,存在一條從站點(diǎn)根節(jié)點(diǎn)到當(dāng)前頁(yè)面的超鏈接路 徑(見(jiàn)圖 1),可利用這條路徑上的前序文本增強(qiáng)當(dāng)前鏈接 短文本的判斷準(zhǔn)確度。因此,本文通過(guò)路徑提取將傳統(tǒng)路 徑判別器的單一短文本輸入擴(kuò)充為短文本列表。 在頁(yè)面爬取過(guò)程中,對(duì)每個(gè)待判別的路徑 t 打分,如果 分?jǐn)?shù)大于閾值,則判定為相關(guān)鏈接。計(jì)算公式如下: f (t) = ?w ? tαw 其中,超文本 w 是路徑 t 中的詞,αw 是 w 的權(quán)重,其 初始化使用了樣例庫(kù)提供的信息。具體而言,本文把從樣 例網(wǎng)頁(yè)中提取的路徑集中起來(lái),分詞后統(tǒng)計(jì)每個(gè)詞的詞 頻,形成各詞的初始權(quán)重。其它詞默認(rèn)初始權(quán)重為-1,以 懲罰路徑中存在過(guò)多未知詞。在爬取過(guò)程中,αw 采用類似 強(qiáng)化學(xué)習(xí)的策略進(jìn)行更新。每當(dāng)一個(gè)路徑 t 被判定為相 關(guān),其包含詞的對(duì)應(yīng)權(quán)重都消耗 1;每當(dāng)找到一個(gè)目標(biāo)網(wǎng) 頁(yè),其對(duì)應(yīng)路徑中的詞權(quán)重獎(jiǎng)勵(lì) 2。
1.2 相似度排序
在目標(biāo)判別環(huán)節(jié),本文用排序器替換預(yù)訓(xùn)練的分類 器。
具體而言,爬蟲(chóng)根據(jù)訪問(wèn)頁(yè)面與示例網(wǎng)頁(yè)的相似性對(duì) 其進(jìn)行排序,將相似度大于閾值的網(wǎng)頁(yè)作為相關(guān)網(wǎng)頁(yè)輸 出,并同時(shí)將排名前 p%的網(wǎng)頁(yè)添加到示例庫(kù),開(kāi)始下一輪 迭代。 在計(jì)算網(wǎng)頁(yè)相似度時(shí),采用以下公式: s( x) = -dcos( x x) 其中,dcos 是余弦距離,x 是從待評(píng)估網(wǎng)頁(yè)標(biāo)題和內(nèi)容 中提取文本的詞袋模型(Bag of Words)向量表示,x 是樣例 網(wǎng)頁(yè)整合成單一文檔生成的詞袋模型向量表示。該公式 計(jì)算的相似度是目標(biāo)網(wǎng)頁(yè)與樣例庫(kù)的總體平均相似性。
2 爬取效果
2.1 實(shí)驗(yàn)任務(wù)與數(shù)據(jù)集
本文按照中國(guó)大學(xué)排行榜,收集了中國(guó)排名前 200 的 大學(xué)官方網(wǎng)站頁(yè)面集合作為實(shí)驗(yàn)數(shù)據(jù)集。為檢驗(yàn)爬蟲(chóng)性 能,定義主題爬取任務(wù)如下:獲取高校歷史錄取分?jǐn)?shù)相關(guān) 頁(yè)面。本文手動(dòng)標(biāo)記每個(gè)站點(diǎn)與所需主題相關(guān)頁(yè)面(URL) 作為真實(shí)標(biāo)簽,數(shù)據(jù)集頁(yè)面總數(shù)為 41 600,其中正樣本數(shù)量 為 1 033。 為得到樣例網(wǎng)頁(yè)庫(kù)作為算法輸入,本文從 200 個(gè)網(wǎng)站 中隨機(jī)抽取 3 個(gè)網(wǎng)站,并為每個(gè)網(wǎng)站標(biāo)記一個(gè)示例頁(yè)面,得 到 3 個(gè)樣例(每個(gè)樣例含有一對(duì)數(shù)據(jù),即目標(biāo)網(wǎng)頁(yè)的 URL 以 及所在網(wǎng)站根節(jié)點(diǎn)的 URL)。通過(guò)對(duì) 4 組使用不同樣例集 的爬蟲(chóng)計(jì)算平均得分,得到 BFC 性能得分。
2.2 效果展示
本 文 選 取 傳 統(tǒng) 聚 焦 爬 蟲(chóng)(FC)作 為 基 線 算 法 進(jìn) 行 對(duì) 比。出于公平性考慮,FC 所需分類器基于樣例網(wǎng)頁(yè)庫(kù)的少 量正樣本,采用 KNN 算法獲得。本文提出的自舉聚焦爬蟲(chóng) (BFC)與基線算法 FC 在高校歷史錄取分?jǐn)?shù)爬取任務(wù)中的 表現(xiàn)對(duì)比如表 1 所示。 表 1 BFC 與 FC 在錄取分?jǐn)?shù)爬取任務(wù)中表現(xiàn)對(duì)比 FC BFC Precision 0.62 0.35 Recall 0.16 0.62 F1 0.25 0.45 由表 1 可以看到,BFC 的準(zhǔn)確率(Precision)比傳統(tǒng)方法 FC 低很多,其原因是 FC 爬取頁(yè)面數(shù)量較少,以極低的召回 率(Recall)為代價(jià)獲得了較高準(zhǔn)確率。然而,在爬蟲(chóng)實(shí)際 使用過(guò)程中,召回率更為重要,因?yàn)橐M可能全面地收集 所需信息,而在自動(dòng)篩選環(huán)節(jié)一旦遺漏相關(guān)信息,就很難 再找到目標(biāo)網(wǎng)頁(yè)。在召回率方面,BFC 的表現(xiàn)遠(yuǎn)好于 FC。 綜合準(zhǔn)確率和召回率的指標(biāo) F1-Score 也顯示 BFC 的性能 優(yōu)于 FC。 爬取部分結(jié)果如
圖 3 所示。圖中 name 列輸出爬取站 點(diǎn),url 列輸出任務(wù)相關(guān)頁(yè)面網(wǎng)址,path 列輸出從網(wǎng)站根節(jié) 點(diǎn)到頁(yè)面的路徑,score是該頁(yè)面相關(guān)性得分

參考文獻(xiàn):
[1] DISHENG Q,LUCIANO B,XIN L,et al. Dexter:large-scale discov? ery and extraction of product specifications on the web[C]. Proceed? ings of the VLDB Endowment,2015:2194-2205.
[2] XUEZHI W,CONG Y,SIMON B,et al. Relevant document discovery for fact-checking articles[C]. In Companion Proceedings of the Web Conference,2018:525-533.
[3] KARANE V,LUCIANO B,ALTIGRAN S D S,et al. Finding seeds to bootstrap focused crawlers[C]. In The World Wide Web Confer? ence,2016:449-474.
[4] LUCIANO B,SRINIVAS B,VIVEK K R S. Crawling back and forth: using back and out links to locate bilingual sites[C]. In Proceedings of 5th International Joint Conference on Natural Language Processing, 2011:429-437.
[5] TSUYOSHI M. Finding related web pages based on connectivity infor? mation from a search engine[C]. In WWW Posters,2001.
[6] LUCIANO B. Harvesting forum pages from seed sites[C]. In Interna? tional Conference on Web Engineering,2017:457-468.
[7] MCCALLUM A,NIGAM K,RENNIE J,et al. A machine learning ap? proach to building domain-specific search engines[C]. Proceedings of the Sixteenth International Joint Conference on Artificial Intelli? gence,1999:662-667.
[8] MICHAEL H,MICHAL J,YOELLE S M,et al. The shark-search al? gorithm. An application:tailored Web site mapping[J]. Computer Networks & Isdn Systems,1998,30(1-7):317-326. [9] BERGMARK D,LAGOZE C,SBITYAKOV A. Focused crawls,tun? neling,and digital libraries [C]. Proceedings of the 6th European Conference on Research and Advanced Technology for Digital Librar? ies,2002. [10] MARISTELLA A,COSTANTINO T. Research and Advanced Tech? nology of digital libraries[M]. Springer Berlin Heidelberg,2002: 91-106.
[11] 葉勤勇. 基于 URL 規(guī)則的聚焦爬蟲(chóng)及其應(yīng)用[D]. 杭州:浙江大 學(xué),2007
[12] BRA P M E D,POST R D J. Information retrieval in the World-Wide Web:making client-based searching feasible[J]. Computer Net? works & Isdn Systems,1994,27(2):183-192.
[13] KIEN P,AECIO S,JULIANA F. Bootstrapping domain-specifific con? tent discovery on the Web[C]. In The World Wide Web Conference, 2019:1476-1486.
[14] 傅向華,馮博琴,馬兆豐,等. 可在線增量自學(xué)習(xí)的聚焦爬行方法 [J]. 西安交通大學(xué)學(xué)報(bào),2004,38(6):599-602.
[15] 劉國(guó)靖,康麗,羅長(zhǎng)壽. 基于遺傳算法的主題爬蟲(chóng)策略[J]. 計(jì)算機(jī) 應(yīng)用,2007,27(12):172-174.
[16] 曾廣樸,范會(huì)聯(lián). 基于遺傳算法的聚焦爬蟲(chóng)搜索策略[J]. 計(jì)算機(jī) 工程,2010,36(11):167-169.
[17] 童亞拉. 自適應(yīng)動(dòng)態(tài)演化粒子群算法在 Web 主題信息搜索中的應(yīng) 用[J]. 武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2008,33(12):1296-1299.
[18] 賀晟,程家興,蔡欣寶. 基于模擬退火算法的主題爬蟲(chóng)[J]. 計(jì)算機(jī) 技術(shù)與發(fā)展,2009,19(12):55-58.
[19] 宋海洋,劉曉然,錢???/span>. 一種新的主題網(wǎng)絡(luò)爬蟲(chóng)爬行策略[J]. 計(jì) 算機(jī)應(yīng)用與軟件,2011,28(11):264-267.
[20] 謝志妮. 一種新的基于概念樹(shù)的主題網(wǎng)絡(luò)爬蟲(chóng)方法[J]. 計(jì)算機(jī)與 現(xiàn)代化,2010,176(4):103-106.
[21] 左薇,張熹,董紅娟,等. 主題網(wǎng)絡(luò)爬蟲(chóng)研究綜述[J]. 軟件導(dǎo)刊, 2020,19(2):278-281.
[22] 韓 瑞 昕. 基 于 時(shí) 效 性 的 爬 蟲(chóng) 調(diào) 度[J]. 軟 件 導(dǎo) 刊 ,2020,19(1): 108-112.
|轉(zhuǎn)載請(qǐng)注明來(lái)源地址:蜘蛛池出租 http://www.wholesalehouseflipping.com/專注于SEO培訓(xùn),快速排名黑帽SEO https://www.heimao.wiki

評(píng)論列表