蜘蛛池出租蜘蛛池出租

蜘蛛池網(wǎng)站收錄技術(shù)

黑帽SEO:基于網(wǎng)絡語義的黑產(chǎn)推廣技術(shù)檢測與分析

引言

網(wǎng)絡黑產(chǎn)是互聯(lián)網(wǎng)各類地下產(chǎn)業(yè)的簡稱。2017年網(wǎng)絡安全生態(tài)峰會1發(fā)布的《電子商務生態(tài)安全白皮書》 指出,我國網(wǎng)絡黑產(chǎn)從業(yè)人數(shù)已超過150萬,市場規(guī)模高達千億元,每年由黑產(chǎn)直接或間接造成的經(jīng)濟損失估算高達915億元[1]。典型的網(wǎng)絡黑產(chǎn)包括網(wǎng)絡欺詐、網(wǎng)絡色情、網(wǎng)絡賭博和違禁品買賣等,這些不僅是我國法律明令禁止的行業(yè),還會給社會穩(wěn)定帶來威脅。

網(wǎng)絡黑產(chǎn)一方面需要躲避監(jiān)管平臺的檢測,另一方面卻又需要擴散信息、尋找潛在客戶群以獲取利益。在躲避監(jiān)管方面,黑產(chǎn)目前多采用快速頻繁更換行業(yè)關(guān)鍵詞的方式,例如氣狗”“汽狗指氣槍,狗糧指子彈,溜冰壺代表吸毒用品等。在信息擴散方面,主要采用惡意互聯(lián)網(wǎng)推廣模式來尋找客戶進行交易,最終實現(xiàn)獲利。這其中主要模式就是黑帽SEO,即通過攻擊搜索引擎算法提高黑產(chǎn)關(guān)鍵詞在搜索結(jié)果中的曝光率,使?jié)撛诳蛻裟軌蚩焖僬业浇灰灼脚_。長期以來,搜索引擎與黑產(chǎn)開展了一輪又一輪的檢測與反檢測技術(shù)對抗與升級。

黑帽SEO與黑產(chǎn)

黑帽SEO

對普通用戶而言,搜索引擎是其獲取各類互聯(lián)網(wǎng)資源的入口,每日從搜索引擎產(chǎn)生的訪問流量數(shù)量巨大。以Google為例,其每秒查詢量超過66000次 [2]。對于一個特定網(wǎng)站,如何提升其在搜索引擎上的排名、以獲得更大的訪問流量,是至關(guān)重要的事情。

SEO(Search Engine Optimization),即搜索引擎優(yōu)化,是通過對網(wǎng)站內(nèi)部結(jié)構(gòu)、內(nèi)容調(diào)整及外部鏈接關(guān)系進行優(yōu)化,幫助搜索引擎對該網(wǎng)站快速定位特征、提取重要信息,使網(wǎng)站滿足搜索引擎收錄要求,并逐步提高在搜索結(jié)果中的排名。

根據(jù)優(yōu)化手段和側(cè)重點不同,SEO又分為白帽SEO黑帽SEO。其中,白帽SEO是根據(jù)搜索引擎發(fā)布的網(wǎng)站優(yōu)化指南,合理優(yōu)化網(wǎng)站,提高用戶體驗,并改善與其他網(wǎng)站的鏈接關(guān)系,獲得搜索引擎較好的權(quán)重判定,使網(wǎng)站排名逐步提升。其特點是關(guān)注長遠利益,優(yōu)化周期長但效果穩(wěn)定,適合于正常網(wǎng)站長期使用。與之相反,黑帽SEO更注重實現(xiàn)排名短期快速提升,使被推廣網(wǎng)站短時間內(nèi)獲得較大的訪問量,因此往往采用被搜索引擎認為是作弊或攻擊的方法。黑帽SEO主要被黑產(chǎn)用于推廣與之相關(guān)的關(guān)鍵詞或網(wǎng)站信息。這種方式一旦被搜索引擎廠商發(fā)現(xiàn),將面臨嚴厲的懲罰,一般情況下搜索引擎廠商會將該網(wǎng)站所有內(nèi)容從搜索結(jié)果中直接刪除,即俗稱的“K(kill site)”。

傳統(tǒng)的黑帽SEO技術(shù)包括關(guān)鍵詞堆砌(keyword stuffing)、頁面障眼法(cloaking)、偽原創(chuàng)(article spinning)、暗鏈(hidden links)等。伴隨著每個黑帽SEO技術(shù)的大規(guī)模使用,搜索引擎廠商也開發(fā)了相應的檢測系統(tǒng)。

目前有關(guān)黑帽SEO的研究主要集中在對于分散技術(shù)點的分析與檢測,因此存在著檢測技術(shù)滯后、無法進行主動監(jiān)控、監(jiān)控實時性不強等問題,導致搜索引擎廠商在與黑帽SEO的技術(shù)對抗中始終處于不利的境地。

黑產(chǎn)

為了在推廣非法物品的同時逃避監(jiān)管部門及安全廠商的檢測,黑產(chǎn)的買賣雙方多會通過其專有的黑產(chǎn)網(wǎng)絡語義體系進行溝通,掩蓋其真實的商業(yè)意圖。黑產(chǎn)網(wǎng)絡語義體系很大程度上由黑產(chǎn)關(guān)鍵詞(black keyword)構(gòu)成,而這些關(guān)鍵詞又多通過自創(chuàng)新詞、舊詞新用、同音詞替換、形似詞替換等獲得。例如,在網(wǎng)絡黑產(chǎn)中,出肉代表賣出毒品,鐵算盤代表六合彩彩票,菠菜代表博彩,杏彩娛樂代表原有賭博平臺吉彩娛樂等。這類關(guān)鍵詞很難通過一般的語義環(huán)境推測其真實含義,因此增加了黑產(chǎn)的檢測難度。

深入挖掘黑產(chǎn)網(wǎng)絡語義體系對于追蹤和打擊黑產(chǎn)具有非常重要的意義,但同時也是一項極具挑戰(zhàn)性和耗時巨大的工作。傳統(tǒng)的挖掘方法主要通過滲透進入地下論壇、獲取黑產(chǎn)從業(yè)人員溝通交流記錄,通過人工觀察提取特征詞的方式不斷完善對該語言體系的理解。這種方法存在許多困難:需要較大的人工和時間成本投入,而產(chǎn)出不可預期;當面臨大規(guī)模擴展應用時,無法有效支撐應用環(huán)境;對研究人員素質(zhì)要求比較高,需要深入了解黑產(chǎn)語義體系,對于非母語的研究對象將存在更高的難度。同時,隨著黑產(chǎn)網(wǎng)絡語義體系的不斷升級,黑產(chǎn)關(guān)鍵詞的語義信息更加難以從上下文文本中直接推理獲得,因此研究難度更大。

目前有關(guān)黑產(chǎn)網(wǎng)絡語義體系的研究主要集中在黑產(chǎn)關(guān)鍵詞的自動挖掘與分析方面,對于深層次網(wǎng)絡語義的理解仍存在較大的改進空間。

對黑產(chǎn)的研究

網(wǎng)絡語義是指一個網(wǎng)絡內(nèi)多數(shù)計算機包含內(nèi)容的規(guī)律性、內(nèi)在解釋,以及在表達方面的共性。這里的網(wǎng)絡語義包括域名語義、鏈接語義、內(nèi)容語義和視覺語義等。本文所描述的網(wǎng)絡語義既包括正常網(wǎng)站、正常頁面表達的正常網(wǎng)絡語義,也包括黑產(chǎn)網(wǎng)站、黑產(chǎn)頁面表達的黑產(chǎn)網(wǎng)絡語義。

我們在研究中發(fā)現(xiàn),網(wǎng)絡黑產(chǎn)是個相對封閉的體系,直接基于自然語言處理和關(guān)鍵詞處理的檢測方法很難形成有效、準確率高的檢測方法。而通過網(wǎng)絡語義對黑產(chǎn)進行檢測,是一個高效、有針對性的手段。

有明確語義背景的黑產(chǎn)

通過對黑帽SEO技術(shù)的跟蹤分析,我們發(fā)現(xiàn)黑帽SEO經(jīng)常通過攻擊高權(quán)重網(wǎng)站2、在被攻擊的網(wǎng)站上放置黑產(chǎn)關(guān)鍵詞、欺騙搜索引擎索引黑產(chǎn)關(guān)鍵詞的方法,使黑產(chǎn)關(guān)鍵詞快速進入搜索結(jié)果索引列表并在搜索結(jié)果中顯示。這類SEO技術(shù)的明顯特征是通過網(wǎng)絡攻擊或其他手段獲得權(quán)威網(wǎng)站操作權(quán)限,并以該網(wǎng)站為基礎(chǔ),搭建SEO的基礎(chǔ)設施,達到推廣的目的。這類方法運維成本低,且聚焦在利用高權(quán)重網(wǎng)站配置、運行漏洞上,手段隱蔽,效果很好。

針對這類攻擊技術(shù),我們研究了:使用自然語言處理方法,對含有明確語義信息的頂級域名(Top Level Domain,TLD,如“.edu”代表教育、“.gov”代表政府等)提取正常網(wǎng)站的域名語義、文本語義,并轉(zhuǎn)換為基本向量。在搜索結(jié)果中查找高權(quán)重網(wǎng)站出現(xiàn)的包含黑產(chǎn)關(guān)鍵詞的頁面,將這些頁面的域名語義、文本語義同樣做特征提取,并轉(zhuǎn)換為基本向量。對比兩個向量之間的距離,如果超過一定的閾值,將視為高權(quán)重網(wǎng)站中出現(xiàn)了與原語義不相符的內(nèi)容,記錄并報警。按照這個思路,我們構(gòu)建了基于網(wǎng)絡語義的自動檢測系統(tǒng)SEISE[3]并對141個國家的403個贊助頂級域名(sponsored TLD, sTLD)進行檢測,發(fā)現(xiàn)超過11000個被攻擊的高權(quán)重網(wǎng)站。通過SEISE的研發(fā)、部署和對檢測結(jié)果的分析,我們發(fā)現(xiàn)了多個利用高校、教育機構(gòu)、政府等高權(quán)重網(wǎng)站進行惡意推廣的地下組織及其所采用的黑帽SEO特征,初步探索了對黑產(chǎn)網(wǎng)絡語義的挖掘方法,為后續(xù)研究提供了參考性思路。

目前該研究成果已經(jīng)被2016年信息安全領(lǐng)域四大頂級會議之一的Oakland Security S&P錄用,該檢測系統(tǒng)已經(jīng)部署在清華大學網(wǎng)絡科學與網(wǎng)絡空間研究院,近期完成了對我國中小學網(wǎng)站的安全性檢測,取得了很好的檢測結(jié)果。

沒有明確語義背景的黑產(chǎn)

黑帽SEO的推廣方式中,還有一種通過購買域名、服務器等基礎(chǔ)設施,自主搭建網(wǎng)站進行搜索引擎優(yōu)化的方法,對黑產(chǎn)網(wǎng)站或黑產(chǎn)關(guān)鍵詞進行惡意優(yōu)化推廣。該類方法的運維成本相對較高,優(yōu)化周期相對較長,但由于全部組件均由黑產(chǎn)從業(yè)者掌控,具有生存能力強、技術(shù)變化快的優(yōu)勢。目前這種推廣方式叫做蜘蛛池[4]。

 “蜘蛛池采用DNS泛域技術(shù)創(chuàng)建無數(shù)個三級以上的子域名,導致域名沒有明確的語義;同時采用惡意文本填充的方式,即自動爬取高權(quán)重網(wǎng)站內(nèi)容、替換其中一部分為黑產(chǎn)推廣的關(guān)鍵字,在文本語義方面進行混淆。然而,從鏈接結(jié)構(gòu)的分析中我們發(fā)現(xiàn),蜘蛛池的目標在于構(gòu)建相互鏈接的封閉池,使搜索引擎爬蟲一旦進入將很難跳出,始終在池子內(nèi)爬取精心構(gòu)造的推廣內(nèi)容,實現(xiàn)惡意推廣。因此,對于這類黑帽SEO方法,我們采用了基于鏈接語義的檢測方法。

在構(gòu)建檢測系統(tǒng)的過程中,我們主要完成了以下幾個方面的工作:(1)實現(xiàn)了針對蜘蛛池的自動挖掘、檢測系統(tǒng)。該系統(tǒng)利用蜘蛛池鏈接語義的特征,從DNS端和網(wǎng)頁結(jié)構(gòu)端出發(fā),對22TLD/SLD下的超過1300萬個域名進行檢測,最終發(fā)現(xiàn)了超過45萬個被用于黑帽SEO的域名。(2)深入挖掘蜘蛛池的結(jié)構(gòu)特征,對所涉及的基礎(chǔ)設施特點、客戶類別及其對搜索引擎的影響進行分析,分析了蜘蛛池的實際推廣效果。(3)與搜索引擎廠商合作,將檢測系統(tǒng)部署在實際生產(chǎn)環(huán)境中,對蜘蛛池的技術(shù)變化進行實時跟進。

目前該項研究成果已經(jīng)被信息安全領(lǐng)域四大頂級會議之一的Usenix Security 2017錄用,同時檢測系統(tǒng)部署在百度公司,累計檢測出超過500萬個蜘蛛池域名(201853日與百度確認,具體數(shù)字是5046806個),取得了良好的檢測效果。

黑產(chǎn)網(wǎng)絡

黑產(chǎn)關(guān)鍵詞是黑產(chǎn)推廣的核心要素。然而黑產(chǎn)關(guān)鍵詞不同于普通的關(guān)鍵詞,具有如下特點:(1)隱蔽性。為了逃避檢測,黑產(chǎn)關(guān)鍵詞都是自然語言無法正常理解的詞,例如平馬二中一”“丁香五月天,目前沒有可用的處理系統(tǒng)能夠?qū)⑦@類關(guān)鍵詞的語義屬性正確地歸類。(2)實時性。黑產(chǎn)關(guān)鍵詞具有很強的時間特性,一些關(guān)鍵詞只出現(xiàn)在特定時間背景下。如微信紅包 尾數(shù),這是2017年春節(jié)前后伴隨著微信紅包的流行出現(xiàn)的新型網(wǎng)絡賭博關(guān)鍵詞,通過押注微信隨機紅包的尾數(shù)進行賭博。(3)依賴性。黑產(chǎn)關(guān)鍵詞對其前后內(nèi)容的語義環(huán)境比自然語言有更強的依賴性,如菠菜”“鐵算盤,如果沒有前后的語義環(huán)境,很難將其與博彩聯(lián)系起來。

針對以上特點,我們對黑產(chǎn)網(wǎng)絡語義進行了體系化的研究,并研發(fā)出自動分析、挖掘工具。
(1)構(gòu)建針對網(wǎng)絡黑產(chǎn)關(guān)鍵詞的自動挖掘與檢測系統(tǒng)KDES[5],該系統(tǒng)能夠從已知的黑產(chǎn)SEO站點出發(fā),自動挖掘、提取其中的關(guān)鍵詞,并在所挖掘黑詞的基礎(chǔ)上,結(jié)合搜索引擎的相關(guān)搜索功能,對黑產(chǎn)關(guān)鍵詞進行自動擴展。(2)對黑產(chǎn)網(wǎng)絡語義的核心詞的自動篩選,實現(xiàn)對黑產(chǎn)網(wǎng)絡語義的實時監(jiān)測分析。(3)評估了黑產(chǎn)關(guān)鍵詞在實際網(wǎng)絡流量中的保有量及其覆蓋范圍,揭示了長尾關(guān)鍵詞在其中的重要作用,并重點就黑產(chǎn)關(guān)鍵詞對搜索引擎的實際影響進行測量。(4)對黑產(chǎn)網(wǎng)絡語義特征進行系統(tǒng)性的梳理,就黑產(chǎn)關(guān)鍵詞在推廣過程中所涉及的關(guān)鍵技術(shù)進行分類,從實際操作層面分析了黑產(chǎn)網(wǎng)絡語義的形成過程。(5)針對黑產(chǎn)的具體細分領(lǐng)域進行探究,為后續(xù)對網(wǎng)絡黑產(chǎn)不同領(lǐng)域的深度挖掘提供了指導性思路。

目前該項研究成果已經(jīng)被收錄在Oakland Security S&P 2017,檢測系統(tǒng)部署在百度公司,在協(xié)助百度分析、獲得最新流行的黑產(chǎn)關(guān)鍵詞方面取得了良好的實際效果。

黑帽SEO的趨勢

互聯(lián)網(wǎng)黑色產(chǎn)業(yè)具有產(chǎn)業(yè)規(guī)模龐大、業(yè)務紛繁復雜、技術(shù)迭代迅速、語言體系封閉等特點,對于這類產(chǎn)業(yè)實現(xiàn)有效的檢測和監(jiān)管都是非常大的挑戰(zhàn)。從網(wǎng)絡語義出發(fā)的黑產(chǎn)推廣技術(shù)研究,幫助我們抓住了黑產(chǎn)推廣的根源和本質(zhì),為我們不斷深入開展后續(xù)研究工作提供了基礎(chǔ)的研究思路。

黑帽seo技術(shù)與檢測技術(shù)

目前網(wǎng)絡空間檢測與反檢測的技術(shù)對抗不斷升級演化,通過對黑帽SEO技術(shù)近幾年發(fā)展特點分析,未來黑帽SEO技術(shù)演化可能會在以下幾個方面進行:(1)多種黑帽SEO手段的綜合運用。之前已經(jīng)研究的黑帽SEO手段包括泛域名、惡意關(guān)鍵詞填充、構(gòu)建惡意鏈接等,而對蜘蛛池的研究使我們發(fā)現(xiàn),黑帽SEO將以上多個技術(shù)進行了綜合應用,構(gòu)建了一個圍困搜索引擎的推廣池。同時,最新的技術(shù)跟蹤表明,黑帽SEO傾向于將泛域名、泛目錄、泛端口等技術(shù)結(jié)合起來,構(gòu)建一個能夠產(chǎn)生無數(shù)子域名、無數(shù)URL路徑和擁有相對豐富開放端口的推廣池,與現(xiàn)有檢測技術(shù)進行對抗。(2)降低每個頁面的惡意推廣閾值?;趯Χ喾N惡意推廣技術(shù)的結(jié)合,黑帽SEO在構(gòu)建無數(shù)頁面的同時,降低每個頁面中的惡意推廣內(nèi)容出現(xiàn)的頻率,使其在自然語言處理和語義分析的范疇內(nèi)降低到理論上不可識別的程度,躲避黑產(chǎn)檢測。

對于黑帽SEO的檢測技術(shù)研究有幾個方面:
(1)系統(tǒng)性分析。當前針對黑帽SEO技術(shù)的研究大多局限于具體的案例,針對該類技術(shù)的系統(tǒng)性分析較少,相應的防范措施也缺乏完善的防護體系,因此,如何系統(tǒng)性地加強針對該類技術(shù)的分析檢測將是一個很有意義的研究方向。(2)實時性分析。當前針對黑帽SEO技術(shù)的探索多為被動發(fā)現(xiàn)式研究,很大程度基于人工對海量數(shù)據(jù)的分析,很多新的惡意推廣技術(shù)都是在投入使用相當一段時間后才被發(fā)現(xiàn),導致業(yè)界已經(jīng)受到一定危害。如何加強對該類技術(shù)的實時性跟蹤,進一步預測技術(shù)的變化路線,是黑帽SEO檢測領(lǐng)域的一個重要問題。(3)完善性分析。通過研究探索完善搜索引擎排名算法,盡可能減少存在的漏洞,提高黑帽SEO攻擊的技術(shù)難度。

黑產(chǎn)網(wǎng)絡語義體系

語義是黑產(chǎn)要表達給用戶的最終目標。無論黑產(chǎn)采用何種技術(shù)手段進行欺騙、仿冒,目標用戶所看到的內(nèi)容將是黑帽SEO所想要表達的最終內(nèi)容。因此,需要對黑產(chǎn)網(wǎng)絡語義進行研究。

主要研究內(nèi)容有:(1)黑產(chǎn)語義的自動理解:現(xiàn)階段已初步實現(xiàn)基于各類黑產(chǎn)網(wǎng)頁內(nèi)容的關(guān)鍵詞自動挖掘,并可以針對最新的黑產(chǎn)頁面進行檢測。但當前僅能對黑產(chǎn)關(guān)鍵詞所屬的大類(如博彩、色情等)進行分析,暫時無法自動挖掘黑產(chǎn)關(guān)鍵詞自身的含義,故如何自動理解黑產(chǎn)關(guān)鍵詞的深層含義將是未來一個很重要的研究方向。(2)黑產(chǎn)語料庫的構(gòu)建:在了解黑產(chǎn)關(guān)鍵詞語義的基礎(chǔ)上,不斷完善和豐富黑產(chǎn)關(guān)鍵詞語料庫,預測黑產(chǎn)關(guān)鍵詞的變化趨勢。同時,在完善語料庫的基礎(chǔ)上,還可以充分利用新的語料庫進一步對黑產(chǎn)檢測平臺給予反饋,形成良性循環(huán)。(3)多元素語義信息的挖掘分析:在黑產(chǎn)相關(guān)的線上平臺中,很多重要內(nèi)容均以圖片或JS動態(tài)渲染的形式呈現(xiàn)并逃避常規(guī)檢測。然而,該類資源在當前的研究中并沒有得到充分的挖掘利用。同時,不規(guī)范的第三方支付,為黑產(chǎn)的最終獲利提供了便捷的渠道。如何充分挖掘這類黑產(chǎn)相關(guān)的多元素語義信息,也是非常值得研究探討的問題。 

 

參考文獻

[1] 人民網(wǎng).“網(wǎng)絡黑產(chǎn)市場規(guī)模高達千億[OL].(2017-07-28).http://legal.people.com.cn/n1/2017/0728/c42510-29434169.html,2015

[2] Thomas K, Huang D, Wang D, et al. Framing Dependencies Introduced by Underground Commoditization[C]// Proceedings of the Workshop on the Economics of Information Security. 2015.

[3] STATS, I.L. http://www.internetlivestats.com/google-search-statistics/, 2018.

[4] Liao X, Yuan K, Wang X F, et al. Seeking Nonsense, Looking for Trouble: Efficient Promotional-Infection Detection through Semantic Inconsistency Search[C]// ser. IEEE Security and Privacy. IEEE, 2016:707-723.

[5] Du K, Yang H, Li Z, et al. The ever-changing labyrinth: A large-scale analysis of wildcard dns powered blackhat seo[C]//Proceedings of the 25th USENIX Security Symposium (USENIX Security 16). Austin, TX: USENIX Association, 2016: 245-262.

[6] Yang H, Ma X, Du K, et al. How to Learn Klingon without a Dictionary: Detection and Measurement of Black Keywords Used by the Underground Economy[C]//Proceedings of the  2017 IEEE Symposium on Security and Privacy. IEEE, 2017: 751-769.


|轉(zhuǎn)載請注明來源地址:蜘蛛池出租 http://www.wholesalehouseflipping.com/
專注于SEO培訓,快速排名黑帽SEO https://www.heimao.wiki

版權(quán)聲明:本文為 “蜘蛛池出租” 原創(chuàng)文章,轉(zhuǎn)載請附上原文出處鏈接及本聲明;

原文鏈接:http://www.wholesalehouseflipping.com/post/48717.html

相關(guān)文章

評論列表

發(fā)表評論:

◎歡迎參與討論,請在這里發(fā)表您的看法、交流您的觀點。

?    2025年12月    ?
1234567
891011121314
15161718192021
22232425262728
293031

搜索

控制面板

您好,歡迎到訪網(wǎng)站!
  查看權(quán)限

網(wǎng)站分類

最新留言

標簽列表

最近發(fā)表

作者列表

站點信息

  • 文章總數(shù):10735
  • 頁面總數(shù):3
  • 分類總數(shù):7
  • 標簽總數(shù):40
  • 評論總數(shù):804
  • 瀏覽總數(shù):3684674

友情鏈接

免费国产亚洲天堂AV,国产又粗又猛又黄又爽视频,亚州国产精品一线北,国产线播放免费人成视频播放