發(fā)布于 2018-01-04 11:11:40 726次瀏覽,夜息:SEO是一個(gè)很沒(méi)節(jié)操的工作
, 原夜息標(biāo)題:小議SEO數(shù)據(jù)分析III – 維護(hù)詞庫(kù)(完工),
, 具體上一篇SEO數(shù)據(jù)分析文章已經(jīng)隔了很久了,今天有個(gè)朋友網(wǎng)上問(wèn)我,有了詞庫(kù)怎么維護(hù)。正好借這個(gè)機(jī)會(huì)談?wù)勥@個(gè)問(wèn)題。 在獲取到大量關(guān)鍵詞后,首先要對(duì)這些詞進(jìn)行處理,在我實(shí)際工作中,總結(jié)以下幾個(gè)項(xiàng)目我做過(guò)或者覺(jué)得有必要做的事情。,
,提取實(shí)體(通俗點(diǎn)講就是找關(guān)鍵詞中的重點(diǎn)詞),1、去重,2、受控詞表,3、分類(lèi),4、提取實(shí)體,
,提取實(shí)體的概念就是找關(guān)鍵詞中的重點(diǎn)詞。比如 “北京溫泉哪里好”,那這個(gè)詞中的”北京 “和”溫泉”這兩個(gè)詞是重點(diǎn),”哪里好”只是一個(gè)疑問(wèn)詞,對(duì)主題描述幫助相對(duì)比較小。于是我們就需要通過(guò)一些技術(shù)手段,對(duì)關(guān)鍵詞進(jìn)行處理,把中間重要的關(guān)鍵詞(實(shí)體)取出來(lái)。,
,先看看下面的關(guān)鍵詞,
, 處理前, 處理后,可以仔細(xì)觀察一下兩者的不同。這邊算法有很多種實(shí)現(xiàn)方法,鑒于從SEO的角度出發(fā),我們對(duì)精確度和召回率的要求,一般都比較低。從0%到80%要花費(fèi)的心思,可能還沒(méi)從80%~100%要花費(fèi)的心思多。并且不同行業(yè)的,會(huì)有略微不同的做法。于是我采取以下兩個(gè)方法,
,1.根據(jù)詞性刪除停詞符號(hào)(多刪一些不要緊),2.根據(jù)tf-idf過(guò)濾高頻詞(什么是tf-idf請(qǐng)自行腦補(bǔ)),
,這邊說(shuō)說(shuō)分詞算法,很多學(xué)術(shù)派研究了一大堆中文分詞算法,但實(shí)際運(yùn)用起來(lái)差別很小。這邊隨便推薦幾個(gè),根據(jù)自己會(huì)的語(yǔ)言使用。,
,ICTCLAS http://ictclas.nlpir.org/downloads 語(yǔ)言:Java,C#,CRF++ http://crfpp.sourceforge.net/ 語(yǔ)言: C#,SCWS http://www.xunsearch.com/scws/ 語(yǔ)言: PHP,JIEBA https://pypi.python.org/pypi/jieba/ 語(yǔ)言:Python,
,分詞也是一門(mén)大學(xué)問(wèn),有興趣可以看看CRF,HMM等模型的邏輯。這邊就不展開(kāi)講了。,
,分詞關(guān)鍵的問(wèn)題是要速度快,并且可以自定義詞庫(kù)。由于我用的是JIEBA,這方面都能支持。具體可以看看作者個(gè)github中的說(shuō)明https://github.com/fxsjy/jieba/blob/master/README.md,
,分詞后根據(jù)詞性,排除掉”停詞”,就獲取到了我們想要的結(jié)果集合。,
,過(guò)濾高頻詞。JIEBA可以對(duì)整個(gè)文本提取tf-idf值高的詞。這些詞是核心,肯定不可以去掉。,
,然后根據(jù)分詞結(jié)果獲取到tf值高的詞,進(jìn)行人工審核一下,以我們旅游行業(yè)詞庫(kù)為例,地名是經(jīng)常出現(xiàn)的詞,tf值可能會(huì)非常高,但是絕對(duì)不能把它去掉。所以我們需要先準(zhǔn)備一份中國(guó)地名/景點(diǎn)名詞庫(kù),這個(gè)可以在網(wǎng)上搜索下,懶人可以直接用搜狗輸入法的詞庫(kù)。,
,然后高頻詞中還有可能會(huì)出現(xiàn)的詞,可能為”7月”,”8月”,”大全”,”線路”等等。這些詞也可以考慮把它從實(shí)體詞中踢除。,
,經(jīng)過(guò)這幾輪檢查,基本就差不多了,再要精度可以再自行研究??隙ㄓ腥藛?wèn),你折騰了這么久,有什么用?這邊只能點(diǎn)到為止。,
,1.內(nèi)容關(guān)聯(lián),2.自動(dòng)tagging,3.提高站內(nèi)檢索精度,
,去年到今年搜房和安居客的SEO可以體會(huì)一下。,
,去重,
,提取實(shí)體后,就可以對(duì)關(guān)鍵詞進(jìn)行去重。,
,例如,
,
,
,
, 處理后,
,
,
,
,就可以進(jìn)行去重了。上面著兩個(gè)個(gè)詞,還可以通過(guò)實(shí)體相同的方法來(lái)解決。但是有一些關(guān)鍵詞,比如”馬爾代夫”和”馬代”,”長(zhǎng)城”和”八達(dá)嶺”,用戶可以是指一個(gè)地方,我們應(yīng)該怎么處理這些詞。我們就需要下面這么一個(gè)東西“受控詞表”,
, 受控詞表,
,受控詞表,就是一種控制詞匯含義,并且跟蹤其相關(guān)詞的方法?;氐缴厦娴睦?,如果你搜索”八達(dá)嶺”的時(shí)候,不能把長(zhǎng)城的內(nèi)容展現(xiàn)出來(lái),相信用戶早就跑光了。,受控詞表主要有如下三大關(guān)系:等價(jià),層級(jí),關(guān)聯(lián),等價(jià)很好理解,比如馬爾代夫和馬代,那是等價(jià)關(guān)系,這類(lèi)詞可以說(shuō)就是一個(gè)意思,權(quán)值是最高的。在內(nèi)容推薦中一定要呈現(xiàn)出來(lái)。,
,層級(jí)有上下級(jí)之分,比如“夫子廟”是”南京景點(diǎn)大全”的下級(jí)詞?!贝蟪傻睢庇质恰狈蜃訌R”的下級(jí)詞。在實(shí)際應(yīng)用的時(shí)候,當(dāng)用戶在尋找”大成殿”時(shí),網(wǎng)站可以告訴用戶你位于”夫子廟”中間,并且推薦夫子廟周?chē)€有些什么好玩的東西,用戶一定會(huì)非常喜歡。層級(jí)關(guān)系也是大部分網(wǎng)站都有的信息架構(gòu)體系,從首頁(yè),到目錄,到欄目。,
,關(guān)聯(lián),有點(diǎn)類(lèi)似于等價(jià),但是并不完全相同,例如”三亞跟團(tuán)游”,”??谧灾巍?,”海南旅游 雙飛”。他們沒(méi)有說(shuō)明確的上下級(jí)關(guān)系,但是又不能說(shuō)完全一樣。這類(lèi)詞,我們可以把其作為有關(guān)聯(lián)的東西。可以記錄下來(lái)。此外,一些內(nèi)容的自帶的屬性,比如高,富,帥,可以作為一個(gè)相關(guān)聯(lián)的關(guān)鍵詞,在內(nèi)容推薦上更加滿足用戶的口味。,
,這邊還要提一點(diǎn),
在工作中,我們發(fā)現(xiàn)了用戶有時(shí)候會(huì)有一些特殊的詞匯來(lái)表達(dá)自己的需求,比如”麻袋”(諧音馬代),或者”百撕不得騎姐”這樣該死的輸入法錯(cuò)拼,這些關(guān)鍵詞都需要存放起來(lái)。,夜息:數(shù)據(jù)驅(qū)動(dòng)SEO,如何改善網(wǎng)站收錄
,最后應(yīng)該是這樣的效果:,
,
, 分類(lèi),
,對(duì)于獲取到的大量關(guān)鍵詞,應(yīng)該怎么去分類(lèi)。首先可以按照意圖進(jìn)行分類(lèi), 導(dǎo)航, 信息, 事務(wù)。(學(xué)習(xí)資料-知乎:http://www.zhihu.com/question/20905145),
,這么做的好處是,可以快速知道把哪一類(lèi)詞,分給哪條產(chǎn)品線做。例如信息類(lèi)的詞,盡量放到資訊,問(wèn)答,產(chǎn)品庫(kù)這樣的頻道。導(dǎo)航類(lèi)的詞,如果是自己品牌可以做,如果是競(jìng)爭(zhēng)對(duì)手品牌,可以單獨(dú)做頻道。事務(wù)類(lèi)的詞,一般放在主力產(chǎn)品線上,頁(yè)面上會(huì)有功能體現(xiàn),比如”添加到購(gòu)物車(chē)”,”下載鏈接“,”在線預(yù)定”等等。在一定程度上滿足用戶的需求,避免內(nèi)容錯(cuò)位。比如這個(gè) http://iphone.tgbus.com/tag/iphone6tieba/ “iphone6貼吧”。貼吧在哪?好歹給個(gè)鏈接地址吧。,
,除了上面的分意圖類(lèi)法,下面講講從結(jié)合信息架構(gòu)中的分類(lèi)方法。,
,先介紹一個(gè)人工分揀關(guān)鍵詞的方法:卡片分揀。通過(guò)嘗試,這的確是一種可以集思廣益的分類(lèi)方法。我們從”馬爾代夫”的關(guān)鍵詞詞庫(kù)中抽取了500個(gè)關(guān)鍵詞,隨機(jī)分配給,
,5個(gè)小組。每組把手頭上的關(guān)鍵詞進(jìn)行自由分組,并且自行命名組名。然后再匯聚5個(gè)小組的組名,這樣我們就確定了大約10個(gè)小分類(lèi),并且找到了一些之前單槍匹馬沒(méi)有想到的內(nèi)容。,
,最后的情況大致上,
,
, 有了分類(lèi),我們?cè)诰W(wǎng)頁(yè)結(jié)構(gòu)組織上,可以更加有的放矢。具體可以看看maldives.tuniu.com的左側(cè)分類(lèi),實(shí)際操作過(guò)程中,我們也有一定的篩選和層級(jí)控制考慮。例如貨幣,語(yǔ)言,氣候,都可以歸入介紹里面。關(guān)于這個(gè)頁(yè)面我們也很少去做外部鏈接,內(nèi)容也只是無(wú)數(shù)目的地中的一個(gè),不可能有很多人力盯著這個(gè)欄目,但是專(zhuān)心做用戶喜歡的內(nèi)容,這個(gè)頻道的表現(xiàn)還是相當(dāng)不錯(cuò)的。,
,這時(shí)候如何構(gòu)建內(nèi)容,就非常清晰了,直接從詞庫(kù)中找關(guān)鍵詞然后寫(xiě)內(nèi)容就可以,總比成天寫(xiě)”馬爾代夫報(bào)價(jià)”,“馬爾代夫旅游報(bào)價(jià)”等無(wú)價(jià)值文章,做所謂的核心詞表現(xiàn)要好很多。,
,我們只是分了500個(gè)關(guān)鍵詞,詞庫(kù)中還有上萬(wàn)的待分類(lèi)馬爾代夫的關(guān)鍵詞,隨著時(shí)間的推移,新加入的關(guān)鍵詞也會(huì)越來(lái)越多??梢詸C(jī)器可以使用機(jī)器學(xué)習(xí)的方法來(lái)做。這邊本人也還在研究學(xué)習(xí)中,寫(xiě)出來(lái)怕貽笑大方,拋磚引玉一下,使用決策樹(shù),根據(jù)已有卡片分揀的關(guān)鍵詞作為訓(xùn)練文檔,根據(jù)受控詞表中的元數(shù)據(jù)包含與否作為特征,生成決策樹(shù),以便于進(jìn)行自動(dòng)分類(lèi)。,
,總結(jié),
,1.算法不是問(wèn)題,關(guān)鍵是適合自己行業(yè)詞庫(kù),至于詞庫(kù)怎么來(lái),方法實(shí)在太多,可以看我另一篇文章中說(shuō)的 http://www.imyexi.com/?p=708 關(guān)鍵詞挖掘部分,2.詞與詞之間的關(guān)系,是內(nèi)容推薦,內(nèi)容運(yùn)營(yíng)中的利器,同樣也提升了用戶體驗(yàn),這邊不得不吐槽下,用戶體驗(yàn)是需要技術(shù)的,不是喊喊口號(hào)。,3.本來(lái)想寫(xiě)興趣點(diǎn)挖掘,后來(lái)一想詞庫(kù)中的每個(gè)詞都是興趣點(diǎn),只要控制好詞庫(kù)的更新,興趣點(diǎn)不是問(wèn)題。,4.有了思路,執(zhí)行力也很重要。詞庫(kù)屬于網(wǎng)站內(nèi)容底層基礎(chǔ),弄好這個(gè),后面可以避免很多重復(fù)勞動(dòng)和無(wú)用功。(被坑得深有體會(huì)),5.本人非科班出生,很多技術(shù)術(shù)語(yǔ),名詞解釋?zhuān)珣{自己學(xué)習(xí)理解,有錯(cuò)誤請(qǐng)指正學(xué)習(xí)。,
,來(lái)源:夜息博客 ,
,
,
,夜息系列文章:,
,零基礎(chǔ)學(xué)SEO難嗎?SEO大牛夜息現(xiàn)身說(shuō)法 ,SEO數(shù)據(jù)采集小貼士 ,如何做好友情鏈接? ,夜息:我的網(wǎng)站又被K了?怎么辦? ,SEO是一個(gè)很沒(méi)節(jié)操的工作 ,數(shù)據(jù)驅(qū)動(dòng)SEO,關(guān)鍵詞篩選與維護(hù) ,數(shù)據(jù)驅(qū)動(dòng)SEO,如何改善網(wǎng)站收錄 ,數(shù)據(jù)驅(qū)動(dòng)SEO,夜息分析網(wǎng)站收錄影響因素 ,首頁(yè)內(nèi)鏈消除干擾的方法 ,夜息:從零開(kāi)始快速建立SEO策略 ,夜息:TF-IDF(詞頻-逆文檔頻率)與關(guān)鍵詞排名問(wèn)題 ,SEO之逆推搜索引擎的算法 ,夜息:SEO進(jìn)階技能——計(jì)算機(jī)編程 ,轉(zhuǎn)載請(qǐng)注明: 愛(ài)推站 ? 夜息:數(shù)據(jù)驅(qū)動(dòng)SEO,關(guān)鍵詞篩選與維護(hù)
|轉(zhuǎn)載請(qǐng)注明來(lái)源地址:蜘蛛池出租 http://www.wholesalehouseflipping.com/夜息:SEO數(shù)據(jù)采集小貼士
專(zhuān)注于SEO培訓(xùn),快速排名黑帽SEO https://www.heimao.wiki
