TF-IDF中文分詞算法總結

2019-12-16
TF-IDF介紹:

TFIDF的主要思想是:如果某個詞或短語在一篇文章中出現的頻率(TF)高,并且在其他文章中很少出現,則認為此詞或者短語具有很好的類別區分能力,適合用來分類、做為內容的關鍵字,或者做為文章的主題詞。

名詞解釋:

TF IDF實際上是:TF * IDF
TF詞頻(Term Frequency) 
IDF逆向文件頻率(Inverse Document Frequency)。

TF-IDF的應用:

TF表示詞條在文檔中出現的頻率。
IDF的主要含義是:如果包含詞條的文檔越少,IDF越大。
TF值較大,同時IDF值也較大,這樣的詞條應該給它們賦予較高的權重,并選來作為該類文本的特征詞以區別與其它類文檔,即核心關鍵詞!

TF-IDF對SEO的意義:

如果你的網頁標題和內容,通過TF-IDF計算到的核心關鍵字,正好是你想優化的詞,那么,你的網頁獲得較好排名的機會就會大大增加。

反之,如果你想優化的詞并不是網頁的真正核心關鍵字,那么,要獲得好的排名,則需要更多的其它方面的努力。


不同的詞性他的含義和作用也完全不一樣,那么搜索引擎如何借助詞性來判斷關鍵詞的核心主題呢?

如果我們從大范圍來講,一個網頁的主題包含的關鍵詞不少,但是真正有價值的關鍵詞其實就那么幾個,并且這些有價值的詞我們暫且稱為核心關鍵詞。從詞性來看,多數這些有價值的詞均為名詞形態,如果不了解該詞到底屬于什么關鍵詞詞性可以通過語義分析系統去識別(網址:http://ictclas.nlpir.org/nlpir/),也可以對照一下自己網站的關鍵詞,核心詞絕對是以名詞為主。

一般來說,核心關鍵詞定位多數都是名詞+動詞,或者名詞+形容詞,比如小明在奔跑,該標題對于用戶來說,都知道核心關鍵詞是小明,沒了小明奔跑就沒有任何價值了。但是對于搜索引擎來說肯定不理解,從上面我們所講到的分詞原理,可以了解到該詞的核心關鍵詞也是小明,因為小明是名詞,奔跑是動詞,也叫做名+動。當然定位核心關鍵詞的首要條件是必須是詞性的頻次相等的情況下才會優先將名詞定位核心關鍵詞,比如漂亮_漂亮同義詞_漂亮的含義,雖然該標題里面漂亮是形容詞,并且也包含了其他名詞,但是為何核心詞是漂亮而不是其他名詞,因為頻次相同才會將名詞定位核心詞,頻次不相同優先將頻次最大的關鍵詞定位核心關鍵詞。


TF-IDF分詞算法總結:

1、網頁關鍵詞通過標點符合進行分詞處理,雖然這個板塊大多數SEO人都知道操作,但是由于你符號用的越多,導致網頁的分詞越廣,最終主題不集中。比如:SEO_SEO培訓_SEO教程_SEO優化,這種就是分詞大忌,看起來都是分了4個詞,其實沒有一個集中的,如果要最集中也就是SEO這個詞了。

2、網頁內容不管是更新新聞還是更新產品都要圍繞標題的核心詞去做,當然并不是要你去堆砌關鍵詞,搜索引擎是有分詞算法的,即使你網頁體現培訓這個詞,搜索引擎也一樣認為是關聯性非常強的,不一定非得把SEO培訓完全體現。

3、整個網頁與標題要保持一定的詞控分布,簡單說就是可以借助百度指數的需求圖譜來進行詞的擴展,也算是滿足了搜索引擎對于網頁的一種相關性計算,這種相關性計算會直接計算網頁質量打分在里面。雖然有很多垃圾網站頁面沒有任何相關性,百度一樣給予很好的排名,但是仔細去看,這種操作排名非常難穩定,而往往相關性強的網頁排名穩定性更高。





全國服務熱線:0571-87998705  
地址:浙江省杭州市 拱墅區(北部軟件園)祥園路39-1號 5F

Copyright © 2015-2019  杭州壹一信息技術有限公司 版權所有 浙ICP備18009611號-1

壹一信息專注互聯網營銷策劃推廣,SEO優化網站建設萬詞霸屏整合網絡營銷,為廣大企業提供一站式全方位網絡推廣服務!

天天中彩票是正规网站 海王捕鱼游戏 广西快3预测方法 名都国际棋牌手机下载 白小姐六肖选一期期准中 加拿大快乐8基本走势图 36选7彩票中奖查询 fifa足球世界 下载熊猫四川麻将 美国nba 四川熊猫麻将安卓版 河南11选5任5走势图 极速赛车小说 推倒胡麻将技巧顺口 … 手机上捕鱼赢钱技巧 科乐长春麻将在哪能下 平特怎么买才算中