在搜索引擎技術中,中文分詞對于影響搜索引擎結果排序有著至關重要的作用。我們在實際的搜索引擎優(yōu)化中,為了避免很多主關鍵詞的大量競爭,也會使用到中文分詞技術來做SEO優(yōu)化。
舉個簡單的例子,假如我們需要優(yōu)化一個內容是“軸承”的網頁,那么想要這個關鍵詞在搜索引擎中排名更好,那就是很難的一件事了。因為“軸承”這個關鍵詞熱度太高,所以想要通過SEO手段去將其優(yōu)化到搜索結果的首頁是一件非常難的事。在這個時候我們經常會使用長尾關鍵詞去優(yōu)化這樣的高熱度關鍵詞,也就是說,我們經常會優(yōu)化一些例如“北京軸承銷售商”、“北京進口軸承”等這樣的關鍵詞。而想要把這樣的關鍵詞做到搜索結果的前列,對于中文分詞技術的把握和對于關鍵詞的布局,有很大的重要性。
中國的文字博大精深,不同的標點符號,不同的斷句就代表著不同的意思。所以,曾經有一位Google的科學家說:“如果可以做好中文搜索引擎,那么我們就不怕任何語種的搜索引擎研究了。”
那么中文分詞在搜索引擎優(yōu)化中到底具有怎樣的意義呢?分詞對SEO的影響是多方面的,最重要的就是對長尾流量的影響。例如說我們常常見到很多很想做的長尾關鍵詞,例如廣州進口軸承銷售,上海進口軸承銷售等等,但我們通過前文對于SEO的了解可以知道,一個頁面做關鍵詞不要超過三個,因為超過三個就會分散了每個關鍵詞的權重,反而一個都做不好。但如果我們想超過三個又不影響呢?那么我們這時候就需要利用中文分詞來對關鍵詞進行組合了,例如:進口軸承銷售-上海-廣州。這樣分出來的結果可能沒有廣州進口軸承銷售或上海進口軸承銷售的關鍵詞來的直接,但用這樣分詞的辦法卻使到很多詞都獲得不錯的效果。多個詞排名在搜索引擎結果頁的首位,總是要比一個關鍵詞排名在第一位的覆蓋面要廣。久而久之,因為 廣州+進口軸承銷售、上海+進口軸承銷售這些頁面讓搜索引擎知道你的頁面和“進口軸承銷售”這個關鍵詞相關度很高,因此進口軸承銷售這個主關鍵詞的排名也會相對提高。
當然,我們上面舉得例子是還沒有完全對于關鍵詞進行完全的拆分。下面我們就對中文分詞做一個粗略的討論。
最早的中文分詞辦法是由北京航天航空大學的梁南元教授提出的,一種基于“查字典”的分詞辦法。例如這個句子:“著名導演張藝謀說國慶節(jié)晚上將安排十萬人到天安門聯(lián)歡。”
用 “查字典” 的分詞方法,我們要做的就是把整個句子讀一遍,然后把字典里有的詞都單獨標示出來,當遇到復合詞的時候(例如北京大學),就找到最長的詞匹配。遇到不認識的字符串就分割成單個文字。根據這樣的辦法,我們以上的文字可以切分為:
“著名 | 導演 | 張藝謀 | 說 | 國慶節(jié) | 晚上 | 將 | 安排 | 十萬人 | 到 | 天安門 | 聯(lián)歡”
這樣的分詞辦法雖然說可以應付很多的句子,但是由于細分的太多,在真正搜索引擎使用的過程中,到底哪一個詞才是重點就無法表述,從而搜索引擎搜索出的結果也不能達到最大的相關度。于是在80年代,哈爾濱工業(yè)大學計算機博士生導師王曉龍博士提出了“最少詞數”的分詞理論,即為,一句話應該是分詞最少的字符串,這樣會更多的讓搜索引擎更明白這句話到底是什么意思。但是這樣的辦法雖然更好,新的問題卻也顯現(xiàn)了出來。例如,我們在做“二義性”關鍵詞組的時候,就不能說最長的分割就是最好的結果。舉個例子,“吉利大學城書店”這個關鍵詞正確的分詞應該是“吉利 | 大學城 | 書店”而不是詞典中的“吉利大學 | 城 | 書店 ”。
目前,主流的分詞辦法有兩種,一種是基于統(tǒng)計模型的文字處理,另外一種是基于字符串匹配的逆向最大匹配法。
樂發(fā)網超市批發(fā)網提供超市貨源信息,超市采購進貨渠道。超市進貨網提供成都食品批發(fā),日用百貨批發(fā)信息、微信淘寶網店超市采購信息和超市加盟信息.打造國內超市采購商與批發(fā)市場供應廠商搭建網上批發(fā)市場平臺,是全國批發(fā)市場行業(yè)中電子商務權威性網站。
本文內容整合網站:百度百科、知乎、淘寶平臺規(guī)則
本文來源: 利用中文分詞技術來做SEO優(yōu)化