今天跟大家分享一下淘寶的分詞算法,分詞我想大家都不陌生,當然我們講的是淘寶的分詞技術,我們知道淘寶中的每一個寶貝都有一個標題,而標題是由很多的詞或者說字組成的,那么對于這些詞和字我們如何得知淘寶是如何拆分和識別的呢?
分詞;
我們先拿出一個標題這里我準備了一個:
2013秋冬pu短裙女包臀裙子水洗pu皮裙A字裙顯瘦修身前開叉半身裙
我們先不說這個標題的好壞,我們來看下淘寶是如何去拆分這個標題的,上圖:
![點擊查看大圖](http://m.gooddi.cn/file/upload/201410/27/12-01-38-90-1.png)
OK,這張圖是淘寶的系統給標題進行了拆分的結果:
原標題:2013秋冬pu短裙女包臀裙子水洗pu皮裙A字裙顯瘦修身前開叉半身裙
拆分后:2013/秋冬/pu/短裙/女包/臀/裙子/水洗/pu/皮裙/A/字/裙/顯瘦/修身/前/開叉/半身/裙
細心的淘友們發現了淘寶在拆分的時候出現了一個詞“女包”,很是納悶,我們一眼就知道這款寶貝我們賣的裙子怎么變成女包了額,所以我們從淘寶的拆詞系統中我們可以知道標題的關鍵詞的組合是很重要的,而且淘寶的拆詞算法是機器去做的,而并非是人工去拆分的,
所以在寫標題的時候就一定要注意下這些細小的組成部分。不然的話就出現了誤識別導致寶貝失去了原有的流量基礎。
那么針對這類問題如何進行修改呢?
修改后:2013秋冬pu短裙包臀裙子水洗pu皮裙A字裙顯瘦修身前開叉半身裙
我們來看下淘寶是如何拆分的?
![點擊查看大圖](http://m.gooddi.cn/file/upload/201410/27/12-01-38-76-1.png)
很顯然已經非常正確的識別出來了,這里有的人就會很好奇的問::淘寶的拆詞是如何進行的,因為我們能夠看到的個體也就是我展示的圖片是淘寶拆分后的一個結果圖,那么如果我們知道了淘寶拆詞的步驟和方法是不是說我們就很有效的讓淘寶更好的識別我們的關鍵詞呢,也就可以知道我們標題的權重指標是不是這樣的呢?
好,不說廢話,上標題:
迎/51/特價/鏡面/全棉/平頂/帽子/男女/帽子/遮陽/軍帽/男女/帽子/男/帽子
這是一款帽子的標題,標題的拆分結果我們已經用“/”表示出來,好,我們來看下淘寶的一個識別情況:
通過數據采集采樣,我做了一個識別的結果(這個是我個人收集整理的,大家僅供參考):
![點擊查看大圖](http://m.gooddi.cn/file/upload/201410/27/12-01-38-84-1.png)
我們看A類:是標題拆分后的一個結果,B類是詞性,C類是最優類目,D類是該寶貝的最優類目的包含情況,以上數據采集來自數據魔方。
好了,我們簡單看到的一個結果是“鏡面這個詞”是不包含所在的類目的,從利潤上來說單詞的索引是可以識別的,但是我們標出了紅色,表示不可用。好了我們先分析結果數據再來看這個推理,
![點擊查看大圖](http://m.gooddi.cn/file/upload/201410/27/12-01-38-89-1.png)
OK,這是我們看到這款產品可以被識別的一些關鍵詞從上到下是單詞和組合詞,我們簡單來看下這兩個小的概念,
單詞:就是指拆分的最小單位
組合詞:由最小單位兩個及以上的組合形式
這里有人會問為什么很多的組合詞沒有出現,沒有出現不代表沒有,由于權重和人氣不同識別的也是不同的,我們自己采集的時候就這么多了,所以大家將就看下,最重要的是了解其中的含義。
OK,我們標紅的詞我們看下上上面的那張表格,發現了木有,都是神馬詞?沒錯都是名詞,對于這兩個名詞我們再來看下,“帽子”是類目詞,“軍帽”是名詞但不是類目詞。OK,這里我們就知道了淘寶第一識別的是什么,沒錯就是名詞且是類目詞優先識別,是不是有點像我們買家買東西一樣,進入類目先點擊一些關鍵詞再輸入一些關鍵詞,模式是相通的哦!
好了,我們把剛剛標題去重一下:
特價/全棉/平頂/男女/遮陽/軍帽/男/帽子
為什么很多關鍵詞都木有了呢?包括鏡面這個詞,OK
其實呢去重也是淘寶的一個關鍵的步驟,所以做標題的時候注意了哦,親
OK,我們來觀察下這組詞:
軍帽 男
帽子 男
特價 男
平頂帽子
平頂帽子 男
帽子特價
帽子 軍帽
男 帽子 遮陽
遮陽 帽子
遮陽軍帽
男女 帽子
全棉 特價
帽子 全棉
帽子 男特價
帽子 男 軍帽
是不是又發現了一個秘密,什么秘密呢?第一系統很小去打破標題的順序,雖然說標題中的順序不是非常大的影響標題的識別,但是通過第一個例子和這里的樣本,我們很顯然知道是有影響的,OK,繼續我們還可以知道這些組合詞的組成基本上都是由靠近的鄰詞組成的,是不是大家可以自己去看下哦!
-------------------------------------------------華麗的分割-----------------------------------------------
好了,我們來看下“鏡面”這個詞的組成,
![點擊查看大圖](http://m.gooddi.cn/file/upload/201410/27/12-01-38-14-1.png)
OK,知道為什么不被單詞識別了吧?
![點擊查看大圖](http://m.gooddi.cn/file/upload/201410/27/12-01-38-18-1.png)
這個圖又告訴我們什么呢,一些特殊的詞,單詞是不被索引,但是組合詞是可以被索引的。
在我們平常書寫標題的時候我們是不是也是值得注意的,此類詞,本人建議最后不要去書寫在標題中,如果一定要書寫就記得合理的利用空格。
OK,我們來總結一下:
關鍵詞的拆分
拆成多個單詞
關鍵詞的識別順序
類目詞優先,名詞,組合詞
標題組合詞的規律
單詞到多詞組合
最小滑動組合
特殊詞如何組合,以免誤識別
合理利用空格技術
樂發網超市批發網提供超市貨源信息,超市采購進貨渠道。超市進貨網提供成都食品批發,日用百貨批發信息、微信淘寶網店超市采購信息和超市加盟信息.打造國內超市采購商與批發市場供應廠商搭建網上批發市場平臺,是全國批發市場行業中電子商務權威性網站。
本文來源: 如何拆分淘寶分詞做好標題優化