現在位置:主頁 > SEO技術分享 > 實例解析關鍵詞聚類的方法策略

實例解析關鍵詞聚類的方法策略

阿里瑞SEO2020年11月27日SEO技術分享

簡介最近,接手了一個大型的網站,首先要做的就的對這個網站的流量來源進行分析,這其中最繁瑣的莫過于對來源關鍵...

所謂關鍵詞聚類就是以領域特征明顯的詞和短語作為聚類對象,在分類系統的大規模層級分類語料庫中,利用獨創的文本分類的特征提取算法進行詞語的領域聚類,通過控制詞語頻率的影響,分別獲取領域通用詞和領域專類詞。


所以,要想做好這類做關鍵詞的聚類,就一定要有一些基礎信息,基礎數據作為背景。在此,我就借助博客的平臺跟大家實例解析關鍵詞聚類的方法策略


1、百度商業詞聚類模型


現在對于一些醫療SEO來說看行業新聞,大家經常討論一個話題就是百度醫療行業的收入貢獻比是多少?,其實,爆個大料給大家,在2005年甚至2006年之前,百度自己都不掌握這類數據。


當時百度有一個簡單的客戶分類,是客服提交的,然后我們看了一下消費的行業分布,結果顯示超過50%屬于其他分類,這個結果基本上就沒法看了。


然后我就琢磨,用商業詞能不能直接聚類為行業,當時我在產品部門,合作反欺詐點擊的工程師是張懷亭,這是個算法高手,他當年的畢業論文就是關聯規則和聚類算法,我就去請教他,他說了一堆,我大部分沒聽懂,但大概要點知道了一些,然后找他要了論文看了看,也沒太看明白,憑借自己粗淺的理解我就動手了,然后這個還真做成了。


我的出發點就是假設客戶本身具有行業屬性(如果這個假設不存在,那就沒轍了),我認為每個客戶提交的關鍵詞,彼此是有關聯的。某兩個關鍵詞如果同時被不同的客戶提交,其關聯性就會隨之增加,這個是最基本的一個定義,叫做共同推舉數,也是最容易算的一個值。


但是僅僅依賴于共同推舉數有一個問題,就是會導致很多詞都和熱門詞關聯,這是不合理的,我記得當時好像是某網上書城的推薦購買那一欄,明顯都是熱門書籍,似乎也是基于共同推舉數做的關聯。


問題1:A和B有50個共同推舉,A和C有30個共同推舉,但是B這個詞是熱門詞,共有2000個客戶提交;而C是冷門詞,只有50個客戶提交,請問A和B的關聯度高還是A和C的關聯度高?


問題2:客戶1提交了10000個詞(類似阿里真的是這么提交的);客戶2提交了20個詞,客戶1所提交的10000個詞的彼此關聯度和客戶2之間提交的是否一致?


考慮這兩個問題,就需要做權值調整了,然后再計算詞與詞的關聯值。那么,權值該怎么定呢?


對于這個權值的設定做了一個程序,實現程序只用了不到一個下午,然后跑一遍程序大約1個小時到2個小時(那時候百度的商業詞還沒那么多,客戶也沒現在呢么多,我的程序其實效率不夠好)。


然后我做了一個web展示界面,就是任意輸入一個詞,列出其關聯詞及關聯值,目測壞案例,分析參數的問題,然后修改參數,再跑一遍。跑了n多遍,大約兩三天時間,覺得結果差不多了,詞與詞的關聯建立起來了,考慮第二步,聚類。(當時認識了很多奇葩的商業詞, 張掖SEO,大開眼界,對互聯網行業認識徹底改觀,比如白小姐,黃大仙 ,這個領域就不再說了)


覺得聚類的做法就極為簡單了,把每個行業的代表詞(與很多詞關聯的)抽取出來,當作核心詞,然后基于詞的關聯,延展一級關聯、二級關聯、三級關聯,比如A與B關聯,B月C關聯,C與D關聯,計算彼此權值衰減,得出A與D的關聯。盡可能把所有詞聚合到核心詞上,作成行業詞表。


最開始核心詞我從庫里挑與其他詞關聯度較高的有20多個,然后多級權值衰減也是假設的,然后跑一遍,看兩個指標,第一、覆蓋率是多少?第二、準確率如何?選取每個行業關聯度最低的詞(壞案例的密度較高,有些詞會同時被兩個行業核心詞關聯,但權值計算會出問題,導致被并入錯誤的行業)去看,選擇沒有被關聯上的詞去看,分析權值的問題,然后修改衰減參數,增加核心詞。這個程序我也是寫了一個下午,但是調試權值和增加核心詞,做了一個禮拜。


然后,百度商業分析部終于可以推出,基于行業的收入報表。我自豪的說一句,百度做收入行業分布,是基于我的關鍵詞分類算法開始的,當然,今天他們鳥槍換炮了,我的算法效率不夠(初期還行,到更大的詞規模和更多客戶就不行了),覆蓋率和準確度并不十分完美(壞案例還是一直存在的,不過盡可能控制在消費總額的10%內,對熱門詞比較準,但對一些長尾控制不?。?。不過、我是在產品部門干的這個活,呵呵。


后來,這個模型還用于智能起價,下面再說一下關于智能起價的一些事。


評論

說點什么吧
  • 全部評論(0
    還沒有評論,快來搶沙發吧!