文章目录

两个问题

在准备采集前找词的时候,有个蛋疼的问题:

  • 无论任何一种找词渠道,固定搜索词(如阿拉巴巴招聘)和个性搜索词(如阿里巴巴工程师级别怎么划分)总是杂糅到一块的,对于同一词根下的扩展词,如何将这两类词分开?
  • 固定搜索词往往可以根据固定词缀的出现次数来预估关键词的流量,毕竟同一个词缀出现次数高,流量也会相对高。但个性化搜索词流量和竞争度怎么判断?

为什么非要把两类词找出来呢?因为这两类词的采集源往往是不同的……

如何将固定搜索词和个性化搜索词分开

因为固定搜索词都包含通用的词缀,比如:

这里面“工资”就是通用词缀,前面可以跟任何关于职位的变量。

程序搞定?

所以可以通过程序分词,把包含连续出现多次词缀的关键词单独提出来,这点可以通过python的jieba分词模块配合word2vec来搞,或者配合K-means也可以。

然而实际中,由于jieba默认词典的限制,导致在不同行业内分词不理想的情况,比如没有把通用词缀单独切出来,致使后面聚类的效果也不理想的情况。

要达到理想情况,就要不断优化jieba分词词典和聚类算法。

但本渣渣是伪技术,只会装逼。即便能搞定也得花挺长时间。

人肉搞定?

人肉搞定思路就很简单了

首先把全行业所有的固定搜索行为全部找出来,比如这是招聘行业的固定搜索行为,即便不全也可以覆盖大部分:

 

SEO如何处理采集内容(4)–转自{GoGo闯}-园艺资材批发美乐棵,奥绿肥,花多多,赤玉土,品式泥炭

 

 

 

当把固定搜索行为找出后,就知道这个行业都有哪些通用词缀,剩下的事简单了,还是照常跑词,把跑出来的词包含通用词缀的全部拎出来,剩下的就都是个性化搜索词了。这完全是个力气活,拼体力。

全行业固定搜索词怎么找?之前本渣渣写过,详见:【SEO】关键词数据分析

个性化搜索词流量怎么判断

简单的就是跑指数了,爱站和战神软件都有这功能。但如果大部分都没有指数怎么办?

相对精准的搜索量本渣渣也不知道该怎么判断,但是可以从关键词来源渠道来评个优先级。

比如移动端跑出来的词一定比从pc端的优先级高。

百度相关搜索的词一定比凤巢的优先级高(凤巢的词都被做烂了,小站没机会)

如果要上的内容类型是问答类的,那百度知道相关搜索词一定比百度新闻相关搜索词优先级高

个性化搜索词竞争度怎么判断

本渣渣就粗暴的看百度搜索结果

  • 搜索结果数越低,竞争度越低,而且title放别人做的少的词被收录的概率也会大
  • 前10搜索结果中,关键词飘红的次数,次数越低,竞争度越低
  • {word} site:(domain1 | domain2 | domain3) ,看一下几个大网站有没有做,尤其是58赶集、1688这种流氓,因为这些超大型站点做的词,大中型站点也跟着做,超大中型站点都抢的词,就没小站什么事了
HTTPX 基础教程-新乡seo|网站优化,网站建设_微信公众号:zeropython—昊天博客