昊天SEO

SEO 与 采集

  1.没有高效率编辑团队,是否应该采集内容呢?

很多人会把采集这个事情比喻成抄袭,觉得抄袭是坏事,肯定不能做。但是事实上采集不好的本质是什么?如果互联网上的信息很多是重复的,搜索引擎花费大量时间在处理重复内容上,浪费计算资源,采集的内容到处泛滥,对用户无价值,好比同样一个东西,在A网站能看到,B,C,D网站都能看到,用户总是被这些信息强X眼睛。自然就会失去对搜索引擎的信任。

2.蜘蛛抓取策略?

广度优先,限制深度

OPIC

回访机制

不重复抓取

大站优先

合作抓取

3.百度有没有固定蜘蛛,还有随机蜘蛛策略?

固定蜘蛛,固定一些ip抓某个域名。当然一些小站可能就是共享蜘蛛,因为你太小了,没必要单独给你分台服务器抓你。其实这个固定不固定,没必要研究,这么多服务器呢,突然哪台宕机了,可能就要换一个ip来抓,突然新买了一堆服务器 ,说不定抓你网站ip就要变,抓多抓少,那会根据负载来判定;收录多收录少,会根据权重来判定 ;只要让爬虫抓得爽,自然就抓得多,收录多少那是另外的事情

4.SEO频道如何去重

大部分seo频道模版是一样的,只是词和调用的内容不同,如果调用的内容是一致的 那么基本就是重复的。在批量处理时跑一遍所有词,把所有的调用数据id生成出来,这样形成一大堆的数列,就可以去重了。

5.信息检索过程是怎样的

首先,对于用户的query,要对它进行特征提取,使之变成一个特征向量,用于匹配文档。其次,对于已经抓取的文档,也对它进行特征提取,并给予这些特征一些权重,来表示它们的重要程度。再次,对query的特征和文档的特征进行相似度计算,来判断哪些文档跟query相关,哪些不相关。信息检索最常用的相似度计算方法是求cosine,其它还可以从语义主题的角度去描述相似性。有了相似度,我们可以根据相似度对文档进行排序,并将最相关的一些作为检索结果。对于检索结果,用户可能会提供一些反馈,比如用户的点击。这些反馈可以告诉SE,在搜索结果里面哪些是用户需要的。这些信息可以用来衡量检索的效果,来对检索模型进一步提升。

6.关于SE算法

”搜索引擎要解决的问题是你这个链接是否具有推荐性,如何用机器来识别,这才是算法”

记录到用户行为:用户点击了这个链接

判断相关性: 链接到的页面内容和这个页面内容相关这2个方面,机器都能识别到。

判断内容的相关性,基本的变化不会很大(权值基本固定)

用户的行为会越多,用户行为的决定性越强(权值逐渐变大),用来确定推荐性的比重越大。

所以用户的行为直接推高你的排名,因为你的内容符合用户需求。

(这个中间,是要平衡的,如果你有错误的排序,不相关的结果也会获取到大量的点击 )

如果你要研究搜索引擎算法。

请把高数/线代/离散/概率/统计等基础学科学习一下。都会用到。

一个链接用锚文本链接还是纯文字链接。这种不叫算法,搜索引擎也根本不关心你用哪个。

算法可以理解为按照要求设计好的有限的确切的计算序列,并且这样的步骤和序列可以解决一类问题。

搜索引擎要解决的问题是你这个链接是否具有推荐性,如何用机器来识别,这才是算法。

未经允许不得转载:新乡seo|网站优化,网站建设—昊天博客 » SEO 与 采集

网站的维护离不开大家的支持鼓励,捐赠让我更有动力走的更远&& 也可以关注我的微信公众号,发布更多的干货
本文网址:https://www.168seo.cn/seojishu/1149.html

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址