掌握多少知识,就能抓住多少机会。“知识”来源于“信息”的提炼,而“信息”来源于“数据”的分析。从“数据”→“信息”→“知识”→“智慧”是一步步转化而来。

想从互联网领域中学习什么东西,不同于学校,老师可以直接给予学生现成的知识。互联网高速发展、不易预测的特性,导致大部分信息仍处于未知的状态,没有多少人会告诉你有什么信息、有什么知识。很多信息还躺在一坨坨数据中等待被分析出来。

所以我觉得,在互联网行业中,数据获取与分析是如同沟通表达、时间管理一样的通用型技能,是可以不受职能控制而进行转移。

数据可以通过交换、购买、API等方式来获得,但如果其他人都没有,那就只能自己去找数据,然后分析出信息,提炼出知识。

举个例子,曾经为了分析排在百度首页的网页都有什么共同特征,自己指定了几个可能影响排名的因素:网页大小、下载速度、网页链接数量、正文字数、url的目录层级、query在正文的出现次数、query分词后的词项在正文中的出现次数、query在title中的出现次数等十几个指标,拿了5000个长尾词跑百度搜索结果,把前5页出现的网页全部抓下来,跑出前面指定的十几个指标对应的数据,然后分析所处不同分页的网页(每个分页个5万个样本),在指标上有什么明显的规律。

以上是获取数据,对数据分析后发现:

1、排在第一页的结果,平均正文字数500,第二页~第五页的结果依次递减;

2、排在第一页的结果,平均网页包含的链接数量130,第二页~第五页的结果依次递增;

3、其他指标,在所有分页中均无明显波动。

以上是信息,对信息进行提炼,形成知识:

1、网页正文字数和网页包含的链接会影响长尾词的排名

2、覆盖长尾词的页面,保证正文字数控制在500字以上,网页中包含的链接控制在130以下,会提高网页出现在百度首页的概率

当然,真实的网页排序因素远比这个复杂多得多,除了以上两点肯定还要同时满足多个条件才能出现在首页。

另外,还需注意获取的数据的可靠性和公正性,可靠性是数据能不能推导出正确的结论;公正性是这个数据是不是公平的。

还是上面的例子,如果换成5000个热词,那计算出来的结果就不可靠也不公正。因为百度是一个商业搜索引擎,而在长尾词上,百度会相对不那么商业。

做流量的,很多数据得需要自己去抓,抓取就要用到爬虫。花了几天时间体验了下python的Scrapy,感觉不错,是一个高性能、易上手、健壮稳定、可高度定制、可分布的爬虫框架。

作为一个成熟的爬虫框架,肯定比自己现手写一个爬虫要来的快的多,而相比火车头,它能实现火车头实现不了的功能,比如上面说的例子。

下面是Scrapy的使用小记(抓取百度搜索结果,此处宜横屏浏览,也可以点击左下角“阅读原文”到博客中浏览...)

项目构成:

GoGo闯:【数据分析①】一个例子+Scrapy使用小记-新乡seo|网站优化,网站建设_微信公众号:zeropython—昊天博客

scrapy.cfg:项目配置文件

items.py:存放抓取数据的

pipelines.py:处理抓取数据的

settings.py:爬虫配置文件,有现成的API,可添加各种防ban策略

middlewares.py:中间件

dmoz_spider.py:爬虫程序

参照官方文档和Google写了个抓取百度排名的程序,上手后,在配置速度比火车头还要快一些。

考虑百度封闭爬虫比较严,需要一些防屏蔽策略,采用如下方法实现:

1、轮换出口IP

用scrapinghub提供的代理,因为是国外的IP,所以访问百度比国内要慢一些,但是提供的代理很稳定,方便配置,且免费,貌似没有使用次数的限制。

在sittings.py中添加:

'''crawlera账号、密码'''

CRAWLERA_ENABLED = True

CRAWLERA_USER = '账号'

CRAWLERA_PASS = '密码'

'''下载中间件设置'''

DOWNLOADER_MIDDLEWARES =

运行爬虫:

GoGo闯:【数据分析①】一个例子+Scrapy使用小记-新乡seo|网站优化,网站建设_微信公众号:zeropython—昊天博客

每分钟抓300左右个页面,在速度上仍有很大提升空间,起码要用国内代理速度会快很多。以上防ban功能适用于所有网站,再抓另一个网站只要做对应修改便可。

抓取数据写入mysql情况:

GoGo闯:【数据分析①】一个例子+Scrapy使用小记-新乡seo|网站优化,网站建设_微信公众号:zeropython—昊天博客

完整代码已更新到博客,点击左下角“阅读原文”进入。

欢迎关注扫描下图二维码,关注“流量贩子”,可查看历史消息阅读更多优质文章。

微信公众号:流量贩子

GoGo闯:【数据分析①】一个例子+Scrapy使用小记-新乡seo|网站优化,网站建设_微信公众号:zeropython—昊天博客 扫描上图“识别图中二维码”以快速关注

文章来源:流量贩子公众帐号,扫描上面的二维码关注,干货多多!