一般站长采集网页内容用的比较多的就是火车头,针对每个页面都得写提取内容的规则,如果我们只是采集1,2个站的话,那应该没多大问题。每个网站挨个写就行。但是如果我们需要针对多个网站进行采集,比如50个,100个,那每个网站的正文的html代码是不一样的,我们就得写50个,100个正文规则,这样效率就比较慢了。

下面介绍一个python提取正文的神器:goose,能让你快速的提取页面的正文信息。

这篇文章介绍了下: goose的相关的文档

我的页面分析工具:里面的分析内容模块就是用这个包搞的,你可以试试:)

主要功能是:

Goose will try to extract the following information:

  • Main text of an article
  • Main image of article
  • Any Youtube/Vimeo movies embedded in article
  • Meta Description
  • Meta tags

提取页面的正文,文章的图片,描述和标签等。