昊天SEO

网页正文内容提取

一般站长采集网页内容用的比较多的就是火车头,针对每个页面都得写提取内容的规则,如果我们只是采集1,2个站的话,那应该没多大问题。每个网站挨个写就行。但是如果我们需要针对多个网站进行采集,比如50个,100个,那每个网站的正文的html代码是不一样的,我们就得写50个,100个正文规则,这样效率就比较慢了。

下面介绍一个python提取正文的神器:goose,能让你快速的提取页面的正文信息。

这篇文章介绍了下: goose的相关的文档

我的页面分析工具:里面的分析内容模块就是用这个包搞的,你可以试试:)

主要功能是:

Goose will try to extract the following information:

  • Main text of an article
  • Main image of article
  • Any Youtube/Vimeo movies embedded in article
  • Meta Description
  • Meta tags

提取页面的正文,文章的图片,描述和标签等。

>>> from goose import Goose
>>> url = 'http://edition.cnn.com/2012/02/22/world/europe/uk-occupy-london/index.html?hpt=ieu_c2'
>>> g = Goose()
>>> article = g.extract(url=url)
>>> article.title #提取标题
u'Occupy London loses eviction fight'
>>> article.meta_description #提取描述
"Occupy London protesters who have been camped outside the landmark St. Paul's Cathedral for the past four months lost their court bid to avoid eviction Wednesday in a decision made by London's Court of Appeal."
>>> article.cleaned_text#提取正文
(CNN) -- Occupy London protesters who have been camped outside the landmark St. Paul's Cathedral for the past four months lost their court bid to avoi
>>> article.top_image.src #提取图片
http://i2.cdn.turner.com/cnn/dam/assets/111017024308-occupy-london-st-paul-s-cathedral-story-top.jpg
网站的维护离不开大家的支持鼓励,捐赠让我更有动力走的更远&& 也可以关注我的微信公众号,发布更多的干货
本文网址:https://www.168seo.cn/python/1801.html

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址