通常,我们使用Python网络爬虫抓取网页后,还需要对抓取的 HTML 内容进行处理来获得所需的内容。pyQuery 是 jQuery 的 Python实现,如果对 Web 前端有了解,特别是有用过 jQuery 的,那么 pyQuery 将会是你处理HTML内容的最佳选择。

教程基于如下环境:

  • 系统: Windows 7 64位
  • Python版本: 2.7

安装pyQuery

我们可以使用 pip 来方便的安装所需的 Python package,pip 的安装可以参考Windows安装Python机器学习包或Ubuntu/CentOS安装Python机器学习包中的”安装pip”这部分内容。

装好 pip 后,执行如下命令安装 pyquery 即可:

安装成功则最后输出

使用 pyQuery 解析HTML内容

代码实例如下:

结果是

Python使用pyQuery解析HTML内容-Python 技术分享 Java技术分享 Python 爬虫技术_微信公众号:zeropython—昊天博客

pyquery python

 

所以对Web前端有所了解的话,使用起来真是非常得心应手。

更多用法可以查看官方的API文档:http://pyquery.readthedocs.org/en/latest/api.html,或是http://www.geoinformatics.cn/lab/pyquery/




HTTPX 基础教程-新乡seo|网站优化,网站建设_微信公众号:zeropython—昊天博客