文章目录

安装pymysql
python3下的数据存储 Pymysql(mysql) Pymongo(mongo)-Python 技术分享 Java技术分享 Python 爬虫技术_微信公众号:zeropython—昊天博客

在Python中使用MySQL,有两种方式,使用ORM(对象关系映射)框架和数据库模块,在此我们使用数据库模块pymysql(Python3)。
安装pymysql

在爬虫程序中使用mysql
我们以之前爬取今日头条的例子来扩展;
之前的代码是这样的:

在最后,我们直接使用print将数据打印了出来。
现在我们使用pymysql将数据存储到Mysql中。
(创建数据库toutiao,创建数据表data)
修改的代码如下:

嗯,将数据保存在MySQL就完成了,更多的MySQL和PyMySQL的用法,还请看文档
下面看看MongoDB

MongoDB储存

1.下载并安装MongoDB:
https://www.mongodb.com/download-center

2.运行mongodb:
进入安装好之后的mongo目录的bin目录,打开命令行窗口,输入“mongod --dbpath=数据存放路径”

3.安装pymongo:

4、使用MongoDB和PyMongo
依然是扩展爬取今日头条的例子,先上代码:

 

Python3 对 redis的操作

redis连接实例是线程安全的,可以直接将redis连接实例设置为一个全局变量,直接使用。如果需要另一个Redis实例(or Redis数据库)时,就需要重新创建redis连接实例来获取一个新的连接。同理,python的redis没有实现select命令。

1.安装redis

2.redis 的增删改查

 

redis应用场景 – 页面点击数

《Redis Cookbook》对这个经典场景进行详细描述。假定我们对一系列页面需要记录点击次数。例如论坛的每个帖子都要记录点击次数,而点击次数比回帖的次数的多得多。如果使用关系数据库来存储点击,可能存在大量的行级锁争用。所以,点击数的增加使用redis的INCR命令最好不过了。
当redis服务器启动时,可以从关系数据库读入点击数的初始值(1237这个页面被访问了34634次)

使用hash类型保存多样化对象
当有大量类型文档的对象,文档的内容都不一样时,(即“表”没有固定的列),可以使用hash来表达。

应用场景 – 社交圈子数据
在社交网站中,每一个圈子(circle)都有自己的用户群。通过圈子可以找到有共同特征(比如某一体育活动、游戏、电影等爱好者)的人。当一个用户加入一个或几个圈子后,系统可以向这个用户推荐圈子中的人。
我们定义这样两个圈子,并加入一些圈子成员。

#获得某一圈子的成员

应用场景 – 实时用户统计

Counting Online Users with Redis介绍了这个方法。当我们需要在页面上显示当前的在线用户时,就可以使用Redis来完成了。首先获得当前时间(以Unix timestamps方式)除以60,可以基于这个值创建一个key。然后添加用户到这个集合中。当超过你设定的最大的超时时间,则将这个集合设为过期;而当需要查询当前在线用户的时候,则将最后N分钟的集合交集在一起即可。由于redis连接对象是线程安全的,所以可以直接使用一个全局变量来表示。

HTTPX 基础教程-新乡seo|网站优化,网站建设_微信公众号:zeropython—昊天博客