python3下的数据存储 Pymysql(mysql) Pymongo(mongo)
发布时间:2017-07-26T09:31:56:手机请访问
文章目录

在Python中使用MySQL,有两种方式,使用ORM(对象关系映射)框架和数据库模块,在此我们使用数据库模块pymysql(Python3)。
安装pymysql:
1 |
在爬虫程序中使用mysql
我们以之前爬取今日头条的例子来扩展;
之前的代码是这样的:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 |
# coding:utf-8 import requests import json url = 'http://www.toutiao.com/api/pc/focus/' wbdata = requests.get(url).text data = json.loads(wbdata) news = data['data']['pc_feed_focus'] for n in news: title = n['title'] img_url = n['image_url'] url = n['media_url'] print(url,title,img_url) |
在最后,我们直接使用print将数据打印了出来。
现在我们使用pymysql将数据存储到Mysql中。
(创建数据库toutiao,创建数据表data)
修改的代码如下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 |
# coding:utf-8import requests import json import pymysql conn = pymysql.connect(host='localhost',port=3307,user='root',password='usbw',db='toutiao',charset='utf8') cursor = conn.cursor() url = 'http://www.toutiao.com/api/pc/focus/'wbdata = requests.get(url).text data = json.loads(wbdata) news = data['data']['pc_feed_focus']for n in news: title = n['title'] img_url = n['image_url'] url = n['media_url'] print(url,title,img_url) cursor.execute("INSERT INTO data(title,img_url,url)VALUES('{0}','{1}','{2}');".format(title,img_url,url)) conn.commit() cursor.close() conn.close() |
1 2 3 4 5 6 7 8 9 10 11 12 13 |
#引入pymysql模块: import pymysql #建立一个mysql的连接: conn = pymysql.connect(host='localhost',port=3307,user='root',password='usbw',db='toutiao',charset='utf8') #创建一个游标cursor: cursor = conn.cursor() #执行一个SQL语句: cursor.execute("INSERT INTO data(title,img_url,url)VALUES('{0}','{1}','{2}');".format(title,img_url,url)) #提交执行(因为对数据进行和修改,如果只是select,则不需要): conn.commit() #最后,关闭连接: cursor.close() conn.close() |
嗯,将数据保存在MySQL就完成了,更多的MySQL和PyMySQL的用法,还请看文档
下面看看MongoDB
MongoDB储存
1.下载并安装MongoDB:
https://www.mongodb.com/download-center
2.运行mongodb:
进入安装好之后的mongo目录的bin目录,打开命令行窗口,输入“mongod --dbpath=数据存放路径”
3.安装pymongo:
1 |
4、使用MongoDB和PyMongo
依然是扩展爬取今日头条的例子,先上代码:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 |
# coding:utf-8 import requests import json import pymongo conn = pymongo.MongoClient(host='localhost',port=27017) toutiao = conn['toutiao'] newsdata = toutiao['news'] url = 'http://www.toutiao.com/api/pc/focus/'wbdata = requests.get(url).text data = json.loads(wbdata) news = data['data']['pc_feed_focus']for n in news: title = n['title'] img_url = n['image_url'] url = n['media_url'] data = { 'title':title, 'img_url':img_url, 'url':url } newsdata.insert_one(data)for i in newsdata.find(): print(i) |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 |
#Pymongo相关的代码为: #引入模块 import pymongo #连接到Mongo conn = pymongo.MongoClient(host='localhost',port=27017) #选择或创建数据库 toutiao = conn['toutiao'] #选择或创建数据集合 newsdata = toutiao['news'] #插入一行数据: newsdata.insert_one(data) #查询数据 newsdata.find() #如此,简单地对数据进行数据库存储就完成了。 |
Python3 对 redis的操作
redis连接实例是线程安全的,可以直接将redis连接实例设置为一个全局变量,直接使用。如果需要另一个Redis实例(or Redis数据库)时,就需要重新创建redis连接实例来获取一个新的连接。同理,python的redis没有实现select命令。
1.安装redis
1 |
pip install redis |
2.redis 的增删改查
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 |
import redis r = redis.Redis(host='localhost',port=6379,password="password",db=0) r.set('guo','shuai') #增加 True r.get('guo') #查询 'shuai' r['guo'] #查询 'shuai' >>r.keys() #获取键值 ['guo'] >>r.dbsize() #当前数据库包含多少条数据 1L >>r.delete('guo') #redis 删除 1 >>r.save() #执行“检查点”操作,将数据写回磁盘。保存时阻塞 True >>r.get('guo'); >>r.flushdb() #清空r中的所有数据 True ''' pipeline操作 管道(pipeline)是redis在提供单个请求中缓冲多条服务器命令的基类的子类。它通过减少服务器-客户端之间反复的TCP数据库包,从而大大提高了执行批量命令的功能。 ''' >>p = r.pipeline() --创建一个管道 >>p.set('hello','redis') >>p.sadd('faz','baz') >>p.incr('num') >>p.execute() [True, 1, 1] >>r.get('hello') 'redis' #管道的命令可以写在一起,如: >>p.set('hello','redis').sadd('faz','baz').incr('num').execute() #默认的情况下,管道里执行的命令可以保证执行的原子性,执行pipe = r.pipeline(transaction=False)可以禁用这一特性。 |
redis应用场景 – 页面点击数
《Redis Cookbook》对这个经典场景进行详细描述。假定我们对一系列页面需要记录点击次数。例如论坛的每个帖子都要记录点击次数,而点击次数比回帖的次数的多得多。如果使用关系数据库来存储点击,可能存在大量的行级锁争用。所以,点击数的增加使用redis的INCR命令最好不过了。
当redis服务器启动时,可以从关系数据库读入点击数的初始值(1237这个页面被访问了34634次)
1 2 |
>>r.set("visit:1237:totals",34634) True |
1 2 3 4 5 6 7 8 |
#每当有一个页面点击,则使用INCR增加点击数即可。 >>r.incr("visit:1237:totals") 34635 >>r.incr("visit:1237:totals") 34636 #页面载入的时候则可直接获取这个值 >>r.get ("visit:1237:totals") '34636' |
使用hash类型保存多样化对象
当有大量类型文档的对象,文档的内容都不一样时,(即“表”没有固定的列),可以使用hash来表达。
1 2 3 4 5 6 7 8 9 10 11 12 |
>>r.hset('users:jdoe', 'name', "John Doe") 1L >>r.hset('users:jdoe', 'email', 'John@test.com') 1L >>r.hset('users:jdoe', 'phone', '1555313940') 1L >>r.hincrby('users:jdoe', 'visits', 1) 1L >>r.hgetall('users:jdoe') {'phone': '1555313940', 'name': 'John Doe', 'visits': '1', 'email': 'John@test.com'} >>r.hkeys('users:jdoe') ['name', 'email', 'phone', 'visits'] |
应用场景 – 社交圈子数据
在社交网站中,每一个圈子(circle)都有自己的用户群。通过圈子可以找到有共同特征(比如某一体育活动、游戏、电影等爱好者)的人。当一个用户加入一个或几个圈子后,系统可以向这个用户推荐圈子中的人。
我们定义这样两个圈子,并加入一些圈子成员。
1 2 3 4 5 6 7 8 9 10 11 |
>>r.sadd('circle:game:lol','user:debugo') 1 >>r.sadd('circle:game:lol','user:leo') 1 >>r.sadd('circle:game:lol','user:Guo') 1 >> r.sadd('circle:soccer:InterMilan','user:Guo') 1 >>r.sadd('circle:soccer:InterMilan','user:Levis') 1 >>r.sadd('circle:soccer:InterMilan','user:leo') |
#获得某一圈子的成员
1 2 3 4 5 6 7 8 9 |
>>r.smembers('circle:game:lol') set(['user:Guo', 'user:debugo', 'user:leo']) redis> smembers circle:jdoe:family 可以使用集合运算来得到几个圈子的共同成员: >>r.sinter('circle:game:lol', 'circle:soccer:InterMilan') set(['user:Guo', 'user:leo']) >>r.sunion('circle:game:lol', 'circle:soccer:InterMilan') set(['user:Levis', 'user:Guo', 'user:debugo', 'user:leo']) |
应用场景 – 实时用户统计
Counting Online Users with Redis介绍了这个方法。当我们需要在页面上显示当前的在线用户时,就可以使用Redis来完成了。首先获得当前时间(以Unix timestamps方式)除以60,可以基于这个值创建一个key。然后添加用户到这个集合中。当超过你设定的最大的超时时间,则将这个集合设为过期;而当需要查询当前在线用户的时候,则将最后N分钟的集合交集在一起即可。由于redis连接对象是线程安全的,所以可以直接使用一个全局变量来表示。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 |
import time from redis import Redis from datetime import datetime ONLINE_LAST_MINUTES = 5 redis = Redis() def mark_online(user_id): #将一个用户标记为online now = int(time.time()) #当前的UNIX时间戳 expires = now + (app.config['ONLINE_LAST_MINUTES'] * 60) + 10 #过期的UNIX时间戳 all_users_key = 'online-users/%d' % (now // 60) #集合名,包含分钟信息 user_key = 'user-activity/%s' % user_id p = redis.pipeline() p.sadd(all_users_key, user_id) #将用户id插入到包含分钟信息的集合中 p.set(user_key, now) #记录用户的标记时间 p.expireat(all_users_key, expires) #设定集合的过期时间为UNIX的时间戳 p.expireat(user_key, expires) p.execute() def get_user_last_activity(user_id): #获得用户的最后活跃时间 last_active = redis.get('user-activity/%s' % user_id) #如果获取不到,则返回None if last_active is None: return None return datetime.utcfromtimestamp(int(last_active)) def get_online_users(): #获得当前online用户的列表 current = int(time.time()) // 60 minutes = xrange(app.config['ONLINE_LAST_MINUTES']) return redis.sunion(['online-users/%d' % (current - x) #取ONLINE_LAST_MINUTES分钟对应集合的交集 for x in minutes]) |
