Python re 数据清洗 常用正则表达式大全-Python 技术分享 Java技术分享 Python 爬虫技术_微信公众号:zeropython—昊天博客

数据挖掘全流程包括采集、清洗和分析。而清洗工作往往会占到数据挖掘的80%的工作量。比如,最常见的文本数据,计算机是无法分析文本数据的,我们需要从文本中抽取出需要的数据,并将其编码为数字。这个从文本中抽取指定信息,往往需要用到正则表达式

正则表达式语法

本小节语法比较难,大家看不懂也没关系。只需要保存该表,事后勤翻看即可。大家可以跳过此图,直接看后面的实际代码例子。

常用数字表达式

Python re 数据清洗 常用正则表达式大全-Python 技术分享 Java技术分享 Python 爬虫技术_微信公众号:zeropython—昊天博客
Python re 数据清洗 常用正则表达式大全-Python 技术分享 Java技术分享 Python 爬虫技术_微信公众号:zeropython—昊天博客

[0-9]+

匹配出字符串中0-9 中的任意数字信息,该信息满足数字出现一次或者多次

d{n}

匹配出字符串中n位的数字。n是数字出现次数,例子中我们设置为4

d{n,}

匹配出字符串中整数至少出现n次

d{m,n}

匹配出字符串中的数字信息,该信息满足整数出现m-n次。

校验字符的表达式

Python re 数据清洗 常用正则表达式大全-Python 技术分享 Java技术分享 Python 爬虫技术_微信公众号:zeropython—昊天博客

[\u4e00-\u9fa5]+

匹配出字符串中的汉字

[A-Za-z0-9]+

匹配出字符串中的英文和数字

.{m,n}

对某字符串进行匹配,匹配出m-n长度的所有字符串

[A-Za-z]+

匹配出字符串中的英文字符,不考虑大小写

[A-Z]+

匹配出字符串中的大写英文字符

[a-z]+

匹配出字符串中的小写英文字符

[A-Za-z0-9]+

匹配出字符串中的英文和数字信息

w+

识别以空格为间隔的字符串,得到其中的数字、字符、下划线。例如

[\u4e00-\u9fa5A-Za-z0-9_]+

匹配出字符串中的中英文、数字和下划线信息

特殊需求表达式

Python re 数据清洗 常用正则表达式大全-Python 技术分享 Java技术分享 Python 爬虫技术_微信公众号:zeropython—昊天博客

邮箱

[a-zA-Z0-9_-]+@[a-zA-Z0-9_-]+.[a-zA-Z0-9_-]+ 匹配出字符串中的邮箱信息

url

http://[w+.]+ 匹配出字符串中的域名信息

手机号

1[3|4|5|8][0-9]d{4,8} 匹配出字符串中的手机号码信息

电话号码

d{3}-d{8}|d{4}-d{7} 匹配出字符串中的电话号码信息

日期格式

形如2018-09-11,d{4}-d{1,2}-d{1,2} 匹配出字符串中的日期信息。

空行信息

[ s ]+ 匹配出字符串的空行,可以用该空行做一些操作。

其他 常用的正则匹配

HTTPX 基础教程-新乡seo|网站优化,网站建设_微信公众号:zeropython—昊天博客