昊天SEO

jieba去除停止词

#coding:utf-8
import jieba
import jieba.analyse    #计算tf-idf需要调用此模块jieba.analyse
stopkey=[line.strip().decode('utf-8') for line in open('stopkey.txt').readlines()] 
#将停止词文件保存到列表stopkey,停止词在网上下载的。
neirong = open(r"ceshi1.txt","r").read()  #导入需要计算的内容
zidian={}
fenci=jieba.cut_for_search(neirong)   #搜索引擎模式分词
for fc in fenci:
        if fc in zidian:                
                zidian[fc]+=1           #字典中如果存在键,键值加1,
        else:
                zidian.setdefault(fc,1)   #字典中如果不存在键,就加入键,键值设置为1
quanzhong=jieba.analyse.extract_tags(neirong,topK=20)       #计算tf-idf,输出前20的权重词。
for qg in quanzhong:
        if qg in stopkey:       #如果qg存在停止词stopkey里面,则pass
                pass
        else:                                        #不存在的话就输出qg和出现qg的次数
                print qg+","+`zidian[qg]`       #输出权重词和权重词出现的次数



代码 stopword 下载

停止词下载 stopkey

 

本文地址官网    新乡网站建设,seo

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址