一 得到原始文本内容
派生到我的代码片

二 分割成句子

三 句子内容的清理,去掉数字标点和非字母字符

四 nltk.pos_tag进行词性标注

五 nltk.word_tokenize分词

六 enchant拼写检查
派生到我的代码片

七 去停用词和小写去短词

八 使用Wordnet进行词干化

九 完整代码

PS:一直还没用好Stanford的那个工具包,谁用过教我一下吧