python日记——文本词频统计(中英文)
一、jieba库的基本介绍
中文文本词频统计需要用到第三方库:jieba;
jieba库是优秀的中文分词第三方库,需要额外安装;
jieba库分词依靠中文词库,确定汉字之间的关联概率;
jieba库分词有三种模式:
1、精确模式:把文本精确的切分开,不存在冗余单词;
print(jieba.lcut("时间一定会给你最好的答案"))
#['时间','一定', '会', '给', '你', '最好', '的', '答案']
2、全模式:把文本中所有可能的