最近在做机器学习的文本分类,python学的不到家,导致一些小问题迟迟没解决,幸亏有前辈指导。将我遇到的问题和解决方法写出来,供大家学习。代码的作用就是把爬取到的大量文本数据经过处理后划分为了训练集和测试集。
本文代码主要实现了下面几项功能:
①把一个txt文件按比例分成多个txt文件
②将txt文件格式由UTF-8转换为ANSI
③保存txt到指定(路径)文件夹
import re
text = open('./data/123.txt',r, encoding='UTF-8').read()