文件名称:
clean-dialog:清理对话框数据的框架-源码
开发工具:
文件大小: 11mb
下载次数: 0
上传时间: 2021-03-04
详细说明:本项目为一个清洗对话数据的多线程框架,目前还比较简陋,欢迎提bug和优化,索引句重复重复降重函数的正则或者后缀算法。代码还在继续完善中,注释以及一些函数出处引用等待完善。
目录结构
--clean: 清洗框架主目录
---rules: 存放各级别的规则函数
---tool_data: 存放黑名单词典,每行一个词
---run_dist.py: 主运行文件,构造dataloader, 加载黑名单
---single_filter.py: run_dist.py所调用的单个线程的主程序,加载处理单个数据,并保存过滤后的数据以及脏数据
---run.sh: 使用我挑选的几个规则来运行run_dist.py
运行
bash run.sh
规则
规则包括目前大部分纸张内的清洗规则:
1黑名单过滤,包括特殊字符和脏话2个表情符号表情3邮箱,电话号等隐私过
(系统自动生成,下载前可以参看下载内容)
下载文件列表
相关说明
- 本站资源为会员上传分享交流与学习,如有侵犯您的权益,请联系我们删除.
- 本站是交换下载平台,提供交流渠道,下载内容来自于网络,除下载问题外,其它问题请自行百度。
- 本站已设置防盗链,请勿用迅雷、QQ旋风等多线程下载软件下载资源,下载后用WinRAR最新版进行解压.
- 如果您发现内容无法下载,请稍后再次尝试;或者到消费记录里找到下载记录反馈给我们.
- 下载后发现下载的内容跟说明不相乎,请到消费记录里找到下载记录反馈给我们,经确认后退回积分.
- 如下载前有疑问,可以通过点击"提供者"的名字,查看对方的联系方式,联系对方咨询.