文件名称:
中文聊天对话语料chinese chatbotcorpus
开发工具:
文件大小: 72kb
下载次数: 0
上传时间: 2020-02-21
详细说明:# 说明
该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作
该库搜集了包含
- chatterbot
- 豆瓣多轮
- PTT八卦语料
- 青云语料
- 电视剧对白语料
- 贴吧论坛回帖语料
- 微博语料
- 小黄鸡语料
共8个公开闲聊常用语料和短信,白鹭时代问答等语料。
并对8个常见语料的数据进行了统一化规整和处理,达到直接可以粗略使用的目的。
**使用该项目,即可对所有的聊天语料进行一次性的处理和统一下载,不需要到处自己去搜集下载和分别处理各种不同的格式。*
# 环境
python3
# 处理过程
将各个来源的语料按照其原格式进行提取,提取后进行繁体字转换,然后统一变成一轮一轮的对话。
# 使用方法
将解压后的raw_chat_corpus文件夹放到当前目录下
目录结构为
```
raw_chat_corpus
-- language
-- process_pipelines
-- raw_chat_corpus
---- chatterbot-1k
---- douban-multiturn-100w
---- ....
-- main.py
-- ...
```
执行命令即可
```bash
python main.py
```
或者
```bash
python3 main.py
```
# 生成结果
每个来源的语料分别生成一个独立的*.tsv文件,都放在新生成的clean_chat_corpus文件夹下。
生成结果格式为 tsv格式,每行是一个样本,先是query,再是answer
```
query \t answer
```
# 结果的使用
这个就根据每个人不同的情况自主使用即可
个人对于聊天机器人方向实践也不是很多,以下一篇之前写的知乎专栏供参考
**《从产品完整性的角度浅谈chatbot》**
文章粗略讲解了如下一些方面,介绍了聊天机器人在实际产品化过程中可能遇到的问题和解决办法。
1. chatbot自身人格的设置
1. 产品上线需要考虑的敏感词处理
1. 文本检索模型的使用
1. 文本生成模型的使用
1. 回答打分机制
1. 万能回答的使用策略
1. 多媒体消息的处理
1. 产品模型部署的问题
# 版权说明
本项目为非商业项目,为纯搜集和汇总资料,如有侵权,请在issue下留言。
(系统自动生成,下载前可以参看下载内容)
下载文件列表
相关说明
- 本站资源为会员上传分享交流与学习,如有侵犯您的权益,请联系我们删除.
- 本站是交换下载平台,提供交流渠道,下载内容来自于网络,除下载问题外,其它问题请自行百度。
- 本站已设置防盗链,请勿用迅雷、QQ旋风等多线程下载软件下载资源,下载后用WinRAR最新版进行解压.
- 如果您发现内容无法下载,请稍后再次尝试;或者到消费记录里找到下载记录反馈给我们.
- 下载后发现下载的内容跟说明不相乎,请到消费记录里找到下载记录反馈给我们,经确认后退回积分.
- 如下载前有疑问,可以通过点击"提供者"的名字,查看对方的联系方式,联系对方咨询.