guwenbert:古文·伯特-源码| GuwenBERT是一个基于大量古文语料的RoBERTa模型

文件名称: guwenbert:古文·伯特-源码

所属分类: 其它

开发工具:

文件大小: 2mb

下载次数: 0

上传时间: 2021-03-19

提供者: weixin_********

下载 (2mb)

不能下载？报告错误

详细说明：| GuwenBERT是一个基于大量古文语料的RoBERTa模型。在自然语言处理领域中，预训练语言模型（预训练语言模型）已成为非常重要的基础技术。古文研究和自然语言处理的结合，我们发布了古文预训练模型GuwenBERT 。对于古文的常见任务：断句，标点，专有名称标注，目前通常采用序列标注模型。此类模型非常依赖预训练的词向量或者BERT，所以一个好的语言模型可以大大提高标注效果。通过实验，在RoBERTa效果提高6.3％，只需300步就可以达到中文RoBERTa的最终水平，特别适合替换语料不足的小数据集。使用我们的模型也可以减少数据清洗，，数据增强，约会字典等繁琐的程序，在评测中我们仅仅用了一个BERT + CRF的模型就可以达到第二名。 GuwenBERT基于殆知阁古代文献语料训练，其中包含15,694本古文书籍，字符数1.70。所有繁体字均经过简体转换处理。 GuwenBER

(系统自动生成,下载前可以参看下载内容)