文件名称:
令牌生成器:具有BPE和SentencePiece支持的快速且可自定义的文本令牌生成库-源码
开发工具:
文件大小: 958kb
下载次数: 0
上传时间: 2021-01-30
详细说明:分词器
Tokenizer是针对C ++和Python的快速,通用且可自定义的文本标记化库,具有最小的依赖性。
总览
默认情况下,令牌生成器基于Unicode类型应用简单的令牌化。 可以通过几种方式自定义:
可逆令牌化通过注释标记或注入修饰符来标记关节或空间。
子词标记化支持培训和使用BPE和SentencePiece模型。
高级文本分割分割数字,区分大小写或更改字母,分割所选字母的每个字符等。
案例管理小写的文本和返回的大小写信息作为单独的功能或插入大小写修饰符标记。
保护序列可以使用特殊字符⦅和protected防止序列进行分词。
请参阅以了解受支持功能的概述。
使用
令牌生成器可以在Python,C ++或命令行中使用。 每种模式都公开相同的选项集。
Python API
pip install pyonmttok
>> > import pyonmttok
>> > tokenizer = pyonmttok . Tokenizer ( "conservative" , joiner_annotate = True )
>> > tokens , _ = tok
(系统自动生成,下载前可以参看下载内容)
下载文件列表
相关说明
- 本站资源为会员上传分享交流与学习,如有侵犯您的权益,请联系我们删除.
- 本站是交换下载平台,提供交流渠道,下载内容来自于网络,除下载问题外,其它问题请自行百度。
- 本站已设置防盗链,请勿用迅雷、QQ旋风等多线程下载软件下载资源,下载后用WinRAR最新版进行解压.
- 如果您发现内容无法下载,请稍后再次尝试;或者到消费记录里找到下载记录反馈给我们.
- 下载后发现下载的内容跟说明不相乎,请到消费记录里找到下载记录反馈给我们,经确认后退回积分.
- 如下载前有疑问,可以通过点击"提供者"的名字,查看对方的联系方式,联系对方咨询.