您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 令牌生成器:具有BPE和SentencePiece支持的快速且可自定义的文本令牌生成库-源码

  2. 分词器 Tokenizer是针对C ++和Python的快速,通用且可自定义的文本标记化库,具有最小的依赖性。 总览 默认情况下,令牌生成器基于Unicode类型应用简单的令牌化。 可以通过几种方式自定义: 可逆令牌化通过注释标记或注入修饰符来标记关节或空间。 子词标记化支持培训和使用BPE和SentencePiece模型。 高级文本分割分割数字,区分大小写或更改字母,分割所选字母的每个字符等。 案例管理小写的文本和返回的大小写信息作为单独的功能或插入大小写修饰符标记。 保护序列可以使
  3. 所属分类:其它

    • 发布日期:2021-01-30
    • 文件大小:980992
    • 提供者:weixin_42132598