您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 基于后缀数组分词 不需要词典和语料库

  2. 基于后缀数组的分词,是不需要词典和语料库。通过后缀数组和散列表获得汉字结合模式。
  3. 所属分类:专业指导

    • 发布日期:2009-05-28
    • 文件大小:11264
    • 提供者:yidouyifly
  1. sogou语料库 迷你版本

  2. sogou 预料库的迷你版本,可用于中文分词的测试,就是一个训练集
  3. 所属分类:Java

    • 发布日期:2009-06-05
    • 文件大小:169984
    • 提供者:chang84629
  1. 搜狗最新文本分类语料库

  2. 搜狗最新文本分类语料库,对于研究中文分词的有帮助
  3. 所属分类:专业指导

    • 发布日期:2009-06-09
    • 文件大小:169984
    • 提供者:yuanzhen84
  1. 人民日报(北大)语料库

  2. 分词训练语料库,仅供学习和研究使用,禁止用于商业行为
  3. 所属分类:专业指导

    • 发布日期:2009-10-31
    • 文件大小:8388608
    • 提供者:xufengye256
  1. 中文词库素材词汇量超过10万+语料库

  2. 中文词库素材词汇量超过10万+语料库,语料库包含200个已分类的语料。是以前做分本分类搜集来的,供从事这方面的朋友学习借鉴
  3. 所属分类:专业指导

    • 发布日期:2010-03-19
    • 文件大小:2097152
    • 提供者:daxuea
  1. 用于分词和命名实体识别的人民日报语料库

  2. 标准的分词语料库,也可用作命名实体识别。
  3. 所属分类:C++

    • 发布日期:2010-04-15
    • 文件大小:2097152
    • 提供者:snowpku002
  1. LJCorpus中文语料库分析软件

  2. LJCorpus试用版本下载地址 下载地址:http://www.lingjoin.com/download/LJCorpus.rar 介绍: LJCorpus中文语料库分析软件是一套专门针对中文生语料库的加工、抽取、统计与翻译全自动的综合语料分析系统,应用了领先的汉语词法分析技术、新词发现技术、统计挖掘技术以及词语翻译对齐技术,目前,东北师范大学中文系已经成功应用该软件对新加坡的语言进行了分析,极大提高了研究的效率。 LJCorpus中文语料库分析软件的四大功能主要包括: 1. 新词发现:
  3. 所属分类:专业指导

    • 发布日期:2010-04-17
    • 文件大小:12582912
    • 提供者:lingjoin
  1. 已预处理 NLP 英文语料库 新闻组 20_Newsgroup(单标签英文平衡语料)

  2. 已做预处理:分词、剔除停用词 可直接拿来统计建立文本模型
  3. 所属分类:专业指导

    • 发布日期:2010-08-26
    • 文件大小:6291456
    • 提供者:djlhoho
  1. 中文分词十年回顾 自动分词系统

  2. 过去的十年间,尤其是2003年国际中文分词评测活动Bakeoff开展以来,中文自动分词技术有了可喜的进 步。其主要表现为:(1)通过“分词规范+词表+分词语料库”的方法,使中文词语在真实文本中得到了可计算的定 义,这是实现计算机自动分词和可比评测的基础;(2)实践证明,基于手工规则的分词系统在评测中不敌基于统计 学习的分词系统;(3)在Bakeoff数据上的评估结果表明,未登录词造成的分词精度失落至少比分词歧义大5倍以 上;(4)实验证明,能够大幅度提高未登录词识别性能的字标注统计学习方法优于
  3. 所属分类:其它

    • 发布日期:2011-04-10
    • 文件大小:1048576
    • 提供者:lwccb
  1. c++汉语分词程序简单实用

  2. 基于c++编写的分词程序,可以选择自己语料库和自己的分词内容
  3. 所属分类:C++

    • 发布日期:2011-04-17
    • 文件大小:334848
    • 提供者:hu214028595
  1. 体育相关语料库

  2. 分了26类的体育语料,包括棒球 帆船 击剑 举重 篮球 垒球 马术 排球 皮划艇 乒乓球 曲棍球 拳击 柔道 赛艇 射击 射箭 手球 摔跤 跆拳道 体操 田径 网球 游泳 羽毛球 自行车 足球等领域,在每个文件夹中的all.txt文件已经分词处理,可用于自然语言处理
  3. 所属分类:专业指导

    • 发布日期:2008-04-24
    • 文件大小:8388608
    • 提供者:wuguiasdf
  1. 中文分词的正向和反向最大匹配算法

  2. 在一个已经语料库的基础上,进行词频统计,然后根据统计的词用正向和反向最大匹配算法进行中文分词。
  3. 所属分类:C/C++

    • 发布日期:2013-11-25
    • 文件大小:3145728
    • 提供者:u012029576
  1. 中文分析算法语料库

  2. 该ppt为中文分析算法的语料库和词典结构简介
  3. 所属分类:其它

    • 发布日期:2013-12-04
    • 文件大小:288768
    • 提供者:tianshixin115
  1. 微软亚洲研究院中文分词语料库

  2. 微软亚洲研究院中文分词语料库,研究中文分词,研究中文分词
  3. 所属分类:其它

    • 发布日期:2015-01-21
    • 文件大小:4194304
    • 提供者:honeybee1981
  1. 复旦大学分词语料库

  2. 复旦大学分词语料库
  3. 所属分类:其它

    • 发布日期:2017-04-22
    • 文件大小:52428800
    • 提供者:zhangge360
  1. 香港城市大学语料库;微软亚洲研究院语料库;北京大学语料库;

  2. 香港城市大学语料库(1 772 202 字,训练集)、微软亚洲研究院语料库(1 089 050 字,训练集)、北京大学语料库(1 833 177 字,训练集)
  3. 所属分类:其它

    • 发布日期:2017-06-14
    • 文件大小:42991616
    • 提供者:u010105243
  1. 中文分词入门与字标注法

  2. 作为中文信息处理的“桥头堡”,中文分词在国内的关注度似乎远远超过了自然语言处理的其他研究领域。在中文分词中,资源的重要性又不言而喻,最大匹配法等需要一个好的词表,而基于字标注的中文分词方法又需要人工加工好的分词语料库。所以想研究中文分词,第一步需要解决的就是资源问题,这里曾经介绍过“LDC上免费的中文信息处理资源”,其中包括一个有频率统计的词表,共计44405条,就可以作为一个不错的中文分词词表使用。而一个好的人工分词语料库,需要很大的人力物力投入,所以无论研究还是商用往往需要一定的费用购买,
  3. 所属分类:深度学习

    • 发布日期:2017-12-14
    • 文件大小:251904
    • 提供者:u011563494
  1. 微软亚洲研究院中文分词语料_icwb2-data

  2. 微软亚洲研究院中文分词语料库_自然语言处理_科研数据集
  3. 所属分类:机器学习

    • 发布日期:2018-04-09
    • 文件大小:41943040
    • 提供者:crdxg
  1. 汉语分词语料库

  2. CTB6汉语分词语料库,可以拿来做分词任务。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
  3. 所属分类:深度学习

    • 发布日期:2018-05-23
    • 文件大小:6291456
    • 提供者:github_35422257
  1. 人民日报语料库(中文分词语料库)

  2. 人民日报1998年1月份的语料库,加入了词性标注,北京大学开发,中文分词统计的好资料 人民日报1998年1月份的语料库,加入了词性标注,北京大学开发,中文分词统计的好资料
  3. 所属分类:专业指导

    • 发布日期:2020-09-08
    • 文件大小:2097152
    • 提供者:starmoonh
« 12 3 4 5 6 7 »