您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. perl实现中文分词-双向扫描法找出歧义段-n元语法概率模型消歧

  2. perl实现中文分词 先双向扫描法找出歧义段 再n元语法概率模型消歧 1998年人民日报语料下F1值达94%
  3. 所属分类:Perl

    • 发布日期:2009-05-27
    • 文件大小:7168
    • 提供者:heycinderella
  1. 中文分词十年回顾 自动分词系统

  2. 过去的十年间,尤其是2003年国际中文分词评测活动Bakeoff开展以来,中文自动分词技术有了可喜的进 步。其主要表现为:(1)通过“分词规范+词表+分词语料库”的方法,使中文词语在真实文本中得到了可计算的定 义,这是实现计算机自动分词和可比评测的基础;(2)实践证明,基于手工规则的分词系统在评测中不敌基于统计 学习的分词系统;(3)在Bakeoff数据上的评估结果表明,未登录词造成的分词精度失落至少比分词歧义大5倍以 上;(4)实验证明,能够大幅度提高未登录词识别性能的字标注统计学习方法优于
  3. 所属分类:其它

    • 发布日期:2011-04-10
    • 文件大小:1048576
    • 提供者:lwccb
  1. 中文分词的正向和反向最大匹配算法

  2. 在一个已经语料库的基础上,进行词频统计,然后根据统计的词用正向和反向最大匹配算法进行中文分词。
  3. 所属分类:C/C++

    • 发布日期:2013-11-25
    • 文件大小:3145728
    • 提供者:u012029576
  1. 1998年人民日报分词语料

  2. 最权威的中文文本分词语料 可用于文本分词 分词语句达20万句
  3. 所属分类:专业指导

    • 发布日期:2008-10-06
    • 文件大小:12582912
    • 提供者:zxlxstly
  1. 北京大学28288句分词语料

  2. 非常权威的北京大学分词语料 可用于大规模的中文文本分词
  3. 所属分类:专业指导

    • 发布日期:2008-10-07
    • 文件大小:1048576
    • 提供者:zxlxstly
  1. 微软亚洲研究院中文分词语料库

  2. 微软亚洲研究院中文分词语料库,研究中文分词,研究中文分词
  3. 所属分类:其它

    • 发布日期:2015-01-21
    • 文件大小:4194304
    • 提供者:honeybee1981
  1. 中文分词入门与字标注法

  2. 作为中文信息处理的“桥头堡”,中文分词在国内的关注度似乎远远超过了自然语言处理的其他研究领域。在中文分词中,资源的重要性又不言而喻,最大匹配法等需要一个好的词表,而基于字标注的中文分词方法又需要人工加工好的分词语料库。所以想研究中文分词,第一步需要解决的就是资源问题,这里曾经介绍过“LDC上免费的中文信息处理资源”,其中包括一个有频率统计的词表,共计44405条,就可以作为一个不错的中文分词词表使用。而一个好的人工分词语料库,需要很大的人力物力投入,所以无论研究还是商用往往需要一定的费用购买,
  3. 所属分类:深度学习

    • 发布日期:2017-12-14
    • 文件大小:251904
    • 提供者:u011563494
  1. 中文分词及词性标注语料

  2. 中文分词及词性标注语料,包含微软亚研院、搜狗、北京大学等的语料库
  3. 所属分类:机器学习

    • 发布日期:2017-12-18
    • 文件大小:41943040
    • 提供者:jklhj123
  1. 微软亚洲研究院中文分词语料_icwb2-data

  2. 微软亚洲研究院中文分词语料库_自然语言处理_科研数据集
  3. 所属分类:机器学习

    • 发布日期:2018-04-09
    • 文件大小:41943040
    • 提供者:crdxg
  1. 中文自然语言处理中文分词训练语料

  2. 本次提供的中文汉语语料syj_trainCorpus_utf8.txt全网免费,转载需要注明出处,语料是作者通过爬取的短文本和网络上的预料处理、合并生成的。整个语料大小264M,包含1116903条数据,数据用空格隔开,可以用来训练分词模型。
  3. 所属分类:机器学习

    • 发布日期:2018-07-02
    • 文件大小:113246208
    • 提供者:qq_36330643
  1. 微软亚洲研究院中文分词语料___icwb2-data

  2. 微软亚洲研究院中文分词语料_icwb2-data_自然语言处理_科研数据集
  3. 所属分类:机器学习

    • 发布日期:2018-10-11
    • 文件大小:52428800
    • 提供者:spiritdjy
  1. 微软亚研的中文分词、词性标注和命名实体识别语料

  2. 微软亚研的中文分词、词性标注和命名实体识别语料,包括训练和验证集,xml格式,方便使用,机器学习、信息检索以及NLP领域的研究人员使用来训练模型
  3. 所属分类:机器学习

    • 发布日期:2018-10-17
    • 文件大小:4194304
    • 提供者:u010732327
  1. 北京大学28288句分词语料

  2. 北京大学28288句分词语料,适用于中文分词
  3. 所属分类:专业指导

    • 发布日期:2010-01-25
    • 文件大小:1048576
    • 提供者:leo_miaos
  1. 1998年人民日报分词语料

  2. 1998年人民日报分词语料,详尽的中文分词语料,适用于各种中文分词应用
  3. 所属分类:专业指导

    • 发布日期:2010-01-25
    • 文件大小:12582912
    • 提供者:leo_miaos
  1. 语料库自然标注信息与中文分词应用研究(英文)

  2. 以中文分词为应用目标,将大规模语料库上存在的自然标注信息分为显性标注信息与隐性标注信息,分别考察了它们的分布和对大数据集上语言计算的影响。结果表明,两者都直接或间接地表达了作者对语言的分割意志,因而对分词具有积极的影响。通过词语抽取测试,发现在缺乏丰富显性标注信息的文本中,来自语言固有规律的自然标注信息对字符串有着强大的分割性能。
  3. 所属分类:其它

    • 发布日期:2021-03-16
    • 文件大小:1018880
    • 提供者:weixin_38550334
  1. C#编写的ChineseSplitter中文分词系统源代码

  2. 简介 ChineseSplitter中文分词系统集成了单字(一元切分)、双字(二元切分)、词义切分等分词方法。提供很好的权重计算办法。类结构 BaseSplitter(分词基类) │ ├─SingleSplitter(一元切分) │ ├─DoubleSplitter(二元切分) │ └─DefaultSplitter(词义切分)────NICTCLAS(中科院分词系统) KeywordsSort(关键字排序类) 不错的中文分词组件,带了语料库。
  3. 所属分类:其它

    • 发布日期:2021-03-16
    • 文件大小:2097152
    • 提供者:weixin_38558870
  1. Segmentor:使用北大​​-富士通语料库,LSTM网络的中文分词系统-源码

  2. 分割器 使用北大​​-富士通语料库,LSTM网络的中文分词系统 在书面语中分词效果不错。 “十三五”规划中规模:到2020年中国公民的科学素质要达到10%以上这个目标。之所以设定10%的目标,是因为一个国家想要进入创新型国家行列,公众具有较高的科学素质的比例至少达到10%。 “十三五”规划中的重点目标:到2020年中国公民的科学素质要达到10%以上这个目标。之所以设定10%的目标,是因为一个国家想要进入创新型国家行列,公众具有较早的科学素质的比例至少达到10%。
  3. 所属分类:其它

    • 发布日期:2021-03-11
    • 文件大小:117440512
    • 提供者:weixin_42161497
  1. 用于临床文本的细粒度中文分词和词性标注语料库

  2. 用于临床文本的细粒度中文分词和词性标注语料库
  3. 所属分类:其它

    • 发布日期:2021-03-02
    • 文件大小:506880
    • 提供者:weixin_38601390
  1. 中文分词中一种聊天语料库的构建

  2. 中文分词中一种聊天语料库的构建
  3. 所属分类:其它

    • 发布日期:2021-02-26
    • 文件大小:176128
    • 提供者:weixin_38698311
  1. ID-CNN-CWS:源代码和论文“用于中文分词的迭代扩张卷积”的语料库-源码

  2. ID-CNN-CWS 源代码和论文“用于中文分词的迭代膨胀卷积”的论文集。 它为CWS实现以下4种模型: 双LSTM 双LSTM-CRF 身份识别 ID-CNN-CRF 依存关系 Python> = 3.6 TensorFlow> = 1.2 同时支持CPU和GPU。 GPU训练速度提高了10倍。 制备 运行以下脚本以将语料库转换为TensorFlow数据集。 $ ./scr ipts/make.sh 训练与测试 快速开始 $ ./scr ipts/run.sh $d
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:28311552
    • 提供者:weixin_42109545
« 12 3 4 5 6 7 »