您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. C++中文分词+自动标引范例

  2. 1、合并使用停用词表和关键词表作为分词词表,应用逆向最长匹配法对所有篇名分词,给出每条篇名对应的分词结果。在屏幕上显示篇名序号、篇名、分词结果。 2、去除停用词(显示在屏幕上)。 3、利用tfx词频加权公式,计算各词的权重,在屏幕上显示每条篇名中各词的权重。 4、根据输入的阈值,确定标引词,并在屏幕上显示标引词。 5、根据输入的标引深度,确定标引词,并在屏幕上显示标引词。
  3. 所属分类:C++

    • 发布日期:2009-12-10
    • 文件大小:956416
    • 提供者:xutaozero21
  1. 简单的中文自动分词程序

  2. 1. 解压缩后运行freqci.exe即可。 2. 本程序以Visual FoxPro 9.0编写,词表文件必须为DBF格式,词语字段名必须为“词形”。 3. 本程序的分词只用了最简单的词表匹配法,没做任何歧义字段消解和未登录词识别。 4. 本程序所用词表是从拼音加加的词表中整理出来的。
  3. 所属分类:专业指导

    • 发布日期:2010-04-16
    • 文件大小:4194304
    • 提供者:miaochj
  1. 中文自动分词&全文检索@统计工具(GBK版

  2. 本系统具备中文自动分词、全文检索、统计等基本功能,具体介绍如下: 1、中文自动分词 1)能对给定的中文文本进行自动分词、词性一级、词性二级标注; 2)支持大批量文本的自动分词及词性标注处理,可处理各级子文件夹下的文件; 3)能根据待分词及标注文本的类别,加挂用户自定义词典,进一步提高分词和标注的精确度; 4)用户可对系统词典进行扩展,可添加、删除、查看系统词典,可将系统词典输出为TXT文本编辑后再转换为系统用的电子词典; 5)支持人名、地名、机构名等未登录词识别,支持基于GBK字符集的简、繁体
  3. 所属分类:专业指导

    • 发布日期:2010-04-22
    • 文件大小:3145728
    • 提供者:lonewar
  1. 中文停用词表(比较全面,有1208个停用词)

  2. 可用于分词后的过滤工作,比较全面 希望可以帮到大家 呵呵
  3. 所属分类:网络基础

    • 发布日期:2011-04-07
    • 文件大小:7168
    • 提供者:yangbao316
  1. 中文分词十年回顾 自动分词系统

  2. 过去的十年间,尤其是2003年国际中文分词评测活动Bakeoff开展以来,中文自动分词技术有了可喜的进 步。其主要表现为:(1)通过“分词规范+词表+分词语料库”的方法,使中文词语在真实文本中得到了可计算的定 义,这是实现计算机自动分词和可比评测的基础;(2)实践证明,基于手工规则的分词系统在评测中不敌基于统计 学习的分词系统;(3)在Bakeoff数据上的评估结果表明,未登录词造成的分词精度失落至少比分词歧义大5倍以 上;(4)实验证明,能够大幅度提高未登录词识别性能的字标注统计学习方法优于
  3. 所属分类:其它

    • 发布日期:2011-04-10
    • 文件大小:1048576
    • 提供者:lwccb
  1. C# 盘古分词

  2. 1、 修改字典格式,提高字典加载速度 2、 增加对英文专业名词的支持 如C++,C#等只要加入字典就可以被分出来 3、 增加词频判断功能,在无法取舍时根据词频取舍 4、 增加优先优先词频选项,通过这个选项动态决定分词粒度 需打开 FreqFirst 5、 增加中文人名前后缀统计和根据该统计定位人名的功能 6、 增加中文人名和未登录词出现频率统计功能 7、 增加自动更新字典功能,对超过阈值的人名和未登录词自动插入字典 需打开 AutoInsertUnknownWords 开关 并设置 Unkno
  3. 所属分类:C#

    • 发布日期:2011-10-28
    • 文件大小:3145728
    • 提供者:jaymezhang
  1. 中文停用词表

  2. 比较全面的中文分词停用词表词表,配合其他的分词工具使用效果不错
  3. 所属分类:C++

    • 发布日期:2012-12-23
    • 文件大小:6144
    • 提供者:tiefanhe
  1. 分词停用词表

  2. 中文停用词表(比较全面,有1208个停用词)
  3. 所属分类:其它

    • 发布日期:2012-12-30
    • 文件大小:6144
    • 提供者:toocoldlove
  1. 基于词表和N-gram算法的新词识别实验

  2. 基于词表和N-gram算法的新词识别实验
  3. 所属分类:Web开发

    • 发布日期:2013-12-29
    • 文件大小:421888
    • 提供者:linseng129
  1. 中文停用词表 比较全

  2. 一个比较全的中文停用词表,研究搜索引擎或分词器可以用
  3. 所属分类:专业指导

    • 发布日期:2014-03-11
    • 文件大小:7168
    • 提供者:zcy_dr
  1. 分词及词频统计.rar

  2. 1. 解压缩后运行freqci.exe即可。 2. 文件夹code里是程序源代码,其中freqci.pjx是项目文件。 3. 本程序以VFP9编写,可在VFP9环境下打开项目文件查看源代码。 4. 本程序的分词只用了最简单的最大匹配法。 5. 本程序所用词表是从拼音加加的词表中整理出来的。
  3. 所属分类:专业指导

    • 发布日期:2008-11-01
    • 文件大小:4194304
    • 提供者:lishengdong_6
  1. 中文停用词表(共2694个)

  2. “哈工大停用词词库”、“四川大学机器学习智能实验室停用词库”、百度停用词表“及网上各种资源整理去重后得到,包括一些数字及字符
  3. 所属分类:其它

    • 发布日期:2017-03-01
    • 文件大小:21504
    • 提供者:vivian_ll
  1. IKSegment分词源码

  2. 可以将一篇文档分词,完成词频统计,制作总词表,制作倒排索引表。
  3. 所属分类:Java

    • 发布日期:2017-06-17
    • 文件大小:1048576
    • 提供者:lianyun017
  1. 中文文本停用词表

  2. 中文文本停用词表
  3. 所属分类:讲义

    • 发布日期:2017-08-23
    • 文件大小:35840
    • 提供者:qq1319479809
  1. 分词系统常用中英文停用词

  2. 在开发分词系统的时候常用的中英文停用词词表,可以用来去掉分词结果中的停用词,常见的的分词系统可以使用结巴分词或者中科院的NLPIR。
  3. 所属分类:搜索引擎

    • 发布日期:2017-09-16
    • 文件大小:7168
    • 提供者:wustjk124
  1. 中文分词入门与字标注法

  2. 作为中文信息处理的“桥头堡”,中文分词在国内的关注度似乎远远超过了自然语言处理的其他研究领域。在中文分词中,资源的重要性又不言而喻,最大匹配法等需要一个好的词表,而基于字标注的中文分词方法又需要人工加工好的分词语料库。所以想研究中文分词,第一步需要解决的就是资源问题,这里曾经介绍过“LDC上免费的中文信息处理资源”,其中包括一个有频率统计的词表,共计44405条,就可以作为一个不错的中文分词词表使用。而一个好的人工分词语料库,需要很大的人力物力投入,所以无论研究还是商用往往需要一定的费用购买,
  3. 所属分类:深度学习

    • 发布日期:2017-12-14
    • 文件大小:251904
    • 提供者:u011563494
  1. 大数据英语4级词库分词专用.txt

  2. 大数据英语4级词库分词专用,大家有需要的可以下载分词表。
  3. 所属分类:Hadoop

    • 发布日期:2019-07-16
    • 文件大小:37888
    • 提供者:weixin_43818430
  1. 常用不规则动词表原型过去式过去分词

  2. 总结了一些常用不规则动词过去式与过去分词,与英语相关,对程序员来说英语是一项很重要的,可类比专业知识,况且现在很多程序源码都是英语文档
  3. 所属分类:教育

    • 发布日期:2020-10-25
    • 文件大小:141312
    • 提供者:yang_9272
  1. 英语过去式过去分词表

  2. Sheet1不规则动词过去式过去分词表中文注释动词原形过去式过去分词中文注释动词原形过去式过去分词出现arisearosearisen分配dealdealtdealt觉醒awakeawoke,(awa
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:1048576
    • 提供者:weixin_38706603
  1. 不规则动词过去式和过去分词表24295

  2. Sheet4Sheet1不规则动词过去式和过去分词表Infinitive原形SimplePast 过去式PastParticiple过去分词Infinitive原形SimplePast&nb
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:1048576
    • 提供者:weixin_38611812
« 12 3 4 5 »