您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. WordFeature文本分类器

  2. 实现的功能 一、语料库处理 词频率(TF),文档频率(DF)的统计。 二、特征词提取。 文档频率DF方法:DF大于指定的阀值而且在各分类之间具有差异性。 开方(χ2) 方法:衡量特征与类别的独立性 信息增益IG方法:衡量特征能够为分类系统带来多少信息,跟具体类别无关。 三、文本分类。 分类快速。 能对单个文件、目录、文件列表进行分类。
  3. 所属分类:专业指导

    • 发布日期:2010-12-18
    • 文件大小:1039360
    • 提供者:book100
  1. 灵玖LJCorpus中文语料库分析软件

  2. 语料库语言学是20世纪80年代才崭露头角的一门交叉学科,它研究自然语言文本的采集、存储、加工和统计分析,目的是凭借大规模语料库提供的客观翔实的语言证据来从事语言学研究和指导自然语言信息处理系统的开发。随着互联网的爆炸式增长,中文语料库的规模也随之剧增。语言学的研究面临着各类复杂的海量数据,亟需采用信息化的手段,自动分析相关的语言数据,从而更好地研究并开发使用的自然语言信息处理系统。
  3. 所属分类:其它

    • 发布日期:2011-08-07
    • 文件大小:12582912
    • 提供者:fw_1234
  1. 基于数据和语料库的复述综述

  2. 对复述(paraphrasing)问题的一个综述性总结,介绍复述是什么以及应用,主要介绍了基于语料库的复述抽取和生成方法。
  3. 所属分类:互联网

    • 发布日期:2013-10-06
    • 文件大小:865280
    • 提供者:ken_niuliqiang
  1. 数据挖掘语料库

  2. 这是为学习数据挖掘的朋友们做的一个语料库,用此语料库作为训练集训练数据,对数据进行预处理等,帮助大家更好的学习数据挖掘!本语料库所有文档均下载自新浪网站!
  3. 所属分类:Java

    • 发布日期:2013-12-27
    • 文件大小:17825792
    • 提供者:qiang327
  1. 北大语料库(一月份)

  2. 自然语言处理 ,命名实体识别语料库,分词,测试使用,仅用于研究学习,严禁商业使用
  3. 所属分类:讲义

    • 发布日期:2014-05-29
    • 文件大小:8388608
    • 提供者:hj398984059
  1. 北京大学自然语言语料库

  2. 难以下载的北京大学自然语言处理语料库,适合分词,词性标注!
  3. 所属分类:讲义

    • 发布日期:2015-05-21
    • 文件大小:8388608
    • 提供者:u014803202
  1. 一万句中英平行语料库,不用预处理

  2. 平行语料库,用于机器翻译等大数据处理,有需要的可以下来用,可以直接用,不用全角半角变换
  3. 所属分类:其它

    • 发布日期:2015-07-01
    • 文件大小:879616
    • 提供者:tim_c
  1. 资源MIT发布的10大自然语言处理数据集和语料库

  2. 资源MIT发布的10大自然语言处理数据集和语料库
  3. 所属分类:深度学习

    • 发布日期:2017-07-11
    • 文件大小:2048
    • 提供者:yunxinan
  1. Reuters21578语料库

  2. 这是本人在做自然语言处理使用到的一个语料库,后期也会同步与大家共享资源
  3. 所属分类:机器学习

    • 发布日期:2017-12-02
    • 文件大小:6291456
    • 提供者:magical61
  1. 自然语言处理语料库标注集以及符号说明

  2. 花费大量时间搜集的自然语言处理语料库标注集,包括词性标注集、命名实体识别BIO标注、中文组块分析chunk标记。
  3. 所属分类:机器学习

    • 发布日期:2017-12-09
    • 文件大小:168960
    • 提供者:wustjk124
  1. 汉语分词语料库

  2. CTB6汉语分词语料库,可以拿来做分词任务。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
  3. 所属分类:深度学习

    • 发布日期:2018-05-23
    • 文件大小:6291456
    • 提供者:github_35422257
  1. 中英语料库已对齐

  2. 大概一万句中英对齐语料库,不用预处理了直接可以用.!!
  3. 所属分类:深度学习

    • 发布日期:2017-10-15
    • 文件大小:879616
    • 提供者:dominatezeus
  1. 1998年人民日报语料库全

  2. 1998年人民日报语料库全 可用于中文分词,词频统计,等自然语言处理领域
  3. 所属分类:其它

    • 发布日期:2013-05-03
    • 文件大小:2097152
    • 提供者:itmayue
  1. 双语语料库处理

  2. The program for de-alignment is attached below. To use the program, do the following: 1. Make a new folder on your machine; 2. Download and unzip the program file named dealigner.pl into that foler; 3. Copy the file of translation units exported fro
  3. 所属分类:其它

    • 发布日期:2013-05-02
    • 文件大小:440
    • 提供者:u010495320
  1. 文本分类语料库(复旦)测试语料

  2. 文本分类语料库(复旦)测试语料 由复旦大学李荣陆提供。answer.rar为测试语料,共9833篇文档;train.rar为训练语料,共9804篇文档,分为20个类别。训练语料和测试语料基本按照1:1的比例来划分。收集工作花费了不少人力和物力,所以请大家在使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。文件较大(训练测试各50多兆),下载时请耐心等待。 经过数据清理将训练和测试合并成一个csv文件,可以用pandas.read_csv直接读取,分为两列分别是类别和
  3. 所属分类:互联网

    • 发布日期:2020-05-29
    • 文件大小:274726912
    • 提供者:xmrzh
  1. 正则表达式在语料库研究中的应用

  2. 语料库技术的关键在于通过对大规模真实文本的自动化分析处理,探索自然语言的内在规律。计算机程序编辑中广泛使用的正则表达式技术,因其强大的文本批处理能力,被逐渐应用于语料库开发和复杂检索等相关技术中。本文的研究目的在于厘清正则表达式的起源、概念和构造,并以任务驱动的方法,以几款常用的语料库工具为例,探讨正则表达式在文本清理、语料标注和检索等技术环节中的具体应用,从而进一步推动正则表达式在语料库研究中的普及和应用。
  3. 所属分类:其它

    • 发布日期:2020-07-09
    • 文件大小:719872
    • 提供者:weixin_38626943
  1. 中文维基百科语料库百度网盘网址.txt

  2. 本资源是维基百科中文网页的语料库(包含处理过的与未处理的),版本为2020-8-3版本,可适用于中文语料处理等训练集。由于文件过大,放在的百度网盘中,如果网盘被和谐或者其他原因造成的无法打开,请评论留言,本人看到后立即更改。 文件中包含的内容有:未经处理的维基百科语料库、使用代码处理繁体转简体并jieba分词后的语料库、繁体转简体的代码,读者可根据自己的需要进行相应的提取。
  3. 所属分类:Python

    • 发布日期:2020-08-10
    • 文件大小:769
    • 提供者:qq_35357274
  1. 自然语言处理--MSRA语料库

  2. 自然语言处理--MSRA语料库
  3. 所属分类:深度学习

    • 发布日期:2021-03-25
    • 文件大小:7340032
    • 提供者:qq_35679464
  1. textprep:Textprep是并行和非并行语料库及其下游自然语言处理和机器翻译任务的分析工具。专为中文和日文等地理语言而设计-源码

  2. 文字准备 Textprep是并行和非并行语料库及其下游自然语言处理和机器翻译任务的分析工具。它是专门为中文和日语等逻辑语言设计的,可以帮助您执行以下操作: 将字符分解为表意文字和笔触。 (感谢项目和项目) 绘制离线plot.ly图,显示两种语言之间的共享类型和令牌之间的关系。 将翻译语料库采样到给定的令牌共享率。 要求 numpy==1.16.0 tqdm==4.29.1 plotly==3.5.0 用法 python textprep.py {decomp,draw,sample} ... 详
  3. 所属分类:其它

    • 发布日期:2021-03-19
    • 文件大小:5242880
    • 提供者:weixin_42120275
  1. 斯坦福自然语言推理(SNLI)语料库-数据集

  2. SNLI语料库(1.0版)是一个570k人工编写的英语句子对的集合,这些句子对经过手动标记以实现平衡分类,并带有enume,矛盾和中性标签,支持自然语言推理(NLI)的任务,也称为识别文本蕴涵(RTE)。可用于探索知识图谱推理、长短期记忆神经网络。数据集来自斯坦福自然语言处理小组 。 斯坦福自然语言推理(SNLI)语料库_datasets.txt 斯坦福自然语言推理(SNLI)语料库_datasets.zip
  3. 所属分类:其它

    • 发布日期:2021-03-19
    • 文件大小:94371840
    • 提供者:weixin_38623707
« 12 3 4 5 6 7 8 9 10 ... 17 »