您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 语料库研究与应用综述

  2. 语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或 口语的样本汇集而成,用来代表特定的语言或语言变体。经过科学选材和标注、具有适当规 模的语料库能够反映和记录语言的实际使用情况。人们通过语料库观察和把握语言事实,分 析和研究语言系统的规律。语料库已经成为语言学理论研究、应用研究和语言工程不可缺少 的基础资源。
  3. 所属分类:专业指导

    • 发布日期:2009-07-01
    • 文件大小:220160
    • 提供者:vivian_king
  1. LJCorpus中文语料库分析软件

  2. LJCorpus试用版本下载地址 下载地址:http://www.lingjoin.com/download/LJCorpus.rar 介绍: LJCorpus中文语料库分析软件是一套专门针对中文生语料库的加工、抽取、统计与翻译全自动的综合语料分析系统,应用了领先的汉语词法分析技术、新词发现技术、统计挖掘技术以及词语翻译对齐技术,目前,东北师范大学中文系已经成功应用该软件对新加坡的语言进行了分析,极大提高了研究的效率。 LJCorpus中文语料库分析软件的四大功能主要包括: 1. 新词发现:
  3. 所属分类:专业指导

    • 发布日期:2010-04-17
    • 文件大小:12582912
    • 提供者:lingjoin
  1. 计算机自然语言理解98年1月人民日报某语料库

  2. 语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。
  3. 所属分类:专业指导

    • 发布日期:2010-04-17
    • 文件大小:2097152
    • 提供者:wssgcsc
  1. 北大语料库(一月份)

  2. 自然语言处理 ,命名实体识别语料库,分词,测试使用,仅用于研究学习,严禁商业使用
  3. 所属分类:讲义

    • 发布日期:2014-05-29
    • 文件大小:8388608
    • 提供者:hj398984059
  1. 方言普通话语音识别语料库样例

  2. 本数据是600人方言普通话语音识别语料库的样例,包括4个发音人(两男两女)录制的少量数据。完整语料库包括600名发音人,发音人覆盖全国不同地区、年龄、性别及文化程度,录音环境覆盖安静、座机、手机、车载、背景音乐及嘈杂声等场景,录音语料覆盖单字、词汇、语句、自然对话及语篇,采样率分8K和44K两种,采用16比特量化,标注粒度包括文字、拼音、韵律及音频标注。 用途:语音识别
  3. 所属分类:其它

    • 发布日期:2015-01-26
    • 文件大小:3145728
    • 提供者:ly4910242
  1. 北京大学自然语言语料库

  2. 难以下载的北京大学自然语言处理语料库,适合分词,词性标注!
  3. 所属分类:讲义

    • 发布日期:2015-05-21
    • 文件大小:8388608
    • 提供者:u014803202
  1. 人民日报1998年1月中文标注语料库

  2. 人民日报标注语料库(版本1.0,下面简称PFR语料库)是在得到人民日报社新闻信息中心许可的条件下,以1998年人民日报语料为对象,由北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的标注语料库。该语料库对600多万字节的中文文章进行了分词及词性标注,其被作为原始数据应用于大量的研究和论文中。
  3. 所属分类:专业指导

    • 发布日期:2016-11-11
    • 文件大小:10485760
    • 提供者:xudaliang_
  1. 语料库标注工具SUTDAnnotator

  2. 语料库标注工具SUTDAnnotator,研究自然语言处理的同学推荐使用。
  3. 所属分类:Java

    • 发布日期:2017-11-18
    • 文件大小:2097152
    • 提供者:crack521
  1. 自然语言处理语料库标注集以及符号说明

  2. 花费大量时间搜集的自然语言处理语料库标注集,包括词性标注集、命名实体识别BIO标注、中文组块分析chunk标记。
  3. 所属分类:机器学习

    • 发布日期:2017-12-09
    • 文件大小:168960
    • 提供者:wustjk124
  1. 汉语语料库加工规范

  2. 《现代汉语语料库加工规范——词语切分与词性标注》词性标记
  3. 所属分类:搜索引擎

    • 发布日期:2018-01-12
    • 文件大小:171008
    • 提供者:johnson219
  1. 英语语料库LOB语料库

  2. LOB语料库 创建时间: 1970年代初 创建单位:英国Lancaster大学和挪威Oslo大学以及Bergen大学 规模层级: 100万词次 基本情况:研究当代英国英语,与美国英语对比,使用了TAGIT系统,以统计方式建立换算几率矩阵,提高标注正确率。 The Lancaster-Oslo Bergen Corpus (LOB) was compiled by researchers in Lancaster, Oslo and Bergen. It consists of one mill
  3. 所属分类:机器学习

    • 发布日期:2018-10-10
    • 文件大小:98566144
    • 提供者:chenheng1114
  1. 现代汉语语料库

  2. 语言所公开的现代汉语语料库,通过分别查询3500个常用汉字,将所有数据进行清洗去重后的集合。共554026行,解压后约93.8M,带分词和词性标注。
  3. 所属分类:算法与数据结构

    • 发布日期:2019-04-20
    • 文件大小:26214400
    • 提供者:archeng
  1. 现代汉语语料库加工规范(pku)

  2. 北大计算语言学研究所从1992年开始进行汉语语料库的多级加工研究。第一步是对原始语料进行切分和词性标注。1994年制订了《现代汉语文本切分与词性标注规范V1.0》。几年来已完成了约60万字语料的切分与标注,并在短语自动识别、树库构建等方向上进行了探索。在积累了长期的实践经验之后,最近又进行了《人民日报》语料加工的实验。为了保证大规模语料加工这一项重要的语言工程的顺利进行,北大计算语言学研究所于1998年10月制订了《现代汉语文本切分与词性标注规范V2.0》(征求意见稿)。因这次加工的任务超出词语
  3. 所属分类:专业指导

    • 发布日期:2010-10-20
    • 文件大小:302080
    • 提供者:yjsmzq
  1. 正则表达式在语料库研究中的应用

  2. 语料库技术的关键在于通过对大规模真实文本的自动化分析处理,探索自然语言的内在规律。计算机程序编辑中广泛使用的正则表达式技术,因其强大的文本批处理能力,被逐渐应用于语料库开发和复杂检索等相关技术中。本文的研究目的在于厘清正则表达式的起源、概念和构造,并以任务驱动的方法,以几款常用的语料库工具为例,探讨正则表达式在文本清理、语料标注和检索等技术环节中的具体应用,从而进一步推动正则表达式在语料库研究中的普及和应用。
  3. 所属分类:其它

    • 发布日期:2020-07-09
    • 文件大小:719872
    • 提供者:weixin_38626943
  1. 人民日报语料库(中文分词语料库)

  2. 人民日报1998年1月份的语料库,加入了词性标注,北京大学开发,中文分词统计的好资料 人民日报1998年1月份的语料库,加入了词性标注,北京大学开发,中文分词统计的好资料
  3. 所属分类:专业指导

    • 发布日期:2020-09-08
    • 文件大小:2097152
    • 提供者:starmoonh
  1. efaqa-corpus-zh::red_heart:Emotional急救数据集,心理咨询问答,聊天机器人语料库-源码

  2. 情绪急救数据集 心理咨询问答语言料库,仅限研究用途。 为什么发布这个语料库 心理咨询中应用人工智能,是我们认为非常有价值的一个探索。我们愿意和更多人合作,把目前领先的人工智能技术,在心理咨询不同场景定位地。扣门的,就给他开门,愿每个人都有自己的心理咨询师。 - 数据集介绍 心理咨询问答语料库(以下也称为“数据集”,“语料库”)是为应用人工智能技术于心理咨询领域制作的语料。据我们所知,这是心理咨询领域首个开放的QA语料库,包括20,000条心理咨询数据,也是公开的最大的中文心理咨询对话语料。数据
  3. 所属分类:其它

    • 发布日期:2021-03-20
    • 文件大小:7340032
    • 提供者:weixin_42164534
  1. 语料库自然标注信息与中文分词应用研究(英文)

  2. 以中文分词为应用目标,将大规模语料库上存在的自然标注信息分为显性标注信息与隐性标注信息,分别考察了它们的分布和对大数据集上语言计算的影响。结果表明,两者都直接或间接地表达了作者对语言的分割意志,因而对分词具有积极的影响。通过词语抽取测试,发现在缺乏丰富显性标注信息的文本中,来自语言固有规律的自然标注信息对字符串有着强大的分割性能。
  3. 所属分类:其它

    • 发布日期:2021-03-16
    • 文件大小:1018880
    • 提供者:weixin_38550334
  1. 用于临床文本的细粒度中文分词和词性标注语料库

  2. 用于临床文本的细粒度中文分词和词性标注语料库
  3. 所属分类:其它

    • 发布日期:2021-03-02
    • 文件大小:506880
    • 提供者:weixin_38601390
  1. 现代哈萨克语词级标注语料库的构建研究

  2. 现代哈萨克语词级标注语料库的构建研究
  3. 所属分类:其它

    • 发布日期:2021-02-22
    • 文件大小:1048576
    • 提供者:weixin_38741759
  1. 面向微博文本的情绪标注语料库构建

  2. 文本情绪分析研究近年来发展迅速,但相关的中文情绪语料库,特别是面向微博文本的语料库构建尚不完善。为了对微博文本情绪表达特点进行分析以及对情绪分析算法性能进行评估,该文在对微博文本情绪表达特点进行深入观察和分析的基础上,设计了一套完整的情绪标注规范。遵循这一规范,首先对微博文本进行了微博级情绪标注,对微博是否包含情绪及有情绪微博所包含的情绪类别进行多标签标注。而后,对微博中的句子进行有无情绪及情绪类别进行标注,并标注了各情绪类别对应的强度。目前,已完成14 000条微博,45 431句子的情绪标注
  3. 所属分类:其它

    • 发布日期:2021-02-22
    • 文件大小:695296
    • 提供者:weixin_38724349
« 12 3 4 5 6 »