您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 超牛逼的自然语言处理论文和代码

  2. Research on Issues of Translation Selection for Phrase and Structure in Statistical Machine Translation_hezhongjun_phd thesis 2008.pdf Research on domain adaptation in Statistical Machine Translation_caojie_master thesis 2010.pdf Research on Statist
  3. 所属分类:电子商务

    • 发布日期:2012-01-30
    • 文件大小:109051904
    • 提供者:wtzmax
  1. BFSU ParaConc

  2. 1、 该软件只支持ANSI编码文本,不支持Unicode编码文本。 2、 汉语文本可不进行分词处理。 3、 中英文文本文件要求分别以*.ZH.txt和*.EN.txt方式命名。 4、 数据文件必须严格行对齐,如包含空行也必须达到文本对应,即平行文件的对应行都是空的。软件不能智能自动对齐语料。 5、 软件支持正则表达式检索。 6、 软件默认支持英文词形还原检索(lemmatized search),如,检索go,可得到含有go、goes、went、going、gone等的平行句对。去除lemma
  3. 所属分类:其它

    • 发布日期:2015-09-21
    • 文件大小:4194304
    • 提供者:wufuhehe
  1. 平行语料库,用于机器翻译等的预处理语料。

  2. 汉英双语语料和德英双语语料,可以用来训练NMT模型,谨供学术实验用
  3. 所属分类:机器学习

    • 发布日期:2018-04-24
    • 文件大小:380928
    • 提供者:wzz555
  1. 平行语料,用于机器翻译等的预处理语料

  2. 平行语料库,用于机器翻译等的预处理语料。 汉英双语语料和德英双语语料,可以用来训练NMT模型,谨供学术实验用
  3. 所属分类:深度学习

    • 发布日期:2018-05-02
    • 文件大小:952320
    • 提供者:wzz555
  1. Web藏文文本资源挖掘与利用研究

  2. 该文结合链接分析技术和藏文编码识别技术,使用网络爬虫实现对互联网上藏文文本资源的挖掘,分析了Web藏文文本资源的分布情况。统计数据显示,国内藏文网站50%以上在青海省;约87%的藏文网页集中分布在31个大型网站中;人们正在逐步弃用旧有藏文编码,使用Unicode编码来制作网页。利用HTML标记、栏目归属、标点符号等自然标注信息对这些文本进行抽取,可以构建篇章语料和文本分类语料,可以抽取互联网藏文词库,进行词频统计和训练藏文语言模型,结合双语词典和搜索引擎技术抽取双语平行语料。这些语料可用于藏文分
  3. 所属分类:其它

    • 发布日期:2021-03-18
    • 文件大小:2097152
    • 提供者:weixin_38747906
  1. 汉维医疗平行语料库构建及特征分析

  2. 面对稀缺、专业性强的汉维双语医疗平行语料库建设,本文探索数据采集、标准化、去噪、自动录入方法,进行语料库特征分析,并根据语料数据特性,设计语料库网页检索系统。目前已建成110多万字、2.6万句汉语医疗语料,3000句对汉维双语对齐语料,不仅对构建中小型语料库有参考价值,而且奠定了医疗自然语言处理研究基础,尤其汉维双语对齐语料,将促进机器翻译技术在医疗领域突破,对新疆边远地区无汉语表达能力的少数民族群众获得医疗救助搭建桥梁。
  3. 所属分类:其它

    • 发布日期:2021-03-14
    • 文件大小:1048576
    • 提供者:weixin_38746574
  1. 基于汉维医疗平行语料的双语术语抽取研究

  2. :为提高汉语和维吾尔语医学领域机器翻译质量,解决人工提取和翻译大量医学术语耗 时费力的问题,提出基于词向量表示的双语术语抽取方法,并与传统统计短语对齐抽取进行对 比.首先,自建45216句汉语医疗语料,人工翻译获得23996句维语语料,人工采集汉语医学词 汇65394条,翻译获得31421条维语术语,对汉语语料分词,对维语语料形态切分,获得实验数 据;其次,使用词向量方法,设计了基于词向量表示的双语术语抽取实验,准确率为25.12%;并 将传统统计短语对齐抽取技术应用于汉维医疗平行语料,准确率为
  3. 所属分类:其它

    • 发布日期:2021-03-14
    • 文件大小:558080
    • 提供者:weixin_38543293
  1. 基于归纳学习和汉字汉字映射表的汉日命名实体对等提取方法

  2. 命名实体翻译等效项提取在机器翻译(MT)和跨语言信息检索(CLIR)中起着至关重要的作用。 传统方法通常基于大规模并行或可比语料库。 但是,这些研究的适用性受到限制,主要是因为缺乏所需规模的平行语料库,特别是对于中文和日文的语言对。 在本文中,我们提出了一种基于中文和日文特征的方法,该方法基于单语语料库中的归纳学习(IL),自动提取中日命名实体(NE)的翻译对等词。 该方法采用中文汉字和日语汉字映射表(HKMT)来计算日语和汉语之间NE实例的相似性。 然后,通过从中文和日语的高相似性NE实例中提
  3. 所属分类:其它

    • 发布日期:2021-03-12
    • 文件大小:393216
    • 提供者:weixin_38742421
  1. 利用Markov网络抽取复述增强机器译文自动评价方法

  2. 在机器译文自动评价中,匹配具有相同语义、不同表达方式的词或短语是其中一个很大的挑战。许多研究工作提出从双语平行语料或可比语料中抽取复述来增强机器译文和人工译文的匹配。然而双语平行语料或可比语料不仅构建成本高,而且对少数语言对难以大量获取。我们提出通过构建词的Markov网络,从目标语言的单语文本中抽取复述的方法,并利用该复述提高机器译文自动评价方法与人工评价方法的相关性。在WMT14 Metrics task上的实验结果表明,我们从单语文本中提取复述方法的性能与从双语平行语料中提取复述方法的性
  3. 所属分类:其它

    • 发布日期:2021-03-03
    • 文件大小:331776
    • 提供者:weixin_38608875
  1. 基于伪平行语料库的双语主动学习关系分类

  2. 基于伪平行语料库的双语主动学习关系分类
  3. 所属分类:其它

    • 发布日期:2021-02-26
    • 文件大小:334848
    • 提供者:weixin_38705788
  1. 基于自动构建语料库的词汇级复述研究

  2. 本文针对词汇级复述问题提出了一种新的方法.该方法首先利用翻译引擎将双语平行语料库自动转换为单语平行语料库,以此构建复述语料库并用于候选复述的抽取.在此基础上,本文提出了一种新的统计模型.该模型根据特定的上下文为待复述词选择最为合适的复述.实验结果表明自动构建的复述语料库对于词汇级复述的抽取是有效的.同时,本文提出的模型明显优于两种传统模型,在准确率和召回率上分别提高10%左右.
  3. 所属分类:其它

    • 发布日期:2021-02-23
    • 文件大小:371712
    • 提供者:weixin_38686658
  1. 基于随机行走N步的汉语复述短语获取方法

  2. 在利用大规模双语语料获取复述知识方面, 传统的基于\枢轴" 方法只能考虑两步以内的复述现象. 本文针对已有方法的局限性, 对不同语言之间互为翻译的短语对构建翻译关系图, 提出基于随机行走N 步的复述获取算法, 改进已有方法以获取更多潜在的复述知识. 本文描述了由汉英短语翻译表构建翻译关系图的方法、基于N 步的随机行走算法和基于期望步数的复述短语可信度计算方法. 同时, 本文提出面向多语言对的翻译关系图扩展方法. 在NTCIR 汉英和英日双语平行语料上进行了实验与评测, 并与传统方法进行了对比.
  3. 所属分类:其它

    • 发布日期:2021-02-22
    • 文件大小:2097152
    • 提供者:weixin_38599545
  1. 子句对齐及其在专利统计机器翻译中的应用

  2. 针对专利文献句子偏长的特点,将统计机器翻译中的训练语料进行子句切割获取双语的子句序列,再采用统计和规则相结合的策略来生成子句对齐,建立基于简单子句的双语语料来重新训练统计机器翻译系统,在一定程度上改善了原有双语训练语料中的短语对齐和词对齐,可以更为深入地利用平行语料中蕴含的翻译信息,应用于专利统计机器翻译中,在NTCIR-9的测试集上进行实验比较,获得较为满意的翻译效果。
  3. 所属分类:其它

    • 发布日期:2021-02-11
    • 文件大小:1003520
    • 提供者:weixin_38529436
  1. 构建和剖析中英三元组可比语料库

  2. 由于受到翻译腔的影响,中英平行语料库存在固有的扭斜的语言模型。显然,用这样的语料库训练的机器翻译、跨语言检索等自然语言处理系统也承袭了扭斜的语言模型,严重影响到应用系统的性能。为了克服平行语料库固有的缺陷,本文提出了构建和剖析中英三元组可比语料库的技术研究。这项研究采用可比语料库和语言自动剖析技术,使用统计和规则相结合的方法,对由本族英语、中式英语和标准中文三元素所组成的三元组可比语料库中的本族英语和中式英语进行统计分析。在此基础上,利用n-元词串、关键词簇等自动抽取技术挖掘基于本族语言模型的双
  3. 所属分类:其它

    • 发布日期:2021-02-09
    • 文件大小:425984
    • 提供者:weixin_38601878