您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 计算机要学哪些东西----(还有附赠哦)

  2. CS(计算机科学)知识体系 计算教程2010报告的这篇附录定义了计算机科学本科教学计划中可能讲授的知识领域。该分类方案的依据及其历史、结构和应用的其它细节包含在完整的任务组报告中。由于我们希望附录比完整的报告有更多的读者,所以任务组认为在每一篇附录中概述理解该推荐所必须的基本概念是重要的。在下面几节中我们列出了最重要的几个概念。 知识体的结构 计算机科学知识体分层组织成三个层次。最高一层是领域(area),代表一个特定的学科子领域。每个领域由一个两个字母的缩写词表示,比如OS代表操作系统,PL
  3. 所属分类:其它

    • 发布日期:2010-11-21
    • 文件大小:110592
    • 提供者:fmxujin
  1. 最大熵模型总结

  2. 最大熵模型 分词方法 ,这个是我自己总结的最大熵模型。如果换成条件概率,就是随机场了
  3. 所属分类:专业指导

    • 发布日期:2011-12-07
    • 文件大小:2097152
    • 提供者:ainihong001
  1. 计算机要学哪些东西

  2. CS(计算机科学)知识体系 计算教程2012报告的这篇附录定义了计算机科学本科教学计划中可能讲授的知识领域。该分类方案的依据及其历史、结构和应用的其它细节包含在完整的任务组报告中。由于我们希望附录比完整的报告有更多的读者,所以任务组认为在每一篇附录中概述理解该推荐所必须的基本概念是重要的。在下面几节中我们列出了最重要的几个概念。 知识体的结构 计算机科学知识体分层组织成三个层次。最高一层是领域(area),代表一个特定的学科子领域。每个领域由一个两个字母的缩写词表示,比如OS代表操作系统,PL
  3. 所属分类:其它

    • 发布日期:2012-05-18
    • 文件大小:110592
    • 提供者:x31721019
  1. 统计与规则相结合的新词识别算法研究

  2. 新词识别问题的解决方案主要有两种,一种是基于概率统计的,另一种是基于规则的。本文在两者的基础上,实现统计与规则相结合的新词识别检测问题。首先从熟语料中构建N元组候选词库,然后对候选词库分别进行规则过滤,互信息过滤以及位置成词率过滤,再经过N元组重叠标记得到各自不同的新词表。最后综合三种方法,实现统计与规则相结合的新词识别算法,实验结果表明新词识别准确率达到88%。
  3. 所属分类:C/C++

    • 发布日期:2013-04-23
    • 文件大小:924
    • 提供者:zhang159520
  1. Python Cookbook

  2. 第1章 文本 1 引言 1 1.1 每次处理一个字符 6 1.2 字符和字符值之间的转换 7 1.3 测试一个对象是否是类字符串 8 1.4 字符串对齐 10 1.5 去除字符串两端的空格 11 1.6 合并字符串 11 1.7 将字符串逐字符或逐词反转 14 1.8 检查字符串中是否包含某字符集合中的字符 15 1.9 简化字符串的translate方法的使用 18 1.10 过滤字符串中不属于指定集合的字符 20 1.11 检查一个字符串是文本还是二进制 23 1.12 控制大小写 25
  3. 所属分类:Python

    • 发布日期:2013-07-31
    • 文件大小:59768832
    • 提供者:winlrou
  1. 中文人名自动识别的一种有效方法

  2. 中文信息计算机自动处理的研究已有几十年的 历史 , 但至今仍有许多技术难题没有得到很好解 决 , 中文姓名自动识别问题就是其中的一个。由于 它与中文文本的自动分词一样 , 属于中文信息处理 的基础研究领域 , 因而它的研究成果直接影响到中 文信息的深层次研究。汉语的自身特点使得中文信 息自动处理大多是先对要处理的文本进行自动分词 (加入显式分割符) , 然后再在分词的基础上进行词 法、语法、语义等方面的深入分析。而在分词阶 段 , 文本中的人名、地名以及其它专有名词和生词 大多被切分成单字词
  3. 所属分类:专业指导

    • 发布日期:2008-10-16
    • 文件大小:84992
    • 提供者:yxh0612
  1. Python.Cookbook(第2版)中文版

  2. 第1章 文本 引言 1 1.1 每次处理一个字符 1.2 字符和字符值之间的转换 1.3 测试一个对象是否是类字符串 1.4 字符串对齐 1.5 去除字符串两端的空格 1.6 合并字符串 1.7 将字符串逐字符或逐词反转 1.8 检查字符串中是否包含某字符集合中的字符 1.9 简化字符串的translate方法的使用 1.10 过滤字符串中不属于指定集合的字符 1.11 检查一个字符串是文本还是二进制 1.12 控制大小写 1.13 访问子字符串 1.14 改变多行文本字符串的缩进 1.15
  3. 所属分类:专业指导

    • 发布日期:2015-04-23
    • 文件大小:71303168
    • 提供者:lengwuqin
  1. VFP分词程序,功能不多,采用最大正向匹配法

  2. 嘿嘿,可完成功能:1.单文件和批处理分词(分词采用最原始的最大词匹配法)2.统计词频3.统计成词概率
  3. 所属分类:专业指导

    • 发布日期:2007-04-30
    • 文件大小:471040
    • 提供者:Felomeng
  1. Python.Cookbook(第2版)中文版

  2. 第1章 文本 1 引言 1 1.1 每次处理一个字符 6 1.2 字符和字符值之间的转换 7 1.3 测试一个对象是否是类字符串 8 1.4 字符串对齐 10 1.5 去除字符串两端的空格 11 1.6 合并字符串 11 1.7 将字符串逐字符或逐词反转 14 1.8 检查字符串中是否包含某字符集合中的字符 15 1.9 简化字符串的translate方法的使用 18 1.10 过滤字符串中不属于指定集合的字符 20 1.11 检查一个字符串是文本还是二进制 23 1.12 控制大小写 25
  3. 所属分类:Python

    • 发布日期:2016-04-26
    • 文件大小:71303168
    • 提供者:skyfishsha
  1. jiebaForLuceneNet-master

  2. jieba.NET与Lucene.Net的集成 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义。具体来说,分词过程不会借助于词频查找最大概率路径,亦不会使用HMM; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
  3. 所属分类:C#

    • 发布日期:2018-09-20
    • 文件大小:21504
    • 提供者:qq_43248978
  1. 百度的何中军在《神经网络机器翻译技术及应用》中提到的5篇论文

  2. 百度的何中军在《神经网络机器翻译技术及应用》中提到的5篇论文 五篇论文分别是: 1.第一个挑战就是漏译,我们今年有一篇论文从数据方面去分析。我们发现漏译与词语的熵成正相关关系,这个词的熵越大,漏译的可能性越大。它所对应的目标语言词越多,概率越分散(熵越大),越有可能被漏译。 Addressing the Under-translation Problem from the Entropy Perspective To appear in AAAI-2019 2.第二个挑战就是数据稀疏。 多语言
  3. 所属分类:深度学习

    • 发布日期:2019-03-21
    • 文件大小:3145728
    • 提供者:wxw060709
  1. Python中文分词库Yaha.zip

  2. "哑哈"中文分词,更快或更准确,由你来定义。通过简单定制,让分词模块更适用于你的需求。 "Yaha" You can custom your Chinese Word Segmentation efficiently by using Yaha 基本功能: 精确模式,将句子切成最合理的词。 全模式,所有的可能词都被切成词,不消除歧义。 搜索引擎模式,在精确的基础上再次驿长词进行切分,提高召回率,适合搜索引擎创建索引。 备选路径,可生成最好的多条切词路径,可在此
  3. 所属分类:其它

    • 发布日期:2019-07-16
    • 文件大小:6291456
    • 提供者:weixin_39841856
  1. 自动构建中文词库dict_build.zip

  2. 博文的 java 实现,可以自动抽取语料库中的词汇,可以作为自然语言处理的第一步,准备词典。成词条件互信息左右熵位置成词概率ngram 频率运行方法下载或者gradle distTar打包程序解压dict_build-x.x.x.tar解压之后,进入bin. 运行:./dict_build 你的数据文件的绝对路径结束之后,在数据文件同目录有文件:words_sort.data四列分别为:词,词频,互信息,左右熵,位置成词概率.示例《金瓶梅》抽取结果西门庆  4754    6.72792045
  3. 所属分类:其它

    • 发布日期:2019-07-18
    • 文件大小:3145728
    • 提供者:weixin_39841856
  1. 基于贝叶斯网络的实体属性补全.pdf

  2. 属性是实体的重要组成部分,因此实体属性的获取是知识图谱构建 的关键步骤。由哈尔滨工业大学社会计算与信息检索研究中心推出的开放 域中文知识图谱《大词林》是通过从文本中自动挖掘实体及实体间的关系 而构建而成,因此为《大词林》中缺少属性的实体添加属性也成为必须研 究的问题之一。本文提出了一种解决方案:基于贝叶斯网络的概率统计模 型,通过上位词概念与属性之间的依赖关系和实体与上位词概念的依赖关 系来自动的为《大词林》中没有属性的实体添加属性,并与相似度计算方 法对比证明了其有效性,可大规模提高《大词林》
  3. 所属分类:互联网

    • 发布日期:2020-04-30
    • 文件大小:575488
    • 提供者:nczfkb
  1. jieba.NET-master.zip

  2. 分词 jieba.NET版本(C#实现) * 支持三种分词模式: - 精确模式,试图将句子最精确地切开,适合文本分析; - 全模式,把句子中所有的可以成词的词语都扫描出来, **速度非常快,但是不能解决歧义。 具体来说,分词过程不会借助于词频查找最大概率路径,亦不会使用HMM; - 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 * 支持繁体分词 * 支持添加自定义词典和自定义词 * MIT 授权协议
  3. 所属分类:C#

    • 发布日期:2020-01-07
    • 文件大小:11534336
    • 提供者:chengbi0653
  1. 基于内容分析的微博转发行为研究.pdf

  2. 摘 要:【目的/意义】微博转发行为反映了微博用户对所感兴趣微博的一种行为表现,对微博转发行为的研究有助 于微博的深度挖掘工作。【方法/过程】本文从内容分析的角度,对微博转发行为进行了预测。量化分析了微博内容 中一组低水平特征和高水平特征,采用逻辑回归模型对微博转发概率进行预测,并在微博数据集中进行了训练和 验证。【结果/结论】基于模型中的参数学习,证实这些内容特征对于微博转发有着密切的联系,据此进一步推断微 博用户主要的兴趣点。 关键字:微博;转发;内容分析;情感理论研究 情报科学 第36卷第4
  3. 所属分类:其它

    • 发布日期:2019-09-07
    • 文件大小:1048576
    • 提供者:maomao1688
  1. Solidity官方文档中文版.pdf

  2. Solidity 是一种语法类似 Javascr ipt 的高级语言。它被设计成以编译的方式生成以太坊虚拟机代码。在后续内容中你将会发现,使用它很容易创建用于投票、众筹、封闭拍卖、多重签名钱包等等的合约。汇智网 Hu biz. com Solidity官方文档中文版 Browser-Based Compiler Changelog Story Backlog. Source code Gitter Chat Solidity文档 在下一章中,我们先看一个用 Solidity写的简单的智能合约,然
  3. 所属分类:以太坊

    • 发布日期:2019-09-03
    • 文件大小:1048576
    • 提供者:weixin_43405220
  1. 新闻情感方向判断方法、电子设备及计算机可读存储介质.pdf

  2. 使用深度学习和模型的方法,判断非结构化文本的情绪倾向CN107688651A 权利要求书 2/2页 若从该待预测新闻的标题和正文中没有识别出所述第一文件中的事件关键词,且没有 识别岀与所述第二文件中的事件正则表达式符合的内容,则将所述预定的机器学习算法获 取的该待预测新闻的情感分数作为该待预测新闻的最终评分。 8.如权利要求7所述的新闻情感方向判断方法,其特征在于,所述调整所述预定的机器 学习算法获取的该待狈测新闻的情感分数还包括: 若从该待预测新闻的标题和正文中识别出与所述第二文件中的事件正则
  3. 所属分类:机器学习

    • 发布日期:2019-07-12
    • 文件大小:649216
    • 提供者:lanhao5635865
  1. python中文分词,使用结巴分词对python进行分词(实例讲解)

  2. 在采集美女站时,需要对关键词进行分词,最终采用的是python的结巴分词方法。 中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。 其基本实现原理有三点: 1.基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) 2.采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 3.对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法 安装(Linux环境) 下载工具包,解压后进入目录下,运行:python set
  3. 所属分类:其它

    • 发布日期:2020-12-24
    • 文件大小:71680
    • 提供者:weixin_38565631
  1. 简单理解NLP中文分词

  2. 什么是中文分词 中文分词指将一个汉字序列切分成一个个单独的词。 中文分词的难题 分词规则(粒度)问题:不同应用对粒度的要求不一样,比如“百度搜索”可以是一个词也可以是两个词 消除歧义问题:比如“小吃店关门了” 未登录词识别问题:比如“hold”住 分词方法分类 中文分词主要分为:基于规则分词、基于概率统计分词。 基于规则分词 原理:按照一定策略将待分析的汉字串与词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。 按照扫描方向的不同分为:正向匹配 & 逆向匹配 & 双向匹配 正向最大
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:39936
    • 提供者:weixin_38725260
« 12 »