您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 中文分词的切分词典(词性标注,数据库为基础的文本分类检索过滤

  2. 用于中文分词的切分词典,还有词性标注,以这个词典数据库为基础建立文本分类,文本检索或文本过滤可以节省很多时间.很全,强烈推荐
  3. 所属分类:专业指导

    • 发布日期:2009-09-21
    • 文件大小:218112
    • 提供者:manuxiao
  1. 文本图像字符切分识别程序

  2. 将Jpg图像中的文字切分并识别出来的VC程序,采用投影法和连通域,可供选择
  3. 所属分类:C++

    • 发布日期:2010-04-27
    • 文件大小:4194304
    • 提供者:sabarina
  1. 基于新的关键词提取方法的快速文本分类系统

  2. !) 文档中文信息的切词 1) 文档中文信息的切词 1.1新型机器词典的建立 1.2动词词典、虚词词典和停用词词典的建立依据 1.3基于“小容量”词库的切分技术 1.4三种切分的比对及相关规则的建立 2) 进一步过滤关键词:CD)ED 算法及其改进 3) kNN(k-Nearest-Neighbor)分类算法
  3. 所属分类:其它

    • 发布日期:2010-11-09
    • 文件大小:116736
    • 提供者:qdfch
  1. 文本分类程序--面向搜索引擎之话题推送

  2. 目前对于短文本特征向量的研究很是火爆,对于如何将文本切分,分类,乃至推送更是众说纷纭,这个就献给大家参考了
  3. 所属分类:专业指导

  1. java将一个文本切分为多个自然段

  2. java语言编写,用于文本切分,可按段落或固定长度
  3. 所属分类:Java

    • 发布日期:2012-06-11
    • 文件大小:2048
    • 提供者:kongleilei1024
  1. 文本智能章节切分工具

  2. 很好用的文本处理软件,可以智能切分章节,用MP4看书更方便
  3. 所属分类:其它

    • 发布日期:2008-12-06
    • 文件大小:181248
    • 提供者:qiaojiuyuan
  1. 文本的预处理程序,包括如何断句等(非常准确)

  2. 1. 删除文件中的中文、西文空格 2. 将篇章切分为一个个的句子,切分标志为:。 ! ? … ;等,句中如果有引号,要求左右匹配 3. 对句子按长度从大到小分行排序。 4. 在每行句子前加上序号 5. 统计一个文件中各种长度的句子的频次,按照句长频次降序输出统计结果
  3. 所属分类:专业指导

    • 发布日期:2009-03-03
    • 文件大小:319488
    • 提供者:u010640524
  1. 中文文本自动分词和标注

  2. 本书介绍了信息处理用现代汉语分词词表的收词原则和方法,《信息处理用现代汉语分词规范》设计原则及规范内容,中文文本歧义切分技术等内容。
  3. 所属分类:机器学习

    • 发布日期:2018-04-22
    • 文件大小:3145728
    • 提供者:lengxuedezongzi
  1. 日文中文英文等文本切分句子

  2. 对于日文以及英文和中文或者其他的文本类型的数据,基于NLTK和DOCX以及re模块对整个文本进行切分,得到一条条的句子作为RNN网络的初始训练数据
  3. 所属分类:深度学习

    • 发布日期:2019-03-09
    • 文件大小:5242880
    • 提供者:zshluckydogs
  1. python实现按行切分文本文件的方法

  2. 主要介绍了python实现按行切分文本文件的方法,涉及Python利用shell命令操作文本文件的相关技巧,需要的朋友可以参考下
  3. 所属分类:其它

    • 发布日期:2020-09-21
    • 文件大小:40960
    • 提供者:weixin_38663973
  1. python实现根据文件关键字进行切分为多个文件的示例

  2. 今天小编就为大家分享一篇python实现根据文件关键字进行切分为多个文件的示例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
  3. 所属分类:其它

    • 发布日期:2020-09-19
    • 文件大小:33792
    • 提供者:weixin_38722891
  1. python实现按行切分文本文件的方法

  2. 本文实例讲述了python实现按行切分文本文件的方法。分享给大家供大家参考,具体如下: python脚本利用shell命令来实现文本的操作, 这些命令大大减少了我们的代码量。 比如按行切分文件并返回切分后得到的文件列表,可以利用内建的split命令进行切分。为了返回得到的文件列表名,可以先将文件切分到自建的子目录中,然后通过os.listdir获取所有文件,再将这些文件移到上一级目录(即函数参数指定的新目录),删除自建子目录,最后返回该文件名列表。 代码如下,如发现问题欢迎指正: # 创建新路
  3. 所属分类:其它

    • 发布日期:2020-12-25
    • 文件大小:44032
    • 提供者:weixin_38716423
  1. python操作docx写入内容,并控制文本的字体颜色

  2. 功能:读取txt文本,然后将目的字符串标红,再将处理过的字符串写入docx中 txt文本内容:啊打发发烧鳌太路线点击点击诶的骄傲 计划将鳌太标红 代码: f = open('D:\\test\\路线.txt', 'r') content = f.read() print(content) #此方法在切分字符时可以保留切分符 pt = r'(鳌太)' res = re.split(pt, content) print(res[0]) document = Document() p = docum
  3. 所属分类:其它

    • 发布日期:2020-12-20
    • 文件大小:39936
    • 提供者:weixin_38502929
  1. 语义词特征提取及其在维吾尔文文本分类中的应用

  2. 基于机器学习的文本分类中,维吾尔文传统分词方法表现出非常明显的不足和局限性。该文使用另外一种维吾尔文自动分词方法dme-TS。dme-TS中,不再以词间空格作为切分标记提取词特征,而是用一种组合统计量(dme)来度量文本中相邻单词之间的关联程度,并以dme度量的弱关联的词间位置作为切分点,提取对学习算法真正有意义的语义词特征。实验结果表明,用dme-TS提取文本特征可以降低特征空间的维度,同时也能有效的提高传统以单词为特征的分类算法的性能。
  3. 所属分类:其它

    • 发布日期:2021-03-10
    • 文件大小:1048576
    • 提供者:weixin_38723527
  1. 维吾尔文无监督自动切分及无监督特征选择

  2. 维吾尔文常用切分方法会产生大量的语义抽象甚至多义的词特征,因此学习算法难以发现高维数据中隐藏的结构.提出一种无监督切分方法 dme-TS和一种无监督特征选择方法 UMRMR-UFS.dme-TS从大规模生语料中自动获取单词Bi-gram及上下文语境信息,并将相邻单词间的t-测试差、互信息及双词上下文邻接对熵的线性融合作为一个组合统计量(dme)来评价单词间的结合能力,从而将文本切分成语义具体的独立语言单位的特征集合.UMRMR-UFS用一种综合考虑最大相关度和最小冗余的无监督特征选择标准(UMR
  3. 所属分类:其它

    • 发布日期:2021-03-10
    • 文件大小:1048576
    • 提供者:weixin_38624519
  1. 面向语音合成的维吾尔语音素自动切分算法研究

  2. 结合维吾尔语语音特征,以建立维吾尔音素语料库为目标,为了减少人工工作量,通过HTK工具实现了音素的自动切分算法:首先完成了文本设计、录音和手动标注等准备工作,设计了上下文属性集,通过训练获得了每个音素的HMM模型,随后对任意输入的语音句子进行了其音素构成部分的自动切分,最后分析了其切分准确度、存在的问题及对策等。实践表明,在语料库的建设中,该研究策略确实节省了大量的时间和人力成本,提高了语音语料库标注信息的一致性和准确性。
  3. 所属分类:其它

    • 发布日期:2021-02-21
    • 文件大小:1048576
    • 提供者:weixin_38635979
  1. 结合文字核心区域和扩展生长的藏文古籍文本行切分

  2. 藏文古籍文档图像中相邻文本行之间通常存在黏连和重叠的情况,这使得文本行切分成为一项艰巨的任务。因此,提出了一种结合文字核心区域和扩展生长的藏文古籍文档图像的行切分方法。首先,根据二值藏文古籍文档图像中连通域的面积和真圆度去除非音节点,获得音节点图像。其次,通过水平投影音节点图像和垂直投影二值原图,得到文本行基线所处的范围和文本行数,生成文字核心区域;通过像素值的或运算将文字核心区域和二值原图结合,得到伪文本连通区域。最后,基于广度优先搜索算法将文字核心区域扩展为伪文本连通区域,获得伪文本行连通区
  3. 所属分类:其它

    • 发布日期:2021-01-25
    • 文件大小:12582912
    • 提供者:weixin_38619613
  1. 一天一个shell命令 linux文本内容操作系列-cut命令详解

  2. 说明: cut 按列切分文件,你可以指定分隔每列的定界符。在cut的术语中,每列都是一个字段,就是有时候说第一列,可能表述称第一个字段。 实战: 假设有文件data.txt,格式如下 NO    Name    Mark    Percent  1    Sarath    45    90  2    Alex    49    98  3    Anu    45    90 分隔符(定界符)为Tab 制表符 如果我要取得第二列,所有人的名称,有什么好的办法吗?此时cut该大显身手了。
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:58368
    • 提供者:weixin_38708361
  1. 文本切分

  2. 您好!我是“筋斗云上”,请多关照! 第一篇 文本切分 文本切分包含 两个步骤:句子切分、词语切分 一、句子切分 句子切分是将文本语料库分解成句子的过程,句子 切分基本技术是在句子之间寻找特定的分隔符,例如句号(.)换行符(\n)或者分号(;)等。 NLTK框架常用的句子切分器有: sent_tokenize PunkSentenceTokenizer RegexpTokenizer 预先训练的句子切分模型  关于sent_tokenize,以NLTK中的古腾堡(gutenberg)语料库为
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:34816
    • 提供者:weixin_38545485
  1. 第三章 3、1 文本预处理之分词(Word Segmentation)

  2. 一、大纲总览 1、tough资料:各类文本等的输入。 2、分词。好的分词算法很重要。 3、文本预处理。 4、标准化:单词的时态,单复数。都转换为最原始的。这时还是字符串。 5、特征提取:向量表示,thidf算法,w2w,seq2seq算法等等。 6、模型:向量有了,然后就是根据算法去匹配。 二、分词 可以直接用的分词工具。 1、分词算法之最大匹配 向前最大匹配、向后最大匹配、双向最大匹配(不讲) 向前最大匹配 1、首先输入一个句子,已知后建好的词典库,设置好窗口值(5) 2、窗口从第一个汉字
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:2097152
    • 提供者:weixin_38705873
« 12 3 4 5 6 7 8 »