您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 支持lucene的词典机械中文分词

  2. 采用反向机械分词算法。 对数字、英文进行特别的处理。 支持中英文数字混合词的处理。 分词速度快。
  3. 所属分类:其它

    • 发布日期:2009-05-14
    • 文件大小:18432
    • 提供者:wolffool
  1. SCWS简体中文分词辞典txt格式

  2. 这是我在研究中文分词时找到的一个辞典。感谢hightman的基础工作。==============================================SCWS-1.x.x 自述文件 (Written by hightman)HomePage: http://www.hightman.cn...[SCWS 简介]SCWS 是 Simple Chinese Words Segmentation 的缩写(简易中文分词系统)。它是一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正
  3. 所属分类:专业指导

    • 发布日期:2008-03-15
    • 文件大小:5242880
    • 提供者:oldfox126
  1. SCWS繁体中文分词辞典txt格式

  2. 这是我在研究中文分词时找到的一个辞典。感谢hightman的基础工作。==============================================SCWS-1.x.x 自述文件 (Written by hightman)HomePage: http://www.hightman.cn...[SCWS 简介]SCWS 是 Simple Chinese Words Segmentation 的缩写(简易中文分词系统)。它是一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正
  3. 所属分类:专业指导

    • 发布日期:2008-03-15
    • 文件大小:2097152
    • 提供者:oldfox126
  1. 汉语文本自动分词算法

  2. 最牛的分词算法,可直接应用 :分析了中文分词词典的机制,提出了一种改进的整词分词字典结构,并针对机械分词算法的特点,将其与概率算法相结 合,探讨了一种中文自动分词概率算法。采用哈希及二分法对词典进行分词匹配。实验表明,该算法具有较高的分词效率和准确 率,对于消去歧义词也有较好的性能。
  3. 所属分类:其它

    • 发布日期:2012-03-30
    • 文件大小:293888
    • 提供者:zmzbs123
  1. 中文分词词库

  2. 使用中文分词的基准库 方便采用机械分词差分词库和搜索引擎使用 还使用在广告精确定投、推进引擎上
  3. 所属分类:其它

    • 发布日期:2012-05-30
    • 文件大小:949248
    • 提供者:kamilzhang
  1. 全文索引引擎Lucene简单教程

  2. 开源的全文索引引擎Lucene简单教程。Lucene自带了几个分词器WhitespaceAnalyzer, SimpleAnalyzer, StopAnalyzer, StandardAnalyzer, ChineseAnalyzer, CJKAnalyzer等。前面三个只适用于英文分词,StandardAnalyzer对可最简单地实现中文分词,即二分法,每个字都作为一个词,这样分出来虽然全面,但有很多缺点,比如,索引文件过大,检索时速度慢等。ChineseAnalyzer是按字分的,与Sta
  3. 所属分类:Java

    • 发布日期:2013-01-30
    • 文件大小:294912
    • 提供者:zhou19811205
  1. 搜狗实验室词典

  2. 词库比较全,可以用于基于机械分词的小型中文分词系统
  3. 所属分类:其它

    • 发布日期:2014-03-07
    • 文件大小:2097152
    • 提供者:itinchina
  1. 基于lucene的搜索引擎总结

  2. 浅谈网络搜索引擎的实现 知识管理系统网络搜索模块开发实践交流 功能需求 可自定义要搜索的网站列表(以下简称目标列表) 可对目标列表网站的网页内容进行检索 可对目标列表网站的网页内容进行自动分类处理 可自定义更新周期及一些相关性能参数 系统主要功能模块 网络蜘蛛 采集、解析并保存目标列表网站的内容(网页) 全文索引/检索 为目标列表网站内容建立索引 提供内容的全文检索 自动分类 对目标列表网站内容进行分类 基本流程 网络蜘蛛 功能概要 目标文档地址队列 w/r 目标文档(网页)获取 目标文档保存
  3. 所属分类:网络基础

    • 发布日期:2008-10-28
    • 文件大小:158720
    • 提供者:xinkeji
  1. 分词后的摘要

  2. 知网上,电子计算机类(2ele);微型计算机(2mic);金属加工;机械制造 四类文档的题目+摘要 去除停用词
  3. 所属分类:机器学习

    • 发布日期:2017-11-21
    • 文件大小:989184
    • 提供者:a602232180
  1. 中文信息处理分词软件机械分词

  2. 中文信息处理分词软件机械分词 中文信息处理分词软件机械分词
  3. 所属分类:专业指导

    • 发布日期:2008-12-21
    • 文件大小:846848
    • 提供者:u012016173
  1. solr ik中文分词

  2. 包含内容:IKAnalyzer中文分词器V2012使用手册.pdf;机械词汇大全【官方推荐】;深蓝词库转换.exe;中文分词词库打包50万词汇;IKAnalyzer-5.0.jar
  3. 所属分类:Java

    • 发布日期:2018-05-02
    • 文件大小:10485760
    • 提供者:hyteddy
  1. EES中文教程

  2. EES 是工程方程解答器的英文字母的首字母缩写词。EES 的基本功能是解代数方程组。 EES 也能解差分方程、有复杂变量的方程、做工程优化、提供线性和非线性回归并可绘出良好的二维图形。EES 的最早版本开发于 Apple Macintosh 计算机和 Windows 操作系统。这本使用手册描述了基于 Windows 操作系统的 EES 版本,包括 Windows 95/98/2000 和 Windows NT4。 EES 和现有的方程组数值解程序之间有两个主要的差别。首先,EES 自动识别和求
  3. 所属分类:讲义

    • 发布日期:2019-04-25
    • 文件大小:13631488
    • 提供者:qq_39535534
  1. PHP中文分词代码 v1.0 UTF-8.rar

  2. PHP中文分词代码使用居于unicode的词库,使用反向匹配模式分词,理论上兼容编码更广泛,并且对utf-8编码尤为方便。由于PhpanAlysis是无组件的系统,因此速度会比有组件的稍慢,不过在大量分词中,由于边分词边完成词库载入,因此内容越多,反而会觉得速度越快,这是正常现象,对于支持PHP-APC的服务器,本程序支持对词典进行缓存,这样做之后理论的速度并不慢于那些带组件的分词程序了。 分词系统是基于字符串匹配的分词方法 ,这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与
  3. 所属分类:其它

    • 发布日期:2019-07-09
    • 文件大小:2097152
    • 提供者:weixin_39841365
  1. PHP中文分词代码 v1.0 UTF-8.rar

  2. PHP中文分词代码使用居于unicode的词库,使用反向匹配模式分词,理论上兼容编码更广泛,并且对utf-8编码尤为方便。由于PhpanAlysis是无组件的系统,因此速度会比有组件的稍慢,不过在大量分词中,由于边分词边完成词库载入,因此内容越多,反而会觉得速度越快,这是正常现象,对于支持PHP-APC的服务器,本程序支持对词典进行缓存,这样做之后理论的速度并不慢于那些带组件的分词程序了。 分词系统是基于字符串匹配的分词方法 ,这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串
  3. 所属分类:其它

    • 发布日期:2019-07-07
    • 文件大小:2097152
    • 提供者:weixin_39840588
  1. python实现机械分词之逆向最大匹配算法代码示例

  2. 主要介绍了python实现机械分词之逆向最大匹配算法代码示例,具有一定借鉴价值,需要的朋友可以参考下。
  3. 所属分类:其它

    • 发布日期:2020-09-21
    • 文件大小:156672
    • 提供者:weixin_38604653
  1. Python3爬虫中关于中文分词的详解

  2. 原理 中文分词,即 Chinese Word Segmentation,即将一个汉字序列进行切分,得到一个个单独的词。表面上看,分词其实就是那么回事,但分词效果好不好对信息检索、实验结果还是有很大影响的,同时分词的背后其实是涉及各种各样的算法的。 中文分词与英文分词有很大的不同,对英文而言,一个单词就是一个词,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,需要人为切分。根据其特点,可以把分词算法分为四大类: ·基于规则的分词方法 ·基于统计的分词方法 ·基于语义的分词方法 ·基于理解
  3. 所属分类:其它

    • 发布日期:2020-12-17
    • 文件大小:142336
    • 提供者:weixin_38638292
  1. python实现机械分词之逆向最大匹配算法代码示例

  2. 逆向最大匹配方法 有正即有负,正向最大匹配算法大家可以参阅//www.jb51.net/article/127404.htm 逆向最大匹配分词是中文分词基本算法之一,因为是机械切分,所以它也有分词速度快的优点,且逆向最大匹配分词比起正向最大匹配分词更符合人们的语言习惯。逆向最大匹配分词需要在已有词典的基础上,从被处理文档的末端开始匹配扫描,每次取最末端的i个字符(分词所确定的阈值i)作为匹配字段,若匹配失败,则去掉匹配字段最前面的一个字,继续匹配。而且选择的阈值越大,分词越慢,但准确性越好。 逆
  3. 所属分类:其它

    • 发布日期:2020-12-24
    • 文件大小:158720
    • 提供者:weixin_38713996
  1. 浅析常用分词算法的比较与设想

  2. 与基于理解的分词算法和基于统计的分词算法相比,基于文本匹配的算法更加通用。基于文本匹配的算法又称之为“机械分词算法”,他是它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功,可识别出一个词。按照扫描方向的不同,文本匹配分词方法可以分为正向匹配和逆向匹配两种;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。   常用的几种机械分词
  3. 所属分类:其它

    • 发布日期:2021-01-02
    • 文件大小:50176
    • 提供者:weixin_38506138
  1. 机械工具-源码

  2. 机械工具 有用的函数的集合,这些函数返回整齐的文本data.frame并将“ wakatigaki”制成来自RMeCab的文本。 RMeCabによる形态素解析の结果を整洁的文字なdata.frameで返す关数と,分かち书きをする关数が含まれます。RMeCabで形态素解析を行い,出力を整形しています。 インストール remotes :: install_github( " suzuna/mecabtools " ) 使用例 例として,以下の文章を形态素解析します。 text <- c(
  3. 所属分类:其它

    • 发布日期:2021-02-23
    • 文件大小:9216
    • 提供者:weixin_42131633
  1. 电力、电子、电气、电器,还傻傻的分不清?

  2. 从学科划分的角度讲  电力、和电器都属于工程学科。工程一词于日本,其中的“气”于西方外文翻译(西方工业之初,动力机械均由蒸汽轮机驱动,后来用与发电,故""开始乏指工业动力,现在电气泛指电),电气工程也就是电的工程。  1、电气:、电器和电力都属于电气工程,它是一个抽象的概念,不是具体指某个设备或器件、而是指整个系统和、电器和电力的范畴。  2、电力:电力是电气工程的强电部分,主要研究电能的提供(即电能的产生——发电系统)、传输(电力线路传输)、变换(高低压变换,变压器、断路器、接触器);电力分为
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:104448
    • 提供者:weixin_38717574
« 12 »