您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 信息检索研究室论文集第一卷

  2. 信息检索相关论文 集合一 1. 车万翔 刘挺 秦兵 李生 面向依存分析的搭配抽取方法研究 1 全国第六届计算语言学联合学术会议, 2001, 7 Collocation Extraction Oriented to Dependency Parsing 2. 秦兵 郑实福 刘挺 张刚 李生 基于改进的贝叶斯模型的中文网页分类器 8 全国第六届计算语言学联合学术会议, 2001, 7 An Improved Bayes Classifier for Chinese Web Pages 3. 张刚
  3. 所属分类:Web开发

    • 发布日期:2009-08-04
    • 文件大小:1048576
    • 提供者:chenls
  1. 字符串距离

  2. 开发计算两个字符串间的编辑距离,LCS距离和N-gram距离的函数。 (1)编辑距离 字符串a和b的编辑距离ED(i,j)表示把字符串a转换成b所需要的最少操作次数,这些操作可以是:插入一个字符,删除一个字符,替换一个字符。 (2)LCS相似度 字符串a和b的LCS(Longest Common Subsequence)相似度是a和b间的最大相同子串的长度。显然LCS(i,j)越大,a,b越相似。 (3)N-gram相似度 设Ngram(a) 是字符串a中长度为N的子串的集合。两个字符串a,b
  3. 所属分类:C/C++

    • 发布日期:2012-03-04
    • 文件大小:24576
    • 提供者:yqahx
  1. 文本相似度计算

  2. #include "come.h" void main() { int N; N=4; char a[500]; char b[500]; int choice; while(1) { printf("\n\n请输入第一个字符串:"); gets(a); printf("请输入第二个字符串:"); gets(b); ED aa(a,b); printf("\t编辑距离 edits 为: %d \n",aa.edn()); LCS lcs1(a,b); printf("\t最长公共子序列为: %
  3. 所属分类:C++

    • 发布日期:2013-05-12
    • 文件大小:312320
    • 提供者:u010662162
  1. 检索系统在音乐播放中的研究与实现

  2. 本文首先将MIDI格式音乐转化为WAV格式音乐。分析WAV格式的音频,并提取音频中的旋律等信息。利用基频提取算法和端点检测方法对哼唱查询片段和标准数据库中的音乐进行旋律提取和截取,并对得到的音频的旋律用N-Gram字符串匹配算法进行近似匹配,得到近似匹配的相似度,按照相似度由高到低返回近似匹配结果,然后再用相似度大小采用DTW进行细匹配
  3. 所属分类:Java

    • 发布日期:2014-03-05
    • 文件大小:1048576
    • 提供者:u011091173
  1. 文本相似度计算(TF-IDF)C#

  2. namespace ServiceRanking { /// /// Summary descr iption for TF_IDFLib. /// public class TFIDFMeasure { private string[] _docs; private string[][] _ngramDoc; private int _numDocs=0; private int _numTerms=0; private ArrayList _terms; private int[][]
  3. 所属分类:C#

    • 发布日期:2014-04-04
    • 文件大小:29696
    • 提供者:whm1275
  1. java-string-similarity

  2. 各种字符串相似度和距离算法的实现:Levenshtein,Jaro-winkler,n-Gram,Q-Gram,Jaccard索引,最长公共子序列编辑距离,余弦相似度......
  3. 所属分类:Java

    • 发布日期:2018-10-24
    • 文件大小:34816
    • 提供者:github_37002236
  1. 管理海量数据-压缩、索引和查询 第2版.zip

  2. 第1章 概览 1.1 文档数据库(document databases) 1.2 压缩(compression) 1.3 索引(indexes) 1.4 文档索引 1.5 MG海量文档管理系统 第2章 文本压缩 2.1 模型 2.2 自适应模型 2.3 哈夫曼编码 范式哈夫曼编码 计算哈夫曼编码长度 总结 2.4 算术编码 算术编码是如何工作的 实现算术编码 保存累积计数 2.5 符号模型 部分匹配预测 块排序压缩 动态马尔科夫压缩 基于单字的压缩 2.6 字典模型 自适应字典编码器的LZ77
  3. 所属分类:数据库

    • 发布日期:2019-08-04
    • 文件大小:236978176
    • 提供者:harlensaint
  1. Algorithm-java-string-similarity.zip

  2. Algorithm-java-string-similarity.zip,各种字符串相似度和距离算法的实现:levenshtein、jaro winkler、n-gram、q-gram、jaccard索引、最长公共子序列编辑距离、余弦相似度……,算法是为计算机程序高效、彻底地完成任务而创建的一组详细的准则。
  3. 所属分类:其它

    • 发布日期:2019-09-17
    • 文件大小:468992
    • 提供者:weixin_38744270
  1. L25词嵌入进阶GloVe模型

  2. 词嵌入进阶 在“Word2Vec的实现”一节中,我们在小规模数据集上训练了一个 Word2Vec 词嵌入模型,并通过词向量的余弦相似度搜索近义词。虽然 Word2Vec 已经能够成功地将离散的单词转换为连续的词向量,并能一定程度上地保存词与词之间的近似关系,但 Word2Vec 模型仍不是完美的,它还可以被进一步地改进: 子词嵌入(subword embedding):FastText 以固定大小的 n-gram 形式将单词更细致地表示为了子词的集合,而 BPE (byte pair encod
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:82944
    • 提供者:weixin_38697940
  1. Fetch_Rewards-源码

  2. 数据工程师编码练习 编写该程序是为了比较两个文本并返回0到1之间的相似度分数。 0表示完全不同,1表示相同。 通过运行bash文件 ,它将在localhost上启动Web服务以执行比较。 我为开发解决方案而做出的决定是: 我数了字和字符。 每个单词的权重相同,没有一个单词比其他单词更重要。 单词的顺序对于比较很重要。 我通过使用n-gram来评估相似性,n-grams使用一个单词块按顺序比较两个文本。 n表示一个块中有多少个单词。 对于每个比较,都会分配最大长度。 如果分配的数字为
  3. 所属分类:其它

    • 发布日期:2021-03-16
    • 文件大小:7168
    • 提供者:weixin_42118701
  1. 联合的细粒度成分不断增强中文单词嵌入

  2. 摘要:最常见的词嵌入方法是从大规模文本的上下文信息中学习词向量表示。 但是,中文单词通常由字符,子字符和笔画组成,并且每个部分都包含丰富的语义信息。 中文单词向量的质量与预测的准确性有关。 因此,为了获得高质量的汉字嵌入,我们提出了一种持续增强的词嵌入模型。 该模型从细粒度笔划和相邻笔划信息开始,并通过组合笔划之间的关系矢量表示来增强子字符嵌入。 同样,我们结合子字符关系向量和字符关系向量来学习基于增强子字符嵌入的汉字嵌入。 我们构造了基础笔画n-gram和相邻笔画n-gram,并提取了用于增强
  3. 所属分类:其它

    • 发布日期:2021-03-15
    • 文件大小:262144
    • 提供者:weixin_38528180
  1. tntsearch:一个用PHP编写的功能齐全的全文本搜索引擎-源码

  2. TNT搜索 TNTSearch是完全用PHP编写的功能全面的全文搜索(FTS)引擎。 简单的配置可让您在短短几分钟内增加惊人的搜索体验。 功能包括: 模糊搜索 键入时搜索 地理搜索 文字分类 抽干 自定义标记器 BM25排名算法 布尔搜索 结果突出显示 动态索引更新(无需每次都重新索引) 可通过Packagist.org轻松部署 我们还创建了一些演示页面,这些演示页面显示了实际使用n-gram的容忍检索。 该软件包具有许多辅助功能,例如Jaro-Winkler和Cosine相似度,可用于距离
  3. 所属分类:其它

    • 发布日期:2021-02-05
    • 文件大小:4194304
    • 提供者:weixin_42122988
  1. simstring:SimString的Python实现,一种简单有效的算法,用于近似字符串匹配-源码

  2. simstring Python实现,这是一种用于近似字符串匹配的简单高效的算法。 产品特点 使用此库,您可以从大量的字符串/文本中提取具有一定相似性的字符串/文本。 当您开发与语言处理有关的应用程序时,它将为您提供帮助。 该库支持各种相似度函数,例如余弦相似度,Jaccard相似度,并支持Word N-gram和Character N-gram作为特征。 您还可以轻松实现自己的特征提取器。 SimString具有以下功能: 快速的近似字符串检索算法。 100%精确检索。 尽管某些算法
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:830464
    • 提供者:weixin_42128270
  1. Java字符串相似度:各种字符串相似度和距离算法的实现:Levenshtein,Jaro-winkler,n-Gram,Q-Gram,Jaccard索引,最长公共子序列编辑距离,余弦相似度..-源码

  2. Java字符串相似度 一个实现不同字符串相似度和距离度量的库。 当前实现了十二种算法(包括Levenshtein编辑距离和同级,Jaro-Winkler,最长公共子序列,余弦相似性等)。 查看下面的摘要表以获取完整列表... 下载 使用Maven: info.debatty java-string-similarity RELEASE 或检查。 该库需要Java 8或更高版本。 总览 下面介绍了每种已实现算法的主要特征。 “成本”列给出了计算成本的估算值,以分别
  3. 所属分类:其它

    • 发布日期:2021-02-02
    • 文件大小:473088
    • 提供者:weixin_42126668
  1. PolyFuzz:模糊字符串匹配,分组和评估-源码

  2. PolyFuzz执行模糊字符串匹配,字符串分组,并包含广泛的评估功能。 PolyFuzz旨在将模糊字符串匹配技术整合到一个框架中。 当前,方法包括各种编辑距离度量,基于字符的n-gram TF-IDF,词嵌入技术(例如FastText和GloVe)以及 :hugging_face: 变压器嵌入物。 相应的媒体帖子可以在找到。 安装 您可以通过pip安装PolyFuzz : pip install polyfuzz 这将安装基本依赖项。 如果要加快余弦相似度比较并减少内存使用,可以使用通过
  3. 所属分类:其它

    • 发布日期:2021-04-01
    • 文件大小:2097152
    • 提供者:weixin_42181888