搜索资源 - N-gram相似度 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - N-gram相似度

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

信息检索研究室论文集第一卷
信息检索相关论文集合一 1. 车万翔刘挺秦兵李生面向依存分析的搭配抽取方法研究 1 全国第六届计算语言学联合学术会议, 2001, 7 Collocation Extraction Oriented to Dependency Parsing 2. 秦兵郑实福刘挺张刚李生基于改进的贝叶斯模型的中文网页分类器 8 全国第六届计算语言学联合学术会议, 2001, 7 An Improved Bayes Classifier for Chinese Web Pages 3. 张刚
所属分类：Web开发
- 发布日期：2009-08-04
- 文件大小：1048576
- 提供者：chenls

字符串距离
开发计算两个字符串间的编辑距离，LCS距离和N-gram距离的函数。（1）编辑距离字符串a和b的编辑距离ED(i,j)表示把字符串a转换成b所需要的最少操作次数，这些操作可以是：插入一个字符，删除一个字符，替换一个字符。（2）LCS相似度字符串a和b的LCS(Longest Common Subsequence)相似度是a和b间的最大相同子串的长度。显然LCS(i,j)越大，a，b越相似。（3）N-gram相似度设Ngram(a) 是字符串a中长度为N的子串的集合。两个字符串a,b
所属分类：C/C++
- 发布日期：2012-03-04
- 文件大小：24576
- 提供者：yqahx

文本相似度计算
#include "come.h" void main() { int N; N=4; char a[500]; char b[500]; int choice; while(1) { printf("\n\n请输入第一个字符串："); gets(a); printf("请输入第二个字符串："); gets(b); ED aa(a,b); printf("\t编辑距离 edits 为: %d \n",aa.edn()); LCS lcs1(a,b); printf("\t最长公共子序列为: %
所属分类：C++
- 发布日期：2013-05-12
- 文件大小：312320
- 提供者：u010662162

检索系统在音乐播放中的研究与实现
本文首先将MIDI格式音乐转化为WAV格式音乐。分析WAV格式的音频，并提取音频中的旋律等信息。利用基频提取算法和端点检测方法对哼唱查询片段和标准数据库中的音乐进行旋律提取和截取，并对得到的音频的旋律用N-Gram字符串匹配算法进行近似匹配，得到近似匹配的相似度，按照相似度由高到低返回近似匹配结果，然后再用相似度大小采用DTW进行细匹配
所属分类：Java
- 发布日期：2014-03-05
- 文件大小：1048576
- 提供者：u011091173

文本相似度计算（TF-IDF）C#
namespace ServiceRanking { /// /// Summary descr iption for TF_IDFLib. /// public class TFIDFMeasure { private string[] _docs; private string[][] _ngramDoc; private int _numDocs=0; private int _numTerms=0; private ArrayList _terms; private int[][]
所属分类：C#
- 发布日期：2014-04-04
- 文件大小：29696
- 提供者：whm1275

java-string-similarity
各种字符串相似度和距离算法的实现：Levenshtein，Jaro-winkler，n-Gram，Q-Gram，Jaccard索引，最长公共子序列编辑距离，余弦相似度......
所属分类：Java
- 发布日期：2018-10-24
- 文件大小：34816
- 提供者：github_37002236

管理海量数据-压缩、索引和查询第2版.zip
第1章概览 1.1 文档数据库（document databases） 1.2 压缩（compression） 1.3 索引（indexes） 1.4 文档索引 1.5 MG海量文档管理系统第2章文本压缩 2.1 模型 2.2 自适应模型 2.3 哈夫曼编码范式哈夫曼编码计算哈夫曼编码长度总结 2.4 算术编码算术编码是如何工作的实现算术编码保存累积计数 2.5 符号模型部分匹配预测块排序压缩动态马尔科夫压缩基于单字的压缩 2.6 字典模型自适应字典编码器的LZ77
所属分类：数据库
- 发布日期：2019-08-04
- 文件大小：236978176
- 提供者：harlensaint

Algorithm-java-string-similarity.zip
Algorithm-java-string-similarity.zip,各种字符串相似度和距离算法的实现：levenshtein、jaro winkler、n-gram、q-gram、jaccard索引、最长公共子序列编辑距离、余弦相似度……,算法是为计算机程序高效、彻底地完成任务而创建的一组详细的准则。
所属分类：其它
- 发布日期：2019-09-17
- 文件大小：468992
- 提供者：weixin_38744270

L25词嵌入进阶GloVe模型
词嵌入进阶在“Word2Vec的实现”一节中，我们在小规模数据集上训练了一个 Word2Vec 词嵌入模型，并通过词向量的余弦相似度搜索近义词。虽然 Word2Vec 已经能够成功地将离散的单词转换为连续的词向量，并能一定程度上地保存词与词之间的近似关系，但 Word2Vec 模型仍不是完美的，它还可以被进一步地改进：子词嵌入（subword embedding）：FastText 以固定大小的 n-gram 形式将单词更细致地表示为了子词的集合，而 BPE (byte pair encod
所属分类：其它
- 发布日期：2021-01-07
- 文件大小：82944
- 提供者：weixin_38697940

Fetch_Rewards-源码
数据工程师编码练习编写该程序是为了比较两个文本并返回0到1之间的相似度分数。 0表示完全不同，1表示相同。通过运行bash文件，它将在localhost上启动Web服务以执行比较。我为开发解决方案而做出的决定是：我数了字和字符。每个单词的权重相同，没有一个单词比其他单词更重要。单词的顺序对于比较很重要。我通过使用n-gram来评估相似性，n-grams使用一个单词块按顺序比较两个文本。 n表示一个块中有多少个单词。对于每个比较，都会分配最大长度。如果分配的数字为
所属分类：其它
- 发布日期：2021-03-16
- 文件大小：7168
- 提供者：weixin_42118701

联合的细粒度成分不断增强中文单词嵌入
摘要：最常见的词嵌入方法是从大规模文本的上下文信息中学习词向量表示。但是，中文单词通常由字符，子字符和笔画组成，并且每个部分都包含丰富的语义信息。中文单词向量的质量与预测的准确性有关。因此，为了获得高质量的汉字嵌入，我们提出了一种持续增强的词嵌入模型。该模型从细粒度笔划和相邻笔划信息开始，并通过组合笔划之间的关系矢量表示来增强子字符嵌入。同样，我们结合子字符关系向量和字符关系向量来学习基于增强子字符嵌入的汉字嵌入。我们构造了基础笔画n-gram和相邻笔画n-gram，并提取了用于增强
所属分类：其它
- 发布日期：2021-03-15
- 文件大小：262144
- 提供者：weixin_38528180

tntsearch：一个用PHP编写的功能齐全的全文本搜索引擎-源码
TNT搜索 TNTSearch是完全用PHP编写的功能全面的全文搜索（FTS）引擎。简单的配置可让您在短短几分钟内增加惊人的搜索体验。功能包括：模糊搜索键入时搜索地理搜索文字分类抽干自定义标记器 BM25排名算法布尔搜索结果突出显示动态索引更新（无需每次都重新索引）可通过Packagist.org轻松部署我们还创建了一些演示页面，这些演示页面显示了实际使用n-gram的容忍检索。该软件包具有许多辅助功能，例如Jaro-Winkler和Cosine相似度，可用于距离
所属分类：其它
- 发布日期：2021-02-05
- 文件大小：4194304
- 提供者：weixin_42122988

simstring：SimString的Python实现，一种简单有效的算法，用于近似字符串匹配-源码
simstring Python实现，这是一种用于近似字符串匹配的简单高效的算法。产品特点使用此库，您可以从大量的字符串/文本中提取具有一定相似性的字符串/文本。当您开发与语言处理有关的应用程序时，它将为您提供帮助。该库支持各种相似度函数，例如余弦相似度，Jaccard相似度，并支持Word N-gram和Character N-gram作为特征。您还可以轻松实现自己的特征提取器。 SimString具有以下功能：快速的近似字符串检索算法。 100％精确检索。尽管某些算法
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：830464
- 提供者：weixin_42128270

Java字符串相似度：各种字符串相似度和距离算法的实现：Levenshtein，Jaro-winkler，n-Gram，Q-Gram，Jaccard索引，最长公共子序列编辑距离，余弦相似度..-源码
Java字符串相似度一个实现不同字符串相似度和距离度量的库。当前实现了十二种算法（包括Levenshtein编辑距离和同级，Jaro-Winkler，最长公共子序列，余弦相似性等）。查看下面的摘要表以获取完整列表... 下载使用Maven： info.debatty java-string-similarity RELEASE 或检查。该库需要Java 8或更高版本。总览下面介绍了每种已实现算法的主要特征。 “成本”列给出了计算成本的估算值，以分别
所属分类：其它
- 发布日期：2021-02-02
- 文件大小：473088
- 提供者：weixin_42126668

PolyFuzz:模糊字符串匹配，分组和评估-源码
PolyFuzz执行模糊字符串匹配，字符串分组，并包含广泛的评估功能。 PolyFuzz旨在将模糊字符串匹配技术整合到一个框架中。当前，方法包括各种编辑距离度量，基于字符的n-gram TF-IDF，词嵌入技术（例如FastText和GloVe）以及 :hugging_face: 变压器嵌入物。相应的媒体帖子可以在找到。安装您可以通过pip安装PolyFuzz ： pip install polyfuzz 这将安装基本依赖项。如果要加快余弦相似度比较并减少内存使用，可以使用通过
所属分类：其它
- 发布日期：2021-04-01
- 文件大小：2097152
- 提供者：weixin_42181888