搜索资源 - 大规模数据相似度计算 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 大规模数据相似度计算

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

大规模网页模块识别与信息提取系统设计与实现
本科生论文。本文在已有的基于Dom-Tree和启发式规则的网页信息提取算法的基础上，通过为所有符合W3C规范的Html标签分类，逐个分析各Html标签所包含的语义信息，细化规则设置，实现了一种自底向上的无信息遗漏的网页分块算法，并在此基础上，利用统计方法得到详细的概率分布数据，实现了文本相似度比较和Bayes后验概率估计两种网页主题内容信息块识别算法，并将其求交，提高了主题内容信息块的识别精确度。上述算法已集成到天网搜索引擎平台的网页预处理模块中，并且在SEWM 2008会议中，以这套算法为
所属分类：其它
- 发布日期：2009-11-30
- 文件大小：1048576
- 提供者：zjj77520

数据挖掘--概念与技术
目录第一章引言 ......................................................................................................................................................... 8 1.1 什么激发数据挖掘？为什么它是重要的？.............................................................
所属分类：Web开发
- 发布日期：2010-09-06
- 文件大小：1048576
- 提供者：huanghyw

论文检测系统软件，免费分享反抄袭
现在论文抄袭、学术打假成为学术界、媒体关注的话题。有的学者心存侥幸，有的学者对学术严谨性未加重视等，以至于被相关人士揭发举报，最终身败名裂。而许多毕业生因为种种原因，并未对论文抄袭现象加以重视，最后不能顺利毕业，荒废了几年时间，得不偿失。现在提供论文检测的机构主要来源于三大中文期刊数据库，即中国知网论文检测系统，万方论文相似性检测系统，维普通达检测系统。现在应用较多的是中国知网和万方的检测系统，但是两者都不是免费的，其中，中国知网的费用相对高，在淘宝上一篇硕士论文的检测费用达到两百元。介于此
所属分类：教育
- 发布日期：2012-03-03
- 文件大小：3145728
- 提供者：baidengdao

基于谱聚类的聚类集成算法
摘要谱聚类是近年来出现的一类性能优越的聚类算法, 能对任意形状的数据进行聚类, 但算法对尺度参数比较敏感, 利用聚类集成良好的鲁棒性和泛化能力, 本文提出了基于谱聚类的聚类集成算法. 该算法首先利用谱聚类算法的内在特性构造多样性的聚类成员; 然后, 采用连接三元组算法计算相似度矩阵, 扩充了数据点之间的相似性信息; 最后, 对相似度矩阵使用谱聚类算法得到最终的集成结果. 为了使算法能扩展到大规模应用, 利用 NystrÄom 采样算法只计算随机采样数据点之间以及随机采样数据点与剩余
所属分类：专业指导
- 发布日期：2013-02-12
- 文件大小：446464
- 提供者：hujiao199

论文相似度检测系统软件
现在论文抄袭、学术打假成为学术界、媒体关注的话题。有的学者心存侥幸，有的学者对学术严谨性未加重视等，以至于被相关人士揭发举报，最终身败名裂。而许多毕业生因为种种原因，并未对论文抄袭现象加以重视，最后不能顺利毕业，荒废了几年时间，得不偿失。现在提供论文检测的机构主要来源于三大中文期刊数据库，即中国知网论文检测系统，万方论文相似性检测系统，维普通达检测系统。现在应用较多的是中国知网和万方的检测系统，但是两者都不是免费的，其中，中国知网的费用相对高，在淘宝上一篇硕士论文的检测费用达到两百元。介于此
所属分类：其它
- 发布日期：2013-10-04
- 文件大小：3145728
- 提供者：cscdn

基于 PCA 的运动数据相似性计算
运动捕获数据是虚拟人仿真与动画的重要数据来源,随着运动捕获设备的普及,人们积累了大量的运动捕获数据,这些数据包含了丰富的人体运动,形成了较大规模的运动数据库。本文提出一种方法,能够比较不同运动数据之间相似程度,这种方法基于主成分分析方法,对运动数据进行 PCA 计算,得到表示该运动数据主轴方向的特征向量和对应的特征值,将运动数据之间的相似性比较转换为对其主轴方向重合程度的比较,给出了基于四元数表达的运动数据主方向内积加权和的相似度计算算法。该算法可以对含有不同帧数的运动数据进行比较,
所属分类：机器学习
- 发布日期：2019-01-15
- 文件大小：350208
- 提供者：qq_38446366

大规模句子相似度计算方法
如何根据源语言文本从大规模语料库中找出其最相近的翻译实例，即句子相似度计算，是基于实例翻译方法的关键问题之一。本文提出一种多层次句子相似度计算方法：首先基于句子的词表层特征和信息熵从大规模语料库中选择出少量候选实例，然后针对这些候选实例进行泛化匹配，从而计算出相似句子。在多策略机器翻译系统IHSMTS 中的实验表明，当语料规模为20 万英汉句对时，系统提取相似句子的召回率达96%，准确率达90%，充分说明了本文算法的有效性。
所属分类：算法与数据结构
- 发布日期：2020-03-07
- 文件大小：63488
- 提供者：sohopeter

机器学习算法基础学习总结
机器学习算法基础学习总结2.基本算法 2.1 Logistic回归优点:计算代价不高,易于理解和实现。缺点:容易欠拟合,分类精度可能不高适用数据类型:数值型和标称型数据。类别:分类算法。试用场景:解决二分类问题。简述: Logistic回归算法基于 Sigmoid函数,或者说 Sigmoid就是逻辑回归函数。 Sigmoid函数定义如下:1/(1-exp(-z))。函数值域范围(0,1)。可以用来做分类器。 Sigmoid函数的函数曲线如下: 逻辑凹归模型分解如下:(1)首先将不同
所属分类：机器学习
- 发布日期：2019-07-02
- 文件大小：312320
- 提供者：abacaba

排序哈希相似度以进行快速相似度搜索
本文涉及大规模的相似度搜索，该相似度搜索有效地并且有效地找到查询数据点的相似数据点。加速相似性搜索的有效方法是学习哈希函数。用于学习哈希函数的现有方法旨在获得相似对的汉明距离的低值。但是，这些方法忽略这些汉明距离的排名顺序。这导致有关为查询数据点查找相似项目的准确性很差。在本文中，提出了一种算法，称为top k RHS（Rank Hash相似度），其中设计了一种排序损失函数来学习哈希函数。假设哈希函数由1个二进制分类器组成。学习哈希函数的问题可以表述为学习二进制分类器的任务。该算
所属分类：其它
- 发布日期：2021-03-05
- 文件大小：556032
- 提供者：weixin_38727825

基于内容相似度计算的大规模数据个性化推荐方法
推荐算法已广泛用于从许多领域的海量数据中为用户发现有趣的内容。但是，随着用户需求的多样化，推荐的准确性和效率成为提高用户满意度的重要考虑因素。本文通过将搜索词与个性化搜索参考词相结合来重新定义内容相似性的概念，并描述它们的维数，然后通过定义当前关键词，分类项目和分类之间的汉明距离，提出内容相似度的计算方法。历史关键字。通过支持向量数据描述（SVDD）的预处理，我们可以从分类项目的个人偏好中找到特定倾向，并提出最终推荐结果，从高相似到低相似。仿真实验表明，在我们的大规模数据集上，我们提出的
所属分类：其它
- 发布日期：2021-03-04
- 文件大小：305152
- 提供者：weixin_38670707

基于内容相似度计算的大规模数据个性化推荐方法
基于内容相似度计算的大规模数据个性化推荐方法
所属分类：其它
- 发布日期：2021-03-03
- 文件大小：307200
- 提供者：weixin_38679178

闪存：LSH-GPU ANN程序包-源码
闪光 FLASH（使用HPC加速的相似搜索的快速LSH算法）是用于稀疏向量的大规模近似最近邻搜索的库。它目前可用C ++进行CPU并行计算，并支持启用OpenCL的GPGPU计算。有关理论和基准测试的详细信息，请参见。 **即将推出：**稀疏数据集上的完整GPU ANNS，可提供比当前基准测试更高的速度。重现性要在论文中重现准确的结果，请参见根文件夹中reproducibility.pdf中的详细步骤。表现我们测试我们的系统在几个大型数据集，疏，包括，和。质量计量学 R k
所属分类：其它
- 发布日期：2021-03-01
- 文件大小：416768
- 提供者：weixin_42122340

基于词向量和EMD距离的短文本聚类
短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;然后利用欧式距离计算特征词相似度,引入EMD(Earth Mover's Distance)来计算短文本间的相似
所属分类：其它
- 发布日期：2021-02-07
- 文件大小：1048576
- 提供者：weixin_38653443

jstarcraft-ai：目标是提供一个完整的Java机器学习（Machine LearningML）框架，是人工智能在学术界与工业界的桥梁。让相关领域的研发人员能够在各种软硬件环境数据结构算法模型之间无缝切换。涵盖了从数据处理到模型的训
星际争霸AI 希望路过的同学，顺手给JStarCraft框架点个Star，算是对作者的一种鼓励吧！ JStarCraft AI是一个机器学习的轻量级框架。遵循Apache 2.0协议。在学术界，大规模研究人员使用的编程语言是Python。在工业界，大规模开发人员使用的编程语言是Java。 JStarCraft AI是一个基于Java语言的机器学习工具包，由一系列的数据结构，算法和模型组成。目标是作为在学术界与工业界的机器机器研究研发的相关人员之间的主轴。作者洪钊桦电子邮件，
所属分类：其它
- 发布日期：2021-01-31
- 文件大小：1048576
- 提供者：weixin_42130786

基于MapReduce的SimRank算法在图聚类中的应用
由Jeh和Widom提出的SimRank算法是一种普适"结构相似度"计算模型。由于SimRank算法采用迭代方式计算图节点间相似性，因此时间复杂度和空间复杂度都非常高。随着数据量的激增，单机运算能力不能满足大规模数据的计算要求。本文提出了基于MapReduce计算模型的分布式SimRank算法，利用该算法对RDF图进行相似度度量，然后利用分布式的AP聚类算法对图节点进行聚类分析。实验结果表明，该方法能够高效的完成图节点的相似度度量，实现图的有效聚类。
所属分类：其它
- 发布日期：2021-01-28
- 文件大小：1024000
- 提供者：weixin_38535808

基于IRAM和半监督的谱聚类图像分割
谱聚类判别割（Dcut）计算正则化相似度矩阵及其特征向量比较耗时，对于大规模矩阵特征值问题，隐式重启动Arnoldi方法（IRAM）能够快速收敛到模值最大的k个特征值（即主导特征值）。因此本文采用IRAM算法计算相似度矩阵的主导特征值，减小运算时间。为解决谱聚类敏感于尺度参数的问题，提出利用少量监督样本求取每幅图像特有的尺度参数，进行半监督图像分割。通过对UCI数据集和自然图像的仿真实验表明，本文算法能有效提高Dcut的运算速度，同时性能稳定，分割结果优于Dcut和PCA-Dcut。
所属分类：其它
- 发布日期：2021-01-27
- 文件大小：768000
- 提供者：weixin_38667849

基于二叉树锚点的高光谱快速聚类算法
高光谱图像聚类问题一直是图像处理领域的研究热点。谱聚类算法是最流行的聚类算法之一,但其计算复杂度较大,难以处理大规模的高光谱图像数据。由于二叉树能够较快地选取锚点,因此基于二叉树锚点图,充分利用高光谱图像的光谱和空间特性,可保证聚类性能并降低计算复杂度。然而,该聚类算法一般采用有核的聚类方法,因此不可避免地引入了参数调节。在二叉树锚点选取的基础上,提出了一种基于二叉树锚点的高光谱快速聚类算法,该算法创新性地将二叉树锚点选取和无核聚类方法应用于高光谱图像中。首先,利用二叉树从高光谱数据中选取一些具
所属分类：其它
- 发布日期：2021-01-25
- 文件大小：8388608
- 提供者：weixin_38747815