您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. LJCluster文本聚类技术中间件

  2. 文本聚类是基于相似性算法的自动聚类技术,自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并自动为该类生成特征主题词。适用于自动生成热点*专题、重大新闻事件追踪、情报的可视化分析等诸多应用。 灵玖Lingjoin(www.lingjoin.com)基于核心特征发现技术,突破了传统聚类方法空间消耗大,处理时间长的瓶颈;不仅聚类速度快,而且准确率高,内存消耗小,特别适合于超大规模的语料聚类和短文本的语料聚类。 灵玖文档聚类组件的主要特色在于: 1、速度快:可以处理海量规模的网络文本数据,
  3. 所属分类:网络基础

    • 发布日期:2010-03-09
    • 文件大小:1048576
    • 提供者:lingjoin
  1. 哈工大信息检索论文集

  2. 基于最大熵分类器的语义角色标注 中文语义角色标注的特征工程 面向变异短文本的快速聚类算法 基于层次聚类的自适应信息过滤学习算法 基于依存分析和错误驱动的中文时间表达式识别
  3. 所属分类:其它

    • 发布日期:2010-11-29
    • 文件大小:4194304
    • 提供者:jujumao2010
  1. 短文本聚类技术调研

  2. 短文本聚类各种相关算法的说明,比较,调研。
  3. 所属分类:其它

    • 发布日期:2013-01-05
    • 文件大小:245760
    • 提供者:myseason0912
  1. 问答系统中的短文本聚类研究与应用

  2. 汉语短文本,分类,聚类,介绍了聚类的算分优势及测试结果
  3. 所属分类:其它

    • 发布日期:2014-10-11
    • 文件大小:1048576
    • 提供者:david9779
  1. 文本相关性相似性聚类演示程序

  2. 我的专业工作案例可以从以下链接下载: http://pan.baidu.com/s/1dDIlXXB 需要预先安装同一目录下的VB6运行环境,然后才可以安装应用程序。 安装和测试过程中有问题可以直接联系我。 中英文文本自动摘要、自动校对、自动分类、相关性与相似性聚类、主题词与标签自动生成、微博(短文本)聚类和情感分析。我的研究成果,欢迎下载传播。
  3. 所属分类:C

    • 发布日期:2015-02-22
    • 文件大小:10485760
    • 提供者:gztwhhy
  1. 基于语义的中文短文本模糊谱聚类

  2. 本文介绍了一种新的基于语义的中文短文本谱聚类算法,将该算法应用于文本分类中。
  3. 所属分类:讲义

  1. 短语消息聚类相关技术研究

  2. 关于大规模对文本的聚类技术研究,一篇比较值得看的博士论文
  3. 所属分类:算法与数据结构

    • 发布日期:2017-11-09
    • 文件大小:32505856
    • 提供者:sd1230556
  1. 基于多策略的短文本信息流会话抽取

  2. 互联网中存在大量的短文本信息流,需要对其进行会话抽取,将相同主题的内容合并到同一会话中。会话中的内容、时间和用户关系都会对会话抽取的性能产生影响,针对该问题提出了一种基于多策略的会话抽取算法。首先,基于内容、时间和用户关系进行会话分割得到会话片段;然后,利用词向量计算内容语义相似度,并结合时间信息计算会话片段间的相关度,对其进行聚类,实现会话抽取。在三个来源于真实聊天记录的数据集上进行实验的结果表明,本方法优于传统方法,综合F值分别提高了38.5%、15.7%和26.8%。
  3. 所属分类:其它

    • 发布日期:2019-07-22
    • 文件大小:1048576
    • 提供者:weixin_39840650
  1. 基于K-means的私人微博聚类算法改进

  2. 针对私人微博内容进行聚类研究,结合私人微博的内容和结构特点提出了基于K-means的改进聚类算法。通过添加引用和评论内容丰富了文本内容,降低了短文本矩阵向量严重稀疏性带来的聚类算法准确性降低的影响;通过甄别“微话题”内容和改进相似度的计算,找到初始化类别并进行初步计算得到合适的类别数目和初始中心点,解决了K-means算法中聚类数目K需人工指定和初始中心点选取随机性的问题。实验结果表明,改进后的算法不仅可以自适应地得到K值,较普通的K-means算法在聚类的准确率上有所提高。
  3. 所属分类:其它

    • 发布日期:2020-10-17
    • 文件大小:313344
    • 提供者:weixin_38647517
  1. 微博短文本预处理及学习研究综述

  2. 认为因短文本具有特征稀疏性和高度冗余性,微博短文本的预处理及学习方法研究已经成为微博信息挖掘及应用的关键,并在许多方面有着非常重要和广泛的应用。重点分析微博短文本的特性,并对微博短文本的预处理和学习方法及其应用现状进行归纳和总结,包括短文本特征表示、短文本特征拓展与选择、短文本分类与聚类学习、热点事件发现及自动文摘等。最后指出相关研究的局限性,并对未来的发展方向进行展望。
  3. 所属分类:其它

    • 发布日期:2021-03-18
    • 文件大小:755712
    • 提供者:weixin_38690830
  1. 基于词向量和EMD距离的短文本聚类

  2. 黄栋,徐博,许侃,林鸿飞,杨志豪.[J].,2017,52(07):66-72.
  3. 所属分类:其它

    • 发布日期:2021-03-08
    • 文件大小:1048576
    • 提供者:weixin_38653691
  1. 基于改进的频繁项集的短文本特征扩展

  2. 提出了一种基于改进的频繁词集的短文本特征扩展算法。 通过计算支持度和置信度,可以提取频繁术语集的相同类别趋势。 定义了基于相关的频繁术语集,以进一步扩展术语集。 同时,将信息增益引入到传统的TF-IDF中,更好地表达了类别分布信息,并增强了每个类别的单词权重。 提取所有具有外部关系的术语对,并扩展常用术语集。 最后,通过频繁词集构造词相似度矩阵,并采用对称非负矩阵分解技术扩展特征空间。 实验表明,构建的短文本模型可以提高短文本聚类的性能。
  3. 所属分类:其它

    • 发布日期:2021-02-26
    • 文件大小:691200
    • 提供者:weixin_38515573
  1. 一种基于谱分割的短文本聚类算法

  2. 短文本具有稀疏高维的特点,现有聚类算法在大规模短文本上的聚类精度较低且效率低下。针对该问题,提出一种以谱聚类理论作支撑,基于谱分割准则RMcut的新聚类算法。依据谱聚类理论,将短文本集合构建成一张带权无向图,并计算得到文档-文档的相似度矩阵,为聚类算法提供信息。不断迭代地用2-way方式划分该图,划分过程中使用RMcut值作为划分是否终止的条件,利用Prim算法将原图中的顶点加入到聚族中,以得到质量较高的聚类结果。实验结果表明,该算法具有较高的时间性能,与K-means算法、词共现聚类算法及基于
  3. 所属分类:其它

    • 发布日期:2021-02-26
    • 文件大小:1048576
    • 提供者:weixin_38564503
  1. 基于频繁项集的海量短文本聚类与主题抽取

  2. 基于频繁项集的海量短文本聚类与主题抽取
  3. 所属分类:其它

    • 发布日期:2021-02-11
    • 文件大小:612352
    • 提供者:weixin_38593738
  1. 基于词向量和EMD距离的短文本聚类

  2. 基于词向量和EMD距离的短文本聚类
  3. 所属分类:其它

    • 发布日期:2021-02-08
    • 文件大小:1048576
    • 提供者:weixin_38626928
  1. 基于词向量和EMD距离的短文本聚类

  2. 短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;然后利用欧式距离计算特征词相似度,引入EMD(Earth Mover's Distance)来计算短文本间的相似
  3. 所属分类:其它

    • 发布日期:2021-02-07
    • 文件大小:1048576
    • 提供者:weixin_38653443
  1. TextCluster:短文本聚类预处理模块-源码

  2. 短文本聚类 项目介绍 短文本聚类是常用的文本预处理步骤,可以用于洞察文本常见模式,分析设计语义解析规范,加速相似句子查询等。本项目实现了内存友好的短文本聚类方法,并提供了相似句子查询接口。 依赖库 点安装tqdm解霸 使用方法 聚类 python cluster.py --infile ./data/infile \ --output ./data/output 具体参数设置可以参考cluster.py文件内_get_parser()函数参数说明,包含设置分词词典,重置词,匹配采样数,匹配度阈值
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:1048576
    • 提供者:weixin_42131414
  1. gsdmm:GSDMM:短文本聚类-源码

  2. GSDMM:短文本聚类 该项目为的Dirichlet混合模型实现了Gibbs采样算法,用于短文本文档的聚类。 该算法的一些优点: 它只需要集群数的上限K 通过良好的参数选择,模型可以快速收敛 空间高效且可扩展 该项目是GSDMM的易于阅读的参考实现,除非有需求,否则我不打算维护它。 不过,我积极维护更快锈版本GSDMM的。 电影组过程 在他们的论文中,作者介绍了一个简单的概念模型来解释GSDMM,称为电影组过程。 想象一下一位教授正在领导一个电影课。 在课程开始时,将学生随机分配到K表。
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:8192
    • 提供者:weixin_42172572
  1. 基于子语义空间的挖掘短文本策略方法

  2. 为解决精准识别短文本数据的问题,提出一种基于子语义空间的短文本策略挖掘方法。该方法首先采用语义空间技术,解决短文本在分析过程中存在的“词汇鸿沟”与“数据稀疏”问题;然后基于聚类算法将语义空间划分为多个子语义空间,在各子语义空间并行挖掘关联规则,提高了策略生成的效率与质量;最后利用二叉树进行策略归并,生成最简策略集。实验证明,与传统的分类模型相比,该方案生成的策略集在误报率为6.5%的情况下,准确率可达88%。在违规短信的发现处理中,使用该技术挖掘的策略集,覆盖能力强、准确率高,具有很强的实用性。
  3. 所属分类:其它

    • 发布日期:2021-01-19
    • 文件大小:765952
    • 提供者:weixin_38560797
  1. 基于层次分析的微博短文本特征计算方法

  2. 为了建立用户精准兴趣模型以有效发现具有相似兴趣的用户群,提出了一种针对微博的短文本特征计算方法用于聚类算法,提升聚类效果以更好地挖掘微博用户的相似兴趣集合。该方法融合了微博转发数、评论数、点赞数等多个关键指标来度量微博短文本特征的重要性。同时,引入层次分析技术,改进了传统的tf-idf特征计算方法,并利用经典文本聚类算法进行实验。实验结果表明,改进后的短文本特征计算方法与传统的tf-idf特征计算方法相比,在类内集中度和类间分散度上取得了更好的效果。
  3. 所属分类:其它

    • 发布日期:2021-01-14
    • 文件大小:628736
    • 提供者:weixin_38565801
« 12 »