您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. ner:命名体识别(NER)综述-论文-模型-代码(BiLSTM-CRFBERT-CRF)-竞赛资源总结-随时更新-源码时代

  2. 背景介绍 建了仓库,地址在这里: 点star不迷路,相关文章在github上更新的会更交替一点QAQ 之前做过调整的命名体识别,项目背景实际上也很简单,就是我要做一个关键词匹配的功能,第一步我需要挖掘关键词。 ,明星领域,财经领域等等吧,这些领域的文本很有特色,一般人名/地名/公司名称/书名/电影名称都可以很好的表示文本关键信息。 在这种项目背景之下,很自然的就会想到使用命名体识别。我把在做这个项目的过程中,积累的一些资料汇总了一下,希望对大家有所帮助。 关于命名体识别,这是一个很大的领域,要做
  3. 所属分类:其它

    • 发布日期:2021-03-24
    • 文件大小:4096
    • 提供者:weixin_42135462
  1. textBits:用于各种文本挖掘和分析过程的点点滴滴的代码-源码

  2. textBits:用于获取,清理和使用文本的代码片段 这是一个有关收集,清理和处理文本的零碎代码的交换所。 在很多情况下,这里的代码将被组合在一起,以帮助研究人员解决特定的问题; 如果我认为它可能更有用,我将在这里分享。 其中一些只是我认为很酷的东西。 准备来自Nexis Uni的新闻文章(文件夹: nexisUniNews ) 从特定来源准备数据 准备来自Nexis Uni的新闻文章(文件夹: nexisUniNews ) processNexisNews函数将从Nexis Uni下载的新闻
  3. 所属分类:其它

    • 发布日期:2021-03-14
    • 文件大小:196608
    • 提供者:weixin_42108778
  1. datamining_pset-源码

  2. 数据挖掘与统计学习 这是我数据挖掘和统计学习课程中问题集的存储库。 任何单个项目都将拥有自己的存储库。 查看原始课程回购。 主题: 版本控制和工作流程 数据可视化(重复) 统计学习中的概念 线性模型 分类 模型选择和正则化 树木 无监督学习 聚类 主成分分析(PCA) 网络和关联规则 文本挖掘简介 治疗方法 重采样方法(CV,引导程序)
  3. 所属分类:其它

    • 发布日期:2021-03-10
    • 文件大小:9437184
    • 提供者:weixin_42098104
  1. Comic-Recommendation:此仓库将包含所有信息,以创建一个Shiny应用程序,以根据来自theloft.com脚本的366个独特的独白抄本向用户推荐漫画。-源码

  2. 免责声明: 数据中的某些内容,主题和/或语言被发现对某些/许多人口统计学非常反感。 但是,本文中包含的分析仅出于学习和展示自然语言处理(NLP)在某些人可能感兴趣的环境中的目的。 关于该项目 当前,我在整个项目中都使用R(有关更多详细信息,请参见下面的“关于R包”)。 此仓库将包含所有信息,以创建一个Shiny应用程序,以根据用户输入(喜剧演员名称,主题和[可能]类型)向用户推荐漫画。 有时,将提供一些视觉效果来演示分析中的关键思想。 关于文件 我们有来自theloft.com脚本的361个独
  3. 所属分类:其它

    • 发布日期:2021-03-06
    • 文件大小:2048
    • 提供者:weixin_42109732
  1. 数据挖掘:用于数据清理,在结构化,文本和Web数据中查找模式的技术; 适用于客户关系管理,欺诈检测和国土安全等领域-源码

  2. 数据挖掘 涵盖的领域包括关联分析,分类,聚类,文本挖掘,Web挖掘,图形和流时间序列挖掘。 我学到: 确定数据挖掘和KDD(来自数据库的知识发现)的过程。 分析不同数据挖掘和KDD算法的适用性。 设计算法以解决与分类和聚类有关的问题,并从数据库中识别关联规则。 应用文本挖掘,Web挖掘,图挖掘以及流和时间序列挖掘的概念和算法。 评估数据挖掘和KDD算法的性能。 比较和对比不同数据挖掘算法的性能 评估数据挖掘算法的可伸缩性。 分析影响数据挖掘效率的数据特征。 检查数据挖掘和KDD算
  3. 所属分类:其它

    • 发布日期:2021-03-01
    • 文件大小:76546048
    • 提供者:weixin_42132598
  1. gstephan30:关于-源码

  2. 斯蒂芬·格洛克纳(Stephan Gloeckner) 你好 :waving_hand: ,我是斯蒂芬。 我所做的? 我用数据解决问题! 目前,我是流行病学的数据科学家,为内部和外部利益相关者开发商业智能解决方案(例如KPI仪表板),以及开发与数据相关的产品(基于Web的平台)。 我在墨尔本大学获得了计算机科学博士学位,并且可以在Melbourne eResearch Group的数据分析/数据分析方面获得很多经验。 教与讲是我的第二爱好。 我正在教机器学习,我喜欢通过简单的图表可视化复杂
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:98304
    • 提供者:weixin_42127020
  1. 我的文本挖掘-源码

  2. 可重现的研究工作流程示例:Python中的JSON解析和文本挖掘,R + RMarkdown 这是一个基本示例工作流程,它遵循的原则,使用GNU Make,Python和R进行可重现的研究工作流程。 请将此模板与我们的教程结合使用,网址为 。 该存储库的主要目的是要有一个干净基本的结构,可以很容易地对其进行调整以在实际项目中使用。 在此示例项目中,完成以下操作: 管道阶段“数据准备” 将原始JSON数据下载到zip文件中 解压缩数据 将JSON数据解析为CSV文件 加载CSV文件,并使用
  3. 所属分类:其它

    • 发布日期:2021-02-18
    • 文件大小:7168
    • 提供者:weixin_42134051
  1. 锡拉丘兹-Portfolio-里程碑-源码

  2. 弗拉基米尔·迪诺洛夫(Vladimir Dinolov) 锡拉丘兹大学(Syracuse University)硕士研究生,应用数据科学硕士 SUID:207556491 描述 锡拉丘兹大学信息研究学院的应用数据科学计划使我得以发展数据科学,分析,统计,编程和业务领域的技能和能力。 信息研究和商学院课程的独特融合使我为理解业务需求,创建数据解决方案以及遍历数据科学框架做好了准备。 通过我在数据库管理,数据分析,数据分析脚本,文本挖掘,大数据分析,自然语言处理,市场营销分析和数据科学中的反推理中的
  3. 所属分类:其它

    • 发布日期:2021-02-16
    • 文件大小:301056
    • 提供者:weixin_42101641
  1. TextMining:文本分析| 自然语言处理-源码

  2. 文字挖掘 该文件夹包含我的各种AI和机器学习项目的文本分析和自然语言处理(NLP)模型。
  3. 所属分类:其它

    • 发布日期:2021-02-14
    • 文件大小:224256
    • 提供者:weixin_42160376
  1. NextWordUp-Capstone-源码

  2. NextWordUp-Capstone 由WritPen撰写 这个项目的作者以前没有做过单词预测。 我通过学习有关如何构造文本,使用ngram计算和探索数据的科学来开始这个项目。 探索性数据分析位于Milestone 1文件中。 然后,作者思考如何最好地构建算法,以及单词之间的关系的理论。 我阅读了有关文本挖掘和预测的资源,包括与文本挖掘和文本预测有关的R包,以及有关构建机器学习模型的研究成果,这些模型映射到人类在构建文本时使用的细微差别。 包括的资源:R包Text2vec- ://c
  3. 所属分类:其它

    • 发布日期:2021-02-14
    • 文件大小:2097152
    • 提供者:weixin_42122878
  1. Savannah_Sew-Hee_Portfolio-源码

  2. 创建了一个仪表板以提供博物馆中代表的艺术家的快照 使用时间序列分析来可视化艺术品获取随着时间的变化 通过分析媒体描述,使用文本挖掘(UMAP降维)来识别相似的艺术品 使用二进制分类法来预测下一个工作年度是否会保留员工 分析变量以确定在我的模型中哪个最重要 比较了Logistic回归模型和Random Forrest模型,可以看出它们提供了更高的准确性得分 检查了在纳什维尔发生Covid-19违规的时间和地点 使用Geocodio和FuzzyWuzzy将坐标和标签映射到地址和业务 检查报告的COV
  3. 所属分类:其它

    • 发布日期:2021-02-11
    • 文件大小:3145728
    • 提供者:weixin_42116734
  1. social_work_news_singapore:有关新加坡软件的文本挖掘新闻-源码

  2. 输出 html_document pdf_document 默认 默认 有关新加坡社会工作专业的文字挖掘新闻 :Singapore: 自述文件正在进行中 数据采集 我在Nexis Uni(当时称为Lexis-Nexis Academic)中搜索新闻报道 搜索日期为2020年1月29日 总共以docx格式下载了7167篇文章 搜索参数 (1)文章日期:所有日期范围 (2)语言:英语 (3)日期:所有可用日期 (4)资料来源:新加坡的四家报纸: (5)搜索字符串:“((社会工作)或(社会工作
  3. 所属分类:其它

    • 发布日期:2021-02-10
    • 文件大小:129024
    • 提供者:weixin_42103587
  1. Coursera:课程的测验和作业-源码

  2. Coursera作业 该存储库旨在帮助在学习过程中遇到困难的Coursera学习者。 测验和编程作业属于Coursera,请不要将其用于任何其他目的。 如有任何问题,请随时与我联系,我的电子邮件是 。 经济学院专业化高级机器学习 深度学习导论 Python数据科学导论 Python中的应用机器学习 大数据导论 大数据建模与管理系统 大数据交互与处理 文字检索和搜索引擎 文本挖掘和分析 数据挖掘中的模式发现 数据挖掘中的聚类分析 数据科学家的工具箱 R编程 获取和清理数据 算法工具箱 数据结构 图
  3. 所属分类:其它

    • 发布日期:2021-02-04
    • 文件大小:94371840
    • 提供者:weixin_42118056
  1. beagleTM:一种文本挖掘工具,用于根据PubMed文章信息开发视觉和互动关系网络-源码

  2. BeagleTM:PubMed交互式知识发现 日期:2020年12月7日 Oliver Bonham-Carter 电子邮件: GitHub链接: : 目录 总览 BeagleTM是一种交互式文本挖掘工具,可促进在同行评审文章中发现知识。 BeagleTM以我的小狗比格犬Flint的名字命名,他的所有时间都用鼻子扎根在地上。 在他的领导下,PubMed的文章也可以类似的方式被发现。 BeagleTM旨在发现PubMed文章中的知识并提供参考,以方便创建复杂的文献评论。 BeagleTM
  3. 所属分类:其它

    • 发布日期:2021-02-04
    • 文件大小:1048576
    • 提供者:weixin_42111465
  1. 垃圾邮件处理者::incoming_envelope:垃圾邮件检测器-源码

  2. :incoming_envelope: 垃圾邮件发送者 :postbox: 垃圾邮件检测器 概要 文本挖掘是一个广阔的领域,随着生成的大量文本数据而越来越受欢迎。 使用机器学习模型已经完成了一些应用程序的自动化,例如情感分析,文档分类,主题分类,文本摘要和机器翻译。 垃圾邮件过滤是文档分类任务的一个示例,该任务涉及将电子邮件分类为垃圾邮件或非垃圾邮件(又名火腿)。 在这个项目中,我将以使用Python和可公开获得的邮件语料库的教程的形式,介绍如何实现这种系统的不同步骤。 输出将是一个AP
  3. 所属分类:其它

    • 发布日期:2021-02-04
    • 文件大小:44040192
    • 提供者:weixin_42119866
  1. 2017-CCF-BDCI-AI评委:2017-CCF-BDCI-让AI当法官(初赛):7th415(Top 1.68%)-源码

  2. 2017-CCF-BDCI-AI评审 这是我近期参加的一个数据挖掘比赛,CCF大数据与计算智能大赛(BDCI)中的一题:法官。但是由于时间冲突与一些个人原因,我只参与并完成了初赛任务(罚金)在初赛成绩中,取得A榜第5 , B榜第7 (最高1.68% )的成绩(这个成绩实际上只用了if-idf特征和Word2Vec特征,该项目在初赛结束后进行过多尝试和改进,效果应该会更容易初赛)。 该项目是我的第一个有关文本分类的项目,所以在做这题之前,我没有任何自然语言处理(NLP)的知识积累。因此,通过参与这
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:216064
    • 提供者:weixin_42171208
  1. 墨西哥政府报告:2019年墨西哥政府报告上的文本挖掘,涵盖从PDF文件中提取文本到绘制结果的过程-源码

  2. 墨西哥政府报告文本分析 该存储库记录了以下过程:从PDF中提取文本,进行清理,将其通过NLP管道传递,并用图形显示结果。 PDF是9月1日发布的2019年政府报告。 PDF位于数据文件夹中。 要求 该项目使用以下Python库 PyPDF2 :用于从PDF文件中提取文本。 spaCy :用于将提取的文本传递到NLP管道中。 NumPy :用于快速矩阵运算。 pandas :用于分析数据集并从中获取见解。 matplotlib :用于创建图形和绘图。 seaborn :用于增强matp
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:14680064
    • 提供者:weixin_42171132
  1. FG:基于Nonebot的QQ群机器人,特色功能是基于每日聊天记录生成的每日摘要。可在酷QMirai平台上运行-源码

  2. FG-Mirai 移植说明 此版本可在Mirai + 支持下运行 与酷Q不同,Mirai是在扩展代码中实现了Android QQ 8.2.7客户端,不需要连接第三方服务器,能活得更久些,除非tx终止Android QQ登陆,就像塞班一样。同时支持当时酷Q pro的发图等高级功能 本次移植的介入就是由链接发图修改为CQ码发图 概要 一个基于Nonebot的QQ群每日汇总生成插件,可以根据每日的聊天信息生成每日热词,并以词云方式可视化展示 技术 这是一个简单的文本挖掘实验,首先会获取群内部聊天记录进
  3. 所属分类:其它

    • 发布日期:2021-01-30
    • 文件大小:1048576
    • 提供者:weixin_42108778
  1. CoinJack:扩展到HiJackcontrol网络矿工(如CoinHive)-源码

  2. CoinJack-HiJack的扩展/控制CoinHive Web Miner 请阅读:使用此功能不会致富。 安装此扩展程序后,立即更改CoinHive网站密钥,以便向您付款。 目前,它不会更改CoinHive的令牌/工作量证明服务的支出(用于短链接过滤器和验证),也不会破坏此功能。 得到它 目前正致力于移植到Opera 这是什么? 这是一个浏览器扩展程序,它使您可以HiJack并控制由网站代替广告使用的矿工。 目前,它仅支持劫持CoinHive网络矿工。 您可以输入自己的CoinHive
  3. 所属分类:其它

    • 发布日期:2021-01-30
    • 文件大小:294912
    • 提供者:weixin_42097557
  1. NLTK:此存储库专用于上传我的文本挖掘代码以及文本资源-源码

  2. NLTK from data_loader import * from data_preprocessing import * from data_minner import * from baidu_NLP import * from Config import * from pre_data import * from topic import * from sentiment import * 第1章概念明确 此概念包括文本数据分析的相关思想,概念,文本数据分析的意义,以及常用的文本数
  3. 所属分类:其它

    • 发布日期:2021-03-22
    • 文件大小:10485760
    • 提供者:weixin_42139252
« 12 »