您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. txt格式英文单词词库大全,内含470k以上的单词

  2. 该词库包括单词很全面,诸如2,4-d这种植物生长素类似物的专有名词,诸如Beijing,Shenzhen甚至changchun,harbin这种地名都包含在内。适合用作机器学习中的NLP自然语言处理时的数据集来使用。
  3. 所属分类:机器学习

    • 发布日期:2018-03-08
    • 文件大小:4194304
    • 提供者:wang7807564
  1. google 20k英文词库大全,适合NLP使用

  2. 该数据集包括常用的英文单词,诸如beijing,shenzhen这种地名也包含在内,但是没有其他小一点的城市,内容相对更为精简,包含的专有名词并不偏,适合NLP中用于匹配相似单词等。
  3. 所属分类:机器学习

    • 发布日期:2018-03-08
    • 文件大小:155648
    • 提供者:wang7807564
  1. IR&NLP;入门指南

  2. 本文介绍了自然语言处理的基本任务,以及信息检索要使用到哪些自然语言处理相关技术。同时,文中还列出了NLP、IR相关的国内外期刊和会议,还告诉初学者如何学习新技术,推荐阅读的书籍、课件,需要掌握哪些知识点,很适合初学者入门。
  3. 所属分类:搜索引擎

    • 发布日期:2018-10-26
    • 文件大小:134144
    • 提供者:wustjk124
  1. 《Learning Scrapy》中文版.pdf

  2. 通过python学习高效的web抓取和爬行的艺术,从任何来源提取数据来执行实时分析。充满技术和例子,以帮助您爬行网站和提取数据在几个小时内。如果你是一名软件开发人员、数据科学家、NLP或机器学习爱好者,或者只是需要将公司的wiki从一个遗留平台迁移过来,那么这本书就是为你准备的。它非常适合那些需要立即轻松访问大量半结构化数据的人。你将学会什么?理解HTML页面和编写XPath来提取你需要的数据用简单的Python编写杂乱的爬行器,并做网络爬虫把你的数据注入任何数据库,搜索引擎或分析系统配置你的
  3. 所属分类:Python

    • 发布日期:2019-10-16
    • 文件大小:8388608
    • 提供者:shaolun1992
  1. 论文分类数据集请配合文章使用

  2. 配合文章使用,该文章通过nlp+聚类算法实现文本分类处理。简单易懂,配合代码使用理解迅速,适合自然语言处理和非监督学习的初学者们,希望能帮助大家
  3. 所属分类:机器学习

    • 发布日期:2020-05-16
    • 文件大小:125952
    • 提供者:OldDriver1995
  1. google 20k英文词库大全,适合NLP使用

  2. 该数据集包括常用的英文单词,诸如beijing,shenzhen这种地名也包含在内,但是没有其他小一点的城市,内容相对更为精简,包含的专有名词并不偏,适合NLP中用于匹配相似单词等。
  3. 所属分类:机器学习

    • 发布日期:2020-05-08
    • 文件大小:73728
    • 提供者:wq3681
  1. 谭松波文文本分类语料(复旦)(无需积分)

  2. 复旦谭松波的,别人辛苦整理,免费发布的东西,拿过来自己赚积分,绝了 数据说明 answer.rar为测试语料,共9833篇文档; train.rar为训练语料,共9804篇文档,分为20个类别。 训练语料和测试语料基本按照1:1的比例来划分。 数据来源 复旦大学计算机信息与技术系国际数据库中心自然语言处理小组 问题描述 适合NLP学习使用
  3. 所属分类:机器学习

    • 发布日期:2020-12-11
    • 文件大小:241172480
    • 提供者:Jasper500
  1. From-0-to-Research-Scientist-resources-guide-源码

  2. 从零到研究科学家的完整资源指南。 指南说明 本指南适用于具有基本编程知识或计算机科学背景,有兴趣成为以下领域的研究科学家的任何人: :bullseye: 关于深度学习和NLP。 您可以采用“自下而上”或“自上而下”两种方法,并且都非常有效,而了解哪种方法最适合您实际上是至关重要的。 如果您可以在不进行任何应用的情况下研究大量数学概念,则可以使用自下而上的方法。 如果您想先动手操作,请使用“自上而下”的拳头。 内容: 数学基础: 数学基础部分适用于所有人工智能分支,例如机器学习,强化学习,计
  3. 所属分类:其它

    • 发布日期:2021-03-17
    • 文件大小:51200
    • 提供者:weixin_42129005
  1. From-0-to-NLP-resources-guide-源码

  2. 从零到自然语言处理工程师的完整资源指南。 指南说明 本指南适用于对NLP感兴趣的具有基本编程知识或计算机科学背景的任何人。 您可以采用“自下而上”或“自上而下”两种方法,并且都非常有效,而了解哪种方法最适合您实际上是至关重要的。 如果您可以在不进行任何应用的情况下研究大量数学概念,则可以使用自下而上的方法。 如果您想先动手操作,请使用“自上而下”的拳头。 内容: 数学基础: 线性代数:数学的这一分支对于理解神经网络的机制至关重要,而神经网络是当今最先进的NLP方法论的规范。 资源资源 困难
  3. 所属分类:其它

    • 发布日期:2021-03-17
    • 文件大小:49152
    • 提供者:weixin_42121754
  1. Movie_Reviews_Classification:使用情感分析将电影评论分为正面还是负面-源码

  2. 电影评论分类 使用python中的情感分析库将IMDb电影评论分为正面或负面 情绪分析 情感分析是指使用自然语言处理(NLP),文本分析和计算来系统地提取,识别信息并将其分类为特定类别。 该项目使用python sklearn库中的高斯朴素贝叶斯和多项式朴素贝叶斯模型 朴素贝叶斯分类器 朴素贝叶斯分类器是python scikit学习库下的一组监督ML算法。 他们使用特征矩阵(所有因变量的向量)来预测类变量(特征矩阵中每一行的输出)。 这些算法的前提是所有特征彼此独立并且具有同等重要性。 在
  3. 所属分类:其它

    • 发布日期:2021-03-12
    • 文件大小:624640
    • 提供者:weixin_42131414
  1. Movie-review-classification:使用python中的情感分析库将IMDb电影评论分为正面或负面-源码

  2. 电影评论分类 使用python中的情感分析库将IMDb电影评论分为正面或负面 情绪分析 情感分析是指使用自然语言处理(NLP),文本分析和计算来系统地提取,识别信息并将其分类为特定类别。 该项目使用python sklearn库中的高斯朴素贝叶斯和多项式朴素贝叶斯模型 朴素贝叶斯分类器 朴素贝叶斯分类器是python scikit学习库下的一组监督ML算法。 他们使用特征矩阵(所有因变量的向量)来预测类变量(特征矩阵中每一行的输出)。 这些算法的前提是所有特征彼此独立并且具有同等重要性。 在
  3. 所属分类:其它

    • 发布日期:2021-03-10
    • 文件大小:7168
    • 提供者:weixin_42101641
  1. spacy-v3-project-startup-源码

  2. spaCy v3项目启动/传输 该工具将您创建用于的简单project.yml文件。 请注意,已经有许多出色的模板可用于在启动项目。 这些可能是您大多数时候需要的。 如果其中之一适合您的需求,请使用它们! 它们包含有关项目文件不同方面如何工作的有用注释。 我的用例是所有模板都不适合。 我有一个旧的NLP项目,其中包含要转换为spaCy的现有文件,但尚未使用spaCy模型。 我想使用项目框架来组织我已经在使用的脚本和数据的收集,并删除一个陈旧的Makefile。 我也想玩 :nerd_face
  3. 所属分类:其它

    • 发布日期:2021-03-04
    • 文件大小:5120
    • 提供者:weixin_42165508
  1. Text_Mining-源码

  2. 文字挖掘 情感分析是使用文本分析技术对文本数据中的情感(正面,负面和中性)进行解释和分类。 情感分析使企业可以通过在线对话和反馈来识别客户对产品,品牌或服务的情感。 Yelp就是这样的一家实际上根据其评论运作的公司,人们可以通过该应用程序/网站查看人们的评论,例如发表评论; 餐厅,服务或地点。 Yelp保留了一个结构良好的评论数据库,这是我们在此处用于执行情绪分析项目的数据库。 无需阅读完整(冗长!)的评论,我们可以使用NLP得出结论,如果评论是肯定的或否定的,则可以为针对这些公司的负面评论提供
  3. 所属分类:其它

    • 发布日期:2021-02-15
    • 文件大小:39936
    • 提供者:weixin_42150745
  1. FakeNews-Generator-And-Detector:训练T5模型以生成简单的Fake News,并使用RoBERTa模型对虚假和真实内容进行分类-源码

  2. 假新闻生成器和检测器 最近,我正在试验T5模型并探索它所提供的选项。 考虑到当前最先进的NLP模型的汇总功能,我很想知道如果我转过头来会产生什么结果。 因此,输入短文本,然后让模型生成更长的文本。 如果我还要使用新闻数据集,那么我将拥有一个非常简单的“假新闻”生成器。 接下来,我可以使用该真实和虚假新闻来训练分类器,并查看另一个NLP模型将真实和虚假新闻进行分类的能力。 概括来说,此存储库包含以下3个步骤的代码: 在新闻数据集上训练T5模型,并生成带有假新闻的全套信息。 训练RoBERTA
  3. 所属分类:其它

    • 发布日期:2021-02-13
    • 文件大小:1073741824
    • 提供者:weixin_42125192
  1. Chatito:using使用简单的DSL生成AI聊天机器人,NLP任务,命名实体识别或文本分类模型的数据集!-源码

  2. Chatito 总览 Chatito可帮助您使用简单的DSL生成用于训练和验证chatbot模型的数据集。 如果要使用商业模型,开源框架或编写自己的自然语言处理模型来构建聊天机器人,则需要培训和测试示例。 Chatito在这里为您提供帮助。 该项目包含: 聊天语言 有关完整的语言规范和文档,请参考。 提示 防止过度拟合 如果我们正确使用Chatito,则可以避免过度的问题。 该工具背后的思想是在数据扩充和可能的句子组合的描述之间有一个交集。 它不打算生成可能适合单个句子模型的确定性数据集
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:350208
    • 提供者:weixin_42166918
  1. jcseg:Jcseg是用Java开发的轻量级NLP框架。 提供基于MMSEG算法的CJK和英语细分,并基于TEXTRANK算法实现关键词提取,关键句提取,摘要提取。 Jcseg具有内置的http服务器和用于最新lucene,solr,el

  2. Jcseg是什么? Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键在于提取,关键句提取和文章自动摘要等功能,并提供了一个基于Jetty的web服务器,方便各大语言直接Jcseg自带了一个jcseg.properties文件用于快速配置而得到适合不同场合的分词应用,例如:最大匹配词长,是否开启中文人名识别,是否追加拼音,是否追加名词等! Jcseg核心功能: 中文分词:mmseg算法+ Jcseg独创的优化算法,七种切分模式。 关键字提取:基于textRank算
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:4194304
    • 提供者:weixin_42123296
  1. scibert:科学文本的BERT模型-源码

  2. SciBERT SciBERT是经过科学文字训练的BERT模型。 SciBERT受过SciBERT )的论文训练。 语料库大小为114万张论文,3.1B令牌。 我们在培训中使用论文的全文,而不仅仅是摘要。 SciBERT拥有自己的词汇表( scivocab ),该词汇表最适合于训练语料库。 我们训练了有壳和无壳版本。 我们还包括在原始BERT词汇表( basevocab )上训练的模型,以进行比较。 它可在各种科学领域的nlp任务上实现最先进的性能。 评估的详细信息在。 评估代码和数据包
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:28311552
    • 提供者:weixin_42100971
  1. knlp:这个是一个为了复习功课开发的pkg,主要面向nlp处理提供简单好用的pkg,里面会复现我认为nlper应该掌握的基础算法-源码

  2. knlp 这是一个工具包,主要实现对中文的NLP基础操作,在实现过程中,研究了网络上很多已经开源的工具包,对他们致以深深的感谢。 在编码过程中,参考学习了很多参考pkg中的编码方式,也有直接调用。如果作者感觉到被冒犯,请随时私信联系。 本pkg的主体架构参考了snownlp和textblob,因为个人认为这种实现方式对于调用方来说最方便。 pkg中提供了一个推理这个方法,主要是调用各种能力进行推理,seg这样的类是实现对应的功能。最后seq_upgrade,这样的pkg中有训练使用的代码,可以
  3. 所属分类:其它

    • 发布日期:2021-03-27
    • 文件大小:147456
    • 提供者:weixin_42151772