您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 搜狐新闻中文语料(已分类整理)

  2. 在搜狗实验室下载的搜狐新闻数据整理后的一部分中文分类语料~
  3. 所属分类:机器学习

    • 发布日期:2018-02-08
    • 文件大小:178257920
    • 提供者:wxxiangge
  1. news_data.zip

  2. 用于测试中文NLP新闻分类的样本。可以做为一般的中文NPL模型的验证和训练测试。里面有三个文件,是测试集、训练集、验证集。
  3. 所属分类:深度学习

    • 发布日期:2020-02-24
    • 文件大小:69206016
    • 提供者:shengzing
  1. 零基础入门NLP.pdf

  2. 阿里天池题目《零基础入门NLP之新闻文本分类》https://tianchi.aliyun.com/notebook-ai/detail?postId=118252
  3. 所属分类:机器学习

    • 发布日期:2020-08-12
    • 文件大小:6291456
    • 提供者:weixin_45601191
  1. 【爬虫+文本分类】–新浪各类新闻标题,并用各类算法进行文本分类

  2. 自己设计的小项目,初始想法很简单,检验自己爬虫和nlp基本技能(分词、词向量(tokenize\onehot\tfidf\word2vec))和各类算法(朴素贝叶斯、svm、CNN、LSTM)掌握情况,进一步查漏补缺,提升工程能力和算法应用能力:) ** 第一部分:爬虫 ** 分析新浪网各类新闻网页结构,应用requests库,爬取并解析新浪各类新闻,包括汽车、教育、金融、娱乐、体育、科技共六类, 对于有“滚动”新闻链接的板块(如sport、tech、entertaimment),通过滚动新闻
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:764928
    • 提供者:weixin_38529951
  1. 自然语言处理(NLP):08 PyTorch深度学习之TextCNN短文本分类

  2. 本章节主要研究内容:基于PyTorch 深度学习工具来完成短文本分类 知识点 业务需求 文本分类应用场景、技术方案以及挑战 技术架构 文本分析 词向量 CNN 原理 tensorboardX 可视化 项目实战: 基于TextCNN短文本分类,主要从数据预处理、构建此表、Embedding、模型训练、tensorboardX可视化以及在线服务几个重要的环境进行学习 文本分类应用场景 文章分类服务对文章内容进行深度分析,输出文章的主题一级分类、主题二级分类及对应的置信度,该技术在个性化推荐、文章聚合
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:605184
    • 提供者:weixin_38663167
  1. 零基础入门NLP-新闻文本分类-数据集

  2. 所属分类:其它

    • 发布日期:2021-03-25
    • 文件大小:309329920
    • 提供者:weixin_38722052
  1. 零基础入门NLP - 新闻文本分类 比赛数据-数据集

  2. 新闻文本分类 https://tianchi.aliyun.com/competition/entrance/531810/information test_a_sample_submit.csv test_a.csv train_set.csv
  3. 所属分类:其它

    • 发布日期:2021-03-19
    • 文件大小:309329920
    • 提供者:weixin_38538264
  1. Fake-News-Classifier:这是一个NLP域项目,将新闻分类为垃圾邮件或正确-源码

  2. Fake-News-Classifier:这是一个NLP域项目,将新闻分类为垃圾邮件或正确
  3. 所属分类:其它

    • 发布日期:2021-03-16
    • 文件大小:62914560
    • 提供者:weixin_42123456
  1. 新闻文本分类-数据集

  2. 零基础入门NLP-新闻文本分类 test_b.csv test_a_sample_submit.csv test_a.csv test_b_sample_submit.csv train_set.csv
  3. 所属分类:其它

    • 发布日期:2021-03-11
    • 文件大小:371195904
    • 提供者:weixin_38710127
  1. NLP-BasicTask:NLP基础演示:文本分类聚类,情感分析,文本匹配,问答系统-源码

  2. NLP基本任务 NLP基础演示:文本分类聚类,情感分析,文本匹配,问答系统 任务1:文本分类新闻标题分类
  3. 所属分类:其它

    • 发布日期:2021-03-11
    • 文件大小:33554432
    • 提供者:weixin_42103128
  1. nlp_news_classification:新闻分类数据集由“世界”,“体育”,“商业”和“科学”类别的新闻文章组成-源码

  2. AG新闻分类使用机器学习 新闻分类数据集数据源: : 客观的 新闻分类数据集由“世界”,“体育”,“商业”和“科学”类别的新闻文章组成 给定标题和描述,我们必须确定它属于哪个新闻文章类别。 机器学习问题的类型: 我们必须根据给定的信息预测新闻报道,因此它是多类分类问题 基本概述 数据形状:Train.csv + Test.csv = 120000 + 7600 = 127600行。 Data.columns:类索引,标题,描述 Data.info():独立:标题,描述--->对象,
  3. 所属分类:其它

    • 发布日期:2021-03-06
    • 文件大小:11534336
    • 提供者:weixin_42126399
  1. 新闻文本分类-数据集

  2. 零基础入门NLP - 新闻文本分类 NLP_data_list_0715.csv
  3. 所属分类:其它

  1. NLP_News_Classifier-源码

  2. NLP-新闻分类 训练和部署基于ULMFit的新闻分类器。
  3. 所属分类:其它

    • 发布日期:2021-02-17
    • 文件大小:119537664
    • 提供者:weixin_42131541
  1. Hoaxify:Hoaxify是使用NLP技术构建的虚假新闻分类器-源码

  2. 骗局2.0 介绍 假新闻是虚假或误导性信息,以新闻形式呈现。 它的目的通常是损害个人或实体的声誉,或通过广告收入来赚钱。 假新闻是当今政治格局中越来越普遍的特征。 为了解决这个问题,研究人员和媒体专家提出了采用自然语言处理(NLP)来分析新闻报道的单词模式和统计相关性的伪造新闻检测器。 训练ML(DL)模型的数据集可以通过众包技术进行整理,或者我们可以使用kaggle等已整理的数据集。 数据整理 众包收集虚假新闻数据。 已经准备好的数据。 属性:新闻:新闻文章编号。 标题:新闻文章的标题
  3. 所属分类:其它

    • 发布日期:2021-02-16
    • 文件大小:55574528
    • 提供者:weixin_42170790
  1. FakeNews-Generator-And-Detector:训练T5模型以生成简单的Fake News,并使用RoBERTa模型对虚假和真实内容进行分类-源码

  2. 假新闻生成器和检测器 最近,我正在试验T5模型并探索它所提供的选项。 考虑到当前最先进的NLP模型的汇总功能,我很想知道如果我转过头来会产生什么结果。 因此,输入短文本,然后让模型生成更长的文本。 如果我还要使用新闻数据集,那么我将拥有一个非常简单的“假新闻”生成器。 接下来,我可以使用该真实和虚假新闻来训练分类器,并查看另一个NLP模型将真实和虚假新闻进行分类的能力。 概括来说,此存储库包含以下3个步骤的代码: 在新闻数据集上训练T5模型,并生成带有假新闻的全套信息。 训练RoBERTA
  3. 所属分类:其它

    • 发布日期:2021-02-13
    • 文件大小:1073741824
    • 提供者:weixin_42125192
  1. nlp_projects:自然语言处理中的项目:从基础学习到新闻分类等高级项目,再到创建聊天机器人并预测书中的下一个单词-源码

  2. 自然语言处理 NLP的项目 00. Twitter情绪 NLTK-spacy的用法 具有Spacy的命名实体识别,词汇和短语匹配 使用nltk的Wordcloud和情感分析 格式化pdf文件 01.新闻文本分类 在Sklearn中使用LR模型进行文本分类(来自Kaggle) 从零开始的平均倒数排名(MRR) 在Sklearn中使用随机森林模型进行文本分类 02. Stackexchange文本分类器[c1] 来自nltk的标记化,词干化,TF-IDF的示例 计数器,排序,AST的示例 从头
  3. 所属分类:其它

    • 发布日期:2021-02-13
    • 文件大小:495976448
    • 提供者:weixin_42122306
  1. NLP-新闻分类:使用语言模型(ULMFit)训练和部署新闻分类器-无服务器容器-源码

  2. NLP-新闻分类 训练和部署基于ULMFit的新闻分类器。 实时版本: : 无服务器版本: : 博客文章: : 在云/本地计算机上运行 要运行该应用程序,我们可以使用Docker Hub上可用的预构建docker映像,只需运行以下命令 docker run --rm -p 8080:8080 imadelh/news:v1 该应用程序将在上可用。 用户可以运行定制的Gunicorn命令以指定工作程序数或HTTPS证书。 # Get into the container docke
  3. 所属分类:其它

    • 发布日期:2021-02-05
    • 文件大小:119537664
    • 提供者:weixin_42133969
  1. mongolian-nlp:蒙古NLP的有用资源-源码

  2. 此回购将包含蒙古NLP的有用资源列表。 随时贡献。 数据集 DATASET LJSpeech像男声TTS从蒙古圣经创建 在 使用下载音频文件 DATASET LJSpeech像卡尔梅克(西蒙)女声TTS从卡尔梅克圣经创建(2小时) 由提供的DATASET 用于训练生产新闻分类器 :有9个大类75K新闻урлаг соёл , эдийн засаг , эрүүл мэнд , хууль , улс төр , спорт , технологи , боловсрол和байгал ор
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:88080384
    • 提供者:weixin_42124497
  1. 见解:Project的资料库见解:NLP即服务-源码

  2. 项目洞察力 NLP即服务 内容 介绍 Project Insight旨在通过使用代码库为前端GUI( streamlit )和后端服务器( FastApi )创建NLP服务,并在各种下游NLP任务上使用转换器模型。 下游NLP任务包括: 新闻分类 实体识别 情绪分析 总结 信息提取To Do 用户可以从下拉菜单中选择不同的模型来运行推理。 用户还可以直接使用后端fastapi服务器进行命令行推断。 解决方案的特点 Python代码库:使用Fastapi和Streamlit Fastapi
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:104857600
    • 提供者:weixin_42121905
  1. nlp-in-practice:用于解决实际文本数据问题的入门代码。 包括:Gensim Word2Vec,短语嵌入,具有逻辑回归的文本分类,具有pyspark的单词计数,简单的文本预处理,预训练的嵌入等等-源码

  2. NLP实践 使用这些NLP,文本挖掘和机器学习代码示例和工具来解决现实世界中的文本数据问题。 笔记本/来源 第一列中的链接将您带到带有源代码的子文件夹/存储库。 任务 相关文章 来源类型 描述 python脚本 使用PySpark提取大量数据的短语。 使用这些短语注释文本或将这些短语用于其他下游任务。 python脚本+笔记本 使用字数统计或tfidf可视化热门关键字 笔记本 如何正确使用Word2Vec以获得所需的结果 python脚本 如何使用PySpark读取带有字数示例的不同格式的文件
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:97517568
    • 提供者:weixin_42172204
« 12 »