搜索资源 - 自然语言处理训练集 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 自然语言处理训练集

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

复旦中文文本分类语料-训练集
由复旦大学李荣陆提供。answer.rar为测试语料，共9833篇文档；train.rar为训练语料，共9804篇文档，分为20个类别。训练语料和测试语料基本按照1:1的比例来划分。收集工作花费了不少人力和物力，所以请大家在使用时尽量注明来源（复旦大学计算机信息与技术系国际数据库中心自然语言处理小组）。文件较大（训练测试各50多兆），下载时请耐心等待。
所属分类：数据库
- 发布日期：2017-02-06
- 文件大小：52428800
- 提供者：github_36326955

中文文本分类语料（复旦）-训练集
这个链接是训练集，测试集请见我的资源本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料，共9833篇文档；train_corpus.rar为训练语料，共9804篇文档，两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源（复旦大学计算机信息与技术系国际数据库中心自然语言处理小组）。文件较大（训练测试各50多兆），下载时请耐心等待。
所属分类：讲义
- 发布日期：2017-02-06
- 文件大小：52428800
- 提供者：github_36326955

微博中文情感分析训练模型数据集
可以用于研究自然语言处理，情感分析等课题，训练模型等用途
所属分类：互联网
- 发布日期：2017-03-14
- 文件大小：28311552
- 提供者：ckkobe24

中文文本分类语料（复旦）-训练集
这个链接是训练集，测试集请见我的资源本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料，共9833篇文档；train_corpus.rar为训练语料，共9804篇文档，两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源（复旦大学计算机信息与技术系国际数据库中心自然语言处理小组）
所属分类：其它
- 发布日期：2017-07-07
- 文件大小：52428800
- 提供者：goodluckyue

复旦文本分类语料数据集包含训练集和测试集和全集
复旦中文文本分类数据集，包含训练集和测试集，自然语言处理看论文看到数据堂的复旦中文文本分类语料无法下载，网上找到了训练集和测试集，4积分，良心价
所属分类：机器学习
- 发布日期：2018-07-12
- 文件大小：110100480
- 提供者：zhangzc12409

自然语言处理清华-哈工大语义依存-训练集开发集
清华大学-哈尔滨工业大学自然语言处理，测试集，开发集
所属分类：机器学习
- 发布日期：2018-01-31
- 文件大小：2097152
- 提供者：qq_41466057

基于远程监督快速构信息抽取训练集
这是VLDB 2018的best paper，强烈推荐，在快速训练集方面非常有用！
所属分类：机器学习
- 发布日期：2018-09-26
- 文件大小：792576
- 提供者：haiyunj

语义相似度任务数据训练集、验证集、测试集。LCQMC
语义相似度任务数据训练集、验证集、测试集。LCQMC 是哈尔滨工业大学在自然语言处理国际顶会 COLING2018 构建的问题语义匹配数据集，用于判断两个问题的语义是否相同。
所属分类：互联网
- 发布日期：2020-04-21
- 文件大小：6291456
- 提供者：pengpengchaoren

复旦大学文本分类语料[完整版训练集+测试集]
answer文件夹为测试语料，共9833篇文档；train文件夹为训练语料，共9804篇文档，分为20个类别。训练语料和测试语料基本按照1:1的比例来划分。收集工作花费了不少人力和物力，所以请大家在使用时尽量注明来源（复旦大学计算机信息与技术系国际数据库中心自然语言处理小组）。文件较大（训练测试集压缩包各50多兆）
所属分类：机器学习
- 发布日期：2020-02-10
- 文件大小：110100480
- 提供者：wustjk124

复旦中文语料（自然语言处理语料）（训练集）
来源：复旦大学计算机信息与技术系国际数据库中心自然语言处理小组；由复旦大学李荣陆提供；test_corpus.rar为测试语料，train_corpus.rar为训练语料，传的时候没注意（传错了也不知道咋删），完整版我重新另外上传了
所属分类：讲义
- 发布日期：2020-06-05
- 文件大小：98566144
- 提供者：qq_38611819

基于层次化结构的语言模型单元集优化
对于大词汇量语音识别系统，适当选择基本单元至关重要。虽然以词为基本单元时避免了词边界的确定等复杂过程，但很多派生类结构中（如黏性语言），词比较长，而且很多文字（中文、日文）不需要词边界，因而在自然语言处理应用中没有选取基本单元集的固定模式。本文，以维吾尔语大词汇量语音识别系统为例，研究基于层次化基本单元集的语音识别系统，比较了各种单元集的优缺点，提出了新的平衡长单元集和短单元集的优缺点的方法。通过比较各种层次化单元集为基础的语音识别结果，分析错误识别模式，收集被误判的单元序列，作为在两层单元序列
所属分类：其它
- 发布日期：2021-03-10
- 文件大小：991232
- 提供者：weixin_38724333

如何将Python自然语言处理速度提高100倍？
开始前，我（作者）得承认文章略微有些标题党，因为虽然我们会讨论Python，但也会包含一些Cython技巧。不过，你知道吗？Cython就是Python的超集啊，所以不要被它吓跑！下面是一些你可能需要本文所说Python加速策略的情况：你在用Python开发一款用于NLP任务的产品模块。你在用Python计算一个大型NLP数据集的分析数据。你在为PyTorch/TensorFlow这样的深度学习框架预处理大型训练数据集，或你的深度学习模型的批次加载器（batchloader）采用了非常复杂的处理
所属分类：其它
- 发布日期：2021-02-24
- 文件大小：290816
- 提供者：weixin_38580959

从Twitter数据集进行性别分类的自然语言处理NLP：借助自然语言处理NLP，我可以从Twitter数据集中识别性别分类-源码
高音数据集对性别分类的自然语言处理NLP 借助自然语言处理NLP，我可以从Tweeter数据集中识别性别分类该文件包含：加载数据集：该数据集用于训练CrowdFlower AI性别预测器。您可以在此处阅读有关该项目的所有信息。要求参与者仅查看Twitter的个人资料并判断用户是男性，女性还是品牌（非个人）。数据集包含20,000行，每个行都有一个用户名，一条随机鸣叫，帐户个人资料和图像，位置，甚至是链接和侧边栏颜色。数据集来自这里： : 灵感您可以尝试使用此数据集回答
所属分类：其它
- 发布日期：2021-02-16
- 文件大小：3145728
- 提供者：weixin_42114580

Movie-Recommendation-Chatbot：Movie Recommendation Chatbot提供有关电影的信息，例如情节，类型，收入，预算，imdb评级，imdb链接等。该模型使用Kaggle的电影元数据数据集进行了训
电影推荐聊天机器人聊天机器人使用推荐引擎通过IMDB链接和海报来推荐相似的电影。此外，它还提供有关用户输入的电影的以下属性的信息：电影类型电影情节收入预算 IMDB评分 IMDB网站链接为了推荐相似的电影，使用了余弦相似度和TFID矢量化器。 Slack API用于为聊天机器人提供前端。 IBM Watson用于将用于自然语言处理的Python代码与Slack API上托管的前端链接。 nltk，sklearn，pandas和nlp等库用于执行自然语言处理并满足用户的查询和响应。
所属分类：其它
- 发布日期：2021-02-05
- 文件大小：16777216
- 提供者：weixin_42131601

bnlp：BNLP是孟加拉语的自然语言处理工具包-源码
孟加拉自然语言处理（BNLP） BNLP是孟加拉语的自然语言处理工具包。该工具将帮助您标记孟加拉语文本，嵌入孟加拉语单词，孟加拉语POS标签，孟加拉语名称实体识别，构造孟加拉语NLP的神经模型。安装 PIP安装程序（Python：3.5、3.6、3.7、3.8已通过测试，操作系统：Linux，Windows已通过测试） pip install bnlp_toolkit 或升级 pip install -U bnlp_toolkit 预训练模型下载链接训练细节用孟加拉语维基百科转储数
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：11534336
- 提供者：weixin_42136365

nlp-tutorial：NLP（自然语言处理）教程列表-源码
NLP教程在PyTorch上构建的NLP（自然语言处理）教程列表。目录有关如何实现和适应简单的实词NLP任务的分步教程。文字分类此仓库提供了带有简单注释的简单PyTorch文本分类实现。在这里，我们使用Huffpost新闻语料库，包括相应的类别。在此数据集上训练的分类模型基于新闻标题和描述来识别新闻文章的类别。关键字： CBoW，LSTM，fastText，文本文字化此文本分类教程在IMDb电影评论数据集上训练了一个变压器模型，用于情感分析。它提供了带有简单注释的简单PyT
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：1009778688
- 提供者：weixin_42119866

spark-nlp：最先进的自然语言处理-源码
Spark NLP：最先进的自然语言处理 Spark NLP是建立在Apache Spark ML之上的自然语言处理库。它为机器学习管道提供了简单，高性能和准确的NLP注释，这些注释在分布式环境中易于扩展。 Spark NLP带有1100多种预训练的管道和模型，支持192多种语言。它支持可在集群中无缝使用的最新转换器，例如BERT ， XLNet ， ELMO ， ALBERT和Universal Sentence编码器。它还提供令牌化，分词，词性标记，命名实体识别，依赖性分析，拼写检查
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：143654912
- 提供者：weixin_42104906

变形金刚：:hugging_face:变形金刚：Pytorch和TensorFlow 2.0的最新自然语言处理-源码
PyTorch和TensorFlow 2.0的最新自然语言处理 :hugging_face: 变形金刚提供了数千种经过预训练的模型，可以对文本执行多种任务，例如100多种语言的分类，信息提取，问题解答，摘要，翻译，文本生成等。其目的是使尖端的NLP易于所有人使用。 :hugging_face: Transformers提供了API，可在给定的文本上快速下载和使用那些经过预训练的模型，在您自己的数据集上对其进行微调，然后在我们的上与社区共享。同时，每个定义架构的python模块都可以独立
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：7340032
- 提供者：weixin_42173205

天才：最先进的自然语言处理（NLP）框架-源码
最新的NLP的非常简单的框架。由和朋友们开发。重要信息：（30.08.2020）我们将模型移到了新服务器上。请更新您的Flair到最新版本！天才是：强大的NLP库。 Flair允许您在文本上应用我们最先进的自然语言处理（NLP）模型，例如命名实体识别（NER），词性标记（PoS），感觉歧义消除和分类，并带有支持Swift增加的语言数量。生物医学NER库。 Flair通过医学NER的最新模型为生物提供特殊支持，并支持32多种生物医学数据集。文本嵌入库。 Flair具有简单的
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：475136
- 提供者：weixin_42102220

如何将Python自然语言处理速度提高100倍？
开始前，我（作者）得承认文章略微有些标题党，因为虽然我们会讨论Python，但也会包含一些Cython技巧。不过，你知道吗？Cython就是Python的超集啊，所以不要被它吓跑！下面是一些你可能需要本文所说Python加速策略的情况：你在用Python开发一款用于NLP任务的产品模块。你在用Python计算一个大型NLP数据集的分析数据。你在为PyTorch/TensorFlow这样的深度学习框架预处理大型训练数据集，或你的深度学习模型的批次加载器（batch
所属分类：其它
- 发布日期：2021-01-27
- 文件大小：283648
- 提供者：weixin_38565628

« 12 3 4 5 6 »