搜索资源 - stopwords-数据集

搜索资源列表

Sphinx中文参考手册.rar
Sphinx 是一个在GPLv2 下发布的一个全文检索引擎，商业授权（例如, 嵌入到其他程序中）需要联系我们（Sphinxsearch.com）以获得商业授权。一般而言，Sphinx是一个独立的搜索引擎，意图为其他应用提供高速、低空间占用、高结果相关度的全文搜索功能。Sphinx可以非常容易的与SQL数据库和脚本语言集成。当前系统内置MySQL和PostgreSQL 数据库数据源的支持，也支持从标准输入读取特定格式的XML数据。通过修改源代码，用户可以自行增加新的数据源（例如：其他类型的D
所属分类：其它
- 发布日期：2019-07-09
- 文件大小：576512
- 提供者：weixin_39841848

机器学习算法中自然语言处理常用数据集(新闻数据集news.csv)及jieba_dict字典、停用词等相关文件
机器学习算法中自然语言处理常用数据集(新闻数据集news.csv)及jieba_dict字典、停用词等相关文件，包括以下文件 data/news.csv jieba_dict/dict.txt.big jieba_dict/stopwords.txt jieba_dict/stopwords_s.txt
所属分类：机器学习
- 发布日期：2020-12-22
- 文件大小：3145728
- 提供者：qq_41185868

TextClassification：基于scikit-learn实现对新浪新闻的文本分类，数据集为100w篇文档，总计10类，测试集与训练集1：1划分。分类算法采用SVM和Bayes，其中Bayes作为基线-源码
新浪新闻文本分类语料库重建本项目的语料来源新浪新闻网，通过spider.py爬虫模块获得全部语料，总计获得10类新闻文本，每一类新闻文本有10条。采纳新浪新闻网的一个api获取新闻文本，api的url为使用进度池并发执行爬虫，加快抓取速度。数据预处理本项目的数据预处理包括：分词处理，去噪，向量化，由stopwords.py模块，text2term.py模块，vectorizer.py模块实现。本项目借助第三方库解霸完成文本的分词处理。通过停用词表移除中文停用词，通过正则表达式消除
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：100352
- 提供者：weixin_42128270