您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. svmcls文本分类程序(含C++源代码+语料库)完整版

  2. svmcls 2.0文本自动分类器支持中文和英文文档,特征选择方式包括全局和按类别选取,概率估算方法支持基于文档(布尔)统计和基于词频统计,支持三种特征加权方式,特征评估函数包括信息增益、互信息、期望交叉熵、X^2统计,文本证据权重,右半信息增益,分类方法包括支持向量机SVM和K近邻KNN,由李荣陆老师于2004年开发完成。 网上流传很多版本的svmcls文本分类程序,但几乎全部都是不能编译通过的,有些是缺少xercesc文件夹,有些是缺少xerces-c_2_2_0D.dll,有些是缺少分词
  3. 所属分类:C

    • 发布日期:2010-04-30
    • 文件大小:19922944
    • 提供者:moxibingdao
  1. 字频 词频统计 含语料 100篇

  2. FileWriter writer1 new FileWriter "汉字字频统计结果分布 txt" ; writer1 write "汉字总数 "+totalNum+" r n" ; 汉字总个数 writer1 write "汉字种数 "+totalKind+" r n" ; 汉字种类数 writer1 write " r n" ; writer1 write "
  3. 所属分类:Java

    • 发布日期:2015-02-26
    • 文件大小:92160
    • 提供者:xingzi_002
  1. BFSU ParaConc

  2. 1、 该软件只支持ANSI编码文本,不支持Unicode编码文本。 2、 汉语文本可不进行分词处理。 3、 中英文文本文件要求分别以*.ZH.txt和*.EN.txt方式命名。 4、 数据文件必须严格行对齐,如包含空行也必须达到文本对应,即平行文件的对应行都是空的。软件不能智能自动对齐语料。 5、 软件支持正则表达式检索。 6、 软件默认支持英文词形还原检索(lemmatized search),如,检索go,可得到含有go、goes、went、going、gone等的平行句对。去除lemma
  3. 所属分类:其它

    • 发布日期:2015-09-21
    • 文件大小:4194304
    • 提供者:wufuhehe
  1. 简单的任务型机器问答对话含语料

  2. 简单的任务型机器问答对话,包含完整代码和语料。python3环境下运行
  3. 所属分类:搜索引擎

    • 发布日期:2018-06-20
    • 文件大小:56320
    • 提供者:liuliurushi
  1. crf_data.zip

  2. 含《人民日报2014》的语料,以及自己训练的CRF模型。如有兴趣请查看我的博客。
  3. 所属分类:机器学习

    • 发布日期:2019-06-23
    • 文件大小:134217728
    • 提供者:kiss_xiaojie
  1. noizeus语料库.rar

  2. noizeus语料库,包括纯净语料,各种含噪声语料,如车内,机场,餐馆,火车等
  3. 所属分类:编解码

    • 发布日期:2019-08-13
    • 文件大小:35651584
    • 提供者:weixin_43839383
  1. 《为你写诗》体验程序(含源代码和简单诗歌语料库)

  2. 初中人工智能第三节Python体验代码之“为你写诗”智能诗歌创作,压缩包含有源代码、诗歌记事本、测试运行说明笔记等,可以上传到https://python.jupyter.vip/在线运行,当然本地安装好环境和各种库也可以运行! (没有Python源代码,因为可以在博客直接复制粘贴。) 详细内容:https://blog.csdn.net/crxis/article/details/106147665
  3. 所属分类:深度学习

    • 发布日期:2020-05-15
    • 文件大小:101376
    • 提供者:crxis
  1. chinese_sentiment-master.zip

  2. 含语料库。共两类语料库。分别是积极和消极。是一个二分类问题。
  3. 所属分类:Python

    • 发布日期:2020-06-19
    • 文件大小:1048576
    • 提供者:qq_44708412
  1. 《长阿含经》同素异序词研究

  2. 《长阿含经》是研究东晋时期汉语现象的重要语料。共有47组同素异序双音词。从语法分布看,动词最多,有24组;从词义分布看,意义完全相同的占绝大所数,有34组;从发展变化看,现代汉语中只保留了一种词形占一半以上,达25组;从历时分析看,多为共时产生,有31组。
  3. 所属分类:其它

    • 发布日期:2020-06-19
    • 文件大小:529408
    • 提供者:weixin_38691739
  1. 基于语料库的中国大学生议论文中含Out短语动词使用研究

  2. 含out短语动词一直以来在中国大学生议论文写作中以高频率出现,因其意义复杂,词义不透明,成为中国大学生英语学习过程的难点之一。以carry out等短语动词为例,通过对比学习者语料库WECCL和英语本族语语料库LOCNESS,通过定量和定性分析,揭示了中国大学生议论文中含out短语动词在使用频率,搭配,语义等方面的特征和差异。并阐述了特征和差异生成的原因以及对外语教学的启示。
  3. 所属分类:其它

    • 发布日期:2020-06-19
    • 文件大小:631808
    • 提供者:weixin_38626943
  1. 2016年新闻中文文本.txt

  2. 包含了250万篇新闻。新闻来源涵盖了6.3万个媒体,含标题、关键词、描述、正文。 数据集划分:数据去重并分成三个部分。训练集:243万;验证集:7.7万;测试集,数万,不提供下载。 可能的用途: 可以做为【通用中文语料】,训练【词向量】或做为【预训练】的语料; 也可以用于训练【标题生成】模型,或训练【关键词生成】模型(选关键词内容不同于标题的数据); 亦可以通过新闻渠道区分出新闻的类型。
  3. 所属分类:互联网

    • 发布日期:2020-07-30
    • 文件大小:1024
    • 提供者:SuperBoy_Liang
  1. 自然语言处理文本分类实验

  2. Python文本分类总结:贝叶斯,逻辑回归,决策树,随机森林,SVM,词向量,TFIDF,神经网络,CNN,LSTM,GRU,双向RNN,LDA:含文本10分类语料、机器学习算法、深度学习算法、专家系统,文本分类结果及结论
  3. 所属分类:深度学习

    • 发布日期:2020-09-27
    • 文件大小:52428800
    • 提供者:Yellow_python
  1. 美国当代英语语料库20000词频表(完整版).xlsx

  2. 美国当代英语语料库20000词频表完整版 含词性。优先背下来口语常用词,适合以提高英语口语水平和实际交流能力为目的的学习者。
  3. 所属分类:互联网

    • 发布日期:2020-10-26
    • 文件大小:434176
    • 提供者:qq_42403326
  1. 干货!三大招教你轻松挖掘客户意见(含Python代码)。

  2. 导读 随着大数据营销模式的发展,精准了解客户需求越来越重要,这其中最好的方式,就是直接收集客户意见。但客户意见往往天马行空,既无序又杂乱。虽然收集的意见不少,但分析出有效的信息少之又少。因此怎样从大量意见中挖掘出有效信息,真正读懂客户的心,成为一个刚需。 01目标和分析方法 本文通过一整套流程对问卷调查中客户回答的文本意见进行处理和对隐藏信息挖掘,主要目标包括: (1)将杂乱文本进行预处理,形成有效信息; (2)将有效信息进行拆解,归纳主要意见; (3)将主要意见进行主题划分,在意见中寻找深层的
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:269312
    • 提供者:weixin_38721811
  1. gpt2-ml:适用于多种语言的GPT2,包括预先训练的模型。 GPT2多语言支持,15亿个参数中文预训练模型-源码

  2. 适用于多种语言的GPT2 | 简化的GPT2训练脚本(基于Grover,支持TPU) 移植的bert令牌生成器,多语言语料库兼容 1.5B GPT2预训练中文模型(〜15G语料库,10w步) 含电池的Colab演示 1.5B GPT2预训练中文模型(〜30G语料库,22w步) 预训练模型 尺寸 语言 语料库 词汇 链接1 链接2 SHA256 1.5B参数 中文 约30G 线索(8021代币) e698cc97a7f5f706f84f58bb469d614e 51d3c0ce
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:797696
    • 提供者:weixin_42116805
  1. CLUEDatasetSearch:搜索所有中文NLP数据集,附常用英文NLP数据集-源码

  2. CLUEDatasetSearch 中英文NLP数据集。可以点击。 您可以通过贡献你的力量。上传五个或以上数据集信息并审核通过后,该同学可以作为项目贡献者,并显示出来。 如果数据集有问题,欢迎提出问题。 所有数据集均压缩网络,只做整理供大家提取方便,如果有缺陷等问题,请及时联系我们删除。 内尔 ID 标题 更新日期 数据集提供者 许可 说明 关键字 类别 论文地址 备注 1个 2017年5月 北京极目云健康科技有限公司 数据统计其云医院平台的真实电子病历数据,共计800条(个别病人单次就诊记录)
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:711680
    • 提供者:weixin_42116650