您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 2021-GAIIC-Track1-idea:全球人工智能技术创新大赛【赛道一】-源码

  2. 2021-GAIIC-Track1-idea 非常荣幸能够拿到本周周星星,目前线上分数是5折nezha-base模型融合得到,采用pretrian + finetuning,具体细节如下: 预训练 由于数据是脱敏,所以直接从头开始训练bert模型,没有加载已有的预训练模型权重,模型采用的是nezha-base,代码参考; mask方法:采用ngram mask方法,以及动态mask方法,具体可以参考: 预训练代码使用的是tansformers模块自带的,具体可以参考; 预训练参数:lr =
  3. 所属分类:其它

    • 发布日期:2021-03-25
    • 文件大小:1024
    • 提供者:weixin_42131785
  1. VarDial2020:脚本和数据来自“ Ceolin,A.&Zhang,H.(2020)。使用过滤后的字符ngram区分标准的罗马尼亚和摩尔达维亚推文。在第七届NLP相似语言,变种和方言研讨会论文集,265- 272。”-源码

  2. VarDial2020 该文件夹包含Team Phlyers在VarDial 2020上为RDI共享任务开发的资料,并在以下内容中进行了说明: Ceolin,A.&Zhang,H.(2020年)。使用过滤字符ngram区分标准罗马尼亚和摩尔达维亚推文。在关于类似语言,变种和方言的NLP第七次研讨会论文集中,265-272。 该存储库中包含的代码已获得MIT许可。对于从其他来源获取的材料,请参考资源库中包含的链接。 这是文件列表。 数据:此文件夹包含共享任务的训练数据,这些数据在Butnaru和
  3. 所属分类:其它

    • 发布日期:2021-03-21
    • 文件大小:116391936
    • 提供者:weixin_42129005
  1. natural-language-processing:使用BTC和ETH的News API进行NLP探索-源码

  2. 来自加密货币的故事 背景 最近有很多关于加密货币的新闻大肆宣传,因此,我们想总结一下关于比特币和以太坊的最新新闻头条,以便更好地了解每种硬币的当前公众情绪。 在这项作业中,我将运用自然语言处理来了解有关比特币和以太坊的最新新闻中的情绪。我还将应用基本的NLP技术来更好地理解硬币价格所涉及的其他因素,例如文章中提到的常用单词和短语以及组织和实体。 Jupyter Notebook详细说明了以下任务的完成: 1-情绪分析 使用提取有关比特币和以太坊的最新新闻,并为每个硬币创建一个情感分数的Dat
  3. 所属分类:其它

    • 发布日期:2021-03-19
    • 文件大小:562176
    • 提供者:weixin_42097914
  1. DeBERTa:DeBERTa的实施-源码

  2. DeBERTa:注意力分散的增强解码的BERT 这个软件库的正式实施 消息 2/03/2021 DeBERTa v2代码和900M,1.5B现在在这里。这包括用于我们的SuperGLUE单模型提交并达到89.9的1.5B模型,而人类基线为89.8。您可以在我们的找到有关此提交的更多详细信息 v2的新功能 词汇在v2中,我们使用了根据训练数据构建的大小为128K的新词汇。代替GPT2分词器,我们使用词器。 nGiE(nGram诱导输入编码)在v2中,除了第一个转换器层之外,我们还使用了额外
  3. 所属分类:其它

    • 发布日期:2021-03-19
    • 文件大小:92160
    • 提供者:weixin_42170790
  1. ngraminator:一个非常小的ngram生成器-源码

  2. 谈判者 一个用于Node.js和浏览器的非常小的ngram生成器。查看。 引发 Node.js ngraminator = require ( 'ngraminator' ) // ngraminator(wordArray, ngramLenghtArray) available 脚本标签 // ngraminator(wordArray, ngramLenghtArray) available 用法 const str = "mary had a little lamb it's
  3. 所属分类:其它

    • 发布日期:2021-03-18
    • 文件大小:66560
    • 提供者:weixin_42165583
  1. pika:基于Pytorch和(Py)Kaldi的轻量级语音处理工具包-源码

  2. PIKA:基于Pytorch和(Py)Kaldi的轻量级语音处理工具包 PIKA是基于Pytorch和(Py)Kaldi的轻量级语音处理工具包。 第一个版本侧重于端到端语音识别。 我们使用作为深度学习引擎,使用进行数据格式化和特征提取。 主要特点 即时数据扩充和特征提取加载程序 TDNN变压器编码器以及基于卷积和变压器的解码器模型结构 RNNT训练和批量解码 带有外部Ngram FST的RNNT解码(即时记录,aka浅层融合) RNNT最低贝叶斯风险(MBR)培训 用于RNNT的LAS前向和后
  3. 所属分类:其它

    • 发布日期:2021-03-08
    • 文件大小:97280
    • 提供者:weixin_42166105
  1. deque:具有连接功能的纯实时,双端队列-源码

  2. [284ko后记] 由Haim Kaplan和Robert E.Tarjan撰写ACM杂志31:11-16(1999)1709-1723 紧随本文之后,该库提供了双端队列的3种实现,使您可以在最坏情况下的恒定时间内在列表的两端推送,弹出和追加元素: 模块 缺点 不合格 小偷 不客气 附加 转速 第n个 出队 O(1) O(1) O(1) O(1) :prohibited: O(1) O(log min(i,Ni)) 刻画 O(1) O(1) O(1) :prohib
  3. 所属分类:其它

    • 发布日期:2021-03-07
    • 文件大小:45056
    • 提供者:weixin_42100129
  1. ngram-源码

  2. ngram
  3. 所属分类:其它

    • 发布日期:2021-03-06
    • 文件大小:4194304
    • 提供者:weixin_42127020
  1. 传奇故事-源码

  2. 第十二单元—加密货币的故事 背景 最近有很多关于加密货币的新闻大肆宣传,因此,您可以盘点有关比特币和以太坊的最新新闻头条,以便更好地了解每种硬币的当前公众情绪。 在本作业中,您将应用自然语言处理来了解有关比特币和以太坊的最新新闻中的情绪。 您还将应用基本的NLP技术,以更好地理解与硬币价格有关的其他因素,例如文章中提到的常用单词和短语以及组织和实体。 完成以下任务: 档案文件 指示 情绪分析 使用提取有关比特币和以太坊的最新新闻,并为每个硬币创建一个情感分数的数据框。 使用描述性统计信息来
  3. 所属分类:其它

    • 发布日期:2021-02-28
    • 文件大小:7340032
    • 提供者:weixin_42111465
  1. 迅捷预测-源码

  2. 迅捷预测 这是一个ngram模型,用于根据一些历史单词来预测英语文本中的下一个单词。 要全面了解其工作原理,请阅读main.html中的报告。 要查看有效的POC网络应用程序,请访问 所有代码均作为单独的帮助程序功能提供,每个文件一个,如下所述。 建立模型 需要以下功能才能从数据集构建模型: createSample()从输入文本文件中随机选择一些行以创建较小尺寸的样本以进行探索性分析 file2sentences()从文件中读取文本并返回一个quanteda::corpus对象,该对象被拆
  3. 所属分类:其它

    • 发布日期:2021-02-21
    • 文件大小:42991616
    • 提供者:weixin_42168555
  1. 汉语单词向量:100多个汉语单词向量上百种预训练中文词向量-源码

  2. 中文单词向量 该项目提供了100多个中文单词向量(嵌入),它们经过不同的表示(密集和稀疏),上下文特征(单词,ngram,字符等)和语料库训练。 可以轻松获得具有不同属性的预训练向量,并将其用于下游任务。 此外,我们提供了一个中文类比推理数据集CA8和一个评估工具包,供用户评估其词向量的质量。 参考 如果使用这些嵌入和CA8数据集,请引用该论文。 沉力,赵哲,胡仁芬,李文思,刘涛,杜小勇, ,ACL 2018。 InProceedings{P18-2023, author = "L
  3. 所属分类:其它

    • 发布日期:2021-02-19
    • 文件大小:355328
    • 提供者:weixin_42166626
  1. ngrams:根据共享ngram的数量从词汇表中选择单词-源码

  2. 该存储库实现计算n-gram并使用它们匹配单词。 函数计算给定两个单词的所有唯一n-gram(最多给定的最大n),并对两个提供的单词中存在多少个唯一n-gram进行计数。 应用程序文件位于文件夹“ src”中。 除了C ++标准库以外,该应用程序没有外部依赖项。 该应用程序由以下文件组成:ngrams.cpp ngrams.hpp main.cpp 使用以下语法在命令行上运行该应用程序。 program_name --vocabulary vocabulary.txt --words wo
  3. 所属分类:其它

    • 发布日期:2021-02-18
    • 文件大小:9216
    • 提供者:weixin_42166105
  1. 语言检测神经网络-源码

  2. 语言检测神经网络 在数据处理中,我使用了大小为510的向量。前255个索引用于存储1-ngram,其余索引用于存储3-gram。 我假设1克可以帮助识别字母(西里尔语,拉丁语等),而3克可以帮助识别同一字母内的语言。 激活函数SoftMax输出0到1之间的数字,这就是为什么矢量值在该范围内被标准化的原因。 层数的增加导致神经网络“学习”的时间增加。 而且,在最初的两次迭代中下降之后的错误率开始增加。 辍学率提高了准确性,但幅度不大(≈2-5%)。 我为自己得出的结论是,配置网络本身(尝试使用不同
  3. 所属分类:其它

    • 发布日期:2021-02-17
    • 文件大小:9437184
    • 提供者:weixin_42131861
  1. nlp加密-源码

  2. 密码故事 情绪分析 使用newsapi提取关于比特币和以太坊的最新新闻,并为每个硬币创建一个情感分数的数据框。 使用描述性统计信息来回答以下问题: 问:哪种硬币的平均阳性得分最高? 答:与以太坊相比,比特币的平均平均得分更高(比特币为0.0776,以太坊为0.0694)。 问:哪种硬币的综合得分最高? 答:比特币的最高综合得分(0.9231)。 问:哪种硬币的正面得分最高? 答:比特币的最高综合得分(0.326)。 自然语言处理 接下来,查看每个硬币的ngram和单词频率。 通过所有比特币
  3. 所属分类:其它

    • 发布日期:2021-02-15
    • 文件大小:1048576
    • 提供者:weixin_42132598
  1. cadrypt:旨在帮助解决Liber Primus的工具-源码

  2. 卡德利普 一种旨在帮助解决Liber Primus中的页面的工具 当前功能 使用控制台进行基本解决 完整的抄写功能,以及整洁且有用的扩展方法/过滤方法 具有多种视图模式的功能齐全的密码网格(常规,平面,对LP真实,5x5、3x3) 从liber primus以及已解决的页面加载任何页面。 nGram可视化 频率可视化 模式分析 密码统计信息(IoC,nGram比,熵) 突出显示感兴趣的区域(双字母,小单词,双符文字母等) 距离计算器 多得多 路线图 最终,它将成为专为Liber Pr
  3. 所属分类:其它

    • 发布日期:2021-02-14
    • 文件大小:39845888
    • 提供者:weixin_42110070
  1. expgram:expgram:具有简洁存储的ngram工具包-源码

  2. expgram expgram是一个ngram工具包,可以有效处理大型ngram数据: 用于简洁表示ngram数据的简洁数据结构 。 在提到的ngram压缩方法中,出于计算效率的原因,我们不执行逐块压缩(或每8k字节zlib)。 语言模型由提出的MapReduce使用pthread和/或MPI估计。 对于基于机器翻译的基于图表的解码,可以更好地估计剩余成本,从而估计低阶ngram语言模型参数 。 由和有效的前缀/后缀ngram上下文计算激发的类似转换器的界面。 请注意,此工具箱主要是
  3. 所属分类:其它

    • 发布日期:2021-02-14
    • 文件大小:390144
    • 提供者:weixin_42115513
  1. NextWordUp-Capstone-源码

  2. NextWordUp-Capstone 由WritPen撰写 这个项目的作者以前没有做过单词预测。 我通过学习有关如何构造文本,使用ngram计算和探索数据的科学来开始这个项目。 探索性数据分析位于Milestone 1文件中。 然后,作者思考如何最好地构建算法,以及单词之间的关系的理论。 我阅读了有关文本挖掘和预测的资源,包括与文本挖掘和文本预测有关的R包,以及有关构建机器学习模型的研究成果,这些模型映射到人类在构建文本时使用的细微差别。 包括的资源:R包Text2vec- ://c
  3. 所属分类:其它

    • 发布日期:2021-02-14
    • 文件大小:2097152
    • 提供者:weixin_42122878
  1. NLP:在这个项目中,我们将应用自然语言处理来了解有关比特币和以太坊的最新新闻中的情绪。 我们还将应用基本的自然语言处理技术,以更好地理解与硬币价格有关的其他因素,例如文章中提到的常用词和短语以及组织和实体-源码

  2. 在这个项目中,我们将应用自然语言处理来了解有关比特币和以太坊的最新新闻中的情绪。 我们还将应用基本的自然语言处理技术,以更好地理解与硬币价格有关的其他因素,例如文章中提到的常用单词和短语以及组织和实体。 我们将完成情感分析,自然语言处理和命名实体识别。 情绪分析 我们将使用News API,获取关于比特币和以太坊的最新新闻,并为每个硬币创建一个情感分数的DataFrame。 使用描述性统计信息来回答以下问题: 哪种硬币的平均阳性得分最高? 哪枚硬币的负分最高? 哪枚硬币的正面得分最高?
  3. 所属分类:其它

    • 发布日期:2021-02-13
    • 文件大小:5242880
    • 提供者:weixin_42136477
  1. fastai-course2-nlp-源码

  2. 自然语言处理的代码优先入门 您可以在找到有关该课程的,所有 。 该课程最初课程(2019年夏季)中教授的。该课程使用Jupyter Notebooks使用Python进行教学,并使用sklearn,nltk,pytorch和fastai等库。 目录 将涵盖以下主题: 1.什么是NLP? 不断变化的领域 资源资源 工具类 Python库 应用范例 道德问题 2.使用NMF和SVD进行主题建模 停用词,词干和词形化 术语文档矩阵 主题频率-逆文档频率(TF-IDF) 奇异值分解(SVD)
  3. 所属分类:其它

    • 发布日期:2021-02-11
    • 文件大小:15728640
    • 提供者:weixin_42151036
  1. Headline-Scraper-Topic-Analyzer:这两个程序1)抓取新闻来源CNN,Business Insider,Fox和ABC并创建中央数据源,以及2)归一化和定形化数据以通过单词袋模型识别关键主题-源码

  2. 新闻-刮板主题分析器 用例 该代码是MVP原型,用于评估新闻的偏见,首先是刮板,然后是主题分析器。 后来,该代码库用于创建Abridge News偏差意识产品。 当今的许多新闻来源都带有偏见。 您可能会经常看到CNN上显示的某些主题,而Fox News并未涉及这些主题,有时甚至反之亦然。 该工具的目的是快速吸引各种新闻来源全面讨论的关键主题。 这两个程序1)Scraper.py抓取新闻来源CNN,Business Insider,Fox和ABC并创建该时刻新闻的中央数据源; 2)Analyz
  3. 所属分类:其它

    • 发布日期:2021-02-09
    • 文件大小:5120
    • 提供者:weixin_42132354
« 12 »