您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 语音识别系统源码,自动识别预设命令,执行相应的操作

  2. 自动识别预设命令,执行相应的操作,如说你好,就会显示成功的MessageBox,可以自行设置
  3. 所属分类:C#

    • 发布日期:2011-05-22
    • 文件大小:84992
    • 提供者:reseweks
  1. Great-Deep-Learning-Tutorials:大量的深度学习教程和存储库-源码

  2. 深度学习教程 大量的深度学习教程和存储库 通用深度学习教程: [非常棒] [深度学习好教程] [伟大的NLP和深度学习文章] [重要] [很好] [有用] 深度学习对计算机视觉有用的资源: [优秀] 深度学习对自然语言处理(NLP)有用的资源: [优秀] 深度学习模型的量化和提炼: [优秀] [教程] [教程] [教程] 数据科学深度学习: [重要] [良好] [良好] GPU和大型数据集上的Scikit学习算法: 深度学习推荐模型: [很棒] 口语处理(语音处理): [
  3. 所属分类:其它

    • 发布日期:2021-03-22
    • 文件大小:18432
    • 提供者:weixin_42110038
  1. russian_asr-源码

  2. 俄语_asr 这是一个使用Nvidia NeMo工具箱的俄语自动语音识别的大学项目。 用于训练的数据集: Mozzila通用语言,俄语( ) 使用以下配置修改的基本配置在AN4数据集上获得的最佳WER: lr:0.02 重量衰减:0.005 纪元:200 WER:0.1255 = 12.55%
  3. 所属分类:其它

    • 发布日期:2021-03-18
    • 文件大小:34603008
    • 提供者:weixin_42134094
  1. gtn:加权有限状态传感器的自动微分-源码

  2. GTN:使用WFST的自动区分 | 什么是GTN? GTN是使用加权有限状态传感器进行自动微分的框架。 该框架是用C ++编写的,并具有与Python的绑定。 GTN的目标是使学习算法中结构的添加和实验变得更加简单。 此结构被编码为加权自动机,可以是受体(WFSA)或传感器(WFST)。 使用gtn您可以根据对简单图形的操作来动态构建复杂图形。 只需调用gtn.backward自动微分就可以针对任何输入图或中间图给出梯度。 还检出存储库 ,该存储库由GTN应用程序组成,包括手写识别(HWR
  3. 所属分类:其它

    • 发布日期:2021-03-17
    • 文件大小:438272
    • 提供者:weixin_42122988
  1. RobinASR:ROBIN项目中的罗马尼亚语自动语音识别-源码

  2. 罗宾·阿斯 该存储库包含基于架构的罗马尼亚语言的罗宾自动语音识别(RobinASR),以及用于转录的语言模型。 预训练的文本-语音模型可被下载和预训练KenLM能下载。 另外,请确保访问: RELATE平台中可用的ASR系统演示: ://relate.racai.ro/index.php path robin/asr 允许断字和基本大小写还原的后处理Web服务: : 安装 您必须在系统中安装Python 3.6+和PyTorch 1.5.1+。 还。 如果要使用(推荐)GPU版
  3. 所属分类:其它

    • 发布日期:2021-03-16
    • 文件大小:60416
    • 提供者:weixin_42107561
  1. flapi:FLAPI是一种脱机的,容器化的语音识别Websocket API-源码

  2. FLAPI FLAPI是在的之上构建的,完全脱机,容器化,GPU就绪,自动语音识别(ASR)Websocket API。 建造要求 golang SDK> = 1.13.7 运行时要求 Linux主机x86_64(TODO:修复作者的惰性以适当处理随机性) 码头工人 Docker的nvidia运行时(TODO:仅限CPU映像的Dockerfile) ffmpeg 建立形象 # get and update the sources (this repository) go get -u
  3. 所属分类:其它

    • 发布日期:2021-03-09
    • 文件大小:43008
    • 提供者:weixin_42144086
  1. dla:音频处理的深度学习-源码

  2. 音频深度学习(DLA) 每周的讲座和研讨会资料位于./week*文件夹中,有关资料和说明,请参阅README.md。 任何技术问题,想法,课程资料中的错误,贡献想法-添加问题 该课程的当前版本于2020年秋季在的进行 教学大纲 数字信号处理简介 讲座:信号,傅立叶变换,频谱图,MFCC等 研讨会:PyTorch简介,DevOps,深度学习研发 自动语音识别I 讲座:指标,注意力,LAS,CTC,BeamSearch 研讨会:Docker,W&B,音频增强 自动语音识别II 演讲:LM融
  3. 所属分类:其它

    • 发布日期:2021-03-08
    • 文件大小:2097152
    • 提供者:weixin_42129970
  1. BembaSpeech:这是本巴语言的ASR语料库。 它包含本巴文学的朗读演讲。 语料库有14 438项话语,最终经过24小时的演讲-源码

  2. BembaSpeech ASR语料库 介绍 BembaSpeech是基于公开发行的Bemba文学书籍的赞比亚Bemba语言阅读语音的语料库。 其目的是使能够使用本巴语言对自动语音识别(ASR)系统进行培训和测试。 语料库有14 438条话语,最终达到24.5小时的语音数据。 所有信号文件均以16K Hz的采样率从单声道录制以波形音频文件格式(WAVE)进行编码。 结构体 语料库分为三个部分: -大约20个小时的演讲时间 -大约2.5个小时的演讲时间 -测试装置,大约2个小时的演讲时间 这些
  3. 所属分类:其它

    • 发布日期:2021-03-06
    • 文件大小:2147483648
    • 提供者:weixin_42134051
  1. kaldi-active-grammar:具有语法的Python Kaldi语音识别,可以在解码时动态将其设置为activeinactive-源码

  2. 卡尔迪主动语法 具有语法的Python Kaldi语音识别,可以在解码时动态设置有效/无效 开发了Python软件包,以便使用自动语音识别引擎在语音识别框架中实现对计算机应用程序的基于上下文的命令和控制。 [ GitHub与(仅)我的GitHub赞助者捐款相匹配。] 通常,Kaldi解码图是整体的,需要昂贵的前期离线编译,并且在解码期间是静态的。 卡尔迪(Kaldi)的新语法框架允许将多个具有非终结符的独立语法分别编译并在解码时动态地拼接在一起,但是所有语法始终处于活动状态并且能够被识别。
  3. 所属分类:其它

    • 发布日期:2021-02-28
    • 文件大小:195584
    • 提供者:weixin_42152298
  1. asr_labs:202021 ASR实验室代码-源码

  2. asr_labs 信息 此回购包含爱丁堡大学2021年Spring自动语音识别课程的实验室。 这些实验室利用Python,Jupyter笔记本和OpenFST。 实验室将定期上传; 如果您不熟悉git,只需手动下载丢失的文件,否则可能会丢失工作。 为UoE学生设置 有4种主要的方法可以为实验室提供环境并为远程工作设置设置: 使用 使用 使用SSH隧道 在本地运行 1:远程桌面 设置 连接到远程桌面 在远程桌面上打开终端 运行'ssh s123456.lab.inf.ed.ac.uk' 运行
  3. 所属分类:其它

    • 发布日期:2021-02-28
    • 文件大小:1048576
    • 提供者:weixin_42108948
  1. espresso:Espresso:快速的端到端神经语音识别工具包-源码

  2. 浓咖啡 Espresso是基于深度学习库和流行的神经机器翻译工具的开源,模块化,可扩展的端到端神经自动语音识别(ASR)工具包。 Espresso支持在GPU和计算节点之间进行分布式训练,并具有ASR中常用的各种解码方法,包括基于超前单词的语言模型融合,为此实现了快速,并行的解码器。 我们为以下语音数据集提供最新的培训食谱: 什么是新的: 2020年6月:发布了变压器配方。 2020年4月:现已支持 (使用 )和混合ASR的交叉熵训练。 和分别提供WSJ配方作为示例。 2020年3月:支
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:3145728
    • 提供者:weixin_42116585
  1. lucida:基于语音和视觉的智能个人助理-源码

  2. 路西达 Lucida是受启发的基于语音和视觉的智能个人助理。 请访问以获取教程,并访问以获取帮助。 该项目是根据发布的,但某些子模块包含其自己的特定许可信息。 我们很乐意为您提供改善Lucida的帮助,有关更多详细信息,请参见。 概述 lucida :后端服务和命令中心(CMD)。 目前,后端服务分为7类:“ ASR”(自动语音识别),“ IMM”(图像匹配),“ QA”(问题回答),“ CA”(日历事件检索),“ IMC”(图像分类),“ FACE”(面部识别)和“ DIG”(数字识别)。
  3. 所属分类:其它

    • 发布日期:2021-02-22
    • 文件大小:91226112
    • 提供者:weixin_42102401
  1. masr:中文语音识别; 普通话自动语音识别;-源码

  2. MASR中文语音识别 MASR是一个基于端到端的深度神经网络的中文普通话语音识别项目。 原理 MASR使用的是门控卷积神经网络(Gated Convolutional Network),网络结构在Facebook在2016年提出的Wav2letter。但是使用的激活函数不是ReLU HardTanh ,而不是GLU (门控线性单元)。因此根据我的实验,使用GLU的收敛速度比HardTanh要快。如果您想要研究卷积网络用于语音识别的效果,这个项目可以作为一个参考。 以下用字错误率CER来假定模型的
  3. 所属分类:其它

    • 发布日期:2021-02-19
    • 文件大小:66560
    • 提供者:weixin_42104947
  1. 自动语音识别-源码

  2. 自动语音识别
  3. 所属分类:其它

    • 发布日期:2021-02-17
    • 文件大小:84934656
    • 提供者:weixin_42123191
  1. 对话:STT-NLP-TTS堆栈-源码

  2. 在Python中玩STT-NLP-TTS堆栈 STT 使用Vanilla Vosk离线版,这是一种自动语音识别API,它使用Kaldi工具包作为后端并用于模型开发,是用C ++构建的。 链接: : Google,IBM和其他大型企业中有许多在线API。 其他离线选项包括Mozilla的Deepspeech,百度的Deepspeech 2.0,EESEN,纯Kaldi。 到目前为止,最好的葡萄牙语免费离线模型是Vosk。 自然语言处理 使用 TTS 使用 一些灵感来自这里: :
  3. 所属分类:其它

    • 发布日期:2021-02-14
    • 文件大小:2048
    • 提供者:weixin_42144707
  1. 阿斯-源码

  2. 适用于iPhone的荷兰语自动语音识别 通过这个项目,我试图创建一个iPhone应用程序,该应用程序将从头开始对荷兰语进行设备上的语音识别,即不使用任何专门的语音识别库。 该模型的架构主要受启发,并使用编写。 训练数据是从和收集的。 PyTorch模型将使用进行转换。 该项目正在进行中。 训练: 无需双向LSTM,即可编写模型以进行流式推理,且具有先行性 LibriSpeech上的火车(英语) 准备Corpus Gesproken Nederlands,谢谢 在Common Voi
  3. 所属分类:其它

    • 发布日期:2021-02-12
    • 文件大小:1048576
    • 提供者:weixin_42175035
  1. AutonomousMobileRobot:基于ROS1导航堆栈的差动驱动自动移动机器人。 使用Mozilla的DeepSpeech支持离线自动语音识别-源码

  2. VVA自主移动机器人 基于ROS1导航堆栈的差动驱动自主移动机器人。 使用Mozilla的DeepSpeech支持离线自动语音识别。 简短的介绍 这是一款自主移动机器人,能够制作其位置的2D地图并从一个点导航到另一个点,同时避开障碍物。 它使用ROS1(机器人操作系统)。 该存储库中还包含Android客户端和用于控制电机的Arduino微控制器的代码。 图片 注意 该项目仍在开发中 执照 原始BSD许可证,除非在特定文件中另有说明。 Redistribution and use in sou
  3. 所属分类:其它

    • 发布日期:2021-02-09
    • 文件大小:26214400
    • 提供者:weixin_42097508
  1. Automatic_Speech_Recognition:Tensorflow中的英语和英语的端到端自动语音识别-源码

  2. 自动语音识别 在TensorFlow中实现的端到端自动语音识别系统。 最近更新 支持TensorFlow r1.0 (2017-02-24) 动态rnn的支持退出(2017-03-11) 支持在shell文件中运行(2017-03-11) 自动支持每几个培训阶段的评估(2017-03-11) 修复了字符级自动语音识别的错误(2017-03-14) 改进一些可重用的功能API (2017-03-14) 添加缩放以进行数据预处理(2017-03-15) 添加对LibriSpeech培
  3. 所属分类:其它

    • 发布日期:2021-02-05
    • 文件大小:193536
    • 提供者:weixin_42133452
  1. Hey-Jetson:基于深度学习的自动语音识别,关注Nvidia Jetson-源码

  2. 嘿,杰森! 自动语音识别推理 布莱斯·沃克(Brice Walker) 该项目在Keras / Tensorflow中构建了一个可扩展的,基于注意力的语音识别平台,以便在Edge上针对AI的Nvidia Jetson嵌入式计算平台进行推理。 自动语音识别的这种实际应用是受我以前在心理健康领域的职业启发的。 该项目开始了为构建实时治疗干预推断和反馈平台的旅程。 最终目的是构建一个工具,该工具可以为治疗师提供有关其干预效果的实时反馈,但是设备上的语音识别在移动,机器人或其他不希望基于云的深度学习的
  3. 所属分类:其它

    • 发布日期:2021-02-02
    • 文件大小:1073741824
    • 提供者:weixin_42171208
  1. TensorflowASR:集成了Tensorflow 2版本的端到端语音识别模型,并且RTF(实时率)在0.1左右Tensorflow 2中最先进的自动语音识别-源码

  2. TensorflowASR 集成了Tensorflow 2版本的端到端语音识别模型,和RTF(实时率)在0.1左右 目前集成了中文的CTC \ Transducer \ LAS三种结构 当前还在开发阶段 欢迎使用并反馈bug |中文版 梅尔层 参照librosa库,用TF2实现了语音频谱特征提取的层,这样在跨平台部署时会更加容易。 使用: am_data.yml use_mel_layer: True mel_layer_type: Melspectrogram #Spectrogram t
  3. 所属分类:其它

    • 发布日期:2021-01-30
    • 文件大小:1048576
    • 提供者:weixin_42131541
« 12 3 4 5 6 »