您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 语音输入法0.21共享版

  2. 语音输入法,不同于之前网上的“语音输入法”和“语音输入王”,也不是IBM的ViaVoice,它是本人独立开发的,具有如下几大功能。 1.可以识别任何年龄层次的男、女声。本软件可以识别任何年龄层次的男、女声。它不但可以用于MSN、QQ聊天,也可用于游戏及Word文档录入,甚至在任何地方都可以打字。 2.提供了自动模式及手动模式两种输入方式功能,适用于不同用户的输入需求。 自动模式:语音打字时不需要按任何键,适用于经过语音训练向导练习且普通话比较标准的用户,这时用嘴对着麦克风讲话,讲话的内容将被直
  3. 所属分类:专业指导

    • 发布日期:2010-04-03
    • 文件大小:792576
    • 提供者:wuwei1971
  1. 语音识别技术 及应用

  2. 语音识别技术近年来得到了飞速的发展并且在越来越多的领域得到了广泛的应用。隐马尔可夫模型 (HMM)语音识别技术是一种基于训练数据提供的概率自动构造识别系统的技术,主要用于大量词汇的语音识别,而 且具有良好的识别性能和抗噪性能。因此,一般的语音识别系统都采用基于HMM的识别方法作为其基本算法。本文 列举了语音识别在教学中的应用示例来分析其基本算法。
  3. 所属分类:其它

    • 发布日期:2011-04-12
    • 文件大小:89088
    • 提供者:peiweifeng
  1. 基于神经网络的数字语音信号识别

  2. 神经网络是一门新兴交叉学科, 始于20世纪40年代,是人类智能研究的重要组成部分,已成为脑科学、神经科学、认知科学、心理学、计算机科学、数学和物理学等共同关注的焦点[1]。神经网络就是指模仿人脑神经网络的结构和某些工作机制建立一种计算模型的处理方法。神经网络作为一种新技术之所以引起人们巨大的兴趣, 并越来越多地用于控制领域, 是因为与传统的控制技术相比,它具有以下重要的特征和性质: ①非线性。神经网络在解决非线性控制问题方面很有希望。这来源于神经网络在理论上可以趋近任何非线性映射,人工神经网络
  3. 所属分类:Java

    • 发布日期:2013-06-03
    • 文件大小:692224
    • 提供者:masher
  1. 语音识别 技术及应用

  2. 语音识别技术近年来得到了飞速的发展并且在越来越多的领域得到了广泛的应用。隐马尔可夫模型 (HMM)语音识别技术是一种基于训练数据提供的概率自动构造识别系统的技术,主要用于大量词汇的语音识别,而 且具有良好的识别性能和抗噪性能。因此,一般的语音识别系统都采用基于HMM的识别方法作为其基本算法。本文 列举了语音识别在教学中的应用示例来分析其基本算法。
  3. 所属分类:其它

    • 发布日期:2009-03-20
    • 文件大小:162816
    • 提供者:joyce0331
  1. 一种改进的语音信号特征参数提取算法

  2. 提出了一种可用于改善说话人识别效果的基于基音周期的可变窗长语音MFCC参数提取方法。基本原理是将原始的语音分解为当前基音周期整数倍长度以内部分及其以外部分,并保留前者舍去后者,以减小训练语音与测试语音的频谱失真。通过文本无关的说话人确认实验,验证了该方法能有效提高说话人确认的识别率,并能提高短时语音的稳定性。
  3. 所属分类:IT管理

    • 发布日期:2018-05-07
    • 文件大小:215040
    • 提供者:weixin_42154827
  1. 中英语音数据库(98个语音文件)

  2. 中英语音数据库(98个语音文件)可用于训练和测试中英的语种识别,语音文件基本都大于8秒
  3. 所属分类:数据库

    • 发布日期:2018-06-23
    • 文件大小:26214400
    • 提供者:qq_41145836
  1. 百度tts下载.txt

  2. 百度的ttl语音,标准语音下载,可用于语音识别,语音训练等,很实用,构建语音库…………,非常好的方式获取标准语音
  3. 所属分类:编解码

    • 发布日期:2020-05-21
    • 文件大小:69
    • 提供者:Mao101101
  1. C#语音图谱绘制,可用于语音训练,里面最后一个模块就是用来画图谱的,训练只需将点的数据提取

  2. C#语音图谱绘制,可用于语音训练,里面最后一个模块就是用来画图谱的,训练只需将点的数据提取出来,再加载wav文件获取点,对比上一次的的点坐标,来判断语音的相似性。语音录制也有相关代码.
  3. 所属分类:深度学习

    • 发布日期:2020-01-28
    • 文件大小:2097152
    • 提供者:tuooopc
  1. 云龙语音输入法 v2013 Build 0806.zip

  2. 云龙语音输入法即嘴巴打字、麦克风输入法。它是一款最简便、最易用的输入法,只要你会说话,它就能打字。软件功能齐全、界面友好、易学易用、可以快速方便的进行语音输入。   云龙语音输入法特色功能: 1.可以识别任何年龄层次的男、女声:本软件可以识别任何年龄层次的男、女声。它不但可以用于MSN、QQ聊天,也可用于游戏及Word文档录入,甚至在任何地方都可以打字。 2.支持自定义组词及本地方言输入:由于中国汉语的同音字太多,我们在使用麦克风进行录入时,可能会打出我们并不想要的同音汉字,这时我们建议
  3. 所属分类:其它

    • 发布日期:2019-07-13
    • 文件大小:4194304
    • 提供者:weixin_39840924
  1. 基于ISD1420的高响度语音电路设计

  2. 本起跑训练装置的语音环节结构简单,成本较低,调整方便,可靠性高,实际使用证明能够满足场地自行车训练要求。通过适当调整,该环节可用于其他场地竞赛训练。同时,该设计也为智能仪器提供较大功率语音信号输出给出了有益的尝试。
  3. 所属分类:其它

    • 发布日期:2020-08-07
    • 文件大小:193536
    • 提供者:weixin_38746818
  1. BabyBERTa:针对儿童的语音训练和评估BERT-源码

  2. 关于 该存储库包含研究代码,用于测试在以儿童为导向的小型语料库中训练的RoBERTA小模型(来自美国英语儿童的5M个单词)。我们的模型是使用transformers Python包实现的,该包由huggingface维护。 历史 2020年(Spring):BabyBERTa项目源于Cynthia Fisher,Dan Roth,Michael Connor和Yael Gertner领导的BabySRL项目,可找到其发表的作品。对于定制(较小尺寸)版本的BERT的SRL和MLM联合培训没有多大益
  3. 所属分类:其它

    • 发布日期:2021-03-20
    • 文件大小:774144
    • 提供者:weixin_42110469
  1. Lip2Wav:这是包含我们2020年CVPR论文代码的存储库,标题为“学习准确的口语到语音合成的个别说话风格”-源码

  2. 更新:如果您正在寻找Wav2Lip, Lip2Wav 仅通过唇部动作即可产生高质量的语音。该代码是论文的一部分:在CVPR'20上发表的论文,学习个人说话风格以实现准确的语音合成。 | | 最近更新 发布了适用于所有扬声器的数据集和预训练模型! 已发布在LRW数据集上训练的多扬声器单词级Lip2Wav模型的预训练模型! (分支) 强调 在不受限制的情况下,仅通过嘴唇运动即可产生可理解的语音的第一项工作。 问题的序列到序列建模。 提供5个扬声器的数据集,其中包含100多个小时的视频数据!
  3. 所属分类:其它

    • 发布日期:2021-03-20
    • 文件大小:3145728
    • 提供者:weixin_42117150
  1. speechbrain:基于PyTorch的语音工具包-源码

  2. SpeechBrain工具包 SpeechBrain是基于PyTorch的开源和多合一语音工具包。 目标是创建一个单一,灵活且用户友好的工具包,可用于轻松开发最新的语音技术,包括语音识别,说话者识别,语音增强,多麦克风信号处理和语音识别系统。很多其他的。 SpeechBrain目前处于测试版。 |||||| | 主要特点 SpeechBrain提供了各种有用的工具来加快和促进语音技术的研究: 与各种预训练模型完美集成 (HuggingFace)在我们的官方。这些模型具有接口,可轻松运行推
  3. 所属分类:其它

    • 发布日期:2021-03-19
    • 文件大小:15728640
    • 提供者:weixin_42131261
  1. RobinASR:ROBIN项目中的罗马尼亚语自动语音识别-源码

  2. 罗宾·阿斯 该存储库包含基于架构的罗马尼亚语言的罗宾自动语音识别(RobinASR),以及用于转录的语言模型。 预训练的文本-语音模型可被下载和预训练KenLM能下载。 另外,请确保访问: RELATE平台中可用的ASR系统演示: ://relate.racai.ro/index.php path robin/asr 允许断字和基本大小写还原的后处理Web服务: : 安装 您必须在系统中安装Python 3.6+和PyTorch 1.5.1+。 还。 如果要使用(推荐)GPU版
  3. 所属分类:其它

    • 发布日期:2021-03-16
    • 文件大小:60416
    • 提供者:weixin_42107561
  1. wenet:生产优先和生产就绪的端到端语音识别工具包-源码

  2. 微网 | | | | 我们一起共享神经网络。 WeNet的主要动机是缩小研究与生产端到端(E2E)语音识别模型之间的差距,减少生产E2E模型的工作量,并探索用于生产的更好的E2E模型。 强调 生产至生产准备就绪:WeNet的python代码符合Torchscr ipt的要求,因此由WeNet训练的模型可以由Torch JIT直接导出,并使用LibTorch进行推理。 研究模型和生产模型之间没有差距。 模型推断既不需要模型转换也不需要其他代码。 流和非流ASR的统一解决方案:WeNet
  3. 所属分类:其它

    • 发布日期:2021-03-11
    • 文件大小:2097152
    • 提供者:weixin_42134051
  1. voxseg:用于语音非语音分段的语音活动检测(VAD)的python库-源码

  2. Voxseg Voxseg是用于语音活动检测(VAD)的Python软件包,用于语音/非语音音频分段。 它提供了完整的VAD流水线,包括一个预训练的VAD模型,并且基于介绍的工作。 该VAD的使用可引述如下: inproceedings{cnnbilstm_vad, title = {A hybrid {CNN-BiLSTM} voice activity detector}, author = {Wilkinson, N. and Niesler, T.}, bo
  3. 所属分类:其它

    • 发布日期:2021-03-10
    • 文件大小:37748736
    • 提供者:weixin_42099633
  1. DenseNet和BiLSTM的有效结合,可用于关键字识别

  2. 关键字识别(KWS)是智能设备上终端和服务机器人的人机交互的主要组成部分,其目的是最大程度地提高检测精度,同时又要减小占用空间。 在本文中,基于DenseNet提取局部特征图的强大功能,我们为KWS提出了一种新的网络体系结构(DenseNet-BiLSTM)。 在我们的DenseNetBiLSTM中,DenseNet主要用于获取局部特征,而BiLSTM用于获取时间序列特征。 通常,DenseNet用于计算机视觉任务,它可能会破坏语音音频的上下文信息。 为了使DenseNet适合KWS,我们提出了
  3. 所属分类:其它

    • 发布日期:2021-03-08
    • 文件大小:393216
    • 提供者:weixin_38699302
  1. DeepXi:Deep Xi:一种在TensorFlow 2Keras中实现的先验SNR估计的深度学习方法。 用于语音增强和强大的ASR-源码

  2. Deep Xi :一种用于语音增强的先验SNR估计的深度学习方法。 新闻 新的训练模型: model目录中提供了受过培训的MHANet。 新期刊论文: 新期刊论文: 新的预印本(正在审核): 该研究的代码可以在以下找到: : 。 内容 介绍 Deep Xi在TensorFlow 2 / Keras中实现,可用于语音增强,噪声估计,掩码估计,以及用作健壮ASR的前端。 (其中希腊字母'xi'或ξ发音为/zaɪ/,是先验SNR的文献中使用的符号)是提出的先验SNR估计的一种深度学习方法。
  3. 所属分类:其它

    • 发布日期:2021-02-06
    • 文件大小:117440512
    • 提供者:weixin_42144554
  1. 多峰语音情感识别:用于语音情感识别和歧义解决的轻量级和可解释的ML模型(在IEMOCAP数据集上进行训练)-源码

  2. 多模式语音情感识别和歧义解决 总览 从语音中识别情感是一项与情感本身含糊不清的定义有关的艰巨任务。 在这项工作中,我们建立了轻量级的多模式机器学习模型,并将其与较重且难以解释的深度学习对应模型进行了比较。 对于这两种类型的模型,我们都使用来自给定音频信号的手工制作的功能。 我们的实验表明,轻量级模型可以与深度学习基准媲美,甚至在某些情况下甚至可以胜过深度学习基准,从而在IEMOCAP数据集上实现了最先进的性能。 获得的手工特征向量用于训练两种类型的模型: 基于ML:逻辑回归,SVM,随机森林
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:1048576
    • 提供者:weixin_42128393
  1. plato-research-dialogue-system:这是柏拉图研究对话系统,这是用于开发对话式AI代理的灵活平台-源码

  2. 柏拉图研究对话系统 这是v0.3.1 柏拉图研究对话系统是一个灵活的框架,可用于在各种环境中创建,训练和评估对话式AI代理。 它支持通过语音,文本或对话的方式进行交互,并且每个对话代理都可以与数据,人类用户或其他对话代理进行交互(在多代理设置中)。 每个代理的每个组件都可以在线或离线进行独立培训,而柏拉图提供了一种简便的方法来封装几乎任何现有模型,只要遵守柏拉图的界面即可。 出版物引用: Alexandros Papangelis,Mahdi Namazifar,Chandra Khatr
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:7340032
    • 提供者:weixin_42121905
« 12 3 »