您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. vs2010音频文件MFCC提取程序

  2. 选择一段语音信号.wav,可以计算得到他的MFCC系数,最多13阶,可选择地写入txt文件中。适用于语音识别。
  3. 所属分类:C++

    • 发布日期:2011-06-01
    • 文件大小:5242880
    • 提供者:scholes88
  1. 搭建HTK语音拨号系统所需要的音频特征文件,各种脚本文件

  2. 已经制作好的用于搭建HTK拨号系统的训练语音和测试语音的mfcc文件,还有当中使用的perl脚本,像*.ded,*.scp *.led *.hed 等文件
  3. 所属分类:其它

    • 发布日期:2013-05-30
    • 文件大小:8388608
    • 提供者:hezhourongro
  1. 语音识别系统—汽车发动机类型识别。

  2. 基于MFCC和VQ算法的简单的汽车型号识别系统,直接打开main.m文件运行即可,其他m文件为调用函数。内含测试WAV音频文件。
  3. 所属分类:其它

    • 发布日期:2014-11-07
    • 文件大小:4194304
    • 提供者:dd0082525983
  1. 语音识别系统设计

  2. 基于matlab语音识别系统,包含音频文件,特征提取选取mfcc,基于DTW的识别技术。用于孤立词的识别。
  3. 所属分类:编解码

    • 发布日期:2018-03-21
    • 文件大小:3145728
    • 提供者:weixin_41663335
  1. read_wav.rar

  2. C++读取WAV音频文件音频数据,网上很难找到开源的C或C++的读WAV音频文件的源码,特别是还带将频音数据规范化的函数的源码,此代码是绘音频波形图、MFCC、哼唱识别的基础。
  3. 所属分类:机器学习

    • 发布日期:2020-04-11
    • 文件大小:1024
    • 提供者:hnlgzy119
  1. 采用LSTM方法进行语音情感分析-代码详解

  2. 目录 摘要: 数据集描述: 模型构建 结果分析 结束 相关链接: 摘要: 语音情感分析就是将音频数据通过MFCC(中文名是梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients))加载为特征向量形式,然后将其输入进入LSTM神经网络进行抽取语音特征。最后采用softmax分类函数实现情感标签的分类任务。其下游任务是人机交互智能化的一个关键部分。 数据集描述: 一共四种中文情感的数据集。共200条,数据质量不是很好,不是很长的语音文本,但是从这种4s短时的
  3. 所属分类:其它

    • 发布日期:2020-12-20
    • 文件大小:184320
    • 提供者:weixin_38618024
  1. Speech-Processing-Basic-Concepts:基本概念-源码

  2. 语音处理基本概念 基本概念:发音语音–语音的发展和分类;声学语音学–语音产生的声学;审查数字信号处理概念;语音分析的短时傅立叶变换,滤波器组和LPC方法技术:特征,特征提取和模式比较:对数频谱距离,倒谱距离,加权倒频谱距离和滤波,似然失真,使用翘曲频率标度的频谱失真,LPC,PLP和MFCC系数都是统计和感知语音失真度量。多个时间–对齐路径,动态时间扭曲以及时间对齐和规范化注释 如何使用python将.mp3转换为.wav pip安装pydub 点安装软件-属性-常见 ** pip安装ffm
  3. 所属分类:其它

    • 发布日期:2021-03-22
    • 文件大小:22528
    • 提供者:weixin_42097508
  1. EEC201_Project-源码

  2. EEC201_Project 团体双声:Begum Kasap,Rishad Raiyan 抽象的 该项目旨在利用梅尔频率倒谱,矢量量化和LGB算法来识别说话者。音频文件经过预处理,以便对其幅度进行归一化并删除所有无声部分。大小为256的汉明窗框用于计算STFT。帧增量设置为256/3。 20个mel滤波器组用于获得20个MFCC系数。使用20个MFCC和16个群集从训练数据集中生成一个密码本。将测试数据集与密码本进行比较,并根据测试数据样本和密码本质心之间的平均失真对说话者进行分类。总共提供了
  3. 所属分类:其它

    • 发布日期:2021-03-18
    • 文件大小:4194304
    • 提供者:weixin_42116705
  1. suzerospeech2019:斯泰伦博斯大学ZeroSpeech 2019系统-源码

  2. 斯泰伦博斯大学ZeroSpeech 2019系统 请注意:该代码目前处于非常初步的状态,即,开箱即用将很难使用。 我们希望对其进行清洁,并在不久的将来使它更可用。 概述 旨在回答如何直接从语音音频构建语音处理系统而无任何标签的问题。 它具有理解人类语言习得和为资源极低的语言开发技术的双重动机。 的任务是“没有T的TTS”,即没有文本输入的文本到语音。 这是suzerospeech (斯泰伦博斯大学ZeroSpeech 2019系统)的存储库。 免责声明 这里提供的代码不是很漂亮。 但是我们认为研
  3. 所属分类:其它

    • 发布日期:2021-03-11
    • 文件大小:11534336
    • 提供者:weixin_42166623
  1. TORGO-ASR-源码

  2. 使用TORGO数据集进行语音处理 有关使用Kaldi进行韵律性语音识别和说话者识别的教程。 所使用的数据由多伦多大学免费提供。 说话者由于脑瘫或肌萎缩性侧索硬化症而导致语言障碍。 这项运动的目标 建立用于语音识别的基于kaldi的GMM​​-HMM声学模型。 提高对受损语音的识别精度(数据增强,超参数调整等) 使用GMM-HMM模型中的路线训练DNN-HMM声学模型。 通过i向量执行说话者识别/识别。 栏目 第1部分: 第2部分: 第3部分: GMM-HMM声学模型 DNN-HMM声学
  3. 所属分类:其它

    • 发布日期:2021-03-09
    • 文件大小:112640
    • 提供者:weixin_42107165
  1. dla:音频处理的深度学习-源码

  2. 音频深度学习(DLA) 每周的讲座和研讨会资料位于./week*文件夹中,有关资料和说明,请参阅README.md。 任何技术问题,想法,课程资料中的错误,贡献想法-添加问题 该课程的当前版本于2020年秋季在的进行 教学大纲 数字信号处理简介 讲座:信号,傅立叶变换,频谱图,MFCC等 研讨会:PyTorch简介,DevOps,深度学习研发 自动语音识别I 讲座:指标,注意力,LAS,CTC,BeamSearch 研讨会:Docker,W&B,音频增强 自动语音识别II 演讲:LM融
  3. 所属分类:其它

    • 发布日期:2021-03-08
    • 文件大小:2097152
    • 提供者:weixin_42129970
  1. Music_Genre_mood_Predictor_NN:深度学习项目-使用Keras对音乐文件的流派和心情进行分类(来自免费的声音库),准确而Swift-源码

  2. 播放列表推荐者-预测音频文件的流派和风格 帮助音乐网站准确预测流派和情绪的辅助模型。 如今,一切都与个性化有关,这增加了使用音乐信息检索(MIR)中的深度学习领域进行的研究和完成的工作数量。 音乐的价位和流派在音乐推荐系统中起着重要的作用。 该项目旨在通过使用-CNN,RCNN,CNN-LSTM和CNN-GRU等模型来帮助音乐网站准确识别音频文件的类型和价。 数据与功能 通过从免费音乐档案(FMA)中提取30秒的音乐音频来创建数据集。 它包括“摇滚”,“流行”,“民间”,“乐器”和“电子”五种
  3. 所属分类:其它

    • 发布日期:2021-02-14
    • 文件大小:78848
    • 提供者:weixin_42097208
  1. pyAudioProcessing:音频特征提取和分类-源码

  2. pyAudioProcessing 一个基于Python的库,用于将音频数据处理为特征并构建机器学习模型。 入门 克隆项目并进行设置 git clone gitgithub.com:jsingh811/pyAudioProcessing.git pip install -e . 通过运行获取需求 pip install -r requirements/requirements.txt 选择项 功能选项: 您可以选择mfcc , gfcc或gfcc,mfcc功能从音频文件中提取。 分类器选项:
  3. 所属分类:其它

    • 发布日期:2021-02-13
    • 文件大小:22020096
    • 提供者:weixin_42171208
  1. ivector-xvector:在kaldi下提取xvector和ivector-源码

  2. Kaldi用于ivector和xvector的摘要 文件清单 ivector/ conf/ :为mfcc和vad配置文件 wav/ :测试音频(您也可以使用自己的wav路径,请参阅步骤1 ) 仅支持flac(安装flac),wav和sph(安装sph2pipe) model_3000h/ :预训练模型 enroll.sh :主进程enroll.sh data/ :保存提取的特征(已生成文件) utt2spk, wav.scp通过make_data.py生成两个文件 spk2utt :从
  3. 所属分类:其它

    • 发布日期:2021-02-05
    • 文件大小:563200
    • 提供者:weixin_42134234
  1. aubio:用于音频和音乐分析的库-源码

  2. 奥比奥 aubio是标记音乐和声音的库。 它收听音频信号并尝试检测事件。 例如,敲击鼓时,音符的频率是多少,节奏的旋律是什么节奏。 它的功能包括在每次攻击之前对声音文件进行分段,执行音高检测,敲击节拍并从现场音频中产生Midi流。 aubio提供了几种算法和例程,包括: 几种发作检测方法 不同的音高检测方法 速度跟踪和节拍检测 MFCC(梅尔频率倒谱系数) FFT和相位声码器 上/下采样 数字滤波器(低通,高通等) 频谱滤波 瞬态/稳态分离 声音文件读写访问 音乐应用程序的各种数学实
  3. 所属分类:其它

    • 发布日期:2021-01-31
    • 文件大小:568320
    • 提供者:weixin_42139042
  1. DAT5502021:UIS DataMining项目的最终Master项目存储库-源码

  2. DAT550-2021最终项目 概述 音乐表/制表符生成器 描述: 创建能够“听音乐波形”的神经网络,并生成等效于“ abc”语言的乐谱。 预期成绩: 训练深度神经网络模型,该模型能够以良好的精度提供音乐波形的给定输出 目标: 要将音乐波形转换为abc格式(例如 (不生成abc,但生成音乐表)数据集: 实用程序: 声音字体 演算法 频谱图 MFCC频谱图 。 Python音频库 讲解 二手数据集 默认情况下,使用此数据集浏览数据频率 候选数据集 MIDI文件格式规范 Kag
  3. 所属分类:其它

    • 发布日期:2021-03-30
    • 文件大小:2097152
    • 提供者:weixin_42116791