您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. python三阶深度学习框架-Real-Time-Voice-Cloning-master.zip

  2. Real-Time Voice Cloning 是“Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis(SV2TTS)”论文的实现,这是一个三阶深度学习框架,允许从几秒钟的音频中创建一个数字化的语音,并使用它来调节训练的“文本转语音”模型,以推广到新的声音。
  3. 所属分类:Python

    • 发布日期:2020-05-18
    • 文件大小:868352
    • 提供者:weixin_38747087
  1. python 语音识别+语音训练+语音切割+语音转换的python +加tensorflow2.0.0+kera2.3.1安装日志

  2. python 语音识别+训练+语音切割+语音转换的python 供大家学习, 基于加tensorflow2.0.0+kera2.3.1 1.顺序是语音转换 2.语音切割成小块 3.语音训练用那小块 4.最后语音识别
  3. 所属分类:深度学习

    • 发布日期:2020-01-22
    • 文件大小:6144
    • 提供者:tuooopc
  1. 基于语音的文件系统搜索工具

  2. 说出文件名字,即可自动查找出文件; 基于语音识别技术或者已有的语音云实现; 实现精确/模糊匹配; 本系统设计核心分为实时 录音、语音识别、文件名数据库、文件检索、用户接口五个模块。使用 Python 调用操作系统(win10)接口,调用硬件设备麦克风进行录音同时设计事件响应机制,满足随时开始录音,随时停止录音,同时保证录音的质 量不受影响。将录音的结果存到磁盘中的指定位置。 两种语音识别模块,一是基于 GMM-HMM 的语音识别模型的训练与使用, 二是使用百度语音识别 API。识别结果传递到文件
  3. 所属分类:编解码

    • 发布日期:2020-08-26
    • 文件大小:6291456
    • 提供者:qq_42255269
  1. Python实现验证码识别

  2. 大致介绍   在python爬虫爬取某些网站的验证码的时候可能会遇到验证码识别的问题,现在的验证码大多分为四类:     1、计算验证码          2、滑块验证码     3、识图验证码     4、语音验证码   这篇博客主要写的就是识图验证码,识别的是简单的验证码,要想让识别率更高,识别的更加准确就需要花很多的精力去训练自己的字体库。   识别验证码通常是这几个步骤:     1、灰度处理     2、二值化     3、去除边框(如果有的话)     4、降噪     5、切割字符
  3. 所属分类:其它

    • 发布日期:2020-12-17
    • 文件大小:232448
    • 提供者:weixin_38552292
  1. python验证码识别教程之灰度处理、二值化、降噪与tesserocr识别

  2. 前言 写爬虫有一个绕不过去的问题就是验证码,现在验证码分类大概有4种: 图像类 滑动类 点击类 语音类 今天先来看看图像类,这类验证码大多是数字、字母的组合,国内也有使用汉字的。在这个基础上增加噪点、干扰线、变形、重叠、不同字体颜色等方法来增加识别难度。 相应的,验证码识别大体可以分为下面几个步骤: 灰度处理 增加对比度(可选) 二值化 降噪 倾斜校正分割字符 建立训练库 识别 由于是实验性质的,文中用到的验证码均为程序生成而不是批量下载真实的网
  3. 所属分类:其它

    • 发布日期:2020-12-25
    • 文件大小:114688
    • 提供者:weixin_38532849
  1. 离线也能使用!各操作系统兼容的pyttsx语音合成库

  2. 要想实现语音合成功能,我们可以选择: 1.各大人工智能平台的API接口 2.python深度学习自己训练模型 3.调用第三方库 本文简述pyttsx3的使用方法及代码实例。 pyttsx3 网上的介绍:pyttsx3 is a text-to-speech conversion library in Python. Unlike alternative libraries, it works offline, and is compatible with both Python 2 and 3.
  3. 所属分类:其它

    • 发布日期:2020-12-21
    • 文件大小:37888
    • 提供者:weixin_38644233
  1. python验证码识别的示例代码

  2. 写爬虫有一个绕不过去的问题就是验证码,现在验证码分类大概有4种: 图像类 滑动类 点击类 语音类 今天先来看看图像类,这类验证码大多是数字、字母的组合,国内也有使用汉字的。在这个基础上增加噪点、干扰线、变形、重叠、不同字体颜色等方法来增加识别难度。 相应的,验证码识别大体可以分为下面几个步骤: 灰度处理 增加对比度(可选) 二值化 降噪 倾斜校正分割字符 建立训练库 识别 由于是实验性质的,文中用到的验证码均为程序生成而不是批量下载真实的网站验证码,
  3. 所属分类:其它

    • 发布日期:2021-01-02
    • 文件大小:108544
    • 提供者:weixin_38600432
  1. BabyBERTa:针对儿童的语音训练和评估BERT-源码

  2. 关于 该存储库包含研究代码,用于测试在以儿童为导向的小型语料库中训练的RoBERTA小模型(来自美国英语儿童的5M个单词)。我们的模型是使用transformers Python包实现的,该包由huggingface维护。 历史 2020年(Spring):BabyBERTa项目源于Cynthia Fisher,Dan Roth,Michael Connor和Yael Gertner领导的BabySRL项目,可找到其发表的作品。对于定制(较小尺寸)版本的BERT的SRL和MLM联合培训没有多大益
  3. 所属分类:其它

    • 发布日期:2021-03-20
    • 文件大小:774144
    • 提供者:weixin_42110469
  1. Lip2Wav:这是包含我们2020年CVPR论文代码的存储库,标题为“学习准确的口语到语音合成的个别说话风格”-源码

  2. 更新:如果您正在寻找Wav2Lip, Lip2Wav 仅通过唇部动作即可产生高质量的语音。该代码是论文的一部分:在CVPR'20上发表的论文,学习个人说话风格以实现准确的语音合成。 | | 最近更新 发布了适用于所有扬声器的数据集和预训练模型! 已发布在LRW数据集上训练的多扬声器单词级Lip2Wav模型的预训练模型! (分支) 强调 在不受限制的情况下,仅通过嘴唇运动即可产生可理解的语音的第一项工作。 问题的序列到序列建模。 提供5个扬声器的数据集,其中包含100多个小时的视频数据!
  3. 所属分类:其它

    • 发布日期:2021-03-20
    • 文件大小:3145728
    • 提供者:weixin_42117150
  1. edgedict:基于RNN Transducer的在线语音识别。 (已发布训练有素的模型)-源码

  2. 使用RNN-Transducer的在线语音识别 使用RNN Transducer(Graves等人,2013年)对文本进行语音转换,并训练了2000多个小时的音频语音数据。 这项工作是与的联合合作 强调 首次展示RNN换能器(RNN-T)在线解码功能的回购 将RNN-T模型移植到ONNX和OpenVINO 针对具有顶点和数据并行的RNN-T的各种语音数据集进行大规模培训 使用此模型,我们可以在2.3GHz双核Intel Core i5处理器上在Youtube Live视频上运行在线语音识别,(比
  3. 所属分类:其它

    • 发布日期:2021-03-19
    • 文件大小:4194304
    • 提供者:weixin_42119989
  1. RobinASR:ROBIN项目中的罗马尼亚语自动语音识别-源码

  2. 罗宾·阿斯 该存储库包含基于架构的罗马尼亚语言的罗宾自动语音识别(RobinASR),以及用于转录的语言模型。 预训练的文本-语音模型可被下载和预训练KenLM能下载。 另外,请确保访问: RELATE平台中可用的ASR系统演示: ://relate.racai.ro/index.php path robin/asr 允许断字和基本大小写还原的后处理Web服务: : 安装 您必须在系统中安装Python 3.6+和PyTorch 1.5.1+。 还。 如果要使用(推荐)GPU版
  3. 所属分类:其它

    • 发布日期:2021-03-16
    • 文件大小:60416
    • 提供者:weixin_42107561
  1. vistec-ser:使用由AIS和VISTEC-DEPA AIResearch Institute泰国赞助的PyTorch进行语音情感识别-源码

  2. Vistec-AIS语音情感识别 语音情感识别模型及基于Pytorch的推理 安装 从皮皮 pip install vistec-ser 从来源 git clone https://github.com/tann9949/vistec-ser.git cd vistec-ser python setup.py install 用法 使用THAI SER数据集进行培训 我们提供了Google合作实验室示例,用于使用我们的存储库训练。 使用提供的脚本进行培训 请注意,当前,此工作流程仅支持预加载的
  3. 所属分类:其它

    • 发布日期:2021-03-12
    • 文件大小:8388608
    • 提供者:weixin_42151599
  1. wenet:生产优先和生产就绪的端到端语音识别工具包-源码

  2. 微网 | | | | 我们一起共享神经网络。 WeNet的主要动机是缩小研究与生产端到端(E2E)语音识别模型之间的差距,减少生产E2E模型的工作量,并探索用于生产的更好的E2E模型。 强调 生产至生产准备就绪:WeNet的python代码符合Torchscr ipt的要求,因此由WeNet训练的模型可以由Torch JIT直接导出,并使用LibTorch进行推理。 研究模型和生产模型之间没有差距。 模型推断既不需要模型转换也不需要其他代码。 流和非流ASR的统一解决方案:WeNet
  3. 所属分类:其它

    • 发布日期:2021-03-11
    • 文件大小:2097152
    • 提供者:weixin_42134051
  1. voxseg:用于语音非语音分段的语音活动检测(VAD)的python库-源码

  2. Voxseg Voxseg是用于语音活动检测(VAD)的Python软件包,用于语音/非语音音频分段。 它提供了完整的VAD流水线,包括一个预训练的VAD模型,并且基于介绍的工作。 该VAD的使用可引述如下: inproceedings{cnnbilstm_vad, title = {A hybrid {CNN-BiLSTM} voice activity detector}, author = {Wilkinson, N. and Niesler, T.}, bo
  3. 所属分类:其它

    • 发布日期:2021-03-10
    • 文件大小:37748736
    • 提供者:weixin_42099633
  1. NLP-with-Python-for-Beginners:NICF的示例代码–适用于初学者的Python自然语言处理(NLP)-源码

  2. NICF –适用于初学者的使用Python的自然语言处理(NLP) 按 这些是用于课程的练习文件。 课程大纲可以在下面找到 主题1 NLP和深度学习概述 NLP概述 NLP的应用 NLP的深度学习方法 递归神经网络(RNN)的基础 为NLP安装Python软件包– Scikit Learn,Tensorflow,NLTK,Spacy,Gensim 主题2词嵌入 词嵌入概述 词嵌入模型 预训练词嵌入模型 主题3语言建模 标记化和停用词 词干和词法化 语音和解析的一部分 命名实体识别(NER)
  3. 所属分类:其它

    • 发布日期:2021-03-05
    • 文件大小:30408704
    • 提供者:weixin_42164931
  1. espresso:Espresso:快速的端到端神经语音识别工具包-源码

  2. 浓咖啡 Espresso是基于深度学习库和流行的神经机器翻译工具的开源,模块化,可扩展的端到端神经自动语音识别(ASR)工具包。 Espresso支持在GPU和计算节点之间进行分布式训练,并具有ASR中常用的各种解码方法,包括基于超前单词的语言模型融合,为此实现了快速,并行的解码器。 我们为以下语音数据集提供最新的培训食谱: 什么是新的: 2020年6月:发布了变压器配方。 2020年4月:现已支持 (使用 )和混合ASR的交叉熵训练。 和分别提供WSJ配方作为示例。 2020年3月:支
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:3145728
    • 提供者:weixin_42116585
  1. onssen:开源语音分离和增强库-源码

  2. ONSSEN:开源语音分离和增强库 Onssen,发音为温泉,是一个基于PyTorch的库,用于语音分离,语音增强或语音样式转换。 发展计划: 提供用于数据,模型和评估的模板类 将模型移到单独的文件夹(即Kaldi样式) 重现分数并上传预训练的模型 在线分离的完成推断方法 2020-04-20更新: 添加深度聚类的评估方法 在深度聚类中使用W_ {MR}权重 小改动 支持机型 深度聚类 奇美拉网 嵌合体++ 相位估算网络 带有恢复层的语音增强 支持的数据集 Wsj0-2mix( )
  3. 所属分类:其它

    • 发布日期:2021-02-21
    • 文件大小:51200
    • 提供者:weixin_42146086
  1. deepfake-detection:Deepfake检测挑战通过面部或语音操作识别视频-源码

  2. 深度检测 演讲视频 资料夹结构 / audio_model_replacements 此文件夹包含python文件,这些文件将替换Dessa的伪音频模型中的文件。 只需将它们放在原始文件所在的目录中。 要下载Dessa的假音频模型,请按照此处的设置说明进行操作: : /笔记本 此目录包含用于预处理数据以及我们创建的模型的所有变体的Python笔记本。 data-extraction.ipynb:此笔记本用于从Kaggle Deepfake检测挑战中提取/预处理数据。 型号:它们几乎完
  3. 所属分类:其它

    • 发布日期:2021-02-15
    • 文件大小:87031808
    • 提供者:weixin_42128537
  1. ASR:语音识别工具包-源码

  2. 不要使用pytorch == 1.4.0 !!!!!! 这是序列到序列的语音识别工具包。 要求 Python> = 3.7.0 PyTorch> = 1.2.0 我们强烈建议您准备 。 安装 对于预处理,我们需要和 pip install -r requirements.txt 预处理 examples/*/preprocess.sh是一个预处理脚本。 在preprocess.sh之后,您可以获取训练数据和测试数据。 火车 python train.py --hp_file
  3. 所属分类:其它

    • 发布日期:2021-02-14
    • 文件大小:912384
    • 提供者:weixin_42168230
  1. DTLN:DTLN实时语音降噪模型的Tensorflow 2.x实现。 借助TF-lite,ONNX和实时音频处理支持-源码

  2. 双信号转换LSTM网络 Tensorflow 2.x实施的堆叠式双信号转换LSTM网络(DTLN)用于实时噪声抑制。 该存储库提供了用于在python中训练,推断和服务DTLN模型的代码。 它还提供了SavedModel,TF-lite和ONNX格式的预训练模型,可用作您自己的项目的基准。 该模型能够在RaspberryPi上运行实时音频。 如果您正在使用此仓库做一些有趣的事情,请告诉我。 我总是对您使用此代码或该模型所做的事情感到好奇。 DTLN模型已提交给深度噪声抑制挑战( ),并在
  3. 所属分类:其它

    • 发布日期:2021-02-05
    • 文件大小:30408704
    • 提供者:weixin_42168555
« 12 3 »