EEC201_Project
团体双声:Begum Kasap,Rishad Raiyan
抽象的
该项目旨在利用梅尔频率倒谱,矢量量化和LGB算法来识别说话者。音频文件经过预处理,以便对其幅度进行归一化并删除所有无声部分。大小为256的汉明窗框用于计算STFT。帧增量设置为256/3。 20个mel滤波器组用于获得20个MFCC系数。使用20个MFCC和16个群集从训练数据集中生成一个密码本。将测试数据集与密码本进行比较,并根据测试数据样本和密码本质心之间的平均失真对说话者进行分类。总共提供了