快鱼电子声纹识别系统

Core Technologies

一、现状

近年来,随着深度学习技术的高速发展,语音方向由传统的信号处理逐步转向了深度神经网络的方法,其中,说话人声纹识别技术也日益进步。

经典的传统声纹识别使用 GMM-Universal Background Mode(GMM-UBM)的方法,通过非目标 数据训练通用模型,引入目标后,使用最大后验概率(MAP)自适应算法将模型进行调 整,生成 i-vector 特征。采用 Probabilistic Linear Discriminant Analysis (PLDA)的方法,对信道进行补偿。

随后,深度神经网络(DNN)的出现,逐渐取代了基于 GMM 的方法。

另一种方法是使用时延神经网络(TDNN)提取的 embeddings 特征,称为 x-vector。其中的 Statistics Pooling Layer,负责将 Frame-level Layer 映射到 Segment-Level Layer

快鱼电子声纹识别系统是快鱼电子自主研发、也集成了使用 GE2E 训练的长短期记忆 人工神经网络(LSTM)作为可选声纹特征提取器之一,提取说话人声纹特征。

可以对说话人进行身份验证的生物识别。可为用户提供离线、在线识别服务。同时支持包括Windows、Android、Ios平台设备的服务。系统的主要技术指标如下表所示:

快鱼声纹识别系统技术指标
注册时间 文本相关:3S
文本无关:10S
验证时间 文本相关:3S
文本无关:10S
准确率 理论测试约可达95%准确率
等错误率 理论测试约<=5%准确率
方言支持 支持
多语种支持 支持
处理速度 10000次/秒
支持平台 Windows、IOS、Android

二、迭代版本

1、基于IVECTOR算法的声纹识别算法

该算法基于微软开源工具,在处理长语音(大于5S)的识别种有较好的效果,识别速度偏慢,计算一次IVECTOR特征大约需要500毫秒

2、基于DEEP-SPEAKER声纹识别的算法

该算法由百度提出,是一种基于端到端的声纹识别算法,骨干网络采用类似于resnet的残差结果,后端采用tirplet loss损失函数,该算法可处理段语音(2S)的声纹识别,等错误率大约为8%,识别速度大约为200毫秒。

3、基于BUT的声纹识别算法

该算法由voxcele竞赛冠军队伍提出,错误率大约为4%,识别速度大约为200毫秒

4、基于NFNET的声纹识别算法

该算法在BUT算法的基础上,该算法等错误率大约为4%,识别速度大约为100毫秒

5、基于EFFICIENTNETV2的声纹识别算法

该算法使用EFFICIENTNETV2作为骨干网络并作出一定的优化,该算法的等错误率大概为3%,识别速度大约为40毫秒。

三、声纹识别流程

四、算法演示

快鱼电子声纹识别系统的核心任务是对说话人进行身份确认。具体可分为两类任务。

1、讲话人身份确认

当一个说话人自称是A用户时,我们需要确认这个人是否就是真的A用户。我们通过可以采集说话人声纹,与声纹库中已保存的说话人A的声纹进行对比,然后给出判定结果。

2、说话人身份检索

对说话人进行身份检索,即找出与已有声纹库中最相似的语音,从而判定该说话人最有可能的身份信息。

©2023 北京快鱼电子股份公司 京ICP备16026144号-2