如何三步搭建一套声纹系统

背景介绍

声纹检索，顾名思义就是说话人识别，通过声音来验证或者识别说话人的声音。声纹识别的关键步骤就是声音向量化，将说话人的声音将其转化成结构化的向量。阿里云AnalyticDB向量版，提供了一套声纹验证检索的解决方案。用户只需要使用简单的几条SQL命令，三步之内就可以搭建一套高精度的声纹检索验证服务。

声纹识别技术

1）声纹检索演示

图1展示了AnalyticDB向量数据库的声纹检索系统的演示界面。为了方便用户体验，我们将380个人的声音信息，转化成向量存储在系统中。当前演示系统分成两部分，第一部分是检索部分，用户输入录制好的声音文件或者用户现场进行录音上传声音文件，提交到声纹库进行声音的匹配检索。第二部分是注册部分，用户可以注册上传自己的声音到当前的声纹库里面，方便后期的查询验证。在接下来的章节中，我们分别介绍各个功能。

图1. 声纹演示系统

图2上传一段S0004的测试音频“BAC009S0004W0486.wav”到声纹库里面进行检索，可以看到TOP1的结果S0004就会在最上面进行展示。

图2. 查询声音

图3展示了声纹注册系统，用户可以注册自己的声音到后台声纹库里面，方便检索。比方说，用户Hanchao注册自己的声音（只有7s长度），到当前的系统里面来。当前系统支持无文本注册，用户可以说任何话来进行注册。

图3. 注册声音

图4演示用户现场录制声音，上传到系统中，进行检索。比方说，“Hanchao”录制了一段5秒的语音到声纹系统中进行检索。之前注册过“Hanchao”的声音，当前系统可以看到排名第一的声音就是“Hanchao”的声音。

图4. 录制并检索声音

当前对于声纹演示，我们采用的是1:N的演示结果，可以用在会议室中的识别，通过声音可以找到相关的会议说话人。当前，对于身份验证，这种1:1的演示，我们只用限制距离小于550，就可以方便的进行身份验证。

2）应用结构总体设计

阿里云声纹库检索的系统框架的总体架构如图5所示，AnalyticDB（声纹库）负责整个声纹检索应用的全部结构化信息（用户注册标识，用户姓名，以及其他的用户信息）和非结构化信息（声音产生的向量）的存储和查询。在查询的过程中，用户通过声纹抽取模型，将声音转成向量，在AnalyticDB中进行查询。系统返还回来相关的用户信息，以及l2向量距离[5]。其中声音抽取模型的训练和测试，我们在下一章进行讲解。

图5. 声纹检索库

3）系统精度

当前演示声纹系统，采用的是GMM-UMB模型抽取的i-vector作为检索向量[3]。另外，我们还训练了精度更高的深度学习声纹识别模型（x-vector[4]）。并且，可以针对特定的场景，比方说电话通话场景，手机APP场景，嘈杂噪声场景等相关的场景进行声纹模型训练，详细信息可以加我们的群进行了解。

声纹识别在学术界常用的数据集（Aishall.v1 [1]数据集和TIMIT [2]数据集）上面的（1:N）的准确率（>99.5%，见表1）。

表1. Top 1 精度测试结果

三步搭建一个声纹系统

第一步，初始化。

当前系统实现了声音转向量的函数，用户将前端得到的声音通过POST请求，发给阿里云服务系统，选择对应的声纹模型，就可以将声音转成对应的向量。

import requestsimport jsonimport numpy as np# sound：声音二进制文件。# model_id：模型id。def get_vector(sound, model_id='i-vector'): url = 'http://47.111.21.183:18089/demo/vdb/v1/retrieve' d = {'resource': sound, 'model_id': model_id} r = requests.post(url,>

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载者并注明出处：https://jmbhsh.com/yule/34309.html

如何三步搭建一套声纹系统

相关推荐

联系我们