加入收藏 | 设为首页 |

建党伟业-「2019 年声纹识别研讨与使用学术讨论会」成功举行,18 位特邀嘉宾,60 名企业代表讨论声纹识别技能

海外新闻 时间: 浏览:323 次

AI 科技谈论按,近来,「2019 年声纹辨认研讨与运用学术评论会」在昆山杜克大学学术楼一楼陈述厅举行。本次会议由我国核算机学会和昆山杜克大学联合举行,由昆山市科学技能协会供给支撑,协办方包括昆山杜克大学大数据研讨中心、清华大学媒体大数据认知核算研讨中心和我国核算机学会语音对话与听觉专业作业组。大会主席由昆山杜克大学电子与核算机工程副教授,美国杜克大学电子与核算机工程系客座研讨员、博士生导师,武汉大学人工智能研讨所兼职教授李明和清华大学媒体大数据认知核算研讨中心副研讨员何亮一起担任。

上午 9:00,昆山杜克大学学术事物副校长,美国杜克大学讲席教授高海燕参加了开幕式并进行了开场致辞。

随后,我国核算机学会语音对话及听觉专业组副主任,上海交通大学核算机科学与工程系教授俞凯教师进行了致辞,他给咱们介绍了本次会议的基本状况,感谢各位参会嘉宾的支撑,呼吁语音界团结协作,举行更多的高水平学术活动。

本次会议分为四个环节,第一个环节是关于深度学习的评论,第二个环节是对立学习、说话人日志相关技能的评论,第三个环节的主题是说话人编码,第四个环节的评论内容是联合学习。

第一个环节:深度学习

首要上台陈述的是本次会议主席之一,昆山杜克大学电子与核算机工程副教授,美国杜克大学电子与核算机工程系客座研讨员、博士生导师,武汉大学人工智能研讨所兼职教授李明,他的共享主题是「根据端到端深度学习的说话人和语种辨认」。

江苏农村商业银行

他表明,语音作为言语的声响体现形式,不只包括了言语语义信息,一起也传达了说话人语种,性别,年纪,情感,信道,嗓音,病理,生理,心思等多种丰厚的副言语语音特色信息。以上这些言语语音特色辨认问题从全体来看,其中心都是针对不定时长文本无关的语句层面语音信号的有监督学习问题,只是要辨认的特色标示有不同。

李明介绍了其团队近期在 ICASSP,INTERSEECH 等语音范畴重要国际会议上宣布的作业:(1)提出根据字典池化的编码层代替原有的均匀池化层,作用显着;(2)提出一种结合注意力机制的 CNN-BLSTM 网络结构,能有用地结合 CNN 和 BLSTM 各自的优势,到达更好的体系功能;(3)引进 Center loss 和 Angular Softmax 以学习得到更具辨别性的说话人特征,后端只是运用余弦类似度打分即可得到较好的说话人验证功能;(4)提出在网络学习阶段便引进长度归一化机制,后端只是运用简略的内积即可得到较好的说话人验证功能。

终究,李明总结说,近年来,声纹辨认的研讨趋势正在快速朝着深度学习和端到端方向开展,其中最典型的便是根据语句层面的做法。他以为,在网络结构规划,数据增强,丢失函数规划等方面还有许多作业去做,还有很大的提高空间。

第二个讲演嘉宾是我国科学院声学研讨所研讨员、博士生导师,我国科学院大学岗位教授,英国谢菲尔德大学公派拜访学者张鹏远,他评论的内容是「根据深度学习的短时声纹辨认技能」。

他以为,在实践运用中,因为对根据语音的拜访操控需求的不断添加,提高声纹辨认体系在短时语音状况下的功能变得尤为火急。短时语音中说话人信息缺乏以及注册和测验语音的文本内容不匹配,关于干流的根据核算建模的声纹辨认体系是一个严峻的应战。

为了从短时语音中准确提取表征说话人特性信息的说话人特征向量,他们团队提出了一种双路神经网络,从多个时间规范来对说话人信息进行建模,并交融不一起间规范的特征来进行建模规范的互补,显着提高了短时语音条件下的体系功能。

团队进一步针对说话人低维向量如 i-vector,embedding 等进行了后端建模的研讨,提出了根据差异性学习办法的神经网络来最大化说话人的类间方差,一起最小化类内方差,网络将说话人的低维向量映射到更具说话人差异性的空间,然后使建党伟业-「2019 年声纹识别研讨与使用学术讨论会」成功举行,18 位特邀嘉宾,60 名企业代表讨论声纹识别技能终究得到的低维向量能更好的进行说话人判定。

上午的第三个讲演嘉宾是我国科学技能大学语音及言语信息处理国家工程试验室副教授宋彦。宋彦教师长时间从事人工智能和语音信号智能处理研讨,他的讲演标题是「根据深度学习的说话人辨认办法」。

他说,现在选用的深度说话人辨认办法首要运用神经网络提取前端的帧级特征,然后经过池化映射取得能够表明说话人特性的段级向量,终究选用 LDA/PLDA 等后端建模办法进行衡量核算。

相关于传统的 i-vector 生成进程,根据深度学习的说话人辨认办法优势首要体现在差异性练习和运用多层网络结构对部分多帧声学特征的有用表明上。怎样进一步改善现有的深度说话人学习办法是现阶段的一个研讨热门。

关于这一问题,他介绍了三种办法:结合密布空泛卷积和注意力机制的帧级特征提取办法、根据跨层双线性池化操作的段级特征映射办法和根据深度判别剖析优化方针完成的端到端的说话人辨认办法。

第二个环节:对立学习、说话人日志

首要上台的是西北工业大学核算机学院教授、博士生导师谢磊。他和咱们共享了「深度对立学习在说话人辨认中的运用」有关的内容。

他提及,对立学习在核算机视觉范畴运用十分广泛,在语音范畴也用到的许多,近两年来,和语音相关对立学习研讨的文章数量显着添加。

生成式对立网络 (GAN) 的首要意图是用在数据生成、降噪、等许多场景里边。它还被用在范畴自适应里边,构成一个新的散布。第三个广泛的运用是生成对立样本,这会对分类体系发生大的困扰。许多研讨者用对立样本进犯机器学习的体系,在原始数据上添加一些扰动,生成样本,经过神经网络之后就有或许辨认成彻底不同的成果。这个思维在图画处理范畴十分活泼,会构成过错辨认,引起了自动驾驶,安全等范畴的研讨人员的广泛注重。

在语音范畴,GAN 能够用在语音辨认、口音自适应上,经过多任务学习和梯度回转层来进行口音或信道的自适应,然后加上其他办法能够得到较好的作用。声纹辨认也存在各种不匹配的问题,在声纹辨认上也能够运用这一思维。相同的思维也用在了 TTS 语音组成范畴,意图是把不同的音素解耦成说话人,风格等,去除噪声对建模的影响。

随后,厦门大学副教授,全国人机语音通讯会议(NCMMSC)常设委员,福建省杰出青年基金取得者洪青阳和听众评论了「根据对立多任务学习的抗噪鲁棒说话人辨认」相关的阅历。

洪青阳表明,声纹辨认是比较小众的研讨,对许多人来说是比较生疏的范畴,但随着技能的开展,现在学术界和工业界越来越注重这方面的研讨。最开端研讨用的是前期的英语数据,现在数据处理的难度越来越大,有中文数据、长语音,数据中还或许有短语音、噪声等。

针对噪声环境下说话人辨认体系下降问题,洪青阳团队规划对立多任务建党伟业-「2019 年声纹识别研讨与使用学术讨论会」成功举行,18 位特邀嘉宾,60 名企业代表讨论声纹识别技能网络来提取具有高噪声鲁棒性的说话人特征。该网络结构包括有三个部分:一个编码器(encoder), 一个说话人分类器(speaker classifier)和一个判别器(discriminator)。在练习进程中,编码器和说话人分类器联合练习使 speaker embedding 更具有说话个别与个别之间的差异性,判别器和编码器进行对立练习使得编码器映射得到的 embedding 包括更少的噪声信息。经过这种对立多任务练习,他们能够得到具有噪声鲁棒性的 speaker embedding,试验成果表明,新的 embedding 在不同噪声搅扰的状况下均取得较好的功能提高。

上午终究一个讲演的是我国科学技能大学副教授杜俊,他的讲演标题是「Recent Progress on Speech Enhancement for Speaker Diarization in Realistic Environments」。

他泄漏,他们团队做了一些说话人日志相关的研讨。例如开会的语音,怎样差异每个发言人。现在干流的办法是对数据进行加噪处理,可是他们选用的办法是降噪,加噪后分类的差异度会下降。2018 年,团队在 Github 上开源了一个东西,能够用来降噪。他们的网络和干流神经网络的差异在于中间层的规划不相同。

他提及,语音降噪里边最重要的是信噪比,而深度学习的办法倾向于降噪,由此带来的问题是或许会把语音层度给损坏掉。所以他们规划了一个将信噪比分为多个阶段去学习的网络,分而治之,这样的长处是在每个进程中,在干什么比较明晰。随后他们做了一些测验,在两个数据集进步行了测验,发现他们的办法在增强作用上取得了提高。除了噪声问题之外,语音堆叠是现在最有应战性的问题,许多说话人日志问题都是因为 overlap 的影响没有得到很好的处理。

终究他总结建党伟业-「2019 年声纹识别研讨与使用学术讨论会」成功举行,18 位特邀嘉宾,60 名企业代表讨论声纹识别技能说,能够运用更多的练习数据来增强泛化才能;尤其是在高度不匹配的状况下,用「分层级分阶段」的语音增强办法来处理数据。

他还谈到,他们现在正在做的作业有:充分运用一切的学习方针探究后处理;在去噪架构中参加去混响;检测堆叠语音,别离说话人等。

第三个环节:说话人编码

下午第一个讲演的是清华大学语音言语中心副研讨员,中心常务副主任王东,他讲演的主题是「说话人辨认中的嵌入向量归一化」。

他介绍道,PLDA 和 LDA 的基本思路相同,都用到了 speaker 的信息。LDA 和 PLDA 都能得到很好的作用,尽管 PLDA 包括 LDA,可是 LDA 和 PLDA 加在一起作用会更好,发生这种现象的原因或许是因为归一化的问题。

然后,他又接着讲了 LDA,PLDA 和 PCA 在三种办法的特色,介绍了他们的作业。终究,他总结说,VAE 能够得到更好的 embedding;根据 VAE 的编码在边际上是高斯束缚的;束缚边际能够导致更好的归一化先验;在只要自己或许选用 PLDA 的时分,正规化 embedding 的体现更好等。

下午第二个做陈述的是上海交通大学核算机科学与工程系副教授,博士生导师,上海交大-思必驰联合试验室副主任钱彦旻,他的共享主题是「Recent Ad建党伟业-「2019 年声纹识别研讨与使用学术讨论会」成功举行,18 位特邀嘉宾,60 名企业代表讨论声纹识别技能vances in Deep Embedding Lea建党伟业-「2019 年声纹识别研讨与使用学术讨论会」成功举行,18 位特邀嘉宾,60 名企业代表讨论声纹识别技能rning for Speaker Identification and Spoofing Detection」。

他表明,说话人辨认和诈骗检测近年来遭到学术界和业界的广泛注重,人们期望在实践运用中规划出高功能的体系。根据深度学习的办法在该范畴得到了广泛的运用,在说话人辨认和反诈骗方面取得了新的里程碑。

可是,在实在杂乱的场景下,面临短语音、噪声的损坏、信道失配、大规模等困难,开发一个鲁棒的体系仍然是十分困难的。深度嵌入学习是进行说话人辨认和反诈骗的一个重要途径,在这方面已有一些闻名的研讨成果。如之前的 d-vector 特征和当时遍及运用的的 x-vector 特征。

他说,从 2013 年到现在,他们团队宣布了 20 多篇说话人辨认和反诈骗方面的论文,这些文章大部分是关于说话人辨认的。随后,他介绍了他们的一些论文。他们的第一个作业,是 speaker embedding 的数据增强,第二个作业是 speaker embedding 的后处理。现在存在的问题的较大的模型体现很好可是需求的核算资源大,较小的模型需求的资源少可是作用太差。改善的办法是构建功能杰出的小型说话人辨认嵌入模型。

第三个环节以西北工业大学教授,博士生导师张晓雷的讲演作为完毕。

张晓雷表明,传统声纹辨认算法一般首要优化署理丢失函数,例如分类过错率,然后运用 DET 曲线或 EER 作为点评方针,这构成了优化方针和点评方针之间的不匹配。

随后,他介绍了两种直接优化点评方针的衡量学习后端算法。第一种算法在余弦类似度结构下最小化 EER,第二种算法在马氏间隔类似衡量结构下最大化部分 ROC 曲线下面积(pAUC);这两种后端算法都可作为深度神经网络的优化方针。

根据余弦类似衡量的办法存在部分最优化的问题,需求供给好的初始点。在优化丢失衡量的时分,高斯散布之间的方差也会变大,需求让这个方差在可控的范围内。这个算法的缺点是,对参数的调理比较灵敏,构成这个现象的原因是,其优化方针对错凸的。

为了处理这三个问题,他们团队提出了根据马氏间隔类似衡量结构。(1) 优化方针 pAUC 是声纹辨认的大局点评方针,AUC 是 pAUC 的特例; (2) 根据马氏间隔,所结构的方针函数是凸函数。该办法有许多长处,能够经过参数设定,轻松的选择难分的样本对; 也能够灵敏与不同前端结合,如 i-vector / x-vector; 还能够很简单推行到 End-to-End 的结构下。

第四个环节:联合学习

首要上台的是清华大学媒体大数据认知核算研讨中心,副研讨员何亮。

他通知咱们,语音是日常日子中简练高效的天然交流办法,承载了很多信息。干流研讨常从单一视点切入,忽视不同特色间彼此影响。从语音发生机制来看,语音的多维特色是紧耦合的;从听感知理论来看,语音的多维特色信息是一起感知,彼此存进。

根据上面的认知,他们团队进行联合辨认研讨,运用贝叶斯公式将方针问题转化为数学表述,推导五种联合辨认办法,探究证明网络结构、优化战略和迭代收敛性等。根据前期的 I-vector 和潜在类别模型等研讨根底,他和咱们评论了如下作业:

他以为,未来有 3 个技能方向能够进行深入研讨,一是沿着深度神经网络的主线,运用对立生成、端到端、网络结构,价值函数等技能对体系功能进一步提高;二是和语音组成相结合的联合学习以及对立辨认;三是和语音辨认结合的联合学习。

随后讲演的是清华大学电子系教授欧智坚,他的陈述标题是「简练的说话人辨认及语音辨认」。

他给咱们共享了他们团队 3 个方面的作业:

1)引进 Joint Bayesian 辨别剖析代替现在干流的 PLDA(Probabilistic Linear Discriminant Analysis),不需求指定子空间的维数且提高了说话人辨认的功能。

2)引进 Angular Softmax Loss 到说话人验证,不需求 Triplet 数据选择,更简单运用且练习安稳,取得了平等试验条件下优异辨认功能,对类别空间为开集的模式辨认研讨具有指导意义。

3)提出运用神经时序分类(CTC)状况拓扑的条件随机场(CRF)办法,简称 CTC-CRF。在 WSJ、Switchboard、Librispeech 三个常用基准数据集上,CTC-CRF 的功能体现均超越了规范 CTC 模型、根据注意力的模型以及现在广为盛行的 Kaldi 东西包中的端对端模型(End-to-end Chain-model),一起具有练习流程简练、能充分运用词典及言语模型然后数据运用功率高级优势,展示出巨大潜力。

终究,我国科学技能大学电子工程与信息科学系副教授郭武、清华大学电子工程系教师张卫强做了主题为「杂乱环境下语音数据的说话人辨认及要害词检索初探」的陈述。

他们以为,说话人辨认和要害词检索现在有 3 个瓶颈问题还没有很好地处理:(1)数据来历广泛,很多语音数据不再是安静环境或协作办法下收集,这使得声学条件十分杂乱,传统的特征提取与表征办法遭到应战;(2)多种语种稠浊,数据中含有多种语种/方言/口音的数据混合或切换,这使得单一语种要害词检索体系的无法凑效,说话人辨认体系的功能显着下降;(3)有用资源稀缺,关于小语种或方言,标示数据极端有限,发音字典难以获取,而且遍及短少专家常识,这使得传统的依托很多资源的建模办法底子无法运用,有必要探究新的范式。

针对以上问题,他们两个课题组联合做了一系列的攻关。针对说话人辨认,他们从两方面进行了改善。(1)他们针对传统的 TDNN 或许 CNN 对语音特征层的编码信息提取缺乏的问题,提出选用门控的 CNN(GCNN)来对语音特征层进行编码提取说话人底层信息;进一步,他们将门控的信息引进到注意力机制中,然后能够确保最有说话人差异性的信息用来构成表达说话人的 x-vector。(2)得分规整可有用调整说话人测验得分散布,使得分散布挨近正态散布,然后提高全体判定的准确率。在测验集与练习集或许开发集不匹配的状况下,怎样从很多不匹配的数据中选择得分得到规整参数是确保体系功能的要害。他们运用无监督聚类手法对这些得分进行聚类,选用混合高斯模型来拟合得分散布,只选择均值最大的一个高斯单元来作为得分规整的参数并将其运用于说话人的得分规整。

针对要害词检索,他们首要针对低资源场景进行研讨。(1)关于有几十小时练习数据的状况,他们分别对特征序列和文本序列进行 embedding,然后进行端到端的建模,能够脱节对语音辨认体系的依靠。(2)关于有若干样例的状况,咱们选用要害词-填充词的思路,为每个要害词树立模型和查找途径,能够进行语种无关的要害词检索。(3)关于仅有一个样例的,咱们先用神经网络提取适宜的特征表明,然后进行模板匹配,能够进行「零资源」要害词检索。

在这四个讲演环节完毕后,企业嘉宾上台与学术界教师们一起评论了声纹辨认技能现在的开展现状,未来或许的开展趋势以及自己的学习阅历等等。终究,嘉宾们评论了下次会议相关事宜。

至此,本次会议圆满完毕。

本次会议参与的校外听众超越 130 人,特邀讲演嘉宾 18 人,参会高校教师 15 人,参会企业代表 60 人,参会研讨生 36 人,在线观看直播的人数也到达了几千人。在每个环节中,听众们的评论都十分剧烈,同学们的发问反常积极,嘉宾们学识渊博,诲人不倦地回答相关技能问题,参与的听众都收获颇丰。信任下一年的学术研讨会一定会愈加精彩,等待!

声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间服务。