国产 视频

你的位置:父女做爱视频 > 国产 视频 > 萝莉 后入 维度语音情感识别研究综述


萝莉 后入 维度语音情感识别研究综述

发布日期:2024-09-01 09:42    点击次数:78

萝莉 后入 维度语音情感识别研究综述

情感是东谈主类智能的要紧组成部分, 使筹备机领多情感、像东谈主一样识别和抒发情感, 仍是一个亟须搞定的问题.Picard建议了情感筹备的见解, 开辟了筹备机科学的新领域.现在, 情感识别的研究主要荟萃在语音情感识别、基于东谈主脸的情感识别、文本情感识别、肢体行为情感识别.语音是东谈主类交流情感和念念想的最天然、最有用的方式之一[1], 是东谈主类糊口和社会行为极其要紧的信息传递和情感抒发交流的方式.语音是东谈主的发音器官发出的具有一定社会意旨的声息, 是表示语言的声息记号, 不仅承载了语义信息, 而且包含与情感干系的声学信息, 如音高、响度、韵律、音色等[2].语音的情感信息包含在声学参数随时期的变化中, 如基频、能量、频谱、语调变化等[3-5].与基于东谈主脸的情感识别比较, 语音书号具或然序性, 承载丰富的高下文信息.与文本比较, 语音不错通过声学属性蜕变情感强度.肢体行为情感交互触及较多的心理学领域, 抒发情感时存在较大的迷糊不细则性, 在特征索求与情感分类方面仍面对较大繁难萝莉 后入, 应用较少.

语音情感识别研究已有30余年的历史, 诱骗了世界范围内的研究单元、学者们的要点研究.如好意思国MIT多媒体实验室以Picard拔擢率领的情感筹备研究组(https://affect.media.mit.edu/), 研究标的包括多维信号建模、筹备机视觉及模式识别、机器学习、东谈主机交互和情感筹备等.Picard的《Affective Computing》创举了筹备机科学和东谈主工智能学科的新分支——“情感筹备”; 德国奥格斯堡大学Björn Schuller团队永恒用功于东谈主工智能、音频识别、情感筹备、机器学习的干系算法和研究领域, 其开发的OpenSMILE情感特征索求用具被等闲应用; 微软Microsoft研究院研究员愚弄CNN、RNN、LSTM等多种深度学习方法检测语音书号中的情感信息; 南加州大学Jonathan Gratch拔擢的研究标的主要包括诬捏机器东谈主以及情感筹备模子, 以及研究领悟与情感的关系, SAIL(signal analysis and interpretation laboratory)实验室研究以东谈主类交流为核心的信号及信息处理时期, 包括行为信号处理、情感筹备、多模态信号处理、筹备多媒体智能、筹备语音科学等; 卡内基梅隆大学的东谈主机交互研究(https://hcii.cmu.edu/research/audio-emotion-recognition)将建议的两阶段分层语音情感识别方法(two-stage hierarchical classification approach)应用于中风康复治疗诬捏锻练中, 建议患者是否该休息、是否进行不同的考验; Virginia Affective Neuroscience Laboratory研究想象情感的神经科学机制研究、行为学研究、情感健康研究, 旨在为东谈主类情感研究提供基础的表面研究, 愚弄EEG脑电图分析、fMRI成像时期研究东谈主类大脑对情感的处理机制, 为鼓励情感识别、情感筹备等的发展提供领悟表面维持及指导.瑞士情感中心(Swiss Center for Affective Sciences)是一个跨学科研究中心, 研究要点为情感或情感科学, 触及领悟神经科学、心理学、语言学、情感筹备领域.除此以外, 日本北陆先端科学时期大学院大学、新加坡南洋理工大学、新加坡国立大学、新加坡资讯通讯研究院、爱尔兰王人柏林圣三一学院、英国格拉斯哥大学、德国帕绍大学、加拿大滑铁卢大学、好意思国得克萨斯州大学等海外繁多院校或机构用功于情感智聪颖系领域的研究.

国内也有越来越多的科研单元加入该领域的研究, 如中科院自动化研究所主要研究听觉模式的分析和领悟, 包括情感交互时期等; 清华大学多年从事语音书号处理方面的研究, 开发的“汉语文语弯曲系统Sonic”在文分内析、韵律模子、合谚语音的天然度方面有要紧冲破; 东南大学从事语音书号处理、情感信息处理等研究, 在汉语集结语音韵律特征、F0的生成模子、声调停理、语音书号中的情感信息处理等方面取得了一些有价值的研究效果; 天津大学在语音识别、对话、言语领悟脑机理、言语领悟、情感筹备等领域的研究效果也均处于最初地位; 哈尔滨工业大学在语音情感识别、情感大脑领悟领域进行潜入研究等; 浙江大学与阿里巴巴开发前沿时期搭伙研究中心, 在东谈主工智能、情感筹备及跨媒体分析等领域取得很好效果, 并搭伙发布“懂情感”东谈主工智能系统Aliwood, 不错为视频所配音乐开发情感模子.除此以外, 北京邮电大学、电子科技大学、大连理工大学、华南理工大学、中国科学时期大学、山东大学、西北大学、南京邮电大学、太旨趣工大学等王人在语音情感识别或多模态情感识别领域作念出要紧孝敬.

近几年来, 跟着研究者对东谈主工智能领域的心情, 越来越多的会议与竞赛也进一步鼓励了情感识别研究的发展.语音识别领域顶会INTERSPEECH和ICASSP每年王人有语音情感识别的议题, 2016年举办了第6届音/视频情感大赛(Audio/visual Emotion Challenge and Workshop, 简称AVEC 2016)[6], 2017年召开第1届海外情感筹备与情感识别大会(1st Int’l Workshop on Affective Computing and Emotion Recognition, 简称ACER 2017), 会议议题涵盖了情感筹备的方方面面.2018年, ACM多模态交互海外会议(ACM Int’l Conf. on Multimodal Interaction, 简称ICMI)中的Emotion Recognition in the Wild(EmotiW)竞赛[7]包括音视频情感识别子任务.国内也召开了该领域干系会议, 2016年, 天下模式识别学术会议的特别议题即为第1届多模态情感识别竞赛(MEC 2016)[8], 该竞赛包括音频情感识别、情态识别和音视频会通的情感识别这3个子任务, 选用CHEAVD(CASIA Chinese emotional audio-visual database)动作数据库, 国表里共43个团队参加, 爱奇艺媒体智能组通过挪动学习的方法, 在8类音频情感识别任务中取得最高识别率44.22%.会议针对情感语料库开发、情感识别方法及应用伸开潜入参谋, 促进了通盘这个词领域的发展.2017年开展了第2届多模态情感识别竞赛(MEC2017)[9], 主义是提高确实环境下的情感识别性能, 数据库选择CHEAVD的膨胀版2.0, 促进了汉语多模态情感识别的研究.2018年5月, 首届亚洲情感筹备学术会议(ACII Asia 2018)在中国科学院自动化研究所召开, 围绕情感筹备与智能交互进行探讨:情感领悟、情感识别与生成、情感交互界面与系统、情感抒发评价、情感对话系统、情感代理与机器东谈主等, 是首个聚焦跨学科情感筹备的亚洲论坛.

2018年, 中国科协发布了12个领域60个要紧科学问题和工程时期难题, 其中, 信息科技领域的“东谈主与机器的情感交互”位列其中, “冷凌弃感不智能”已成为繁多研究者的共鸣.何如赋予机器东谈主“情商”, 使其具多情感处理才调, 就成为办事机器东谈主领域面前亟待冲破的标的.现在, 好意思国、日本、德国、中国等纷繁开展了情感机器东谈主的研究, 而识别情感则是杀青情感交互的第一步.

语音情感识别的研究触及诸多学科, 举例神经科学、心理学、领悟科学、筹备机科学等.情感表面是研究语音情感识别的基础, 东谈主类情感极其复杂, 心理学领域已产生众厚情感表面来解释东谈主类情感[10, 11].现在, 基于语音的情感识别时期常用的情感表面模子有两种.

●  一种是错乱情感模子, 界说几种“基本情感”, 其他情感由“基本情感”不同进程修改和组合[12].该模子天然简单但对情感的描写才调有限, 很难准确地描写自愿情感.

●  另一种是维度情感模子把情感看作是徐徐的、平滑的鼎新, 不同的情感不错映射到高维空间上的一丝[13].频年来, 该领域的研究也彰着地呈现出由错乱情感模子发展到维度情感模子的总体趋势[14-16].

本文将起原从情感的心理学研究基础伸开, 先容情感的评估表面与维度情感模子; 在语音情感的领悟学研究阐述方面, 将综述包括语音情感的大脑处理机制、情感筹备模子以及脑启发的情感识别算法; 在语音书号分析方面, 将提神先容语音维度情感识别时期, 包括语音音频信号预处理方法、特征索求方法以及情感预测算法、语音情感识别时期杀青所需要用到的算法杀青用具.终末分析了该领域存在的问题, 并建议今后研究的关键问题(如图 1所示).

Fig. 1 Survey framework of speech dimensional emotion recognition 图 1 语音维度情感识别研究综述框架 1 情感的心理学研究基础 1.1 基本情感表面

基本情感表面以为, 情感具有原型模式, 即存在数种基本情感类型.该表面将情感分为基本情感(basic/ primary/fundamental emotions)和次级情感(non-basic/secondary emotions).

●  基本情感固化在东谈主类神经自主系统之中, 每类基本情感对应一个特有的、特意的神经通路, 能以特定的方式鼓励对他东谈主和情境作念出反应, 如语言声调、面部情态、体魄姿态等.

●  次级情感是根据情感的调色板表面[17], 由基本情感羼杂而成.这些情感的抒发方式具有跨文化互异, 其抒发方式由社会化历程所决定.Izard把次级情感分为3类:第1类是由2~3种基本情感羼杂组成; 第2类是基本情感与内驱力的羼杂; 第3类为基本心情与领悟的组合.

基本情感的界说时时愚弄情感评估模子.情感是在比较个东谈主需求与外部要求历程中诱发的, 响应个东谈主与环境的关系, 可按照一套法度来描写或评估, 这套法度叫作念评估变量(举例likelihood, desirability, unexpectedness, controllability, urgency, future expectancy)、查验项或评价维度.

1) Scherer因素处理模子

1984年, 日内瓦的瑞士情感科学研究中心的心理学拔擢Scherer建议情感因素处理模子(component process model)[18], 将情感界说为产生领悟行为(cognitive component)、调控历程(peripheral efference component)、行为动机(motivational component)、行为抒发(motor expression component)以及个情面感情状(subjective feeling component)的历程.情感抒发是情感历程的因素抒发, 通过评价闭幕进行模式化.Scherer[19]在后续研究中指出:当东谈主类战斗到事件后, 会产生浅薄、原始的动机趋力, 可通过含义评估(implication appraisal)磨砺事件的缘故与可能带来的影响; 通过应酬评估(coping appraisal)磨砺我方适度该事件的才调有若干, 或是当无法适度它时, 有若干调整的空间; 与通过法度显赫度评价(normative significance appraisal)评估上述处理闭幕与自我谈德范例法度或社会谈德范例法度之间的一致性, 对该动机趋力进行评估与调整.

2) OCC情感模子

在评估表面中最有影响力的是1990年Ortony, Clore和Collins建议的OCC模子[20].OCC情感模子是早期对东谈主类情感研究建议的最完满的错乱领悟情感论模子之一, 亦然第一个以筹备机杀青为目的发展起来的模子. OCC模子界说了22类基本情感种类的酿成公法以及3个层级(事件events、智能体agents、主义object), 通过以下5个风光杀青从最初事件的分类到产生个性行为的完满系统:1)对事件、行为或主义进行分类; 2)量化受到影响的情感的强度; 3)新产生情感与已存在情感的互相作用; 4)将情感情状映射到某种情感抒发; 5)对情感情状进行抒发.

3) Roseman评价表面

1996年, 好意思国罗格斯大学心理学拔擢Roseman[21]建议了具体的事件评价因素和实施筹备的框架结构, 通过它们的互相作用来推断所合成的情感.评价因素分为不测、动机、情境、可能性、适度度、事件激发原因及问题类型, 其中, 动机与适度度是评估情感的最要紧两个因素, 如:当情境与主体的主义不一致时, 常诱发萎靡情感, 举例不满或者后悔.他根据这7种评价因素给出17种基本心情, 其中, 积极情感(动机一致)包括但愿、快乐、抚慰、心爱、自爱; 萎靡情感包括不满、轻篾、怯生生、悲伤、悲痛、厌恶、波折、缺憾、内疚、汗下; 某些情感, 如逸想、骇怪, 可根据事件激发原因决定积极情感或萎靡情感.Roseman所建议的基于事件评价的情感模子, 酿成了一个较为完善的表面体系.

现在, 研究者们对基本情感尚未达成共鸣, 大部分不雅点以为存在6种基本情感:怯生生、快乐、盛怒、厌恶、悲伤和齰舌, Ortony和Turner将这些不雅点整理见表 1[12].

Table 1 Basic emotion theories[12] 表 1 基本情感表面[12]

基本情感表面借助情感评估模子, 以不同的方式解释情感是何如产生以及演变的, 社会心理学研究者愚弄这种表面解释和预测东谈主对事件的反应机制以及心情模式.评估模子主要用于情感建模与合成, 如文献[22, 23]愚弄OCC模子合成情感, 且在机器情面感研究中等闲应用, 想象不同个性的情感机器东谈主[24-26].评估模子基于错乱情感描写模子, 可抒发的情感类别有限, 且有些情感类别至极相似, 以至于环境很难触发这些情感[27].

1.2 维度情感模子(dimensional emotion model)

任何情感发生时, 在某一属性或特性上不错有不同的幅值.情感维度即是对情感某种属性的度量, 维度具有极性.情感维度表面以为:情感情状不是寥寂存在的, 多个维度组成了东谈主类情感空间, 不轸恤感之间是平滑过渡的, 愚弄维度空间中的距离不错表示不轸恤感的互异度与相似度.迄今为止, 研究者建议的维度辨别方法多种各类, 并莫得搭伙的法度评测哪种维度辨别方法更好.典型的维度表面包括:

1. Wundt的情感三度说

Wundt在1863年建议情感的维度表面[28], 以为情感由愉悦(pleasure)-不愉悦(displeasure)、清脆(excitement)-坦然(inhibition)和弥留(tension)-冒失(relaxation)这3个维度组成, 每一种特定心扉王人是这3个维度以不同方式的特有组合.在一个特定的时期里, 作用于解析的心扉总数被称之为总体心扉(total feeling).它是同期存在的不同性质的器官感受的总数, 它们联结起来, 酿成一个具有细则性质和强度的心扉特征的组合体.从心扉与不雅念的关系来看, 心扉不错看作是奉陪不雅念酿成的一种历程, 某一时刻的情感在三维情感空间中表示为一个寥寂的点, 当对具体事件作出反适时, 情感不错表示成一条轨迹, 一般情况下, 轨迹的肇始和要点王人位于原点(如图 2所示).

Fig. 2 Three principal axes of Wundt's emotion space[28] 图 2 Wundt表面中的情感轨迹[28]

2. Schlosberg倒圆锥三维情感空间

Schlosberg[29]对Wundt表面中的清脆-坦然维度进行了进一步研究, 建议了激活度的见解, 并通过对面部情态的情感分类研究, 建议了由愉悦度、难得度、激流水平这3个维度组成的倒立圆锥形情感空间模子, 圆锥切面的长轴代表了情感的愉悦度变化, 短轴代表了情感的难得度变化, 垂直于椭圆面的轴表示激活度强度变化(如图 3所示).Schlosberg建议, 与愉悦情感比较, 不愉悦的情感具有更高的激活度.

Fig. 3 Schlosberg's three dimensional emotion model[29] 图 3 Schlosberg建议的三维情感模子[29]

3. PAD情感空间模子

Russell & Mehrabian[30]于1977年愚弄记忆分析的方法研究盛怒(anger)和暴躁(anxiety)情感, 发现盛怒和暴躁王人具有高激活度和低愉悦度, 但两者的上风采(dominance)彰着不同:盛怒具有适度倾向, 暴躁具有效能倾向.联结先前的研究, 他们建议了PAD维度模子.该模子简单且相对完善, 通过SAM(self assessment manikin)量表, 不错快速测定个体的情感情状, 因此被东谈主工智能领域等闲招供.PAD模子由3个维度组成.

1)   P代情态感的愉悦度维度(pleasure-displeasure):表征心情情状的正负性, 已通过脑成像研究说明了愉悦度维度.

2)   A代情态感的叫醒度/激活度维度(arousal-nonarousal):表示心情生理激流水暖和警醒性.

3)   D代情态感的上风采维度(dominance-submissiveness):该维度响应在相对动机的比较中, 表示心情对他东谈主和外界环境的适度力和影响力.

4. Plutchik抛物锥情感空间模子

Robert Plutchik于1984年建议8种基本的“南北极”情感:快乐-悲伤、盛怒-怯生生、厌恶-信任、齰舌-盼望[31].雷同于三维情态抒发空间, 愚弄强度、相似性和南北极性这3个维度来描写心情模子, 基本情感不错抒发为不同的强度, 基本心情互相羼杂演化出次级情感.Plutchik选择倒锥体来描写心情3个维度之间的关系.上述8种基本心情组成了椎体的截面(如图 4所示), 相邻位置的心情相似, 对角位置的心情对立, 锥体从下到上标明心情强度由弱到强.该模子的优点在于显明地界定心情, 并将心情的相似性与对立性很形象地抒发.Plutchik的情感结构表面与Schlosberg的情感模子相似, 王人将激活度与情态强度进行对比, 但Schlosberg建议的锥形情感空间未建议基本情感, 而是从表面上推导出3个维度.

Fig. 4 Plutchik's three-dimensional structural model of emotions[31] 图 4 Plutchik建议的情感三维结构模子[31]

5. Russell的怡悦度和强度环形模子[32]

Russell的后续研究标明, Schlosberg所建议的难得-休止和激活度是很难区分的.于是, 他于1980进一步研究了情感的环状模式, 建议了二维情感描写模子:愉悦度和强度(如图 5所示).

Fig. 5 Russell's circumplex model[32] 图 5 Russell建议的情感环形模子[32]

6.情感的高维空间模子萝莉 后入

由于情感空间维度的数目莫得定论, 是以部分学者根据我方的研究建议了高维空间模子.1974年, Krench[33]愚弄强度、弥留水平、复杂度和快乐度这四维模子来评定东谈主体所处的情感情状; 1991年, Izard[34]建议的四维度分别是愉悦度、弥留度、清脆度和信服度, 并编制了情感维度量表(DRS, DES)对情感体验的评定比较准确.Frijda也根据我方的研究建议六维情感模子, 分别是愉悦度、激活度、有趣有趣度、齰舌度、复杂度、社会评价.

1.3 错乱情感描写模子与维度情感描写模子的关系

尽管情感脉络表面与维度空间表面分别愚弄不同的方法描写情感, 但是两者之间并不是对立的, 而是不错互相弯曲的.维度表面愚弄欧氏空间描写情感, 坐标轴的不同取值组合表示一种特定的情感情状, 但基本情感不错通过一定方式映射到情感空间中.Mehrabian[35]愚弄个性(personality)代表永恒的情感, 选择灵通性(openness)、尽职性(conscientiousness)、外向型(extraversion)、亲和性(agreeableness)和心情褂讪性(neuroticism)这5大特质来分析个性, 并研究了5个特质与PAD空间模子的内在关系, 建议了愚弄5个特质预测PAD值的方法.基于Mehrabian的表面, Gebhard[36]将OCC表面中的基本情感映射到三维PAD情感维度模子, 见表 2.Becker-Asano[37]根据情感的动态表面, 建议了将基本情感向PAD模子映射的方法.

Table 2 Mapping of OCC basic emotions into PAD dimensional space[36] 表 2 OCC基本情感与PAD维度空间的映射[36]

李海峰、韩爱静[38]在对语音情感识别综述中对比了错乱情感描写模子与维度情感描写模子的优瑕玷:错乱描写模子天然较为简单, 但只可描写有限种类的情感类型, 其情感描写才调透浮现较大局限性; 维度模子很好地化解了这一问题, 愚弄维度空间精确地量化情感, 减小情感标签的迷糊性, 具有无尽的情感描写才调, 更利于自愿情感的描写, 频年来受到越来越多的心情.

2 语音情感的领悟神经科学研究阐述 2.1 情感的神经机制

情感产生的脑机理研究履历了一个较长的历程, 受到神经剖解学、神经生理与认至好理学等干系科学发展的影响.念念想家和科学家对心情隐秘的探讨不错挂牵到古代的测度和玄妙主义.直到文艺报告以后, 如霍布斯(Hobbes)、洛克(Locke)、笛卡儿(Descartes)等带有唯物主义色调的玄学家才把知觉、念念维、常识、心情等和神经与脑的行为有计划了起来.1872年, 达尔文(Darwin)在《东谈主和动物的情态》一书里论说了心情的生物学基础, 强调了环境对心情行为的作用, 酿成了心情生理心理学的雏形.后来的詹姆斯(James)建议了最早的心情生理-心理学表面, 为探讨心情的性质指出了一条必由之路.James-Lang表面(1885年)即心情外周表面, 强调心情的产生是植物神经系统行为的产品.1912年, Mills初次建议了情感的大脑右半球假说, 右脑更多地决定了东谈主的空间感、抽象念念维、音乐感与艺术性.1931年, Cannon建议了心情的丘脑学说, 以为丘脑对心情调度起着要紧作用.随后, Papez建议了Papez环路表面, 以为下丘脑是心情抒发中心, 边际系统是心情体验部位.但那时, 这一趟路并没得到科学研究说明.Maclean于1952年建议了心情脑的见解, 辨别了较为细密的心情干系脑区集聚, 得到研究者的等闲认同(如图 6所示).

Fig. 6 MacLean's limbic system theory[39] 图 6 MacLean建议的边际系统表面[39]

20世纪60年代, 跟着心情生理-心理学的发展, 酿成了诸厚心情表面派别:阿诺德(Arnold)的评价-快乐论[40]以为:心情的发生决定于对嗅觉刺激的评估, 而皮质快乐是心情行为的基础.普里布拉姆(Pribram)的“不配合”论[41]把大脑高等核心杀青的解析行为与心情有计划起来.20世纪中世的信息立异导致了认至好理学的开发, 把东谈主脑领悟为一个信息加工系统, 酿成了心情的信息加工论.拉扎勒斯(Lazarus)的领悟-评价表面[42]从心理学的角度填充了信息加工历程的心理内容, 提神于外界刺激与行为反应之间的领悟评价枢纽, 丰富了脑内信息加工的内容.LeDoux[43]根据神经生理学上的研究建议, 边际系统对听觉刺激引起的情感响应起着至关要紧的作用.边际系统致密处理情感刺激, 主要包括4部分:嗅觉皮层、丘脑、眼眶额叶皮层、杏仁体[44, 45].跟着脑成像时期的发展, 研究者对情感的大脑行为的研究也越来越精确.2004年, Florin愚弄fMRI对不同叫醒度、效价度情感刺激下的前额叶皮层行为进行研究, 实验闭幕评释:前额叶皮层(PFC)左侧对效价度积极的情感反应更活跃, 背外侧PFC对叫醒度愈加明锐.2005年, LeDoux与Phelps[46]研究了动物模子及东谈主类行为中杏仁体对情感处理的作用. 2008年, Mathersul[47]研究了脑电信号EEG的alpha波段与悲伤不满情感的关系.2014年, 康奈尔大学神经学家Adam Anderson[48]研究眼窝前额皮层的细密神经行为模式, 发现天然情感是个东谈主的和主不雅的, 但是东谈主的大脑会把它们弯曲成一个法度的代码, 这个代码客不雅地代表着不同感官、情况甚而东谈主的情感.2018年, Kirkby等东谈主[49]愚弄半慢性颅内脑电图(iEEG)纪录边际系统的多位点, 并周期性地评估被试的心情, 研究心情和暴躁的神经编码, 并揭示一个生物预备, 有助于会诊和治疗心情和暴躁不容(如图 7所示).

Fig. 7 Timeline of historical milestones in researches of the emotional brain 图 7 情感大脑研究的要紧里程碑职责

频年来, 功能性磁共振成像fMRI(functional magnetic resonance imaging)时期与脑电图EEG(electroenc ephalo graphy)时期为东谈主类心情的核心神经机制研究提供了大王人的研究把柄, 初步揭示了东谈主类心情束缚历程中大脑的区域功能和神经机制(如图 8所示).

Fig. 8 Diagram of human emotion management system 图 8 东谈主类心情束缚系统暗示图

(1)   心情感知:枕叶加工视觉信息, 顶叶进行躯体嗅觉整合和空间视觉整合, 颞叶进行听觉性言语功能处理, 岛叶采纳来自内脏和躯体情状蜕变的感知信号.

(2)   领悟评价:眶额皮层、腹内侧前额皮层对心情信息进行高等再加工, 完成对心情刺清脆机意旨的评价.

(3)   主不雅调整:前部扣带回致密心情加工中的冲突监控; 杏仁核通过与海马系统的互相作用, 不错使心情性事件的述说性牵记变得愈加巩固.

(4)   自主行为:颞上回与社会性心情干系, 完成对细密嗅觉的加工; 后扣带皮层与评断谈德价值干系.

(5)   外显行为:脑干和下丘脑调度心情行为中的躯体与自主反应, 杀青东谈主类的情感行为抒发.

在心情神经机制研究方面, Lindquist[50]对比了两种情感加工脑机制的研究方法.

●  一种方法是Locationist方法.该方法假定错乱的情感类别是由其对应的不同脑区产生, 举例怯生生对应于杏仁核(amygdala)的激活、厌恶对应于脑岛区(insula)的激活、不满对应于眶额叶皮层(orbitofrontal cortex, 简称OFC)的激活、悲伤对应于前扣带皮层(anterior cingulate cortex, 简称ACC)的激活.

●  另一种方法是心理学建构论方法(psychological constructionist approach).该方法假定情感情状是由大脑功能集聚的互相作用酿成, 杏仁核、脑岛、腹内侧眶额皮层、前扣带皮层、丘脑王人参与多个主要情感的酿成.

Lindquist等东谈主通过对大王人东谈主类情感的神经影像学文献的总结, 以为更多地把柄与构建论一致, 不同的大脑区域互相作用共同参与情感的体验与感知.

更具体地, 大脑何如处理语音情感, 亦然听觉语言处理研究的一个热点课题.语义信息以及韵律陈迹对语音情感的领悟起着要紧作用.有研究标明:大脑右半球致密处理情感韵律信息[51-54], 但实验的任务类型或者被试低唱复述也可能引起双边激活模式.Ross[55, 56]的偏侧性假定以为:非论情感恩活度何如, 大脑右半球在处理情感语音时更具有优胜性.与之比较, 激活度假定[57]以为:大脑左半球对积极情感具有主导性适度, 右半球主要适度萎靡情感.由于韵律信息跟着声学参数变化, 如基频f0、强度以实时长等, Zatorre[58]建议了右半脑致密基频信息的感知, 左半脑处理强度以实时长信息.文献[59-62]愚弄fMRI时期研究语音情感抒发时脑区的激活进程.Kotz[63]研究发现, 具体的语音情感抒发由大脑的额叶-岛盖-颞叶(fronto-operculo-temporal)区进行编码, 颞叶区致密副语言声学处理, 额叶区进行情感评估, 左侧颞叶-小脑(temporo-cerebellar)区致密时序处理, 右侧额下回(inferior frontal)区分不同的情感抒发.文献[64]研究发现, 通过情境高下文的学习, 通过语义与非语言赢得情感意图的路线一致.语境学习假定以为:情感情状基于个东谈主对该情感以往的学习训导, 情感系统由事前界说的见解进行评估, 然后根据训导进行细密处理.

2.2 情感筹备模子

情感干系的领悟神经科学的研究, 促进了情感筹备模子的发展, 产生了一系列能杀青情感筹备的系统.现在, 较多的情感筹备模子是基于情感领悟表面.Elliott杀青了一个基于OCC模子的情感推理机(affective reasoner)系统[65], 每一种心情王人由一组不同的领悟导出要求通过推理得出.Reilly杀青了一个不错实时更新心情情状的EM系统[66].Gratch等东谈主将领悟历程引入情感的研究, 建议了一种简略解释情感动态变化历程的EMA[67]系统.MIT东谈主工智能实验室的Velasquez建议了一种新的情感更新公法, 由此开发了一个简略适度各种情感气象的动态变化的Cathexis模子[68].

ALMA多脉络情感模子[36]愚弄OCC Model测量短期情感、PAD情感量表中期情感(mood)以及五大东谈主格特质来揣测永恒情感情状, 该模子对情感进行了更完满的界说, 不错更天然地杀青不轸恤感的语言或非语言的情感抒发.

Becker-Asano建议了WASABI[37]情感筹备模子, 该模子会通了基于维度情感表面的情感动态更新公法以及OCC情感评估表面.与其他基于OCC表面的筹备模子比较, 该模子开发了愈加完满的反馈机制.Marsella[69]将情感筹备模子总结如图 9所示.

Fig. 9 A history of computational models of emotion[69] 图 9 情感筹备模子发展史[69] 2.3 类脑语音情感识别算法

听觉通路从听觉信息的感知、语言东谈主识别、语音感知到言语生因素为不同的等第[70], 语音参加傍边耳蜗, 耳蜗相等于一个滤波器组, 将声息以时频谱的状貌呈现, 并以相应的神经电信号方式传递至低位脑干, 低位脑干致密预处理、缩放和归一化, 之后信号参加下丘脑、上丘脑和丘脑区, 丘脑致密适度重眼力, 并产生信号传递至边际系统和主要的听觉皮层.终末, 经边际系统和听觉皮层处理的信号再经过特定的通路进行语音识别、言语生成、语言东谈主识别和音乐感知等(如图 10所示)[70].

Fig. 10 Block diagram of the human auditory pathway[70] 图 10 东谈主类听觉通路框图[70]

根据大脑边际系统的结构, Morén等东谈主建议了大脑情感学习模子(brain emotional learning model, 简称BEL model)[45], 对边际系统4个部分之间的情感学习机制进行数学建模, 选择一种基于奖励信号的强化学习方法调度模子参数, 并通过实考解释BEL模子的输出对奖励信号有彰着依赖性(如图 11所示).该模子在迷糊时序预测领域取得等闲应用[71-73], 与神经集聚模子比较, 具有结构浅薄、筹备复杂度低等优点; 但是对于奖励信号的设定方法现在莫得搭伙的章程.随后, 出现了一系列优化BEL模子参数的研究, 如:Lotfi等东谈主[74]想象了竞争型BEL模子并选择遗传算法优化其参数, 增强了其处理高维多分类数据的才调; Lucas等东谈主[75]在BEL模子的基础上, 愚弄感知输入与情感陈迹的行为产生机制, 建议了BELBIC智能适度器, 并将该适度器用于非线性系统中, 考证了其具有很好的适度才调、抗扰乱才调解系统鲁棒性.Parsapoor[76]愚弄迷糊推理系统(fuzzy inference system)对BEL模子的杏仁体和眶额叶皮层模块进行优化, 得到BELFIS模子.Motamed等东谈主[77]愚弄自顺应神经迷糊推理系统(adaptive neuro-fuzzy inference system, 简称ANFIS)和多层感知器(multilayer perception, 简称MLP)对BEL模子进行矫正, 用于语音情感识别, 并在Berlin语音情感数据库上进行实验, 与SVM、KNN、BEL、BELFIS、BELBLA模子的实验闭幕进行了对比, 建议的算法取得更高的识别率(如图 12所示).

Fig. 11 BEL model proposed by Morén, et al.[45] 图 11 Morén等东谈主建议的BEL模子[45] Fig. 12 An optimized model of BELthat merges the ANFIS and MLP for speech emotion recognition[77] 图 12 基于ANFIS和MLP矫正的BEL模子用于语音情感识别[77]

模仿东谈主类心情机制的类脑情感筹备研究照旧驱动, 在东谈主脑这个“巨象”上, 研究职责者面对着何如潜入解读大脑功能和揭示这个灵通的复杂巨系统运行机制的挑战.

伊人在线大香蕉 3 语音维度情感识别时期研究阐述

语音情感识别系统是经典的模式识别系统, 包括系统老练阶段和测试阶段.对于采集的语音书号均先进行预处理后, 根据情感空间描写模子的不同, 进行特征分析与识别任务时期想象(如图 13所示).对于错乱情感描写模子, 语音情感识别任务可视为多分类问题, 为样本预测错乱型类别标签; 对于维度情感模子, 其任务可视为记忆预测问题, 为样本预测集结输出量的问题.分类问题与记忆问题选择的建模方法以及性能评价预备不同:分类模子宽泛为输入样本预测得到与每一类别对应的像概率一样的集结值, 这些概率不错被解释为样本属于每个类别的似然度或者置信度, 预测到的概率不错通过采用概率最高的来弯曲成类别标签; 记忆预测问题预测的是情感在不同维度上的集结数值, 其性能不错用预测闭幕中的瑕玷来评价.在特定要求下, 分类问题和记忆问题是不错互相弯曲的.如:Grimm等东谈主在错乱情感识别任务中, 起原将索求的全局统计特征愚弄迷糊逻辑系统(fuzzy logic system)映射到集结三维情感空间, 再愚弄KNN识别为错乱的7类情感[78].天然DNN时期的等闲使用使得大王人职责不需要进行数据预处理, 但语音书号有着低信噪比的特别性, 繁多学者对语音书号的预处理方法进行了大王人研究.因此在本文中, 对付预处理时期、特征索求时期及分类器想象等方面进行综述.

Fig. 13 Framework of a speech emotion recognition system 图 13 语音情感识别系统框架 3.1 语音情感特征索求

特征索求与处理, 是语音情感识别中要紧的部分, 特搜集径直影响识别器的识别才调解鲁棒性.特征索求的目的是从语音书号中索求一方面能表征不同识别单元的声学互异, 另一方面有能表征雷同识别单元不同样本之间的声学相似性的信息.

语音情感信息通过语义和非语义两种状貌传递:语义信息以一定的语言公法(语法、修辞等)传递语言者的情感; 非语义语音情感信息包括两种状貌——心情韵律(emotional prosody)[79]和非语言发声(non-linguistic vocalizations)[80, 81].

3.1.1 声学特征

东谈主们可通过感知语音中的声学陈迹, 从中索求出所携载的情感倾向.声学特征是寥寂于语言内容而传递的情感信息, 不受文化互异的影响, 对于不同语种的情感数据库, 均可通过索求声学特征进行情感识别[82-86].声学特征可分为LLDs特征(low-level descriptors)和统计特征(functions), 其中, LLDs特征不竭以帧为单元进行索求, 不错从韵律特征、谱特征、音质特征对语音情感信息进行抒发; 统计特征一般是将LLD特征在寥寂的语句或单词上进行统计, 包括极值、方差、峰度、偏私度等.

1. LLDs特征

(1) 韵律特征

韵律特征被以为是与发音单元(音节、单词、短语、句子)干系联的声学特征, 又被称为“超音段特征”, 在情感识别中应用至极等闲[87-89], 主要包括时期特性、基频、能量等, 被以为与情感的感知具有彰着的关系.文献[90]得出韵律特征与叫醒度干系, 音质特征与愉悦度干系的论断.Pereira等东谈主[91]分析了语音韵律特征与情感维度的干系性, 数据闭幕标明, 基音等韵律参数与维度空间中的叫醒度对应.一般以为, 音质参数与维度空间中的效价度对应[92].

近来, 研究者建议了一些新的韵律特征.Arias[93]愚弄函数型数据分析(FDA)开发中性参照模子, 筹备基音频率的主因素分析(PCA)映射矩阵动作每条语音的特征.具有高激活度的语音情感信号, 其能量多荟萃在高频因素, 低激活度的情感语音书号的基频较低[94].Sant’Ana[95]建议了赫斯专指数(Hurst exponent)用于语言东谈主识别, Zao[96]进一步建议pH时频声源特征与情感的愉悦度干系, 取得了较MFCC, TEO-CB-Auto-Env特搜集更高的识别率.Mencattini[97]建议了基于CQT的频域幅值包络特征, 并联结能量、小波近似重量和细节重量、过零率、共振峰、TEO等特征, 共520维特征用于维度情感识别.

(2) 音质特征

音质特征描写声门属性, 语音的音质特征主要指具有不轸恤感情状的语言东谈主发音方式上的区别.Scherer的情感因素处理模子提到音质特征影响情感的变化.Tato等东谈主[98]探讨了情感维度对语音识别的孝敬, 研究发现, 音质类特征对于区分叫醒维接近而效价维隔离的情感(不满和喜悦)有较好的效果.

Borchert[92]将共振峰、不同频带的频谱才调散布、谐波噪声比、频率微扰和振幅微扰在内的音质特征用于效价度预测, 将韵律学特征用于激活度预测.实验闭幕标明, 音质特征更适用于区分叫醒度雷同、效价度不同的情感.Idris[99]愚弄音质特搜集、韵律学特搜集以及二者羼杂特搜集, 选用多层感知器集聚分别在柏林情感数据库上进行情感识别, 平均识别率分别是59.63%, 64.67%和75.51%.Kachele[100]将谱特征、韵律学特征和音质特征用于抒发语音的永劫信息, 并愚弄矫正的前向采用/后向剔除算法进行特征采用, 在公开的柏林情感数据库上进行测试, 平均识别率为88.97%.

(3) 谱特征

谱特征宽泛用来表示发声器官的物理特征, 是信号的短时表示, 一般以为在很短时期内(10~30ms)相对幽闲, 不错通过某时刻邻近一段短语音书号得到一个频谱.频谱表示频率与能量的关系, 有助于更好地不雅察音素.常见的频谱图主要有线性振幅谱、对数振幅谱、自功率谱.谱特征主要有线性预测系数(linear predictor coefficients, 简称LPC)、线谱对参数(line spectrum pair, 简称LSP)、单边自干系线性预测系数(one-sided autocorrelation linear predictor coefficients, 简称OSALPC)等.频谱图中的共振峰佩戴了声息的辨识属性, 愚弄倒谱不错索求包络信息, 得到共振峰用于识别.常见的倒谱特征有感知线性预测倒谱系数(perceptual linear predictive cepstral coefficients, 简称PLP)、线性预测倒谱系数(linear predictor cepstral coefficients, 简称LPCC)、单边自干系线性预测倒谱系数(one-side autocorrelation linear predictor cepstral coefficients, 简称OSALPCC).接头到东谈主耳听觉系统响应不同频率信号的机灵度不同, 将线性频谱映射到基于听觉感知的Mel非线性频谱中, 再进行倒谱弯曲, 得到Mel倒谱系数(Mel frequency cepstrum coefficients, 简称MFCC).MFCC已等闲应用于语音识别、情感识别领域.

另外, 最近研究者们也建议了一些新的谱特征.Huang[101]建议一种基于小波包的自顺应滤波器组构建方法(wavelet packet cepstral coefficients, 简称WPCC), 对MFCC有很好的膨胀作用, 而且不错愚弄2D的小波包进行图像处理, 适用于语音视觉多模态情感识别系统.Ziolko[102]建议了Fourier-Wavelet特征索求方法, 起原对语音书号进行小波变换, 然后再进行傅里叶变换.Idris[103]建议两种谱特征优化方法:一种方法是基于错乱谱特征的优化, 一种是会通谱特征.愚弄这两种优化方法得到的特征围聚进行情感识别, 识别率较优化前分别提高2%和4%.Espinosa等东谈主[104]在VAM数据集上测试了韵律学特征围聚、音质特搜集、谱特搜集对PAD维度空间识别率的影响.Wang等东谈主[105]建议了新颖的傅里叶参数模子组合傅里叶参数至极一阶、二阶差分用于语音情感识别, 并愚弄建议的特征与MFCC联结提供了语言东谈主寥寂的语音情感识别.Ghosh等东谈主[106]从语音书号及声门流量信号中索求频谱图, 愚弄堆叠的自编码方法进行频谱图编码, 终末愚弄RNN进行4类情感识别, 选择基于声门流量信号的表征学习模子与基于效价度和叫醒度分类老练的挪动模子来提高RNN老练效率.实验闭幕透露:表征模子与挪动模子的加入, 不错提高1.17%的识别率.

2.统计特征

进行语音情感识别时, 帧特征时时不径直动作集聚输入进行学习, 而是愚弄这些特征的一些统计值进行神经集聚老练.表 3给出了常用的统计特征.

Table 3 LLDs and functions 表 3 LLDs特征以及统计特征

Schuller等东谈主[107]在一个AVIC(audiovisual interest corpus)语料库上分别愚弄帧特征和全局统计特征进行语音对话有趣有趣识别, 他们起原索求了包括基频、能量、MFCC、共振峰、频率微扰、振幅微扰、谐噪比等37维LLD特征弧线, 然后统计出每条弧线的最大值、最小值、均值、方差、峰度、偏私度等共19维全局特征统计值, 终末, 分别愚弄MI-SVM(multi-instance learning-SVM)和SVM对LLD特征和统计特征进行有趣有趣识别, 定量对比其识别准确率.实验闭幕标明, 基于统计特征的识别闭幕比帧特征的识别闭幕愈加准确.

情境高下文对情感的识别具干系键性作用, 永劫统计特征在区分高激活度和低激活度情感语音的效果较好, 但是对激活度相轸恤感的区分才调较弱, 如很难区分具有雷同激活度的不满和欢乐情感语音.具或然序信息的帧特征在区别效价度不同的情感语音[108].

现在, 已有少许文献尝试中式不同窗长来提高情感识别率, 但存在的文献莫得搭伙的谜底.Origlia[109]以为:现在, 特征索求方法是基于通盘这个词语音书号, 莫得接头语音内容的变化, 这与韵律研究的表面基础是矛盾的.并以此建议一种基于音节的特征索求办法, 同期接头音节核, 不错减少信息的处理量.Sethu[110]以为, 帧特征和全局统计特征不及以全面的表征情感的时序信息.因此建议以段为单元的特征索求, 可通过基音频率和前3个共振峰的详尽进行索求, 将该特征与短时帧特征和全局统计特征会通不错提高情感识别率.李海峰等东谈主[111]使用“语段特征”用于识别, 并给出了各种情感情状对应的“最好识别段长”, 构建了全局适度Elman神经集聚用于将全局统计特征与基于语段的时序特征相会通.随后, 该团队又建议了一种基于不同时期单元的多粒度特征索求方法, 以及不错会通多粒度特征的基于领悟机理的回馈神经集聚(cognition-inspired recurrent neural network, 简称CIRNN)[112].该集聚既隆起了情感的时序性, 也保留了全局特性对情感识别的作用, 杀青多层级信息会通.Deng等东谈主[113]愚弄Bag-of-Audio-Words(BoAW)算法代替传统的统计特征, 该方法针对LLDs特征, 愚弄k均值聚类方法或当场采样方法生成编码本(codebook), 再愚弄多重赋值量化时期(multi-assignment quantisation)将每帧语音书号索求的LLDs特征分拨到相应的编码本得到直方图, 将直方图归一化后动作特征用于识别.

3.1.2 语音书号中的语义信息

语音书号中传递的语义信息对于情感识别具有一定的作用, 有些特定的词汇不错抒发相应的情感倾向. Lee等东谈主[114]将声学特征、句法、语篇信息相联结用于情感识别, 引入情感显赫性的信息表面来抒发语言层面的情感信息.对电话办事中心数据的实验闭幕标明, 会通特征不错有用地提高情感识别率.Schuller[115]建议一种新的方法将声学特征与语义信息会通用于情感识别:起原, 索求声学特征愚弄分类器进行识别; 然后, 愚弄置信集聚根据语义高下文进行识别; 终末, 愚弄Neural Net将两次识别闭幕进行有筹划会通.Wu等东谈主[116](2011)将语义标签识别闭幕与声学韵律信息会通来提高语音情感识别闭幕, 语义标签来自知网汉语常识库(Chinese knowledge base HowNet), 用于自动索求情感关联公法(emotion association rules, 简称EARs).

3.2 语音维度情感预测器

情感识别通过获取东谈主类情感信息, 识别东谈主类的情感, 提高机器与东谈主之间天然交互才调.根据情感描写模子的不同, 语音情感识别系统选择的识别算法亦不同.维度语音情感识别问题可建模为记忆预测问题, 常见的记忆预测算法包括线性记忆(linear regression)、k-NN、ANN、PLS、SVR, 面前新兴的深度神经集聚如LSTM、RNN等.

偏最小二乘法(PLS)[117, 118]联结了主因素分析PCA和典型干系分析CCA的念念想, 适用于特搜集较大况兼存在多重共线性的预测建模问题.Mencattini[97]将7类错乱情感投影到二维情感空间描写模子(效价度-激活度)中, 选择偏最小二乘法记忆(PLSR)模子在印度语音数据库EMOVO上对男性、女性发音语料进行情感预测, 平均判决系数分别为0.89和0.72.

SVR是支捏向量在函数记忆领域的应用[119-121], Grimm等东谈主[122]在VAM数据库上愚弄SVR在效价度、激活度和适度度这3维情感属性上进行情感预测, 其性能优于k-NN、基于公法的逻辑分类器(rule-based fuzzy logic classifier).Giannakopoulos等东谈主[123]愚弄效价度-叫醒度的二维情感空间描写情感情状, 并使用k隔壁算法(k-NN)对电影裁剪语句的情感坐标值进行估计.Kanluan等东谈主[124]在VAM数据库上进行多模态情感识别, 索求韵律学特征、谱特征等声学特征以及基于二维错乱余弦变换的面部图片特征, 愚弄SVR分别进行语音情感识别和面部情感识别, 再愚弄有筹划级会通方法将两种模态预测闭幕进行权重线性会通, 预测闭幕较语音情感识别提高12.3%.

LSTM集聚使用特别的神经元在永劫期范围内存储并传递信息, 相宜于处理和预测时期序列中永劫期蔓延的信号, 因此, 该集聚不错牵记情感随时期的变化信息.愚弄哀痛时牵记轮回集聚(LSTM-RNN)进行维度情感识别, 取得了比传统方法更好的效果.Wöllmer[125]选择AVEC 2011(Audio/Visual Emotion Challenge 2011)[126]情感竞赛提供的声学特征联结面部领略特征, 在SEMAINE情感数据库上进行音视频情感维度识别.实验闭幕标明:与其他参赛者提供的情感识别模子比较, 基于LSTM集聚的平均识别效果最好.Ringeval等东谈主[15]将LSTM- RNN用于音频、视频、生理信号的多模态维度情感识别, 该集聚不错动态地愚弄永劫期的高下文信息, 同期幸免RNN集聚的梯度销毁问题.文中比较了不同窗长对各模态情感识别闭幕的影响, 以及特征级会通与有筹划级会通方法的识别效果.研究闭幕标明:效价度的情感识别比激活度需要更长的窗长, 有筹划级会通取得更好的识别效果.在RECOLA数据库上, 该模子在激活度和效价度上的一致干系系数分别可达到0.804和0.528.Chao等东谈主[127]愚弄时期池对输入特征进行时期建模, 并引入ε不解锐亏本函数矫正LSTM-RNN模子, 使其对标注噪声具有更好的鲁棒性.该模子在RECOLA数据库上对效价度和叫醒度进行情感识别王人取得了更好的效果, 但在叫醒度上存在过拟合气象.

国内也有越来越多的学者建议新颖的语音维度情感识别方法.陈逸灵等东谈主[128]愚弄MFCC特征, 联结语谱图中索求时期燃烧序列特征、燃烧位置信息特征这3种特征分别用于语音情感识别, 并将识别闭幕与PAD (pleasure, arousal, dominance)维度进行干系性分析, 得到特征的权重系数, 加权会通明赢得情感语音的最终PAD值.李海峰等东谈主[129]通过构建对情感进程相对秩序明锐的Dim-SER系统, 建议了秩序明锐的神经集聚算法.实验闭幕标明, 该集聚性能较常用的k隔壁算法和支捏向量记忆算法比较有了擢升.

现在, 上述基于单一数据的语音情感识别性能照旧取得了很大的擢升.关联词, 在许多实质应用情境下, 系统必须接头文化、语言、种族、个体、年级等影响下数据的情感分类.从大脑职责神经机制来讲, 不同种族、文化等东谈主群对情感的反应具有一致生理生化基础, 康奈尔大学神经学家Anderson的一项研究标明, 东谈主的大脑会使用一种法度的代码来说出同样的情感语言[48].东谈主的大脑会对从愉悦到不愉悦、好到坏的嗅觉产生一种特别的代码, 读起来就像一个“神经价表”.在这个价表中, 一组神经元在一个标的歪斜等同于积极心情, 其他标的的歪斜则等同于萎靡心情.天然存在一致性的生理基础, 但是文化对于个体的作风、行为、语言或非语言的反应王人有着潜移暗化的影响, 这些互异影响了东谈主类跨文化情感抒发、感知与领悟.多情感心理学研究标明, 文化配景对于个体何如愚弄面部和声息陈迹从多感官刺激中有解析地评估情感含义有着要紧的影响[130-132].Elfenbein和Ambady[133]发现, 同种族或者区域的东谈主群具有比较一致的情感抒发和识别方式, 情感识别会愈加精确一些.上述心理学及领悟学研究标明:从大脑脑区的细密神经行为模式角度看, 情感感知存在着相似性, 但是文化配景、语言、个体互异又影响着情感的感知.在共同的信息加工机制下, 进行跨文化、跨种族等语音情感识别有了表面基础.Peng[134]建议一种挪动线性子空间学习(transfor linear subspace learning, 简称TLSL)集聚框架进行跨库语音情感识别, 在学习的投影子空间中索求鲁棒的跨库特征表征, 其上风是搞定了面前大多数挪动学习只专注于寻找最可能挪动的特征的瑕玷.通过联结识验, 解释TLSL用于跨库语音情感识别是有用的.Hesam等东谈主[135]愚弄基于自动语言检测的模子, 不错提高多语言情感识别的准确率.在3种语言(德语、罗曼语系、汉藏语)的6个数据库上进行测评, 将情感分别在效价度与叫醒度上进行分类.实验闭幕评释:尽管语音情感识别更多地依赖于声学特征, 但其语言学信息不错提供话者文化配景干系的有用信息.通过识别话者的语言动作先验常识, 基于该常识的学习模子不错提高情感识别系统的性能.Kaya等东谈主[136]选择会通了线性语言东谈主归一化、能量归一化、特征向量归一化的级联归一化方法, 以减少跨库以及不同语言东谈主互异带来的影响, 并愚弄极限学习机(extreme learning machines, 简称ELM)在跨语系的5种语言情感数据库上测试该归一化方法的有用性.Silvia与Schuller[137]于2015年情感筹备海外会议ACII上, 对跨语言声学情感识别作念了综述及远景预计.

4 维度语音情感识别研究的干系资源 4.1 语音维度情感数据库

情感数据库是语音情感识别的先决要求, 提供老练与测试用语音样本, 数据库的质料径直影响情感识别率以及研究闭幕的可靠性.现在, 语音情感识别领域以错乱情感数据库居多, 如Belfast情感数据库、EMO-DB德语情感数据库、FAU AIBO儿童德语情感数据库、CASIA汉语情感语料库、ACCorpus汉语情感数据库等, 维度情感语料库有待进一步丰富.下文起原先容维度语音数据库的开发与标注方法, 然后先容一些代表性的维度情感数据库.

4.1.1 情感数据库的开发

根据语料的情感天然度进程的不同, 情感语音数据库的开发方法主要有3种.

(1)   天然情感语料:从推行生活中采集确实的天然语料, 进一步通过东谈主工筛选与标注的方法赢得可用语料.这类情感语料具有最高的天然度, 不错以为是确实意旨上的情感语料.这种语料在使用前必须进行分类标注, 由于分类的法度不搭伙, 况兼有些情感东谈主类自己也难以区分, 因此这类情感语料具有一定局限性.

(2)   模拟情感语料:由专科或善于抒发情感的东谈主进行情感师法录制语料.这种有目的性录制的特定情感语料具有更好的区分性, 但这种语料的情感天然度取决于灌音者的师法才调, 或然情感因素被夸大而不成体现确实的情感.

(3)   诱导情感语料:愚弄情景短片或者变装璜演的方式营造相应的环境氛围, 从而诱导灌音者产生特定情感后灌音.愚弄该方法赢得的语料接近确实情感, 但由于环境诱发刺激效果很难评测, 导致较难判断诱发的情感是否蛮横.

4.1.2 情感数据库的标注

语音情感数据库的标注是一个繁难但又极为要紧的职责, 数据标注的质料对基于语音的情感研究有着要紧的意旨.杀青较为精确的语音情感标注宽泛需要3个方面:音字转写(transcription)、注解(annotation)、标注(labelling)[138].音字转写是将音频中的语言信息以翰墨的状貌转写标注, 行将语音挪动为翰墨; 注解是在转写基础上进一步的标注韵律信息、语速、音量/调变化等副语言特征; 标注是对语句进行情感情状的记号.现在, 转写与注解照旧有一些较为老到的用具和软件, 如Anvil, EX-MARaLDA, Partitur Editor, Praat等, 这些软件各有上风.情感标注(labelling)用具不错方便地杀青对语音情感的集结性变化的追踪(此节以维度情感的标注方法为主). Cowie等东谈主[139]开发了实时的效价度-叫醒度二维情感标注用具Feeltrace, 可用于动态心情的标注与分析, 标注者根据我方感知的情感, 实时地愚弄鼠标拖动圆形光标到合适位置即可杀青标注.Emocards量表根据Russell的情感环状表面, 用环状布局的16张卡通情态图片描写情感, 在愉悦度和弥留度两个维度上测量情感[140].Bradley等东谈主[141]依据PAD情感空间模子建议SAM量表, 以图形化的方式从愉悦度、叫醒度和上风采由弱到强进行9级评分, 每个维度由徐徐变化的庸东谈主图片代表.SAM量表照旧被说明不错有用地评定被试的情感嗅觉[142]. Broekens[143]开发了在线情感测量用具AffectButton, 仅包含一个按钮, 按钮名义是一张动态变化的卡通脸部图片, 鼠标的(x, y)坐标映射到PAD三维空间模子中, 情态图片随鼠标的挪动而蜕变.AffectButton比SAM愈加形象、方便, 一个按键不错反馈三维信息.ANNEMO[144]是基于网页的音视频维度情感标注用具, 可同期透露音视频与标注界面, 可进行时期集结的记号.Ikannotate[145]用具将上述三方面会通, 不错杀青转写、注解、标注以及标注的不细则.

标注时须有一定的公法, 包括标注的一致性、连贯性、标注记号的易记性, 但同期还需要谨守的一条原则是允许标注的不细则性和互异性存在, 即允许不同的标注者对团结条语音中的情感、重音、声调等有不同的领悟, 幸免向用户提供瑕玷信息.

4.1.3 具有代表性的维度情感数据库

近些年来, 跟着研究者们对维度情感识别领域的心情, 一些公开的以科学研究为目的的维度情感数据库徐徐被发布.尽管完满的语音情感数据库应包括转写、注解、情感标注, 但现在, 维度语音情感数据库的标注时时只包含对整句或段的情感标注.因此, 构建公认的有用、全面、优质的语音情感数据库, 是语音情感筹备研究的重中之重.

VAM数据库(vera am mittag database)现场录制了12个小时的德语电视谈话节目[146], 谈话内容均为无剧本限制、冷凌弃绪沟通的纯天然交流, 该库是一个包含视频库、语音库、情态库的多模态情感数据库.视频库(VAM- Video)包括104个语言东谈主的1 421个视频, 语音库与情态库是从该视频库均分离赢得.

●  语音库又分为两部分:一部分为至极彰着的情感抒发, 包括19个不同语言东谈主的499个语句, 由17个听者在Valence、Activation、Dominance这3个维度愚弄SAM进行标注, 可用于维度语音情感识别研究; 另一部分包括28位语言东谈主的519个语句, 由6位听者进行标注.

●  情态库包括20位语言者的1 867幅情态图片, 涵盖快乐、不满、悲伤、厌恶、怯生生、骇怪的6类情感以及中本性感, 可用于情态识别研究.

Semaine数据库是一个音视频情感数据库[147], 数据录制了用户与性格迥异的4个机器变装的交谈对话, 在3种情景下录制:一种是Solid SAL(sensitive artificial listener), 该情境下, 操作家饰演了SAL的变装, 录制了用户与变装的95段交互、190个视频片断; 第2种是半自动SAL(semi-automatic SAL), 该情景需要操作家采用一系列日常用语, 该语句已提前被上演者以与某种性格匹配的声息录制, 再以图形界面交互的方式展现给用户, 整个录制了1 410分钟用户与机器变装的视频数据; 第3种是自动SAL(automatic SAL), 该情境下, 变装抒发的语句及非言语抒发十足由SEMAINE系统自动的生成.该系统同期检测用户的情感变化并由录像头纪录下来, 用户与变装交互视频共计1 266分钟.对话由多个参与者借助标注用具Feeltrace在Activation、Valence、Power、Anticipation/Expectation和Intensity这5个情感维度上进行标注.该数据库中的部分数据被用作AVEC2012的竞赛数据库[148].

Recola数据库是一个多模态法语情感数据库[144], 包括音频、视频、生理数据(ECG和EDA).该数据库录制了9.5小时的视频会议, 集结同步纪录了46名参与者的天然交流.6名法语助理通过ANNEMO标注用具, 在Arousal, Valence维度上进行标注.最终, 34名参与者愉快分享数据, 数据时长共计7小时, 其中包括27名参与者5.5小时的生理数据.

USC IEMOCAP(interactive emotional dyadic motion capture)数据库[149]是一个英语情感数据库, 包括10个语言东谈主参与的互相交流的音视频.将合计12小时的音视频数据分割成10 039段语句, 既包括多情感剧本的情感上演, 也包括轻视情感抒发场景.每个语句由3名标注者进行错乱情感标注, 包括快乐、不满、悲伤、中性、挫败感这5类情感, 标注者也可根据领悟标注为其他情感类别.2名标注者在Arousal、Valence、Dominance这3个维度进行维度空间标注, 每个维度标注的范围为[1, 5], 标注间隔为0.5, 可用于错乱或维度情感识别.

4.2 语音情感特征索求用具

现在, 已有公开的法度或用具箱等闲应用于语音书号的处理、标注、频谱分析、特征索求等, 举例:PRAAT ()可杀青对语音书号的采集、分析、标注、合成、统计分析等功能; OpenSMILE ()软件对于音频处理的特征索求是一款很有用的用具, 是一种以敕令行状貌运行的而不是图形界面的操作软件, 通过竖立config文献对音频进行特征索求; pyAudioAnalysis(an open-source python library for audio signal analysis, https://github.com/tyiannak/pyAudioAnalysis/wiki/2.-General)是Python下的一个音频处理用具包, 可用于音频特征索求; Librosa(https://librosa.github.io/)亦然基于python的用具包, 不错索求各式语音特征, window和Linux均可; HTK Speech Recognition Toolkit()是基于C语言的特征索求用具包, 代码老到褂讪, 现在支捏GPU, windows和Linux环境均可; Kaldi ASR (-asr.org/)是一个语音识别用具包, 开发效率高, Linux使用方便.

4.3 识别算法用具

开源的深度学习神经集聚正步入老到, 现在有许多框架具备为语音情感识别提供先进的机器学习的才调.举例, TensorFlow(https://www.tensorflow.org/)是谷歌发布的开源用具, 编程接口支捏Python和C++, 还可在谷歌云和亚马孙云中运行.TensorFlow支捏细粒度的网格层, 而且允许用户在无需用初级语言杀青的情况下构建新的复杂的层类型, 子图实施操作允许开发者在图的恣意边际引入和检索恣意数据的闭幕.Caffe()是自2013年底以来第一款主流的工业级深度学惯用具包, 具有优秀的卷积模子, 是筹备机视觉界最流行的用具包之一.CNTK(https://github.com/Microsoft/CNTK/wiki)是微软最初面向语音识别的框架, 支捏RNN和CNN类型的集聚模子, 从而在处理图像、手写字体和语音识别问题上, 它是很好的采用.MXNet ()是一个全功能、可编程和可膨胀的深度学习框架, 它支捏深度学习架构, 如卷积神经集聚(CNN)、轮回神经集聚(RNN)和其包含的哀痛时期牵记集聚(LTSM), 为图像、手写翰墨和语音的识别和预测以及天然语言处理提供了出色的用具.PyTorch()是一种Python优先的深度学习框架, 特性是快速成形、代码可读和支捏最等闲的深度学习模子.Theano()创举了将记号图用于神经集聚编程的趋势, 但吃力散布式应用法度束缚框架, 只支捏一种编程开发语言.

5 现在存在的问题及将来发展标的 5.1 筹备模子吃力脑科学、心理学等学科研究效果的指导

现存的语音情感识别是基于筹备机科学进行研究的, 愚弄机器学习的算法进行老练与识别.但情感是东谈主类极其复杂的心理情状, 研究东谈主类大脑的情感处理机制将尤为要紧.现在, 情感识别的算法太浅薄, 吃力心理学对情感研究效果的指导.何如更全面地开发情感的描写模子?不轸恤感之间是否干系联?举例, Ekman等东谈主[150]的骇怪情感是对一件猜想以外的事件的反应, 这种情感时时容易会奴隶在快乐或者怯生生情感之后.Davidson[151]以为, 对骇怪心情的识别需要接头情境高下文.Banse等东谈主[152]研究发现, 不满或者怯生生心情的语音在声学特征上具有彰着区分性, 也很少受到文化互异的影响, 更容易进行识别.

除此以外, 现在的情感识别框架吃力东谈主类大脑的复杂机制和职责模式的指导, 与领悟功能之间的交互与协同较少.跟着领悟科学的快速发展, 科学家越来越多地了解东谈主类大脑复杂的信息处理机制, 将这些效果与机器学习算法联结, 将有助于冲破现在情感识别研究的瓶颈, 杀青信得过的东谈主工智能.

5.2 语音情感数据标注繁难

语音情感类数据在采集与标注上存在的繁难, 导致当下用于研究的数据规模较小, 种类较为短少.在高下文语境未知的情况下, 标注变得愈加繁难, 公认的有用、全面、优质的语音情感数据库是语音情感筹备研究的基础.现在, 高质料的情感语料库很少, 而且吃力大规模跨语言的公认语料库, 研究者们愚弄不同的数据库进行情感识别, 导致识别闭幕难以进行比较评价.现在, 用于情感标注的王人是自我评价(self-report)方法, 如SAM量表等.研究者们可制定情感数据库标注的干系国标以明确详备的标注公法和方法; 借助数据标注公司、情感心理学巨匠的匡助, 开发领有完满情感标注信息的优质语音情感数据库.

5.3 情感特征与语音情感之间存在范围

与错乱情感识别雷同, 进行维度情感识别的首要职责是特征索求, 决定了记忆预测器准确率的凹凸.现在, 大多数特征是基于语音的声学特征, 这些声学特征能否有用地表征情感, 并莫得详备的论证.情感特征的索求需要接头两方面问题:起原, 所索求的声学特征与情感之间是否存在范围, 能否有用地区分情感, 杀青类内的特征距离较小、类间的特征距离较大; 其次, 情境高下文对情感的识别具干系键性作用, 需中式合适的时期粒度来提高情感识别率.

搞定上述问题, 探索特征与情感类别之间映射关系, 建议对情感具有区分度的新特征, 将诟谇常有价值的研究标的.同期, 探索东谈主类大脑对情感的处理机制, 联结心理学、领悟学研究效果, 研究语音的各个层面(语素、词素、句法、语篇)对情感识别的影响.在此基础上, 索求不同粒度上的特征, 提高语音情感识别率.

5.4 用于维度情感识别的机器学习战略有待提高

语音识别的快速发展成绩于东谈主工神经集聚的支捏, 非凡是频年来深度神经集聚的发展, 使语音识别性能进一步擢升.研究者们时时模仿语音识别中使用的神经集聚模子进行情感识别, 但是情感是较语言更高脉络的抒发, 需要包含更多信息, 甚而推理、牵记、有筹划才调.因此, 现在用于情感识别的集聚模子需要基于领悟表面进一步矫正, 探索东谈主类情感处理机制, 并对领悟模子进行实用化杀青, 建议相应的机器学习方法, 进一步开发类脑多模范神经集聚筹备模子以及类脑东谈主工智能算法, 将是冲破语音情感识别研究瓶颈的有用战略.

6 闭幕语

语音情感识别是使机器杀青天然的东谈主机交互的要紧方面, 不仅对鼓励信号处理、筹备机、东谈主工智能、东谈主机交互、适度、领悟等学科发展具有要紧的学术意旨, 而且具有要紧的经济价值和社会意旨, 如具有应酬才调的情感机器东谈主、心情检测与监控、招呼中心心情侦查等.基于情感的维度空间描写模子, 较传统的错乱情感模子, 不错更精确地描写情感, 减小情感标签的迷糊性, 具有无尽的情感描写才调.基于维度情感模子的语音情感识别系统也日益受到越来越多的心情.干系研究东谈主员已在语音情感领悟、语音维度情感数据库、情感干系的语音特征索求以及识别算法方面取得长足的逾越, 本文也主要针对这4个方面详备先容了基于维度情感描写模子的语音情感识别阐述, 填补了现在语音维度情感识别综述的空白; 同期, 建议了该时期面前仍面对的一系列挑战萝莉 后入, 如进一步探究东谈主脑对语音情感领悟轨则、建议表征情感的语音特征、愚弄东谈主脑情感领悟机制指导识别算法的矫正等.



上一篇:在线av 动漫 这个圭臬下调!网友:猝不足防变成高血压了……
下一篇:chat sex5 女子写淫秽演义卖钱被判坐牢10年,对照旧错?

Powered by 父女做爱视频 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024