计算机对从
传感器采集来的信号进行分析和处理,从而得出对方(人)正处在的
情感状态,这种行为叫做情感识别。从
生理心理学的观点来看,情绪是有机体的一种复合状态,既涉及
体验又涉及生理反应,还包含行为,其组成分至少包括情绪体验、情绪表现和情绪生理三种因素。对于情感识别有两种方式,一种是检测生理信号如呼吸、心律和体温等,另一种是检测情感行为如面部特征表情识别、语音情感识别和姿态识别。
情感识别综述
定义
计算机对从
传感器采集来的信号进行分析和处理,从而得出对方(人)正处在的情感状态,这种行为叫做情感识别。从生理心理学的观点来看,情绪是有机体的一种复合状态,既涉及体验又涉及生理反应,还包含行为,其组成分至少包括情绪体验、情绪表现和情绪生理三种因素。对于情感识别有两种方式,一种是检测生理信号如呼吸、心律和体温等,另一种是检测情感行为如面部特征表情识别、语音情感识别和姿态识别。
“情感识别”,并不是说计算机能直接识别或测量情感状态,应该解释为“通过观察表情、行为和情感产生的前提环境来推断情感状态”。因为情感状态是内在的并包含生理和心理的变化,这样只能获得情感状态的一些可观测的东西,如表情、行为等等。假设这些东西的观测可靠的话,那么潜在的情感状态就可以推断出来。只有将情感识别看作一种
模式识别问题、情感表达看作模式合成问题,计算机进行情感交流才具有可行性。
目的
事实上,人与人之间进行情感识别与情感交流存在着一定的客观动机。分工与合作是人类提高社会生产力最有效的方式,人们为了更好地进行分工合作,一方面必须及时地、准确地通过一定的“
情感表达”方式向他人展现自己的价值关系,另一方面必须及时地、准确地通过一定的“情感识别”方式了解和掌握对方的价值关系,才能够在此基础上,分析和判断彼此之间的价值关系,才能做出正确的行为决策。
总之,情感识别的
客观本质或客观动机就是人为了了解和掌握对方的
价值关系。
由于人与人之间存在不同类型的利益相关性,对方所展现的情感有时是完全准确的方式,有时是夸张掩饰的方式,有时却是完全相反的方式,这时,人就需要不断地调整和修正对方的情感表达的客观价值内容,使自己的情感识别具有更高的及时性、准确性和完整性。
内容
人类可以通过视觉、味觉、听觉、嗅觉和触觉五个
器官来认识世界,而对于他人情感的识别主要是通过视觉和听觉来完成的,即主要是通过人脸的情感识别、语言声调的情感识别语言文字的情感识别来完成的。
人脸情感识别
识别方式
把用眼睛观察到的视觉信息叫做图象信息,如人脸的表情信息。一般的表情识别可以用单个感官完成,也可以用多个感官相配合来完成,它是一个整体识别和特征识别共同作用的结果。具体说来,远处辨认人,主要是依靠人脸的整体识别,而在近距离辨认人,主要是依靠人脸的特征识别。人脸的整体识别和特征识别虽然存在联系,但总体说是分开的、并行的处理过程。
随着人脸的计算机处理技术(包括人脸检测和人脸识别)不断完善,利用计算机进行面部表情分析也就成为可能。由于各种面部表情本身体现在各个特征点运动上的差别并不是很大,而表情分析对于人脸的表情特征提取的准确性和有效性要求比较高,因而难以顺利地实现。例如:嘴巴张开并不代表就是笑,也有可能是哭和惊讶等。所用到的识别特征主要有:灰度特征、运动特征和频率特征三种。灰度特征是从表情图像的灰度值上来处理,利用不同表情有不同灰度值来得到识别的依据;运动特征利用了不同表情情况下人脸的主要表情点的运动信息来进行识别;频域特征主要是利用了表情图像在不同的频率分解下的差别,速度快是其显著特点。
具体的表情识别方法主要有三个:一是整体识别法和局部识别法,二是形变提取法和运动提取法,三是几何特征法和容貌特征法。当然,这三个发展方向不是严格独立的,恰恰相反,是相互联系,相互影响的,它们只是从不同侧面来提取所需要的表情特征,都只是提供了一种分析表情的思路。
通常面部表情识别模型都基于数字化的面部图像或者一小段面部表情序列(例如先中性的,然后微笑,最后中性)的视频。通常根据视频识别要比根据静态图像识别更准确。视频能捕捉某种表情形成过程的面部动作。
逻辑程序
当人通过视觉器官把他人面部的刺激信号接收并传递到人的大脑之中,大脑就会进行人脸检测、人脸图像预处理、人脸特征提取等程序,然后,把以前存储在大脑中的若干基本表情的人脸特征(即
脸谱)提取出来,进行对比分析和模糊判断,找出两者的人脸特征最接近的某种基本表情。这时,大脑皮层就会接通该基本表情所对应的兴奋区与边缘系统的神经联系,从而产生愉快或痛苦的情感体验。同时,大脑皮层还会接通该基本表情所对应的兴奋区与网状结构的神经联系,从而确定愉快或痛苦的强度。
语音情感识别
语音情感识别是指由计算机自动识别输入语音的情感状态。一般来说,不同语言声调表情的语言信号在其时间构造、振幅构造、基频构造和共振峰构造等特征方面也有着不同的构造特点和分布规律。由此,只要把各种具体模式的语言声调表情在时间构造、振幅构造、基频构造和共振峰构造等特征方面的构造特点和分布规律进行测算和分析,并以此为基础或模板,就可以识别出所有语言声调中所隐含的情感内容。
将语音中的情感特征化比面部表情的特征化要难。面部表情信号传达了个人特征和表情,一般不传达语言信息。另一方面,语音信号包含的是混合信息,包括说话者特征、情感和说话内容中强调的词汇和语法。计算机在语音情感的识别和合成方面的进展很慢。
随着
计算机多媒体技术的不断发展,能处理包含在媒体中的情感信息的柔软的拟人化的
多媒体计算机系统的研究越来越引起人们的兴趣。因为语音信号既是多媒体人机交互的主要利用方式,又是传载情感信息的重要媒体,所以包含在语音信号中的情感信息的计算机处理研究就显得尤为重要。
人脑逻辑程序
当人通过
听觉器官把他人的语言声调信号接收并传递到人的大脑之中,大脑就会对其时间构造、振幅构造、基频构造和共振峰构造等方面的特点和分布规律进行检测、预处理和特征提取,然后,把以前存储在大脑中的若干基本表情的语言声调信号的时间构造、振幅构造、基频构造和共振峰构造等特征方面的构造特点和分布规律提取出来,进行对比分析和模糊判断,找出两者的声音特征最接近的某种基本表情。
语言文字识别
语言和文字属于第二信号系统,由于它们脱离了现实事物对于人的
条件反射活动的直接参与,从而可以更为广泛地、普遍地、直接地、快速地、灵活地、多样地、深入地对各种事物进行认识,从而可以使人类能够对更为抽象、更为本质、更为遥远、更为间接、更为广泛、更为模糊、更为变化莫测的事物的价值关系进行认识和反应。
逻辑程序
当人通过
听觉器官把他人的语言信号接收并传递到人脑中,或者通过视觉器官把文字信号接收并传递到人脑中,大脑就会对其进行语义分析,对它们所描述事物的价值关系的目标指向、变化方式、变化时态、对方的利益相关性等进行判断,从而确定和选择情感表达的某种基本
模式。
生理模式识别
从生理信号中抽取出来的特征模式可以用来识别情感。计算机在人做出表情(如悲痛或愤怒)的时候,观察多种收集到的信号,然后分析哪种生理信号模式和特定情感状态关系最密切。然后计算机系统应用先前分析的结果,根据收集到的原始数据来识别出包含在信号中最有可能的情感。这方面的研究还刚刚开始。
通常通过观察所有数据的子集能判断出哪种特征值的辨别能力最强。试过所有可能的三种情感、两种特征值的组合,发现愤怒、悲痛和尊敬的组合或愤怒、高兴和尊敬的组合中,情感是最容易识别出的。这两种情况中,都有一个最佳的识别特征值是
EMG信号的的平均值,但是另一个最佳特征值却是不同的。愤怒、悲痛和尊敬的组合中,标准化信号的第一次差分绝对值的平均值就是最佳的。而对愤怒、高兴和尊敬的组合中,最佳选择还是第一次差分绝对值的平均值,但这次是从EMG信号中得到的。