什么是视素(视位)
音素(Phoneme),是人类语言中能够区别意义的最小声音单位。视素(Viseme),是指与某一音素相对应的嘴、舌头、下腭等可视发音器官所处的状态。Viseme是MPEG-4 标准提出来的概念。
有时Viseme也翻译为视位。下面会混用这两个翻译方法,但意义一样。
视素如何做动画
既然视素就是发音时嘴巴等部位的状态,如果能获取语音的音素序列,则可得对应的视素序列,按照一定的速度变换嘴巴、下巴的动作就可以实现语音的同步动画。
视素知多少
音素的数量虽多,但是由于很多因素的发音动作类似,他们对应的视素完全可以复用,所以整体上视素的数量远小于音素的种类。
由于不同的语言发音不同,视素也就不同。
国际音标视素
MPEG-4 把国际音标的发音分为 15 个静态视位。考虑到各种语言的发音特点和不同的音位组成,各国学者对不同语言的发音口形作了很多研究,现今多限于静态视位。如 Bothe 将德语发音口形分为 12 个静态视位、Le Goff 将法语发音口形分为 19 个静态视位、Ezzat 将英语发音口形分为 16 个静态视位、Lande 将意大利语发音口形分为 23 个静态视位等等。
汉语的视素
汉语由声母和韵母组成。其中声母都是辅音,韵母有的是元音,有的是元音和辅音的组合。
从音位的角度来考虑,汉语音位有 32 个,包括 22 个辅音音位和 10 个元音音位;从汉语发音的基
本组成单位来考虑,可以分为 21 个声母和 38 个韵母,其中韵母又可分为单韵母和复合韵母。
不同的人根据需要,对声母和韵母的归类不尽相同。对应的视素个数也就不同。
分类1
参考资料里《汉语语音视位的研究 王志明 蔡莲红》将汉语分为为 28 个基本的静态
视位。
分类2
《基于语音驱动的表情动画设计与实现-郭梦婷》里将汉语音素分为13类
分类3:微软的分类
根据微软:将音素映射到视素 ID 的描述,微软将视素分为22个(这22个视素考虑了各国语言的需要,并不是只针对中文):
在微软:SSML 音标页面上,微软提供了汉语音素和视素的对应关系:
分类4
根据游戏中口型动画合成系统的描述,只识别元音,使用5个非静音视位也可以满足简单的动画场景
分类5
《博士论文:真实感汉语可视语音合成关键技术研究-赵晖》里使用聚类方法来对汉语音素进行聚类,声母和韵母分别聚为5类。
作者总结的部分口型
总结
汉语的视素分类有很多种分法,可多可少。
参考资料
汉语语音视位的研究 王志明 蔡莲红
语音生成口型与表情技术的演进与未来
游戏中口型动画合成系统
什么是视素(Viseme)?该如何表示?
微软:将音素映射到视素 ID
微软:SSML 音标
《基于语音驱动的表情动画设计与实现-郭梦婷》
博士论文:真实感汉语可视语音合成关键技术研究-赵晖