基于内容的信息存取与MPEG-7
4.听觉数据的描述
同样,对音频数据的描述子和描述模式有以下要求:
(1) 特征类型
频率轮廓线、音频对象、音色、和声、频率特征、振幅包络、时间结构(包括节奏)、文本内容(语音或歌词)、声波近似值(通过哼唱一段旋律或发出一种声音效果来生成)、原型声音(典型的用于示例查询)、空间结构(用于多通道声源,如立体声、5.1通道等,每个声道有特定的映像)、声源和它的特性(例如源对象、源时间、源属性、事件、事件属性和典型的关联场景)、模型(如MPEG-4 SAOL)。
(2) 描述数据的听觉化
类似视觉数据的要求。
(3) 听觉数据格式
数字音频(如MPEG-1音频、CD)、模拟音频(如录音带介质)、MIDI(包括一般的MIDI和Karaoke格式)、基于模型的音频、产品数据。
(4) 听觉数据类
声音轨迹(自然音频场景)、音乐、原子声音效果(如掌声)、语音、符号音频表示(MIDI、SNHC音频)、混音信息(包括效果)。
五、 多媒体研究与MPEG-7
MPEG-7将标准化各种类型多媒体信息的描述,但它不包含描述子/特征的提取,也不规范搜索引擎和其他使用这些描述的程序。因此,围绕 MPEG-7,在多媒体信息存取方面,以下工作可以进一步开展:
1.存取接口
研究通用的和与应用相关的多媒体信息查询接口。例如在键盘上演奏几个音符来查询音乐、用"尖叫的刹车声音"查找出汽车追逐的场景;在屏幕上画一些线段,获得一组包含相似图形、标志和符号的图像;定义对象的颜色和纹理,获得与你选择的特征相似的图像;对于给定的一组对象,描述运动和对象之间的关系,获得一组动态图像,包含描述的时空关系;在给定内容条件下,描述情节,并获得多个相似情节发生的场景,等等。另外一些值得考虑的问题是:如何组合这些查询;如何在查询过程中引入交互和优先级;如何设计一种查询语言;如何构造浏览和可视化视图,以建立更有效和可靠的多媒体信息存取接口。
2.特征提取和检索引擎
自动和半自动的特征提取方法。这对大规模的多媒体数据管理是非常有价值的。这里把特征提取和检索引擎放在一起讨论是因为两者的研究在检索效率和有效性方面是紧密联系在一起的,即检索有效性使用户和系统得到查找的东西而不是其他;检索效率使用户或系统快速得到所要的结果。这需要研究者探讨更能代表媒体数据内容的特征(便于区分),以及高效的索引结构和算法。
3.广泛的多媒体应用研究
MPEG-7不仅仅用于多媒体信息的检索,更能广泛地用于其他与多媒体信息内容管理相关的领域。许多应用和应用领域将从MPEG-7标准中获得好处。在MPEG-7推荐的应用中实际上蕴涵了许多值得研究的课题。
- 数字电视与数字电视编码技术的发展简介(08-19)
- 蓝牙多媒体可视移动终端设计 (07-10)
- 新一代个人媒体播放器(ADI与REALNETWORKS)(10-22)
- 便携式多媒体设备的功率管理(02-06)
- 基于多媒体处理器VG2的智能家居控制器设计(02-21)
- 便携式多媒体设备的电源管理新思路(05-16)