详细说明多媒体技术应用的现状和特点

多媒体技术借助日益普及的高速信息网，可实现计算机的全球联网和信息资源共享，下面我们一起来看看多媒体技术应用的现状和特点详解。

详细说明多媒体技术应用的现状和特点

随着媒体技术的发展和应用，人类社会工作和生活的方方面面都沐浴在它带来的阳光之中。新技术带来的新感受和新体验在任何时候都是不可想象的。

【数据压缩，图像处理的应用】多媒体计算机技术是针对3D图形、环绕声、彩色全屏运动画面的处理技术。然而，数字计算机面临着数值、文本、语言、音乐、图形、动画、图像、视频等媒体的问题，这些媒体承载着信息从模拟到数字的吞吐量、存储和传输。数字化的视音频信号数量惊人，对内存的存储容量、通信干线的信道传输速率以及计算机的速度都造成了很大的压力。要解决这个问题，单纯的扩大存储容量，提高通信中继的传输速率是不现实的。数据压缩技术为图像、视频和音频信号压缩、文件存储和分布式利用、提高通信干线的传输效率等提供了有效的方法。同时，它使计算机能够实时处理音频和视频信息，以确保能够播放高质量的视频和音频节目。国际标准化协会、国际电子委员会、国际电信协会等国际组织牵头制定了与视频图像压缩编码相关的三项重要国际标准，JPEG标准；H.261标准；MPEG标准。

[JPEG]是世界上第一个彩色、灰度和静止图像的国际标准。它不仅适用于静止图像的压缩，也适用于电视图像序列的帧内图像的压缩和编码。

[261]是视频图像压缩编码的国际标准，主要用于视频电话和视频会议，可以传输更复杂、质量更好的图像。

【MPEG】MPEG视频压缩技术是一种针对运动图像的数据压缩技术。也分为MPEG-I，mpeg-ii，mpeg-iv，MPEG-7，MPEG-21。

最初是用MPEG-I在数字存储上对运动图像和伴随的声音进行编码，数字速率为1.5 bit/s，图像采用SIF格式。两种立体声伴音的质量接近于光盘。到目前为止，MPEG-1压缩技术的应用已经相当成熟，广泛应用于VCD制作和图像监控领域。

MPEG-II是MPEG-I的扩展、丰富和完善，MPEG-II的视频数据速率为4-5兆位/秒，可提供分辨率为720×480(NTSC)或720×576(PAL)的广播质量视频，适用于包括宽屏和高清电视(HDTV)在内的高质量电视和广播。

随着网络、有线/无线通信系统的快速发展，交互式计算机和交互式电视技术的广泛应用，以及视音频数据综合业务的发展趋势，对计算机多媒体数据压缩编解码技术及其遵循的标准提出了越来越高的要求。MPEG-I和MPEG-II标准有很多难以支持的要求，于是MPEG-IV应运而生，正是为了解决这些高要求而推出的。

根据mpeg-ⅳ开发的不同压缩编码，我们可以将其分为以下几类:

基于内容的多媒体数据访问工具:它用于从传输信息的在线程序库和数据库中检索基于内容的信息。

基于内容的处理和比特流编辑:应用于交互式家庭购物、影视制作和编辑以及数字特效。

混合自然和人工数据编码:应用于动画和声音的自然结合，观众可以移动和传输游戏程序中覆盖要观看的视频的图形，并从不同的观察点绘制图形和声音。

改进的时间随机存取:随机存取远程终端应用于音频和视频数据。

提高编码效率:在低带宽通道上有效存储和传输视听数据。

多个并行数据流的编码:虚拟现实游戏、3D动画、训练与飞行模拟、多媒体演(www.isoyu.com原创版权)示与教育等多媒体表演。

如今，越来越多的视听信息以数字形式存储和传输，这为人们更灵活地使用这些信息提供了可能性。但接下来的问题是，随着互联网上信息的爆炸式增长，我们越来越难以获得感兴趣的信息。传统的基于关键词或文件名的检索方法显然不适用于数据量大、无自然结构特征的视听数据。因此，近年来，多媒体研究的一个热点是基于内容的视听数据检索，例如以“从这部新闻电影中找到总理和总统的镜头”的形式进行检索。实现这种基于内容的检索的一个关键步骤是定义一种格式来描述视听信息的内容，这种格式与视听信息的存储形式(编码)密切相关。国际标准化组织的运动图像专家组已经注意到这种需求和潜在的应用市场。影响较大的MPEG-1和MPEG-2推出后，MPEG-4还没有定型，已经开始制定专门支持基于内容的多媒体信息检索的编码方案:MPEG-7。

作为MPEG家族的新成员，MPEG-7被官方称为“多媒体内容描述接口”，它将为各种类型的多媒体信息提供标准化的描述。这种描述，连同多媒体信息的内容本身，支持用户快速有效地检索他们感兴趣的各种“资料”。

【语音识别】语音识别一直是人们美好的梦想，让计算机理解人的语音是发展人机语音通信和新一代智能计算机的主要目标。随着计算机的普及，越来越多的人在使用计算机。如何为不熟悉计算机的人提供友好的人机交互手段是一个有趣的问题，语音识别技术是最自然的交流手段之一。

自20世纪80年代中期以来，新技术的出现使语音识别取得了长足的进步。特别是隐马尔可夫模型的研究和广泛应用促进了语音识别的快速发展，许多基于隐马尔可夫模型的语音识别软件系统相继出现。

目前，语音识别领域的研究方兴未艾。新算法、新思想、新应用系统在这个领域不断涌现。同时，语音识别领域也处于非常关键的时期。全世界的研究人员都在向语音识别应用的最高水平冲刺——没有特定人、词汇量大、语音连续的听写机系统的研究和实用系统。可以乐观地说，人们对实用语音识别技术的梦想很快就会成为现实。

【文语转换】中、英、日、法、德四种语言的文语转换系统在世界范围内得到了发展，并广泛应用于许多领域。

DECTalk文语转换系统:这是DEC公司在麻省理工学院KLATT教授开发的语音合成器基础上开发的语音生成系统，用于英语文语转换。

美国电话电报公司。T贝尔文语转换系统:这是at & amp；T贝尔实验室开发的文语转换系统，最初用于英语文语转换，现在扩展到其他语言。

声波文语转换系统:这是清华大学计算机系基于波形编辑的中文文语转换系统。该系统利用汉语词库进行分词，并根据语音研究的结果建立语音规则来处理汉语中一些常见的语音现象。该系统利用粒子群优化算法修改超音段的语音特征，提高语音输出质量。

多媒体信息检索技术的应用使得多媒体信息检索系统、多媒体数据库、可视化信息系统、多媒体信息自动获取和索引系统逐渐成为现实。基于内容的图像检索和文本检索系统是近年来多媒体信息检索领域最活跃的研究课题。基于内容的图像检索是基于其视觉特征，包括颜色、纹理、形状、位置、运动、大小等。，并从图像数据库中检索与查询所描述的图像内容相似的图像。使用图像视觉特征索引可以大大提高图像系统的检索能力。

随着多媒体技术的快速普及，网络上会出现大量的多媒体信息，例如遥感、医疗、安全、商业等部门每天都会产生大量的图像信息。这些信息的有效组织、管理和检索依赖于基于图像内容的检索。该领域的研究已经引起了广泛的关注，一些提供图像检索功能的多媒体检索系统软件已经问世。比如IBM开发的QBIC是最具代表性的系统，通过友好的图形界面为用户提供颜色、纹理、草图、形状等多种检索方式；加州大学伯克利分校与加州水资源部合作开展Chabot项目，为水资源部的大量图像提供了一种有效的基于内容的检索方法。此外，还有麻省理工学院的Photobook，可以使用Face、Shape、Texture和Photobook基于内容检索人脸图像、工具和纹理，进一步发展了Virage系统中融合多种检索特征的手段。NUTTAB系统是由澳大利亚新南威尔士大学开发的，用于搜索食品成分数据库。