以文本方式查看主题

-  中文XML论坛 - 专业的XML技术讨论区  (http://bbs.xml.org.cn/index.asp)
--  『 XML在语音技术中的应用 』   (http://bbs.xml.org.cn/list.asp?boardid=47)
----  电话用户与Web对话的桥梁——VoiceXML语言  (http://bbs.xml.org.cn/dispbbs.asp?boardid=47&rootid=&id=9739)


--  作者:admin
--  发布时间:9/4/2004 12:50:00 AM

--  电话用户与Web对话的桥梁——VoiceXML语言
电话用户与Web对话的桥梁——VoiceXML语言


2004/05/09

  VoiceXML--语音扩展描述语言是由AT&T、IBM、Lucent Technologies、以及Motorola通过W3C协会于2000年联合推出的电话语音应用系统标准,是为语音应用制订的基于XML的语音可扩展标记语言。有了VoiceXML,互联网信息从此能够以语音的方式流向公用电话网,从而使互联网服务得以延伸到电话用户。VoiceXML彻底改变了传统的CTI(计算机电话集成系统) 的开发模式和应用范围,使公用电话网、语音处理技术、以及互联网有机地结合为一体,架起了电话用户与Web对话的桥梁。

  VoiceXML使公用电话网与互联网的结合体现在三个方面:语音浏览器的使用、互联网和公用电话网的信息共享、类似于Web网页开发过程的电话语音应用系统的开发。

1. 语音浏览器的使用
  IE、Netscape等Web浏览器的出现有力地带动了互联网的发展,给人们的日常生活和工作方式带来新的变革。Web浏览器通过计算机终端进行文本信息交流,类似地,VoiceXML语音浏览器则是通过电话终端进行语音信息交流。

  VoiceXML语音浏览的实现主要依赖于语音处理技术和类似于Web浏览技术的语音浏览技术。在VoiceXML语音浏览器的支持下,电话用户可以用语音输入和传统的按键输入方式通过电话与电话语音应用系统进行对话交流,电话语音应用系统则用语音的方式与用户对话。在此过程中,语音识别(语音到文字的转换)和语音合成(文字到语音的转换)等语音处理技术起着重要的作用。

  语音处理技术是使电话用户能够用自然语言的方式与Web对话的关键技术之一。其中,语音识别技术使得应用系统能够识别电话用户的语音输入并将之转换成文字以便计算机处理。目前,最好的语音识别系统能够在一定范围内达到自然语言的识别。虽然由于技术的局限和中国多方言多口音的特征,使得语音识别系统的应用受到一定的限制,但是语音识别技术仍然在不断地走进人们的日常生活,人们也在开始使用语音的方式与电话语音应用系统进行交流。另一方面,语音合成技术相对于语音识别技术来说则在实际应用中显得更成熟。目前,较好语音合成系统已经可以达到比较好的可懂度和自然度。语音合成技术是使互联网信息流向公用电话网的关键技术,它可以将诸如及时新闻等的文本信息转换成语音格式并通过电话播放给用户,从而摆脱了电话用户只能收听到预先录制好的录音的传统使用方式。

  除了语音处理技术之外,VoiceXML语音浏览技术也是电话语音应用系统的关键技术。与HTML类似,VoiceXML使得电话语音应用系统根据对话流程所处的状态和具体应用领域的业务需求将当前对话流程转向由互联网URI链接定义的下一个对话流程。在对话流程的定义中,不仅可以访问互联网上的URI文件,而且还可以访问互联网和局域网内的数据库。同时,Web浏览技术的引进使电话语音应用系统与互联网有机地结合,使电话语音应用系统以开放式的方式呈现给电话用户。

  VoiceXML语音浏览器利用Web浏览技术将语音处理技术和语音浏览技术整合为一体,极大地扩展了电话语音应用系统的应用范围,同时也使互联网的信息和服务走向电话用户群,从而使得互联网可以赢得更多的用户。

2. 互联网和公用电话网的信息共享
  互联网与公用电话网长期以来出于分离状态。随着互联网的飞速发展和互联网信息的迅速增加,让庞大的电话用户群(包括固定电话用户群和移动电话用户群)访问互联网信息和享用互联网提供的服务显得越来越重要。VoiceXML的问世,无疑对互联网服务商、运营商以及内容提供商都提供了一个极好的商机。

  首先,VoiceXML浏览技术是开放式的,VoiceXML浏览器可以浏览互联网上的任何公开的文件和数据,这使得电话用户可以借助于语音处理技术通过电话访问互联网信息。例如,电话用户可以通过VoiceXML浏览器收听网上新闻、查询网上数据库、下载和收听语音文件(如音乐、歌曲、留言、语音邮件等) 。因而,VoiceXML浏览技术的使用,使得互联网的信息能够自然地流向公用电话网。

  与此同时,VoiceXML浏览技术还可以将公用电话网的信息传送给互联网。公用电话网信息与互联网信息不同之处在于前者是动态的、以语音形式为主并且随着电话对话流的结束而消失。然而,在有些电话语音应用系统中,需要将对话流所产生的信息保存起来,以便将来通过Web浏览器进行访问。例如,用户的语音留言和对话过程等都可以利用VoiceXML浏览技术通过电子邮件或文件的形式传到互联网中进行保存,此后,互联网用户和电话用户就可以分别通过Web浏览器和VoiceXML浏览器访问这些信息。

  VoiceXML浏览技术的引入,使互联网和公用电话网得以有机地结合,使两网信息可以互相流动,从而使互联网与公用电话网达到信息共享。

3. 电话语音应用系统的开发
  电话语音应用系统的传统开发模式是利用CTI(计算机电话集成)技术将语音卡、交换机等各系统构件组织和集成起来,开发人员因此需要熟悉相关的底层编码并深入了解有关硬件的编程接口才能建立一个传统的电话语音应用系统。VoiceXML的出现则不仅改变了电话语音应用系统的使用方法和使用范围,而且给电话语音应用系统的开发过程带来全新的概念和模式,使电话语音应用系统的开发实际上成为"语音网页"的开发。

  首先,VoiceXML浏览器的使用可以使开发人员从繁琐的编程细节中解脱出来。开发"语音网页"不需要了解各系统构件(如语音识别、语音合成、语音卡、交换机等)的编程接口,而是类似于Web网页的开发,只需编写VoiceXML脚本。开发人员因此能够把精力放在应用系统的业务流程上。

  其次,"语音网页"的开发过程简单、快捷。开发人员不需要掌握C/C++或Java等高级计算机编程语言便可以开发一个完整的电话语音应用系统,并且所开发出来的系统往往比传统开发方式开发出来的系统更开放、功能更强大。

  再者,"语音网页"的开发对开发人员的技术要求较低、开发周期大幅度缩短,从而使开发成本大大降低。所开发出来的应用系统同时还具有很高的可维护性、可移植性、可扩展性以及可重用性。

  下面是一个VoiceXML的简单例子。当用户与电话语音系统接通以后,将会听到语音合成的提示信息"用户您好!请选择我们为您提供的服务:"。当用户说"股票市场",语音浏览器就会通过语音识别功能识别用户的选择,然后把对话流程转向另一个VoiceXML脚本文件stocks.vxml。stocks.vxml脚本文件则是一个专门向用户提供股票市场相关服务的语音网页。

按此在新窗口浏览图片

  显而易见,基于VoiceXML开发电话语音应用系统抛弃了传统的CTI开发模式,使其开发过程类似于Web网页的开发过程。

  VoiceXML的出现,使互联网和公用电话网有机地融为一体,从而使得电话用户能够通过电话与网页交流,使公用电话网与互联网实现信息共享,使语音网页的新概念取代传统的文字浏览的网站,使公用电话网成为互联网的延伸,为互联网内容商、运营商以及服务商提供了难得的商机。目前,VoiceXML在发达国家刚兴起不久,中国在开发VoiceXML相关产品方面也是处于刚刚起步的阶段。用VoiceXML开发"语音网页"如同编写HTML语言一样的简单方便,它将引导普通网站的技术革新,揭开语音网站的新篇章!


上海声软技术(Voicesoft)


W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
8,310.547ms