全文刊载于2007年11月出版的《程序员》杂志上。 在线阅读:http://www.cqvip.com/qk/80936A/200711/25701386.html 摘要:问:常有人说,语义网(Semantic Web)[1]所要解决的问题,就是30年前人工智能(Artificial Intelligence)里的知识表示(knowledge representation)及归纳逻辑(inductive logics)所要解决的问题。KL-ONE、Cyc以及Minsky的框架(frames)和Sowa的概念图(Conceptual Graphs)等,都属于过去这些工作留下的产物。但是它们都已经失败了。那么语义网以及语义网在本体(ontology)[2]和推理(reasoning)方面的关注,跟这些失败的努力有什么不同呢? 答:其实,大家对语义网存在一种误解,即认为语义网是“重复人工智能的工作”。虽然语义网和人工智能(AI)所用的工具有一些相同(比如本体、推理、逻辑等),但它们的目标是完全不同的。实际上,语义网的目标是更为适度的:语义网并不是要构建一个通用的、综合性的、基于Internet的智能系统,而是要实现Web上数据集(datasets)间的互操作(无论数据是结构化、非结构化还是半结构化的)——这一目标更具实践性,更为适度。去年七月,Tim Berners-Lee专门就人工智能与语义网之间的混淆做过一个报告:http://www.w3.org/2006/Talks/0718-aaai-tbl/Overview.html。该报告的摘要如下: <略> 问:Web 2.0是一个新事物——无论是学术界还是工业界,人人都喜爱它。而另一方面,语义网却由于众多诺言未能兑现而失去关注。关于这两个Web的共存,您有何看法?您认为Web 2.0将对语义网的发展起到什么样的作用? 答:注意问题中的“语义网由于众多诺言未能兑现而失去关注”,这是一个错误的前提。 我们来看一些准确的信息: SemTech大会(Semantic Technology Conference)是一个面向工业界的会议,目前为止已经召开过3届,前几届都是在加利福利亚圣何塞(San Jose)召开的。第一年有300人参加,去年有500人参加,而今年的参会人数已经超过了700人。相应地,在欧洲,首届欧洲语义技术大会(European Semantic Technologies Conference)也于去年五月在维也纳召开了。参会人数超过了200人,其中75%都是来自公司的。所以,要么你说错了,要么那几百名公司人士和几十家公司都“脑袋坏掉了”。你自己判断吧。 与此相反的是,语义技术正处于产业突破(industrial breakthrough)的过程之中。下面一段话引自最近(2007年5月)的一篇Gartner报告(Gartner是不会热衷于短命技术的): <略> 问:您认为用自动化方法——也就是说,知识抽取与推理(knowledge extraction and inference)中的自然语言处理(natural language processing)、文本挖掘(text mining)及统计等方法——来学习本体及实体间的关系怎么样?您认为这些技术对手工编辑本体的方法,是一种补充,还是遏制?您认为这些技术能够起到促进作用吗?还是它们注定会失败? 答:我对于本体的获取以及对这些本体里的数据对象的分类的态度是:有用就好。仅依靠手工来构建本体,显然是成本过高的,而且也限制了可被编纂与分类的知识的量。所以,我希望你提到这些技术能为语义技术做出最大的贡献。我不觉得这些技术将“注定失败”,相反,我认为它们的有益贡献将日益增大,关于这一点我相当乐观。 <略> 问:所有重大的技术发明与里程碑都是以其 killer app 的出现为标志的。那么语义网的 killer app 会是什么?究竟有没有? 答:我觉得关于“killer app”这一反复问及的问题总是有些幼稚。举个例子:我们同不同意 XML的广泛采纳是一项重要的技术创新?但谁是XML的“killer app”?这样一个“killer app”存在吗?不。存在的只是许许多多的场合,XML在这些场合下能够“在背后”起到促进作用。语义网技术主要是基础设施技术(infrastructure technology),而基础设施技术是存在于背后、并非用户直接可见的。你所能感受到的,只是诸如:网站变得更人性化了(因为背后存在语义网技术,你的个人兴趣概要(profile)可以与网站的数据源进行互操作)、搜索引擎对结果的聚类(clustering of results)做得更好了(因为搜索引擎在背后采用具有含义的本体来对搜索结果加以分类)以及桌面搜索工具能够把文档作者的姓名与你的地址簿里的 Email地址关联起来了(因为这些数据格式在背后通过暴露其语义来实现互操作)等,但这些应用不会在其界面上注明“语义网技术”。语义 <略> 译注: [1] 更多关于语义网的权威资料,请参见 http://www.w3.org/2001/sw/。由Frank van Harmelen教授编写的《A Semantic Web Primer》是一本极好的语义网入门教材,该书中文版即将由机械工业出版社发行。 [2] OWL(Web Ontology Language,Web本体语言)2004年成为W3C推荐标准,是目前最常用的一种本体描述语言。《W3C OWL Web Ontology Language Guide》(http://www.w3.org/TR/owl-guide/)是一个很好的入门材料,其中译本位于http://zh.transwiki.org/cn/owlguide.htm。 [3] 国际万维网大会(International World Wide Web Conference)是Web领域的顶级会议,在学术界和工业界均享有极高的声誉,目前已召开16届。下一届国际万维网大会(WWW2008)将于2008年4月在中国北京召开。 [4] Nikasil涂层是Yamaha公司发明的一种专利技术。Nikasil是一种镍矽碳化物,将它电镀在汽缸上可以解决铝硅发动机耐磨性问题。该技术一般在应用在高档跑车上。 作者介绍 Frank van Harmelen是荷兰阿姆斯特丹自由大学人工智能系知识表示与推理研究组(正)教授。在阿姆斯特丹完成数学和计算机科学的学习之后,他前往英国爱丁堡大学人工智能系从事元推理(meta-level reasoning)的研究,并获博士学位。他是W3C推荐标准《OWL Web本体语言》的制定者之一。他是开发了Sesame(一种著名的RDF存储与检索引擎)的语义网领域元老级公司Aduna公司的科学顾问。他已发表超过100篇论文,其中很多是发表在顶级杂志与会议上的,还有许多被广为引用(Hirsch指数达到35)。他著有5本书,其中有一本是关于语义网技术的(这本书现已在世界各地被作为教科书使用,并且被翻译为西班牙文、日文、中文及韩文等多国文字)。他是第15届欧洲人工智能会议(ECAI2002)程序委员会主席,第3届国际语义网大会(ISWC2004)会议主席,以及第14届国际万维网大会(WWW2005)语义网专题主席。他担任过许多场合的特邀演讲者,比如2005年欧洲语义网暑期班、2006年欧洲语义网大会及2006年于香港召开的Web智能大会等。