中文XML论坛 - 专业的XML技术讨论区--显示贴子

以文本方式查看主题

-  中文XML论坛 - 专业的XML技术讨论区  (http://bbs.xml.org.cn/index.asp)
--  『 Semantic Web(语义Web)/描述逻辑/本体』  (http://bbs.xml.org.cn/list.asp?boardid=2)
----  语义网: 检讨与展望  (http://bbs.xml.org.cn/dispbbs.asp?boardid=2&rootid=&id=63552)

--  作者：baojie
--  发布时间：6/7/2008 5:25:00 PM

--  语义网: 检讨与展望
最近几个月，我觉得这个领域经历了一些不小的变化。一个很重要的事情是，这个领域日渐分裂为两个领域：一个就是OWL2这个方向为代表的，强调更强的表达力，强调更多的人工智能，服务于领域本体专家和知识库建设；一个就是以所谓的RDFS 3.0为代表的，强调“足够”和“有效”的表达力，强调大规模（Web Scale）的知识产生和表现，目标是服务于广大的Web终端用户。这个分裂的代表事件是两个多月前Jim Hendler退出OWL工作组。

在这个论坛上有些年头的ID大概都知道，我一直鼓吹轻量级本体的应用。我从来不相信基于描述逻辑（DL）的本体可能在Web上为广大的终端用户所理解，更不相信DL的推理能够在今后一个短的时间段里可能处理Web Scale的问题。大家知道，Web 2.0的概念比语义网的概念推出要晚好几年，可是现在Web 2.0已经成为一个成熟的产业，语义网的应用又在哪里呢？

检讨过去10年的发展（RDF的概念1999年就有了），我觉得这个领域有这样一些弯路或者不足
* 不断试图增加人工智能（知识表现）的能力到语义网的技术中。比如说，研究Rule和本体的集成，比如不断向OWL添加新的构造符（另外还有一大堆待选构造符在OWL工作组的计划中），还有喋喋不休的关于本体模块化的讨论。这些研究当然是非常有意思的工作，我自己也做了一些这方面的事情，但是现在看来，正是由于在AI方面投入的资源太多，反而阻碍了语义网的应用研究。现实中，不是由于OWL的表达力不够而使它得不到应用，而是由于它的表达力实在太强。即使是计算机系的博士生，也要花上相当的时间才能*真正*理解someValuesFrom和allValuesFrom, 如何指望一般的Web用户来正确的使用这样的构造符呢？遗憾的是，在OWLED workshop上（OWL工作组通常通过这个会议来获得“用户”反馈），几乎没有真正的Web用户的声音，而不断各种领域本体专家呼吁这样那样的扩展。如果持续这样下去，也许OWL 2, OWL 3, OWL 4，...会成为优秀的专家系统语言，但我不相信它可以成为语义网的基础语言。
* 忽视面向终端用户的工具开发。语义网上大量的“工具”，比如本体编辑器，推理机，各种API，本体浏览器，等等等等，有没有面向终端用户的呢？至少2007年之前的工具，我想不到哪个被广泛使用的工具是的 -- 我这里所说的终端用户，断无RDF或者OWL的知识，更不用说有任何编程或者逻辑背景。于是便有了如下的“鸡生蛋，蛋生鸡”的问题：由于没有合适的工具，就没有普通的用户来产生语义网的数据；由于没有普通用户提供的数据，也就没有需求去设计这样的工具。这个事情最近有了可喜的进步，比如语义wiki，比如Freebase，终于开始提供一点人性化的用户界面了。
* 忽视从Web日常应用入手进行研究。呵呵，这么说可能有点讽刺。我们想一下，一般的Web用户日常做什么工作？it（为政治正确，不分性别）上班第一件事可能是打开电子邮件，然后看看好友的blog，然后乘老板不注意的事情看看bbs和新闻；it要用google calendar管理自己的任务，在flickr上有几百张照片，在同学录上联系老友，去YouTube或者土豆网看视频，去百度搜mp3，诸如此类。请问在ISWC的论文集中，即使是应用Track，有多少文章是关于这样的日常应用呢？其实我们只要给Email, Blog, Calendar这些日常的应用加一丁点semantics（比如tag分类或typed关系），它们就能成为很棒的Killer App. 我很困惑，非常困惑，异常困惑，为什么Google之类的公司没有及时的来做这个事情，或者即使做了也做得半半拉拉，无疾而终（比如HP Lab的Semantic Blog）。
* 试图解决太多问题。最典型的，也是这个论坛上很多同学熟悉的，如本体集成问题和本体映射问题。个人浅见，这些问题绝对是值得研究的本体问题，但不是语义网实现的前提。本体集成和基于本体的数据集成在世界范围内前后至少有一百个有名目的项目在做，在可以预见的将来还是会有很多人来做；本体映射问题，也可以追溯到数据库schema映射的研究，前后少说有20年了吧。在语义网的环境中来研究这些问题，继承了数据库中相关问题的成果，也继承了它们的艰难 -- 可是，语义网和数据库可以类比吗？我有一个大胆的想法：在语义网上，每个人所用的本体，无非是一些标准的本体（如foaf）和小而简单的（如分类树）个人定义的本体；本体集成和映射，主要的发生在熟人之间（因为有这个必要），这种工作主要的是手工完成的（比如建立Gmail tag的对应）；然后通过社交网络(Social Network)，每个人的本体和外部世界建立起关系。所以现有的大量这方面的研究，恐怕以后在语义网上的应用只是有限的。类似的，如本体挖掘问题，如本体进化问题等等，这些都是重要的问题 -- 但是如果连本体都没有（戴上钢盔，躲砖头先），这些研究不就成为屠龙之技了吗？整个领域的人力物力是有限的，这里多一点，那里就少一点。是不是多一点研究力量在如何吸引终端用户，先让终端用户产生出本体来，让用户觉得有本体很爽，会不会更好些？
* 忽视吸取“传统”Web处理海量数据的一些方法。具体的说，就是对大规模并行处理，如Google PageRank, Server Farm, MapReduce这些借鉴不够。
* 和数据库领域没有搞好关系。总的来说，数据库领域对语义网领域不太感冒。毕竟，语义网上一个PTime算法就让人high，而数据库的人不会觉得LogSpace以上的东西有实用意义。最近也有很多搞调和的工作。其实，语义网的RDF这个层面的工作，完全可以可以看作数据库的一种低代价的扩展，建立于数据库之上。Oracle的RDF数据库实现，就很好的说明了这一点。如果OWL工作组和RDF相关的工作组能更多听取数据库界的意见，更多考虑可实现性和海量数据处理能力，对领域发展有益无害 -- 至少可以少被数据库的人据NSF项目申请 :)
* 移动语义网投入不足。不远的将来的最日常使用的Web终端会是手机和PDA，而非PC。语义网应用必须考虑到客户端的有限资源问题（屏幕，内容 etc）。

罗嗦了这么一堆，那么希望在哪里呢？我觉得每个问题的反面就是答案
* 应用轻量级本体，如分类树和RDF
* 开发面向终端用户的应用，如搜索引擎和电子邮件终端
* 利用Web 2.0技术降低用户门槛，促进用户参与（如语义wiki）
* 集中研究力量于迫切问题（如普及问题），循序渐进
* 应用并行计算
* 好好利用传统数据库
* 基于手机的程序开发

可喜的是，最近这些问题逐渐被越来越多的人认识到并重视。一个代表性的进步就是过去一年中语义wiki等Social Semantic Web技术有了长足的进步。DARPA (国防高等研究计划署，当年启动美国这边的语义网研究的就是它) 很可能对语义wiki技术做一个大力度的支持。许多激动人心的应用正在或将在这样的平台上以始料未及（wrt. 2001年）的方式被实现出来。我相信在今明两年，一些很棒的应用将浮现出来。

今后的语义网界，恐怕还会继续分裂为OWL 2“重量级”道路，和RDFS 3.0“轻量级”道路。我相信这两个方面在适应他们各自的用户群上，都会是合适的，只是前者的用户群只会是后者的一个极小的比例。殷鉴不远，在夏后之世，我们已经看到了专家系统，演绎数据库，面向对象的数据库这样一些最终成为小众自娱自乐的例子。显然，我们不希望语义网也成为这个名单的新一员。如何能最大可能的去适应最广大的用户，而不是相反，一个技术才会有持久的生命力。

不管白猫黑猫，抓住用户的就是好猫！

--  作者：pipidog
--  发布时间：6/7/2008 9:26:00 PM

--
语义网技术的内涵本来就不是现有Web技术的推倒重来，只有着力解决现有Web遇到的最实际问题，才会有潜力和市场。

--  作者：pipidog
--  发布时间：6/7/2008 9:30:00 PM

--
支持先从轻量级本体与现有IR，datamining，ect.做起

--  作者：admin
--  发布时间：6/7/2008 11:54:00 PM

--
严重同意！

--  作者：beyondlei
--  发布时间：6/8/2008 12:20:00 AM

--
很有启发意义。

--  作者：雪褥织影
--  发布时间：6/8/2008 1:34:00 AM

--
研究人员也要从自身、包括所在团队的利益考虑
我相信OWL2那帮人也是清楚这个东东很难直接推广到普通用户，但不代表没有研究的价值。如果国防上有这个需要，或者某些特殊的场合需要用到，并且这些特殊的单位又愿意提供丰厚的科研资助，为什么不深入研究下去呢

--  作者：baojie
--  发布时间：6/8/2008 3:10:00 AM

--
问题是OWL2的主流心目中的普通用户是懂逻辑,会建模的

具体看OWL 2 Primer
http://www.w3.org/TR/owl2-primer/

以下是引用雪褥织影在2008-6-8 1:34:00的发言：
研究人员也要从自身、包括所在团队的利益考虑
我相信OWL2那帮人也是清楚这个东东很难直接推广到普通用户，但不代表没有研究的价值。如果国防上有这个需要，或者某些特殊的场合需要用到，并且这些特殊的单位又愿意提供丰厚的科研资助，为什么不深入研究下去呢

--  作者：lsp_jlu
--  发布时间：6/8/2008 4:39:00 AM

--
关于本体映射和本体匹配的研究，方法和匹配技术已经很多很广泛，现在下一步应该就是针对特定领域的匹配了

--  作者：wolfel
--  发布时间：6/8/2008 11:35:00 AM

--
呵呵，感觉Horrocks为首的欧洲一派是AI派，James Hendler为首的美国一派是轻量级本体派

对于欧洲人来说，即使逻辑干不了什么事，他们也是喜欢逻辑的

--  作者：baojie
--  发布时间：6/9/2008 3:17:00 AM

--
补充：上面关于LogSpace（L）和Ptime（P）的讨论不严谨。L是否等于P是未知的，尽管我们知道L小于等于P。

http://en.wikipedia.org/wiki/Logarithmic_space

--  作者：daximen
--  发布时间：6/10/2008 9:46:00 AM

--
顶！
“* 忽视面向终端用户的工具开发。”，浏览器firefox里面用了一些rdf。

--  作者：wjwenoch
--  发布时间：6/10/2008 9:48:00 AM

--
学习了。。。对于那些研究人员而言，貌似他们不管有没有实际应用，只要有钱支持就行　哈哈哈

--  作者：micky
--  发布时间：6/10/2008 4:59:00 PM

--
强烈支持！

应用，应用，再应用。

语义网要面向大众，面向企业，这才是前途。

咱们这个论坛上用户多数还侧重在如何去做研究，谈及应用的确实很少。以至于我前段时间都不怎么想上这里来。

语义Wiki肯定是个好东西，Freebase，Twine也是好东西，还有很多开源的系统也在重点解决RDF海量数据库存储与检索等方面的问题。我很欣赏已经有很多语义技术相关的公司做了不少好的应用，值得大家学习和借鉴。期待着有更快更好的应用发展。

--  作者：zouyuanrenren
--  发布时间：6/11/2008 9:12:00 AM

--
我觉得这个问题不应该这么简单得来看。
首先我想提出一个质疑，楼主把Ian那一拨算在AI的研究人员了。其实这不是很恰当。本质上描述逻辑本体论跟传统的AI也是相反的。传统AI是数据处理智能化，让机器能跟人一样来处理原始信息。而语义网的研究是数据表示智能化，让人跟机器一样来写非常形式化和结构化的文档。这两个是相对的方向，当然现在有些语义网的研究应用了AI的技术，又反过来补偿到AI中去了。
其次，其实所谓“语义网研究"这个笼统的提法本身就不是很恰当，这个圈子里的很大一部分先驱者，包括楼主说的AI派，并不是针对语义“Web”来做研究的。他们所做的更多是描述逻辑，本体论，知识系统，知识表示等等等等的内容。这些东西本身不一定是web的背景，web只是一个可能的应用方向。只是因为恰好是这部分人把DL和ontology引入SW的研究并且开发了OWL这个Web Ontology Language，所以把这些研究人员都算成语义网的研究力量了。
从这部分KR&R研究者的角度来看，引入更多的semantics或是研究那些“屠龙之技”是很自然的事，因为他们本身就没有考虑太多工程应用方面的事情，而贯注于理论的研究。你看DL Handbook，从头到尾连例子都没几个，全是大篇大篇的理论。作为逻辑学家，能在本体大规模应用之前就把诸如本体映射本体进化之类的问题都解决的话，他觉得比一个Killer App.更有意义。跟这些研究人员讨论Killer App.或是抓住用户之类的完全是徒劳的，人家的兴趣在于解决理论问题，探索表达能力的极限，并不是开公司赚大钱。按照欧洲的学术传统这也是很正常的，没什么太多要苛责的。
我觉得要检讨的反倒是许多后来加入这个圈子的研究人员。由于某些学者在理论上走得比较超前比较成功，所以很多人误认为这个是研究的热点，发文章的机会大把，所以就盲目跟进走到那条路上去了，也不清楚到底自己能干什么该干什么。打着个“Web”的牌子做一些根本没法在web scale下应用的东西，导致现在语义网的研究过于理论化和小众化。我想之所以楼主提到的用户界面和日常应用之类的问题长期得不到解决，这个是主要原因。大家都想着发文章，开发用户界面这种吃力不讨好的事情谁干啊？如果没有大的企业力量的介入的话，但单靠学术界的力量，是很难往大规模应用的方向上走的。即便走上这条路了，这一步也一定是从小众娱乐的圈子出发的（比方说为了做某个研究需要非专业人员的参与，所以顺便开发了一个用户界面给普通用户之类的。。。）。
另外，出现目前这种尴尬状况，可能反过来说明理论研究还不足够，使得语义网相对于数据库或是web 2.0并没有突出的优势（表达能力强的复杂度太高，表达能力弱的仅仅聊胜于无）。否则大公司企业怎么可能到现在都一直按兵不动？他们一定对这个技术是否有利可图还抱有疑问——貌似Google宁可用人肉引擎也不支持语义网。像楼主说的semantic email，semantic blog之类的听起来似乎很轻松，但要做得好，其背后的技术含量也是不低的。我觉得肯定有人尝试过，只是搞不出可用的东西来。用户界面，所见即所得的自动标注编辑器我觉得倒是可行性比较高的方向。
其实每个学科的研究人员应该有比较明确的分工和定位。喜欢理论的就让他们去慢慢钻研理论，对应用有兴趣的就想办法怎么把理论实用化技术化。单方面强调semantic或是web都是片面的。即便是资源有限人力有限，你也没法强求搞逻辑的人来开发应用。但有志于做应用的人就没必要盲从所谓的大牛们去钻理论研究的牛角尖。所以我觉得分裂是早晚的事，晚分不如早分。

--  作者：szrw668
--  发布时间：6/11/2008 4:11:00 PM

--
受教了。

我的个人感觉，Tim Berners-Lee也负有一定责任。语义网的研究，基本围绕他提出的那个语义网的蛋糕结构，且不说2006年他还把这个蛋糕层次改变了，单说他这个蛋糕层次，哪一个是针对web中的实际应用的？从根本上说，他这个bottom-up的结构最后会死得很难看。
但语义技术还是有可取之处的。我觉得，未来发展关键是改变思路，从top-down的角度，依靠数据挖掘的技术，从现有的万维网中学习本体，而不要总是按兵不动，等待哪天用户自己来建本体。
个人之间。

--  作者：Leon.Essence
--  发布时间：6/12/2008 9:29:00 AM

--
语义网的技术要真正的推广，最重要的是要让普通的用户在日常的使用中愿意建立semantic data，这一方面要开发和用户日常的软件使用联系紧密，方便友好的semantic data的编辑工具，更为重要的是，要让用户觉得他建立semantic data花费的努力，能够得到更多的收益。

--  作者：micky
--  发布时间：6/12/2008 11:38:00 AM

--
学术界和工业界一直以来都是两个方向，其目标和方法都不一样，重点也不一样，但是两者又互为补充和促进。

同样，对于语义网或语义技术，学术界可以展开很广泛的研究，不用太关心未来的应用；而工业界则强调如何被广泛应用，如何为企业带来价值。

以前在学生时期主要是做研究，不清楚如何用。而现在在企业里，当然更关注如何应用了。希望能有更多应用方面的讨论，从实际应用出发来讨论语义网和语义技术。

我现在更喜欢用“语义技术”这个词了，毕竟语义网仅仅侧重在Web这方面，而真正的应用确很广泛，特别是在企业范围内。所以我觉得谈语义技术的应用更为合适。

[此贴子已经被作者于2008-6-12 12:38:41编辑过]

--  作者：lizfsmile
--  发布时间：6/12/2008 10:15:00 PM

--
很深奥，似懂非懂的，云里雾里。还得努力学习。

--  作者：lxqneu
--  发布时间：6/13/2008 3:15:00 PM

--
有这样一个问题：对于语义搜索引擎，用户输入了java这个搜索词，语义搜索引擎是怎么样工作的呢？rdf，owl在这里起到了什么样的作用？是怎么起作用的？

--  作者：baojie
--  发布时间：6/14/2008 3:33:00 AM

--

以下是引用zouyuanrenren在2008-6-11 9:12:00的发言：
我觉得这个问题不应该这么简单得来看。
首先我想提出一个质疑，楼主把Ian那一拨算在AI的研究人员了。其实这不是很恰当。本质上描述逻辑本体论跟传统的AI也是相反的。传统AI是数据处理智能化，让机器能跟人一样来处理原始信息。而语义网的研究是数据表示智能化，让人跟机器一样来写非常形式化和结构化的文档。这两个是相对的方向，当然现在有些语义网的研究应用了AI的技术，又反过来补偿到AI中去了。
[/quote]

你也提到了“而语义网的研究是数据表示智能化”。Ian的工作很明显不直接在这上面。他和他的助手们主要还是在知识表现和推理上下功夫。我的理解这些都是很传统的AI的工作。

[quote]
其次，其实所谓“语义网研究"这个笼统的提法本身就不是很恰当，这个圈子里的很大一部分先驱者，包括楼主说的AI派，并不是针对语义“Web”来做研究的。他们所做的更多是描述逻辑，本体论，知识系统，知识表示等等等等的内容。这些东西本身不一定是web的背景，web只是一个可能的应用方向。只是因为恰好是这部分人把DL和ontology引入SW的研究并且开发了OWL这个Web Ontology Language，所以把这些研究人员都算成语义网的研究力量了。
从这部分KR&R研究者的角度来看，引入更多的semantics或是研究那些“屠龙之技”是很自然的事，因为他们本身就没有考虑太多工程应用方面的事情，而贯注于理论的研究。你看DL Handbook，从头到尾连例子都没几个，全是大篇大篇的理论。作为逻辑学家，能在本体大规模应用之前就把诸如本体映射本体进化之类的问题都解决的话，他觉得比一个Killer App.更有意义。跟这些研究人员讨论Killer App.或是抓住用户之类的完全是徒劳的，人家的兴趣在于解决理论问题，探索表达能力的极限，并不是开公司赚大钱。按照欧洲的学术传统这也是很正常的，没什么太多要苛责的。
[/quote]

呵呵，当然。我的意思是说，不应该让他们占据太多的研究资源。应该让更多优秀的青年来从事面向应用的工作。

[quote]
我觉得要检讨的反倒是许多后来加入这个圈子的研究人员。由于某些学者在理论上走得比较超前比较成功，所以很多人误认为这个是研究的热点，发文章的机会大把，所以就盲目跟进走到那条路上去了，也不清楚到底自己能干什么该干什么。打着个“Web”的牌子做一些根本没法在web scale下应用的东西，导致现在语义网的研究过于理论化和小众化。我想之所以楼主提到的用户界面和日常应用之类的问题长期得不到解决，这个是主要原因。大家都想着发文章，开发用户界面这种吃力不讨好的事情谁干啊？如果没有大的企业力量的介入的话，但单靠学术界的力量，是很难往大规模应用的方向上走的。即便走上这条路了，这一步也一定是从小众娱乐的圈子出发的（比方说为了做某个研究需要非专业人员的参与，所以顺便开发了一个用户界面给普通用户之类的。。。）。
[/quote]

学术界的工作重点之一应该是向企业界澄清对语义网的一些误解。当然很多误解本来就来源于学术界本身的误区。学术界应该理清自己的思路，理解现实应用的需求，理顺和企业界的关系。

[quote]
另外，出现目前这种尴尬状况，可能反过来说明理论研究还不足够，使得语义网相对于数据库或是web 2.0并没有突出的优势（表达能力强的复杂度太高，表达能力弱的仅仅聊胜于无）。否则大公司企业怎么可能到现在都一直按兵不动？他们一定对这个技术是否有利可图还抱有疑问——貌似Google宁可用人肉引擎也不支持语义网。像楼主说的semantic email，semantic blog之类的听起来似乎很轻松，但要做得好，其背后的技术含量也是不低的。我觉得肯定有人尝试过，只是搞不出可用的东西来。用户界面，所见即所得的自动标注编辑器我觉得倒是可行性比较高的方向。
[/quote]

我觉得主要还是企业界对什么是语义技术被学术界搞糊涂。如果限定在RDF和OWL，并不是所有的公司都有兴趣。实际上比如Twine和Semantic MediaWiki这样的语义网应用，压根就没有用RDF -- RDF只是一层皮肤而已，核心还是关系数据库。如你所说，任何一个应用，做到企业级规模，背后有各种复杂的工程技术细节问题。学术界的任务显然不是要去解决这些问题，但要给企业界一个大的思路，如何能在现有的成熟技术条件下（而不是未来的技术）来解决问题。

[quote]
其实每个学科的研究人员应该有比较明确的分工和定位。喜欢理论的就让他们去慢慢钻研理论，对应用有兴趣的就想办法怎么把理论实用化技术化。单方面强调semantic或是web都是片面的。即便是资源有限人力有限，你也没法强求搞逻辑的人来开发应用。但有志于做应用的人就没必要盲从所谓的大牛们去钻理论研究的牛角尖。所以我觉得分裂是早晚的事，晚分不如早分。

不是改变现在的人，而是要号召以后的人。

W 3 C h i n a ( since 2003 ) 旗下站点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》

109.375ms