以文本方式查看主题

-  中文XML论坛 - 专业的XML技术讨论区  (http://bbs.xml.org.cn/index.asp)
--  『 Semantic Web(语义Web)/描述逻辑/本体 』  (http://bbs.xml.org.cn/list.asp?boardid=2)
----  Semantic Web中的推理,又一个银弹?——自己对SW的看法,大家批判!  (http://bbs.xml.org.cn/dispbbs.asp?boardid=2&rootid=&id=48213)


--  作者:zhaonix
--  发布时间:6/8/2007 2:11:00 PM

--  Semantic Web中的推理,又一个银弹?——自己对SW的看法,大家批判!
看到有人问语义查询的优势,重新整理了一下自己对SW的看法,单独贴出来以方便讨论。多数观点在以前自己的回帖中表达过,看过的兄弟不要说俺在发月经帖哦  提前声明:俺在SW上道行不深,初学者注意不要受误导:)

    我觉得:SW的名字有误导性。似乎用ontology一标注,web就有了“语义”、因而也就高度智能了。实际上,DL只是FOL的一个子集,仅仅能表示概念及概念的属性、概念之间的关系而已(见本体的经典定义:“共享概念模型的明确的形式化的规范说明”)。我觉得它和关系数据库的E-R模型没有本质区别,除去里面有继承、open world assumption等少数特性外。而现实中、web上、各个领域里还有大量的其它种类的知识!  让web可被机器理解与让电脑更智能一样是一个美好的理想,甚至是一个像乌托邦那样的纯粹的理想而已,借助DL 本体及其上的推理,SW是能实现这个理想的银弹吗?
    SW中通过推理所能“发现”的“隐含”的知识其实很有限,即受限于DL本体中所包含的信息量。常见的形式有:根据class的定义发现两个class间存在继承关系,根据cardinality断定两个表示个体的URI表示的是同一个个体,根据property range断定某个个体是属于某个class等。不知道用一个DL本体能表示一个领域内多大比例的知识:80%?还是20%?如果是20%,这20%用关系数据库就能实现大部分了。
    再者,本体都是先由领域专家建立、再拿去标注网页、然后拿来推理,先不说这种集权式的模式与web的精神背道而驰,就说同样一个领域里,不同的专家往往对有些问题的观点也不一致,所以,不太可能预先建立一个能表示领域内知识的本体。即使考虑了“本体进化”方面的研究,我也怀疑这种自上而下的模式是否能在web上工作
    最后,即使如此有限的发现隐含知识的能力,也需要非常高的计算复杂性。DL家族中基本的ALC,就已经是PSPACE了!这可是一个不比NP简单的复杂度哪!那么,OWL-DL这样的SHOIN(D)级别的DL还怎么实用?
    总之,我觉得,指望“推理”,SW是没什么希望的。早在50-60年代,AI界就对FOL的自动推理做了深入的研究了,虽能取得了一些成果即自动地证明了一些数学定理,但后来还是趋于平淡。我觉得其原因就是一方面复杂性高、另一方面所能推理出的东西实在有限。对此,俺的感受是:电脑的归电脑,人脑的还是要归人脑。不清楚SW界的牛人们如何撇清自己的东西和这一段历史间的差别?
    
    目前,国外的SW(Web3.0)工具、应用、网站倒是正在大量涌现,但仔细看过去,几乎都是在实现一个RDF triple库并提供SPARQL接口,鲜有靠“推理”、靠发现“隐含知识”来取胜的。这样的系统,在我看来,不就是一个纯粹的分布式关系数据库吗?RDF的Resource-Property不正是传统的Entity-Relation吗?比起传统的RDBMS,这种系统能集成不同来源的数据,——因为它使用了URI,因为使用文本格式来表示所有的数据类型。 这种流派的SW,我觉得能带来一定的实用价值
    
    但我们要毕业、要写论文,还是前一个即基于推理的流派更值得关注,因为它的理论高深、算法复杂,是SW会议上的主流,还有曼大、Karlsruhe、Dresden、Maryland、Trento、SRI等等众多的研究重镇可以跟踪;后一个流派虽然实用性好,但整个一个关系数据库而已,似乎没多少理论上的东西(除了优化性能),现在最缺的,怕是一个杀手锏般的应用而已。


--  作者:okee
--  发布时间:6/8/2007 2:47:00 PM

--  
SPARQL 的性能问题就已经够折腾的了。
--  作者:superc_7
--  发布时间:6/8/2007 3:26:00 PM

--  
lz说的不错,有很多问题以前也没少提过,但也不必一棒子拍死SW
在生命科学领域这一套东西好像用的还是不错的
我支持以RDF为主的轻量级SW应用,数据集成是最起码的优势,也许以后网络爬虫爬的不是网页而是RDF statement,这也为分布式系统奠定了基础,毕竟分布式是大势所趋
另外RDF数据模式也为检索提供了新的可能,检索式的构建会比数据库灵活很多,关键是SPARQL等检索语言效率什么时候能赶上SQL等
--  作者:zhaonix
--  发布时间:6/8/2007 10:06:00 PM

--  
以下是引用superc_7在2007-6-8 15:26:00的发言:
lz说的不错,有很多问题以前也没少提过,但也不必一棒子拍死SW
在生命科学领域这一套东西好像用的还是不错的
我支持以RDF为主的轻量级SW应用,数据集成是最起码的优势,也许以后网络爬虫爬的不是网页而是RDF statement,这也为分布式系统奠定了基础,毕竟分布式是大势所趋
另外RDF数据模式也为检索提供了新的可能,检索式的构建会比数据库灵活很多,关键是SPARQL等检索语言效率什么时候能赶上SQL等


多谢关注!是,大家都在说在生命科学、医疗信息等领域SW用的挺好,只是不清楚这些地方使用SW用的其“推理”能力、还是其作为一个“分布式数据模式”集成异构系统的能力。  老大最后这句如何理解:“另外RDF数据模式也为检索提供了新的可能,检索式的构建会比数据库灵活很多”?
    我的想法是:RDF数据模式与关系数据库的E-R模式其实很像,因此,如果各个数据源依然使用传统数据库,但是,如果:
    1)把各个Table的定义公开化
    2)Table的各个字段的名称、各个字段的取值普遍使用URI
的话,是不是也能实现异构数据集成?:)  
    RDF的一个不同是:没有那么多的Table,只需要一个就够了:“Subject-Predicate -Ojbect”,顶多把typeOf, subClassOf等单列出来。
    但我认为,这两种方式是等价的、可以互相转化吧(个人观点、没有仔细研究过牛人们对于两者差别的论述):只要关系数据库中每个Table都用一个单个的字段作为主键,那么该字段的每个值与其他每个字段及其相应取值就构成了一个Triple。


--  作者:superc_7
--  发布时间:6/8/2007 11:01:00 PM

--  
具体如何应用我不太清除,但确实国外在这方面已经开始有现实应用了
今天我贴了一个W3C发表的SW Case Studies and Use Cases(http://www.w3.org/2001/sw/sweo/public/UseCases/),里边有很多有意思的应用,随便翻了一下,这个就是在医学方面推理的应用:Use Case: Using Semantic Web and Proof Technologies to Reduce Errors in Radiological Procedure Orders

至于我说RDF模型检索更具有灵活性,是因为在构建检索式的时候不必依据某一个特定的table,或者说由于RDF中关系是URI,直接拿来构造检索式就可以了,不必考虑是在哪个table里


--  作者:wolfel
--  发布时间:6/9/2007 1:14:00 AM

--  
其实我觉得对SW的看法,不用太急功近利,急于想让它做成一个什么产品,得到广泛应用,这是不现实的,至少在现阶段。具体原因,LZ已经说得很多了。

我个人对SW的看法与LZ不同。我们不要考虑SW究竟以后是否能实用化。SW的存在就是一个促进符号AI,知识表示与推理理论和技术发展的平台,为KR这么多年的理论发展逐步迈向现实提供了一个共同问题和应用背景。在SW的背景下,越来越多的KR理论变得不那么虚幻了,开始一步一步走向实用化了--虽然现在还面临这样和那样的问题。在SW的推动下,做描述逻辑,概念建模的人来了,做逻辑程序,非单调推理的人来了,做信念修订的人也来了,做知识工程人也来了--KR领域从一个分散的,各自为战的局面开始慢慢发展成开始为了一个共同的目标而努力的局面。同时,在SW的背景下,KR的各个分支领域也得到了相应的发展:以前很少有人研究一阶逻辑子集的性质,复杂性和证明论,现在开始研究了;以前很少有人研究经典逻辑和逻辑程序构成的杂合系统,现在开始研究了;以前很少有人研究一阶层次上的信念修订,现在也开始研究了--KR在SW的推动下出现了很多新的课题和研究结果。随着SW影响的扩大,我想这个局面还会发展的越来越好。

其实,在AI别的领域,也是可以找到类似的例子的。在机器人领域,RoboCup的发展为机器人研究提供了一个公认的平台,研究机器人的学者们开始为一个共同目标努力:2050年让机器人足球队击败人类足球队。RoboCup的影响越来越大,这些年在很多方面推动了机器人技术的迅速发展--从IJCAI07的PC Chair和特邀报告就可以看出来。没有人觉得现在能造出一支机器人球队,可是,RoboCup的价值已经得到了公认。

对SW,我持有类似的态度,我是很乐观的,并不在于它是否能立即产业化,而在于它推动了KR向着实用化的方向发展,它的存在本身就具有价值。


--  作者:baojie
--  发布时间:6/9/2007 3:17:00 AM

--  
非常好的帖子,很好的想法。

    我觉得:SW的名字有误导性。似乎用ontology一标注,web就有了“语义”、因而也就高度智能了。实际上,DL只是FOL的一个子集,仅仅能表示概念及概念的属性、概念之间的关系而已(见本体的经典定义:“共享概念模型的明确的形式化的规范说明”)。我觉得它和关系数据库的E-R模型没有本质区别,除去里面有继承、open world assumption等少数特性外。而现实中、web上、各个领域里还有大量的其它种类的知识!  让web可被机器理解与让电脑更智能一样是一个美好的理想,甚至是一个像乌托邦那样的纯粹的理想而已,借助DL 本体及其上的推理,SW是能实现这个理想的银弹吗?

首先,SW的目标绝不是让电脑更智能。实际上,SW是很谦虚的,只不过想比关系数据库多那么一点点。这一点是什么呢?就是很有限的(从一阶逻辑研究者的角度)概念推理能力。可是,经过了30年的KR研究,大家还没有找到一个比DL更简单的方法,又能提供足够的推理能力。也就是说,DL是大家经过一代人努力找到的一个表达力和复杂性折衷的(虽然不那么特别令人满意的)方案。DL还是比ER强很多的,要不然它的查询复杂性咋会这么糟呢 :)

SW中通过推理所能“发现”的“隐含”的知识其实很有限,即受限于DL本体中所包含的信息量。常见的形式有:根据class的定义发现两个class间存在继承关系,根据cardinality断定两个表示个体的URI表示的是同一个个体,根据property range断定某个个体是属于某个class等。不知道用一个DL本体能表示一个领域内多大比例的知识:80%?还是20%?如果是20%,这20%用关系数据库就能实现大部分了。

事实的情况是,SW上绝大多数应用,要求的是及其“低级”,及其简单的本体,比如分类树,比如分类树加上属性表述。这些"低级"的本体,用关系数据库还是表达不了,缺可以用DL的一些简单版本来描述,如EL, DL-Lite。这就是为什么SW不可能是基于ER,而需要基于DL的一个重要原因。实际上,我个人很看好基于这种简单本体的SW,OWL 1.1 也正在作这方面的规范。

再者,本体都是先由领域专家建立、再拿去标注网页、然后拿来推理,先不说这种集权式的模式与web的精神背道而驰,就说同样一个领域里,不同的专家往往对有些问题的观点也不一致,所以,不太可能预先建立一个能表示领域内知识的本体。即使考虑了“本体进化”方面的研究,我也怀疑这种自上而下的模式是否能在web上工作.

呵呵,当然不会是这样啦。SW上的本体将会是普通用户(比如咋家外婆)用设计的非常人性化的工具提供出来的。打个比方说,如今的Word文章已经是基于XML的了,但是用户需要知道XML吗?他可能连XML的名字也没听说过,但是一样可以用Word写简单的文章。SW上对网页进行标注,没有这么神秘了,给Blog加tag大家都干过吧?给tag加上分类关系,或者相关关系,不就是本体啦?

最后,即使如此有限的发现隐含知识的能力,也需要非常高的计算复杂性。DL家族中基本的ALC,就已经是PSPACE了!这可是一个不比NP简单的复杂度哪!那么,OWL-DL这样的SHOIN(D)级别的DL还怎么实用?

TBox推理复杂性高,可是Data Complexity可以在PTime或者LOGSPACE (DL-Lite)。 另外,我坚信推理机还可以大规模的优化。特别是模块化本体,分布式推理,渐进推理,近似推理,这些都有希望把现有的推理机性能提高一个甚至更高的数量级。

总之,我觉得,指望“推理”,SW是没什么希望的。早在50-60年代,AI界就对FOL的自动推理做了深入的研究了,虽能取得了一些成果即自动地证明了一些数学定理,但后来还是趋于平淡。我觉得其原因就是一方面复杂性高、另一方面所能推理出的东西实在有限。对此,俺的感受是:电脑的归电脑,人脑的还是要归人脑。不清楚SW界的牛人们如何撇清自己的东西和这一段历史间的差别?

SW从来没打算作“人脑”这类的事。SW最终无非是把比分类树稍微复杂一点的本体大规模应用到web上,以及把OWL-DL这样的怪兽小规模的用于特殊领域。我觉得这都挺现实的。

  目前,国外的SW(Web3.0)工具、应用、网站倒是正在大量涌现,但仔细看过去,几乎都是在实现一个RDF triple库并提供SPARQL接口,鲜有靠“推理”、靠发现“隐含知识”来取胜的。这样的系统,在我看来,不就是一个纯粹的分布式关系数据库吗?RDF的Resource-Property不正是传统的Entity-Relation吗?比起传统的RDBMS,这种系统能集成不同来源的数据,——因为它使用了URI,因为使用文本格式来表示所有的数据类型。 这种流派的SW,我觉得能带来一定的实用价值。

即使是RDF也比ER强很多。RDF数据库会是SW的一个强有力支持(虽然我认为SW不一定要用RDF数据库)。我相信未来几年将见到比较成熟的应用。
   
  但我们要毕业、要写论文,还是前一个即基于推理的流派更值得关注,因为它的理论高深、算法复杂,是SW会议上的主流,还有曼大、Karlsruhe、Dresden、Maryland、Trento、SRI等等众多的研究重镇可以跟踪;后一个流派虽然实用性好,但整个一个关系数据库而已,似乎没多少理论上的东西(除了优化性能),现在最缺的,怕是一个杀手锏般的应用而已。

Semantic Blog, Semantic Wiki, Semantic Email, Semanic Google Map, 都是很好的努力方向啊,原理也不复杂,就看有没有有心且有力者去实现一个*好用*的版本了。

RDF上理论的问题还多的很,比如分布式问题,比如访问控制问题,比如安全性问题。基本上传统数据库领域的问题都可以映射过来。所以用心的同学不要放过这个富矿哦!



--  作者:jl1022
--  发布时间:6/9/2007 8:01:00 AM

--  
说得好,受益匪浅!
--  作者:jl1022
--  发布时间:6/9/2007 8:41:00 AM

--  
“SW中通过推理所能“发现”的“隐含”的知识其实很有限,即受限于DL本体中所包含的信息量。常见的形式有:根据class的定义发现两个class间存在继承关系,根据cardinality断定两个表示个体的URI表示的是同一个个体,根据property range断定某个个体是属于某个class等。不知道用一个DL本体能表示一个领域内多大比例的知识:80%?还是20%?如果是20%,这20%用关系数据库就能实现大部分了”

我认为SW中通过推理所能“发现”的“隐含”的知识其实是无限的,我们可以通过swrl在本体中加入领域规则,用jess在多规则共同作用的基础上推理出本体中隐含的知识,能推出多少隐含知识就要看你在本体中加了多少规则了。


--  作者:superc_7
--  发布时间:6/9/2007 10:48:00 AM

--  
SW这套东西提出来有7,8年了,WWW在7,8岁的时候是什么样子?差距说明了问题,也许现在不好说SW会不会成功,但现状表明全套的SW可能过于超前了,现在规则之上的层次还都没有研究清楚。国外,尤其是欧洲这些年来SW研究搞的热火朝天,但如果这只能够推动KR研究发展的话,那未免也太划不来了。科学研究也是投资,如果长期看不到回报的话,很难说还能不能继续下去。
WWW为什么如此成功?很重要的一个原因是因为它简单,只需要很低的成本就可以向全世界发布信息是个巨大的诱惑。现在web2.0火了,因为WWW谦虚的退到一边,将互联网的主角交给用户,网络成为一个丰富多彩的平台。反观SW,首先它足够复杂,第二它更看重数据方面的工作。很难说这究竟是对现有WWW的一种补充,还是现有网络的极端反例。需要注意的是,SW是需要融合入现有的WWW,而不是取而代之。
回想《The Semantic Web》中Tim设想的代理自动为用户安排看病的应用,似乎在一段时间内还无法实现。Semantic “web”也许“死”了,但Semantic技术却依旧活着。
--  作者:baojie
--  发布时间:6/9/2007 10:58:00 AM

--  
我再斗胆说一遍:SW的大规模应用,先阶段只会是基于分类树,至多DAG。只要把分类树搞起来,80%以上的应用可以涵盖。


--  作者:smileidiot
--  发布时间:6/11/2007 8:58:00 AM

--  
以下是引用zhaonix在2007-6-8 22:06:00的发言:
多谢关注!是,大家都在说在生命科学、医疗信息等领域SW用的挺好,只是不清楚这些地方使用SW用的其“推理”能力、还是其作为一个“分布式数据模式”集成异构系统的能力。  老大最后这句如何理解:“另外RDF数据模式也为检索提供了新的可能,检索式的构建会比数据库灵活很多”?
     我的想法是:RDF数据模式与关系数据库的E-R模式其实很像,因此,如果各个数据源依然使用传统数据库,但是,如果:
     1)把各个Table的定义公开化
     2)Table的各个字段的名称、各个字段的取值普遍使用URI
的话,是不是也能实现异构数据集成?:)  
     RDF的一个不同是:没有那么多的Table,只需要一个就够了:“Subject-Predicate -Ojbect”,顶多把typeOf, subClassOf等单列出来。
     但我认为,这两种方式是等价的、可以互相转化吧(个人观点、没有仔细研究过牛人们对于两者差别的论述):只要关系数据库中每个Table都用一个单个的字段作为主键,那么该字段的每个值与其他每个字段及其相应取值就构成了一个Triple。

这种Triple(subject predicate object)方法很直观,也称vertical,但性能受到质疑,毕竟只有一个Table存储所有数据,不符合DB惯用的horizontal设计模式,即:DB索引等优化策略没用武之地--个人意见,欢迎讨论^_^


--  作者:yayatu
--  发布时间:6/11/2007 9:13:00 AM

--  
对LZ的看法看赞同。
首先,就推理能力来讲,SW以DL为基础,那么少不了tableau算法,大家都知道tableau本身的性能就不是很好。虽然有 很大的优化技术,但是用户是否忍受在浏览器前等很大时间呢~。
其次,推理范围而言,目前任何一个推理机都不可能实现完全的推理能力,即推理所谓的所有的隐含知识,所能推到出来大部分还是人肉眼就能看出来的知识,如果还要经过机器去推理,那只能让人们先去倒杯咖啡了。因此对于不同的领域,还是需要领域专家来制定推理规则,各行各业这些多知识,人们也只能期待尽可能多的去制定规则了。所以这样的推理是有了领域性的,想要做通用的实在太难了。

因此,web3.0的实现的确是太艰难,目前还看不到前景。倒是web2.0无处不在,十分的活跃。也让人们乐在其中,明星blog满足了的大家的好奇心。wiki给了大家共享和自由的空间。
但是不管怎么样,web3.0始终人们的希望,毕竟人活着是要有希望的。


--  作者:zhaonix
--  发布时间:6/11/2007 9:59:00 AM

--  
以下是引用wolfel在2007-6-9 1:14:00的发言:
其实我觉得对SW的看法,不用太急功近利,
……
  SW的存在就是一个促进符号AI,知识表示与推理理论和技术发展的平台,为KR这么多年的理论发展逐步迈向现实提供了一个共同问题和应用背景。在SW的背景下,越来越多的KR理论变得不那么虚幻了,开始一步一步走向实用化了--虽然现在还面临这样和那样的问题。在SW的推动下,做描述逻辑,概念建模的人来了,做逻辑程序,非单调推理的人来了,做信念修订的人也来了,做知识工程人也来了--…… 以前很少有人研究一阶逻辑子集的性质,复杂性和证明论,现在开始研究了;以前很少有人研究经典逻辑和逻辑程序构成的杂合系统,现在开始研究了;以前很少有人研究一阶层次上的信念修订,现在也开始研究了--KR在SW的推动下出现了很多新的课题和研究结果。
……
对SW,我持有类似的态度,我是很乐观的,并不在于它是否能立即产业化,而在于它推动了KR向着实用化的方向发展,它的存在本身就具有价值。


有道理。SW整合了KR名下的很多东西,有着丰富的内容,推动KR向实用化发展。 但这样的特点——复杂高深但尚看不到应用前景、像是一群学者的智力玩具——正是AI的许多领域被人诟病之处,也正是一些SW人想尽力避免的,见《A Semantic Web Primer》1.3.5节:
     "If the ultimate goal of AI is to build an intelligent agent exhibiting human-level intelligence (and higher), the goal of the Semantic Web is to assist human users in their day-to-day online activities." 以及 "But there is no need to wait until AI reaches a higher level of achievement; current AI technology is already sufficient to go a long way toward realizing the Semantic Web vision."
不过楼上的看法,应该也代表了SW方面不少文章的思路吧。
--  作者:baojie
--  发布时间:6/11/2007 10:23:00 AM

--  
把RDF存储等同于一张表是一个很大的误解。实际上,关系数据库也可以用一张表作所有的事(第一范式)。

RDF用关系数据库存储,只是一个syntax,关键在于RDF推理规则,这是超越关系数据库的。


--  作者:zhaonix
--  发布时间:6/11/2007 11:12:00 AM

--  
非常感谢Bao老大如此详细的评点!

首先,SW的目标绝不是让电脑更智能。实际上,SW是很谦虚的,只不过想比关系数据库多那么一点点。这一点是什么呢?就是很有限的(从一阶逻辑研究者的角度)概念推理能力。可是,经过了30年的KR研究,大家还没有找到一个比DL更简单的方法,又能提供足够的推理能力。也就是说,DL是大家经过一代人努力找到的一个表达力和复杂性折衷的(虽然不那么特别令人满意的)方案。DL还是比ER强很多的,要不然它的查询复杂性咋会这么糟呢 :)
  1) DL比ER强的地方——即所多出来的那一点推理能力——的作用到底如何,似乎还没看到令人信服的案例,不知道对不对?而且在理论上也没看到过令人信服的论述,恕俺寡闻:(。 有待继续观察、核实。
  2) Horn Logic Program应该能算一种“简单、又能提供足够的推理能力”的FOL子集吧。出世也比DL早,但怎么就没被选中进行KR呢?:(  是不是可以说:KR需要的不仅仅是能推理,而且还需要能对概念及其之间的关系进行建模,至于其它的东西如规则形式的知识,都是外围的东西?

事实的情况是,SW上绝大多数应用,要求的是及其“低级”,及其简单的本体,比如分类树,比如分类树加上属性表述。这些"低级"的本体,用关系数据库还是表达不了,缺可以用DL的一些简单版本来描述,如EL, DL-Lite。这就是为什么SW不可能是基于ER,而需要基于DL的一个重要原因。实际上,我个人很看好基于这种简单本体的SW,OWL 1.1 也正在作这方面的规范。
  哦,分类、继承看来确实是DL的一大优势,是SW值得看好的方向,——至于属性表述,ER中也有。受教了。 这里一个问题是:这种简单的本体能带来什么样的、多大的价值呢?AI历史上,基于规则的专家系统也火过一阵子,用现在的话来说,规则系统是不是也可以看作一种简单的本体?^_^  因此,是不是可以推测:这种SW所能取得的成功,在影响力上将类似于专家系统所取得的成功(而不会大得出奇)?

呵呵,当然不会是这样啦。SW上的本体将会是普通用户(比如咋家外婆)用设计的非常人性化的工具提供出来的。打个比方说,如今的Word文章已经是基于XML的了,但是用户需要知道XML吗?他可能连XML的名字也没听说过,但是一样可以用Word写简单的文章。SW上对网页进行标注,没有这么神秘了,给Blog加tag大家都干过吧?给tag加上分类关系,或者相关关系,不就是本体啦?
  我觉得,XML和本体还是有本质区别的。XML只是一种“形式”性质的东西,可以被GUI向用户隐藏掉;但本体是“内容”性质的东西,其用途用法(即用来标注别的资源)必须由人工来实施,是不能被UI的设计绕过去的。
  tag和本体还是有本质区别,两者如何结合或许不那么简单,而是还有许多工作待做:如何在用户随意添加的tag中去除噪声数据并加上关系使之成为本体;能不能让用户添加tag时只从受控的词汇表(即本体)中选择;让用户在添加tag时指明每个tag描述的是资源的哪个属性(像Flickr的machine tag那样)。

TBox推理复杂性高,可是Data Complexity可以在PTime或者LOGSPACE (DL-Lite)。 另外,我坚信推理机还可以大规模的优化。特别是模块化本体,分布式推理,渐进推理,近似推理,这些都有希望把现有的推理机性能提高一个甚至更高的数量级。
   仰望之,待了解之:)

SW从来没打算作“人脑”这类的事。SW最终无非是把比分类树稍微复杂一点的本体大规模应用到web上,以及把OWL-DL这样的怪兽小规模的用于特殊领域。我觉得这都挺现实的。
  en, 同意老大说的这两种情形。只是SW在最初的野心似乎比这个要大,比如01年的SA的《The Semantic Web》一文。

即使是RDF也比ER强很多。RDF数据库会是SW的一个强有力支持(虽然我认为SW不一定要用RDF数据库)。我相信未来几年将见到比较成熟的应用。
  同前,强在哪里还不太清楚:(
    
Semantic Blog, Semantic Wiki, Semantic Email, Semanic Google Map, 都是很好的努力方向啊,原理也不复杂,就看有没有有心且有力者去实现一个*好用*的版本了。
    Email都Semantic?!听起来有点夸张哦,呵呵。待观察这类应用、研究。

RDF上理论的问题还多的很,比如分布式问题,比如访问控制问题,比如安全性问题。基本上传统数据库领域的问题都可以映射过来。所以用心的同学不要放过这个富矿哦!
  指点的好,代各位版友谢过老大!:)


--  作者:zhaonix
--  发布时间:6/11/2007 11:25:00 AM

--  
以下是引用jl1022在2007-6-9 8:41:00的发言:
我认为SW中通过推理所能“发现”的“隐含”的知识其实是无限的,我们可以通过swrl在本体中加入领域规则,用jess在多规则共同作用的基础上推理出本体中隐含的知识,能推出多少隐含知识就要看你在本体中加了多少规则了。


借助规则库,是可以融入大量的“知识”进去,这也是七、八十年代AI中风靡一时的(基于规则的)专家系统 的关键,特点是简单的逻辑、丰富的知识。这种系统以前取得了一定的成功,在现在的SOA中 规则(或说配置)也被寄予厚望。
  在SW中被画在了协议分层模型的老上面,值得关注。但之所以进展缓慢,怕是可计算性的问题吧:完整的SWRL是不可判定的!(见www.w3.org/2004/12/rules-ws/paper/51/) 要想结合DL和rule还维护可判定性,似乎只能在两头都舍弃许多特性后形成一个表达能力相当弱的系统,如Description Logic Programs(www2003有一篇paper):(


--  作者:zhaonix
--  发布时间:6/11/2007 11:51:00 AM

--  
以下是引用yayatu在2007-6-11 9:13:00的发言:
因此,web3.0的实现的确是太艰难,目前还看不到前景。倒是web2.0无处不在,十分的活跃。也让人们乐在其中,明星blog满足了的大家的好奇心。wiki给了大家共享和自由的空间。
但是不管怎么样,web3.0始终人们的希望,毕竟人活着是要有希望的。


提醒一下: Semantic还有另一个注重实用的流派,国外这两年已涌现了不少web3.0工具、网站,如:
  1. 大公司的。
    Oracle's RDF Data Model offers the industry's first open, scalable, secure and reliable RDF management platform
    IBM Semantic Layered Research Platform - 来自于特定的知识密集性领域的研究中,或许与web关系不大,但里面的工具好多。
    微软处于早期实验阶段的Astoria。虽出发点不在SW,但支持RDF。详见后面自己的笔记。
  2. 学术界的。
    w3c的Sweo IG的community project - Linking Open Data on the Semantic Web 。列出了几个大型的 RDF Triple库。包括:
    德国 Free Univ. of Berlin的DBPedia - 从Wikipedia获取一个快照,将其中的(非描述性)信息抽取为RDF三元组。
  3. web站点、小公司的。
    Radar Network - NYT对SW的报道中提到过。但尚在开发过程中,产品还未发布。
    Zitgist - 又一个RadarNetwork,自称"Semantic Web Query Service",用到了SPARQL, Web Service,尚未发布。
    Freebase.com 及 metaweb.com  -- 提public database的概念。前者被Tim O’Reilly 看好。
    Virtuoso的 RDF support now includes middleware (called the Sponger) for transforming existing microformat, Web services, and XHTML data into RDF triples "on the fly".

【附一】 MS的Astoria:
web开发领域内两种新方法AJAX和RIA(以Flash和MS SilverLight为代表)昭示了一个共同的思路:网站上的data与presentation/control信息将分开存放,从而产生了一个与SW的设想类似的新现象:Data Service ,即某些web可访问的站点只提供数据、而不提供如何表现它们的信息。这样的数据如RSS/Atom格式。同时,一类新的应用也将诞生:Mashup (Mashups are front-ends that aggregate and combine data that is available in a "pure data form" on the web)。

尚处于早期实验阶段的Astoria项目,正是处于此背景。Astoria is an early technology for creating and executing data services. Astoria data services use the Entity Data Model to model data in terms of entities. These entities are exposed as URI-addressable resources that can be accessed using plain HTTP. Astoria also establishes uniform patterns that UI widget frameworks and libraries can leverage to provide additional services on top of the data services. 并遵从REST-style。

Currently Astoria can represent data in plain XML, JSON (JavaScript Object Notation) and in a subset of RDF+XML

【附二】Linking Open Data on the Semantic Web @w3c
The goal of the proposed project is to make various open data sources available on the Web as RDF and to set RDF links between data items from different data sources. Examples include [URL=http://www.wikipedia.org/]Wikipedia[/URL], [URL=http://www.wikipedia.org/]Wikibooks[/URL], [URL=http://www.geonames.org/]Geonames[/URL], [URL=http://musicbrainz.org/]MusicBrainz[/URL], [URL=http://wordnet.princeton.edu/online/]WordNet[/URL], the [URL=http://www.informatik.uni-trier.de/~ley/db/]DBLP bibliography[/URL] and many more which are published under [URL=http://creativecommons.org/]Creative Commons[/URL] or [URL=http://www.talis.com/tdn/tcl]Talis[/URL] licenses.

There are already some data publishing efforts. Examples include the [URL=http://dbpedia.org/docs/]DBpedia.org[/URL] project, the [URL=http://www.geonames.org/ontology/]Geonames Ontology[/URL], the [URL=http://www4.wiwiss.fu-berlin.de/dblp/]D2R Server publishing the DBLP bibliography[/URL] and the [URL=http://moustaki.org/dbtune/]dbtune[/URL] music server. There are also initial efforts to interlink these data sources. For instance, the dpedia RDF descriptions of cities includes owl:sameAs links to the Geonames data about the city [URL=http://dbpedia.org/docs/#link](1)[/URL]. Another example is the [URL=http://sites.wiwiss.fu-berlin.de/suhl/bizer/bookmashup/]RDF Book Mashup[/URL] which links book authors to paper authors within the DBLP bibliography [URL=http://lists.w3.org/Archives/Public/semantic-web/2006Dec/0022](2)[/URL].

[URL=http://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects/LinkingOpenData]http://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects/LinkingOpenData[/URL]

参与方众多:MIT, FU of Berlin, U. of Penn., OpenLink, Zitgist等,且对新人开放。

Our Web of interlinked datasets currently consists of

n         dbpedia (91 million triples),

n         Geonames (60 million triples),

n         Musicbrainz (50 million triples),

n         the dbtune music server (4 million triples),

n         the DBLP bibliography (15 million triples),

n         Revyu reviews and ratings (15 thousand triples),

n         a US census dataset (700 million triples), and

n         the RDF Book Mashup (several billion triples).


--  作者:zhaonix
--  发布时间:6/11/2007 12:09:00 PM

--  
以下是引用baojie在2007-6-11 10:23:00的发言:
把RDF存储等同于一张表是一个很大的误解。实际上,关系数据库也可以用一张表作所有的事(第一范式)。

RDF用关系数据库存储,只是一个syntax,关键在于RDF推理规则,这是超越关系数据库的。



不太懂:(  俺跟smileidiot有相同的困惑.
1. 基于轻量级的本体所建的RDF triple库,其中 推理 能有多少用武之地呢?
2. 即使是“关键在于RDF推理规则”。推理也是算法,推理机也是程序,并不神秘。试想:如果推理中需要用到上百万、上千万条triple中的某三五条所蕴藏的信息的话,没有一个好的存储方案、索引算法(类似于RDBMS那样的)的话,效率怕是低得不可忍受的。

--  作者:baojie
--  发布时间:6/11/2007 1:02:00 PM

--  
以下是引用zhaonix在2007-6-11 12:09:00的发言:
不太懂:(  俺跟smileidiot有相同的困惑.
1. 基于轻量级的本体所建的RDF triple库,其中 推理 能有多少用武之地呢?
2. 即使是“关键在于RDF推理规则”。推理也是算法,推理机也是程序,并不神秘。试想:如果推理中需要用到上百万、上千万条triple中的某三五条所蕴藏的信息的话,没有一个好的存储方案、索引算法(类似于RDBMS那样的)的话,效率怕是低得不可忍受的。


1. 如果不是要推理,要RDF干什么?数据库就好了。轻量级本体,哪怕分类树,也是推理。
2. 见ESWC最新的关于RDF Index的文章。


--  作者:smileidiot
--  发布时间:6/11/2007 5:52:00 PM

--  
以下是引用baojie在2007-6-11 10:23:00的发言:
把RDF存储等同于一张表是一个很大的误解。实际上,关系数据库也可以用一张表作所有的事(第一范式)。

RDF用关系数据库存储,只是一个syntax,关键在于RDF推理规则,这是超越关系数据库的。


如果说RDF推理规则,那么何不回到Deductive Database(或称Datalog)?貌似工业界并没有对此推崇,依旧是Relational Database的天下。。。如果说Datalog比SQL就是多了个Recursion问题,那么除去性能之外,据我所知,已有多年研究工作,如semi-naive方法,为何依旧没有市场呢?是需求问题,还是效率问题呢?我不得解


--  作者:baojie
--  发布时间:6/12/2007 3:26:00 PM

--  
以下是引用smileidiot在2007-6-11 17:52:00的发言:
如果说RDF推理规则,那么何不回到Deductive Database(或称Datalog)?貌似工业界并没有对此推崇,依旧是Relational Database的天下。。。如果说Datalog比SQL就是多了个Recursion问题,那么除去性能之外,据我所知,已有多年研究工作,如semi-naive方法,为何依旧没有市场呢?是需求问题,还是效率问题呢?我不得解

好问题,好问题

Datalog的问题是很多问题根本不可判定,更谈不上复杂性了。RDF要比Datalog“肤浅”的多。RDF的一些子集,有很好的查询复杂性(见ESWC2007的最佳paper)。

Datalog比SQL多了当然不只Recursion。毕竟Logic Programming比RDB的建模能力还是强出很多。应该说,当前的SW研究,在寻找一个在关系数据库和演绎数据库之间的数据建模手段,也即在表达力之间和复杂性之间寻找“合理”的折衷。

当前这方面的研究及其火爆。描述逻辑+规则,或者描述逻辑+ Datalog, 都是极有潜力的问题


--  作者:wolfel
--  发布时间:6/12/2007 11:30:00 PM

--  
以下是引用baojie在2007-6-12 15:26:00的发言:
[quote]以下是引用smileidiot在2007-6-11 17:52:00的发言:
  如果说RDF推理规则,那么何不回到Deductive Database(或称Datalog)?貌似工业界并没有对此推崇,依旧是Relational Database的天下。。。如果说Datalog比SQL就是多了个Recursion问题,那么除去性能之外,据我所知,已有多年研究工作,如semi-naive方法,为何依旧没有市场呢?是需求问题,还是效率问题呢?我不得解
[/quote]

好问题,好问题

Datalog的问题是很多问题根本不可判定,更谈不上复杂性了。RDF要比Datalog“肤浅”的多。RDF的一些子集,有很好的查询复杂性(见ESWC2007的最佳paper)。

Datalog比SQL多了当然不只Recursion。毕竟Logic Programming比RDB的建模能力还是强出很多。应该说,当前的SW研究,在寻找一个在关系数据库和演绎数据库之间的数据建模手段,也即在表达力之间和复杂性之间寻找“合理”的折衷。

当前这方面的研究及其火爆。描述逻辑+规则,或者描述逻辑+ Datalog, 都是极有潜力的问题


不明白了,弱问一下鲍师兄和梅师姐,为啥Datalog不可判定??


--  作者:baojie
--  发布时间:6/13/2007 12:52:00 PM

--  
我说错了。Disjunctive Datalog在Stable Model Semantics下是\Pi^P_2复杂(那是可判定了?一直没有搞太明白polynominal hierarhcy complexity class)。Full LP 是\Pi_1^1复杂,是不可判定的。

有没有大拿出来说说这些个复杂性和decidability之间的关系?我一直一头雾水。


--  作者:wolfel
--  发布时间:6/14/2007 1:22:00 AM

--  
以下是引用baojie在2007-6-13 12:52:00的发言:
我说错了。Disjunctive Datalog在Stable Model Semantics下是\Pi^P_2复杂(那是可判定了?一直没有搞太明白polynominal hierarhcy complexity class)。Full LP 是\Pi_1^1复杂,是不可判定的。

有没有大拿出来说说这些个复杂性和decidability之间的关系?我一直一头雾水。


嗯,这样来说就是可判定的了。含有头部析取和NAF的datalog也是可判定的,复杂度是NEXP^NP-complete.

多项式谱系是从DP开始往上到达PH(<=PSPACE)终止。

此外不明白你说的Full LP是什么意思。


--  作者:baojie
--  发布时间:6/14/2007 3:14:00 AM

--  
我看的这篇文章

E. Dantsin, T. Eiter, G. Gottlob, and A. Voronkov. Complexity and expressive power of logic programming. In Proceedings of the 12th Annual IEEE Conference on Computational Complexity, pages 82--101, Ulm, Germany, 1997.
http://citeseer.ist.psu.edu/454462.html


--  作者:wolfel
--  发布时间:6/14/2007 10:06:00 AM

--  
那篇文章中Eiter用多很不习惯的表达方法和术语,看得让人头疼 :(

关于LP/Datalog的一篇不错的Tutorial是

http://citeseer.ist.psu.edu/baral94logic.html


--  作者:光荣之翼
--  发布时间:6/14/2007 10:46:00 AM

--  
能看到这么好的讨论帖子实在太幸福了
--  作者:baojie
--  发布时间:6/14/2007 11:58:00 AM

--  
请问wolfel :

如果你要推荐5篇最重要的文章,关于LP基础及在语义网方面的应用,你会推荐哪5篇? 多谢了。


--  作者:wolfel
--  发布时间:6/14/2007 1:50:00 PM

--  
以下是引用baojie在2007-6-14 11:58:00的发言:
请问wolfel :

如果你要推荐5篇最重要的文章,关于LP基础及在语义网方面的应用,你会推荐哪5篇? 多谢了。


逻辑程序的基础,我上面贴的那个Barral和Gelfond的文章就差不多了。在citeseer里面还可以通过那篇文章找到一些其他的综述,不过都大同小异。

近几年的LP上的进展没有著名的综述,只能自己去查阅文献了。主要是看两个人的主页:

德州大学,V. Lifchitz的主页:http://www.cs.utexas.edu/users/vl/
港科大,林方真老师的主页:http://www.cs.ust.hk/~flin/

主要集中在逻辑程序的化简,逻辑程序于其他非单调系统之间的关系以及逻辑程序的各种扩展来做的。

逻辑程序/规则在SW上的应用,Rewerse在05年3月出了一篇综述,基本囊括了从96~05年的主要结果:http://rewerse.net/deliverables/m12/i3-d3.pdf

05年之后的工作主要靠自己follow了,比较重要的是R.Rosati的两篇:

On the decidability and complexity of integrating ontologies and rules. Web Semantics 3(1):61–73

DL+log: Tight Integration of Description Logics and Disjunctive Datalog, in KR-06

逻辑程序和规则相结合面临的表示问题:
06年KSEM的特邀报告:Jos de Bruijn, Thomas Eiter, Axel Polleres, Hans Tompits:
On representational issues about combinations of classical theories with nonmonotonic rules. (http://rewerse.net/publications/download/REWERSE-RP-2006-159.pdf)

逻辑程序和规则相结合的计算问题:
Boris Motik, Ulrike Sattler, and Rudi Studer: Query Answering for OWL-DL with Rules, in ISWC2004

大概主要就是这些吧。smileidiot是这方面的专家,我班门弄斧了


--  作者:zhaonix
--  发布时间:6/14/2007 4:03:00 PM

--  
以下是引用wolfel在2007-6-14 13:50:00的发言:
逻辑程序的基础,我上面贴的那个Barral和Gelfond的文章就差不多了。在citeseer里面还可以通过那篇文章找到一些其他的综述,不过都大同小异
    ……
大概主要就是这些吧。smileidiot是这方面的专家,我班门弄斧了


对初学者太有价值了!学习之。 非常感谢wolfel!
我猜出来smileidiot是谁了,05年在国内发了一篇中文的《语义Web上本体与规则》,也是一个不错的小综述。敬仰。


--  作者:smileidiot
--  发布时间:6/15/2007 10:16:00 AM

--  
以下是引用baojie在2007-6-12 15:26:00的发言:

好问题,好问题

Datalog的问题是很多问题根本不可判定,更谈不上复杂性了。RDF要比Datalog“肤浅”的多。RDF的一些子集,有很好的查询复杂性(见ESWC2007的最佳paper)。

Datalog比SQL多了当然不只Recursion。毕竟Logic Programming比RDB的建模能力还是强出很多。应该说,当前的SW研究,在寻找一个在关系数据库和演绎数据库之间的数据建模手段,也即在表达力之间和复杂性之间寻找“合理”的折衷。

当前这方面的研究及其火爆。描述逻辑+规则,或者描述逻辑+ Datalog, 都是极有潜力的问题


Thanks a lot for your attention

我这里想强调一些事情,DL是基于FOL,采用任意论域作为解释,而LP一般基于Herbrand论域,即当无函词时由所有named individuals组成,这样,两者DL+LP时不可避免存在语义差异--如Wolfgang后面所言,我也强烈推荐Jos de Bruijn的文章(http://www.inf.unibz.it/~jdebruijn/publications-all/publications-all.html)。。。这个家伙很有前途的说。。。

因此,由于LP论域固定在Herbrand域中,只要不涉及函词,那么都是可判定的。。。因为最笨的方法就是枚举有穷啊。。。

此外,我最近确实关注演绎数据库,感觉除了recursive rules,其余都可以用SQL重写(当然貌似最新SQL也提供recursion,但效率不佳)。。。其实,这也是一种实际可行的做法,站在RDBMS巨人肩膀之上。。。

事实上,我个人观点依旧是RDF Schema作为light weight本体,再加上OWL关于属性的属性,如传递性,对称性等--其实这些都在规则表达力之内,余后还有Datalog规则(暂不论否定词)。。。也就是说,类似Orcale 10g提供的特性,而后台的RDB是性能保障的关键。。。

本人愚见,见笑了。。。嘿嘿


--  作者:mmyytt_2000
--  发布时间:6/15/2007 11:35:00 AM

--  
Boris Motik, Ian Horrocks, and Ulrike Sattler. Bridging the gap between OWL and relational databases. In Proc. of the Sixteenth International World Wide Web Conference (WWW 2007), 2007.
--  作者:baojie
--  发布时间:6/15/2007 2:44:00 PM

--  
Machester和DERI对此一直争吵不休, 到底是DL好还是LP好.

其实我也一直在想是不是可以把DL推理(不只是查询) reduce到SQL上. 也许某个子集是可行的吧.


--  作者:smileidiot
--  发布时间:6/15/2007 7:39:00 PM

--  
以下是引用baojie在2007-6-15 14:44:00的发言:
Machester和DERI对此一直争吵不休, 到底是DL好还是LP好.

其实我也一直在想是不是可以把DL推理(不只是查询) reduce到SQL上. 也许某个子集是可行的吧.


除了这两家,Italy也有一些学者对此贡献不小。。。如Rosati等。。。
btw:Jos已经从DERI毕业去the KRDB group at the University of Bolzano做assistant-professor,值得关注的说。。。
用SQL做些restrictive DL已经有工作DL-Lite,其系统称之为QuOnto(http://www.dis.uniroma1.it/~quonto/)
此外,OWL1.1有研究tractable DL,参考http://www.w3.org/Submission/owl11-tractable/
嘿嘿,不过,个人还是不看好DL--感觉semantic web要实现,就不可能有这么重AI味道。。。起码短期内能将RDF(S)有效推广就很不错了


--  作者:wolfel
--  发布时间:6/15/2007 11:21:00 PM

--  
以下是引用smileidiot在2007-6-15 19:39:00的发言:
[quote]以下是引用baojie在2007-6-15 14:44:00的发言:
Machester和DERI对此一直争吵不休, 到底是DL好还是LP好.

  其实我也一直在想是不是可以把DL推理(不只是查询) reduce到SQL上. 也许某个子集是可行的吧.
[/quote]

除了这两家,Italy也有一些学者对此贡献不小。。。如Rosati等。。。
btw:Jos已经从DERI毕业去the KRDB group at the University of Bolzano做assistant-professor,值得关注的说。。。
用SQL做些restrictive DL已经有工作DL-Lite,其系统称之为QuOnto(http://www.dis.uniroma1.it/~quonto/)
此外,OWL1.1有研究tractable DL,参考http://www.w3.org/Submission/owl11-tractable/
嘿嘿,不过,个人还是不看好DL--感觉semantic web要实现,就不可能有这么重AI味道。。。起码短期内能将RDF(S)有效推广就很不错了


嗯,anyway,这个东东我已经没有做的打算了,因为语义上的鸿沟基本上是无法逾越的,除非任何一个系统做出了妥协。否则,做出来的东西总归是几种不同语义杂合起来的,看上去很笨重。即便现在有很多full integration的工作,可是用到的逻辑也忒复杂了,最后成了逻辑学家的toy。

不过还是很期待梅师姐以后的工作哦~hoho


--  作者:smileidiot
--  发布时间:6/16/2007 7:46:00 AM

--  
以下是引用wolfel在2007-6-15 23:21:00的发言:
嗯,anyway,这个东东我已经没有做的打算了,因为语义上的鸿沟基本上是无法逾越的,除非任何一个系统做出了妥协。否则,做出来的东西总归是几种不同语义杂合起来的,看上去很笨重。即便现在有很多full integration的工作,可是用到的逻辑也忒复杂了,最后成了逻辑学家的toy。

不过还是很期待梅师姐以后的工作哦~hoho



嗯,有道理。。。由于笨重以至于toy。。。这种说法赞啊。。。
嘿嘿,我也不做这个方向了,保持关注吧。。。
至于以后的工作,暂无想法的说。。。或许越发的忽悠了啦。。。但,不得不承认semantic web整个领域还是非常active的,各种技术(理论的,实践的)都在推陈出新。。。此外,一直还觉得,做semantic web的学者们都是工作狂人啊。。。或许,做科研的都这样吧。。。没有8小时工作时间之说,文章项目没个止境啊。。。
--  作者:baojie
--  发布时间:6/16/2007 11:06:00 AM

--  
学习中学习中。你们有机会到这里一定要通知我。如果愿意屈尊来做我老板的博士后,那就再好不过了。


--  作者:baojie
--  发布时间:6/16/2007 11:31:00 AM

--  
为什么大家不能用Hierarchy来做些事情呢?比如Wikipedia, MySpace, Flicker,给tag加上分类,不就可以实现很简单的语义查询了吗?其实,虽然ontology语言很复杂,但是真正最有用的部分,大概就是分类吧。我没有field research, 不过大家给自己个人主页加meta data,分email,给文件分目录,不都是分类吗?分类,或许是数据库不能表达,而又最重要的“语义”了吧。

简单的场合,当然很容易作分类。对某些复杂的场合,比如我们设想一个情况:我们先用DL之类复杂的建模工具,建好一个本体,然后对他作classification,得到一个DAG。当然,如果有些无名节点很重要,可以优化一下这个本体的结构,给它们以名字。然后,我们在语义网的前端,就发布这个DAG,作为这个本体的逼近。可以肯定,表达力是弱了。但是,如果90%的应用可以用分类表达,who cares the other 10%?

DL的背景是专家系统,知识表现。应该说,它也最适合做一群知识分子的toy。作为老爷爷,老奶奶都能用的工具,Web真的需要DL吗?甚至,Web真的需要RDF吗?

DAG的查询是线性的,如果稍加优化,常数时间。当然,优化分布式的,动态的,triliion规模的DAG的推理也不是一个简单的工作。

回顾一下Google,(最初的)PageRank的核心问题无非是计算大规模稀疏矩阵的特征向量。如果我们开发一个DAG的推理机,可以处理以百亿记的网页上的DAG的transitive closure, 或许真的可以做一些Semantic Search呢 (Swoogle能做什么?)毕竟,常数时间复杂性才是现实的bussiness.

7年之痒,也许真应该看看基于逻辑的语义网是不是大超前了。或许,RDF都似乎过强了些。如果我们有一个语义网的“逼近”,只有subclassof的,也许是一个现实的选择吧。毕竟分类在图书馆里作为一个行之有效的方法,已经用了几百年了。

PS 我对某些人宣称的用EL来建模Gene Ontology很怀疑。据我对身边所有搞生物信息学的人的统计,无任何一人用到超出DAG的功能。

欢迎拍砖。


--  作者:baojie
--  发布时间:6/16/2007 11:47:00 AM

--  
ESWC 2007和ISWC 2006都提供RDF元数据了。不过,有什么用呢?对一个没有接触过SW的人,他能看出这两个网站和别的web 1.0的网站有什么区别?有什么新颖的功能?解决了什么以前的技术不能提供的功能?比如,我想查询“Logic Prgramming”方向上美国来的文章,他们能提供什么样的一个查询接口?(比如一个文章的关键词是ASP,我希望它也能被查询到。)

同理, Mindswap,"the first semantic web site",用户能从它那里得到什么“实用”的新功能?

当然,解决这些问题并不需要特别复杂的技术(很大程度上,分类树+RSS就可以)。一个Killer Application,不应该是因为自己用了RDF或者OWL或者有一个后台的DL推理机而沾沾自喜,而应该是彻底的面向傻瓜用户,提供简单而有用的功能。

folkonomy, 大概是最现实可行的吧。


--  作者:zhaonix
--  发布时间:6/16/2007 11:25:00 PM

--  
以下是引用baojie在2007-6-16 11:31:00的发言:
为什么大家不能用Hierarchy来做些事情呢?比如Wikipedia, MySpace, Flicker,给tag加上分类,不就可以实现很简单的语义查询了吗?其实,虽然ontology语言很复杂,但是真正最有用的部分,大概就是分类吧。我没有field research, 不过大家给自己个人主页加meta data,分email,给文件分目录,不都是分类吗?分类,或许是数据库不能表达,而又最重要的“语义”了吧。

简单的场合,当然很容易作分类。对某些复杂的场合,比如我们设想一个情况:我们先用DL之类复杂的建模工具,建好一个本体,然后对他作classification,得到一个DAG。当然,如果有些无名节点很重要,可以优化一下这个本体的结构,给它们以名字。然后,我们在语义网的前端,就发布这个DAG,作为这个本体的逼近。可以肯定,表达力是弱了。但是,如果90%的应用可以用分类表达,who cares the other 10%?

DL的背景是专家系统,知识表现。应该说,它也最适合做一群知识分子的toy。作为老爷爷,老奶奶都能用的工具,Web真的需要DL吗?甚至,Web真的需要RDF吗?

DAG的查询是线性的,如果稍加优化,常数时间。当然,优化分布式的,动态的,triliion规模的DAG的推理也不是一个简单的工作。

回顾一下Google,(最初的)PageRank的核心问题无非是计算大规模稀疏矩阵的特征向量。如果我们开发一个DAG的推理机,可以处理以百亿记的网页上的DAG的transitive closure, 或许真的可以做一些Semantic Search呢 (Swoogle能做什么?)毕竟,常数时间复杂性才是现实的bussiness.

7年之痒,也许真应该看看基于逻辑的语义网是不是大超前了。或许,RDF都似乎过强了些。如果我们有一个语义网的“逼近”,只有subclassof的,也许是一个现实的选择吧。毕竟分类在图书馆里作为一个行之有效的方法,已经用了几百年了。

PS 我对某些人宣称的用EL来建模Gene Ontology很怀疑。据我对身边所有搞生物信息学的人的统计,无任何一人用到超出DAG的功能。

欢迎拍砖。




关于分类树,我有个想法:人工建立的分类树肯定没多少搞头,就像Yahoo最初做的那样,没多少人用;有前途的,或许是 用机器自动对网页进行分类的系统:
  1)分类的依据,或许是基于一大堆tag对某个论坛/网站上的内容进行分类;或许就是基于普通网页对整个web上的网页分类。——第一步可以从前者做起,这就用上folksonomy了。
  2)无论如何,关键是分类表中的条目不是人工指定、而是通过用机器学习、数据挖掘的方法自动生成。。——这符合Google的模式。  这里的难点是传统的DM只是聚类,而我们这里要生成多层聚类,而且层次之间还允许多继承

该系统可以提供这样的功能:你要想了解查看个主题的网页、但这个主题又难以用几个关键字囊括(比如“世界级足球明星的童年和少年生活”)时,在查询页面上输入关键词,系统列出所有与之匹配度较高的分类条目(可能位于不同的层次),然后用户在这些条目上进行浏览。这样就可以看到比google所能找到的更全更准的网页了。但为了免于在一个分类中出现太多的网页,可以 1)机器生产的每个底层分类必须足够细,如果包含的网页超过,比如说50页,就将其分拆成两个或更多个更底层次的分类。2)结合关键词搜索:在指定的分类内搜索。

当然实现时,可以使用所谓的faceted browsing,即在分类表中导航的同时,在同一个网页内列出当前分类中的前n项内容。

----------
弱问一下:“DAG的查询是线性的”是个啥意思?在DAG上存在一种很常见的查询任务及其经典算法吗?有入门资料可提供否?

两个小小问题:( :
1)专家系统与DL或许关系不大吧?——我看的专家系统的书里讲,专家系统的主流是基于规则的系统。其主要算法是前项链、后项链搜索、还有Rete算法,而不是Tableau。
2)图书馆的分类系统没有几百年历史吧?近来不少SW的ppt里提到的Dewey Decimal Classification似乎也是19世纪末的事情(后来查了一下:The Dewey Decimal Classification (DDC) system, devised by library pioneer Melvil Dewey in the 1870s and owned by OCLC since 1988, provides a dynamic structure for the organization of library collections.


[此贴子已经被作者于2007-6-17 23:00:34编辑过]

--  作者:zouyuanrenren
--  发布时间:6/17/2007 5:09:00 AM

--  
人工建立的分类树并不是一堆乱麻的,毕竟直到今天还是要人来建Ontology。但问题是人工处理海量数据是一个time consuming & error proning的过程。
网页的自动分类和Ontology的Hierarchy其实没有技术上的联系,Hierarchy只是提供了几个类别。技术上的工作更多是Data Mining的范畴而不是DL的。其中真正用到Hierarchy的可能是做NLP的时候用WordNet这样的Lexical Ontology。
基于逻辑的语义网所发挥的作用要等到语义网络普及之后才行。只有网络不仅包含Data还包含MetaData时,逻辑才能发挥出威力。在此之前的语义检索,脱离了DL,可以看作是结合了NLP的关键字检索,机器仍然不能理解数据的含义。虽然看起来和基于Ontology的语义网没有什么差别,但缺乏通过逻辑触发规则的机制。只能做到信息的发现,在信息的自动处理上效率还是非常低的。
对于Ontology或是DL来说,他们并不是单纯为了Web而生的,至少在我学校里,运用于博物馆,医学,法律,电子商务等等都很多,甚至也有纯为知识分子用的,Web只是经济前景更吸引人而已。就像我上面说的,单纯作搜索的话,结合NLP的关键词搜索性能上差不多。但如果要整合各方面的资源就一定需要统一的接口。所以DL或是Ontology对Web Service才重要。
老爷爷老奶奶当然不需要DL,也不需要RDF,因为Html天生就是Human-readable的,对他们来说足够了。但对机器自动处理来说,DL就是运作的根本,RDF就是数据的源泉。老爷爷老奶奶用不到DL,正是因为他们手上的工具在使用DL。
Ontology对整个AI的意义也在于这里。

回楼上的第一个问题:经典的专家系统和DL没关系,但广义上来理解的话,专家系统和DL都是用于知识表示及知识推理的,在专家系统中的领域知识建模是可以通过Ontology来实现的,而且效果很好。前后件之间的依赖关系某些也可以用DL来描述。用于"分类"的专家系统,看这个名字就很好理解了。当然说DL是以专家系统为背景,这点我也存疑,可能不是指的理论上,而是应用上的吧。


--  作者:wolfel
--  发布时间:6/17/2007 11:37:00 AM

--  
呵呵,我觉得SW是否能够得到推广,取决于大公司的态度,只要他们愿意系统的开发出为编写Semantic Web用的IDE,提出技术标准和函数包,不怕没有程序员来学。现在的程序员比70年代的程序员所使用的技术,已经大大不同了。

以前Yale的邵忠教授来我们学校做报告的时候,说得一句话很有趣,大意是:程序员觉得太难了,不好学,我们就不做?技术的发展好像不是由他们决定的。


--  作者:zhaonix
--  发布时间:6/17/2007 11:19:00 PM

--  
以下是引用zouyuanrenren在2007-6-17 5:09:00的发言:
网页的自动分类和Ontology的Hierarchy其实没有技术上的联系,Hierarchy只是提供了几个类别。技术上的工作更多是Data Mining的范畴而不是DL的。其中真正用到Hierarchy的可能是做NLP的时候用WordNet这样的Lexical Ontology。

是,后来想想也是:自动分类完全是一个Data Mining问题,而且考虑现有的DM能力,估计也是难度太大了:不仅要支持多层,还要支持层之间多继承、甚至跨层继承,以及每个网页可以属于多个分类。尤其是最后一个,不知道会不会使得要想用DM技术完成这个想象成为不可能的事:( 。

对于Ontology或是DL来说,他们并不是单纯为了Web而生的,至少在我学校里,运用于博物馆,医学,法律,电子商务等等都很多,甚至也有纯为知识分子用的,……

看来DL ontology 真的在许多知识密集性领域里的应用不是书里面吹的、而是真实的啊!zouyuanrenren能透露一下是哪个大学吗? 欧洲的还是美国的?
    不过,DL在这些地方和在web上应用程度反差之大,更让俺怀疑在web上是否有前途。前一段刚感觉Web Services与web没多大关系,现在,Semantic Web似乎也与web关系不大了?   当然,zouyuanrenren和wolfel看好将来metadata会普及、那时DL会有用;但俺对此不乐观,倒认为可能得到应用的还是基于简单本体的、以跨越web的数据集成为特征的“SW”。这种简单本体简单到什么程度:只使用DL中很少的几种种特性。baojie老大等人也持相近观点——如果俺没有误解的话:)。前两天看了现在流行的几个OWL本体——FOAF, SIOC,以及不太流行的DOAP,又一次印证了这一点:它们几乎只使用domain/range, subClassOf/subPropertyOf,以及少量的inverseOf ,其它的OWL特性也有用到,如unionOf, InverseFunctionalProperty, disjointWith,但非常少。

回楼上的第一个问题:经典的专家系统和DL没关系,但广义上来理解的话,专家系统和DL都是用于知识表示及知识推理的,在专家系统中的领域知识建模是可以通过Ontology来实现的,而且效果很好。前后件之间的依赖关系某些也可以用DL来描述。用于"分类"的专家系统,看这个名字就很好理解了。当然说DL是以专家系统为背景,这点我也存疑,可能不是指的理论上,而是应用上的吧。

是,两者是有共性:依赖丰富的领域知识。区别在于专家系统所用的逻辑形式比DL简单得多,几乎是对AI前20年符号主义(即以逻辑推理为支柱)的一次“反动”。  今天又看了《DL Handbook》第一章,里面正好也提到DL和专家系统在应用上确实有共同点:在configuration, medicine两个领域里两者都有较多的应用。


--  作者:zouyuanrenren
--  发布时间:6/18/2007 1:05:00 AM

--  
看来DL ontology 真的在许多知识密集性领域里的应用不是书里面吹的、而是真实的啊!zouyuanrenren能透露一下是哪个大学吗? 欧洲的还是美国的?
我在Vrije Universiteit Amsterdam读硕士。美国……希望以后能有机会去:-)
Ontology的发展前景和许多新技术一样,概念上都是很吸引人的,但实际的运用中只能从Lite的做起。而且理论总是比引用要超前许多,因此才让人觉得现在实用的特性很少。这个是规律,所以现在没必要唱衰,也不应该做过多的承诺。反过来讲,即便是很简单的本体都能发挥很大的作用的话,复杂的本体应该会有更多的功能,只是等待更多的人来发掘而已。
在Web上的应用其实不应该孤立来看,既然很多知识密集领域中都可以运用DL和Ontology,而Web作为最大的知识载体和交流工具,更应该有所运用。
至于wolfel提到的推广的问题,我倒不觉得一定要巨头来牵头。Web本来就是英雄辈出的地方,点子比实力更重要。Yahoo,Amazon,Google,YouTube,MySpace发家都是没太大背景的。如果有人能发现SW的商机,挖出第一桶金,大量的资源和人才自然会涌入这个领域。大公司也会有兴趣来做行业标准和开发工具。
说白了,在科研上大家感兴趣的是知识共享和自动处理,市场上看的是能不能赚钱。
--  作者:zhaonix
--  发布时间:6/18/2007 12:55:00 PM

--  
Vrije Universiteit Amsterdam啊,研究SW/WS的好地方!出了好多paper,还有著名的Huang Zhisheng(没见过,在国内听史忠植老师讲DL时提起过:))。赞一下.
--  作者:wolfel
--  发布时间:6/19/2007 1:58:00 AM

--  
zuoyuanrenren莫非是黄智生老师组里的?
--  作者:zouyuanrenren
--  发布时间:6/19/2007 3:05:00 AM

--  
楼上各位太高看我了,在这边我只是个普通的学生。因为专业的关系所以对Ontology和SW有所了解和兴趣。不过刚刚入门,还在学习,还请大家多指教。
因为这边的硕士还是Coursework的,所以一般不太会承担到组里的工作,那些都是phD来做的,我们只是有所了解。因为专业课程的原因,会和他们比较熟悉。
当然能进到KR&R的group,和Frank van Harmelen这样的牛人一起工作,也是我的愿望。
--  作者:superc_7
--  发布时间:6/19/2007 7:09:00 PM

--  
quote]以下是引用baojie在2007-6-16 11:47:00的发言:
ESWC 2007和ISWC 2006都提供RDF元数据了。不过,有什么用呢?对一个没有接触过SW的人,他能看出这两个网站和别的web 1.0的网站有什么区别?有什么新颖的功能?解决了什么以前的技术不能提供的功能?比如,我想查询“Logic Prgramming”方向上美国来的文章,他们能提供什么样的一个查询接口?(比如一个文章的关键词是ASP,我希望它也能被查询到。)

同理, Mindswap,"the first semantic web site",用户能从它那里得到什么“实用”的新功能?

当然,解决这些问题并不需要特别复杂的技术(很大程度上,分类树+RSS就可以)。一个Killer Application,不应该是因为自己用了RDF或者OWL或者有一个后台的DL推理机而沾沾自喜,而应该是彻底的面向傻瓜用户,提供简单而有用的功能。

folkonomy, 大概是最现实可行的吧。


[/quote]
RDF只是在数据层面上的东西,大家都遵循相同的语法和语义的话事情就好办很多
感觉SW powerful的地方在于我们这么辛苦的构建这么一套东西用于描述数据,是为了在其上开发比基于关键字更为有效的应用吧
folksonomy是web2.0时代的产物,虽然叫“sonomy”但是它本身也不包含等级关系,只是凌乱的tag集合而已。但不论如何,folksonomy的流行还是给我们指明了另外一条道路吧


--  作者:superc_7
--  发布时间:6/19/2007 7:27:00 PM

--  
以下是引用zhaonix在2007-6-16 23:25:00的发言:
关于分类树,我有个想法:人工建立的分类树肯定没多少搞头,就像Yahoo最初做的那样,没多少人用;有前途的,或许是 用机器自动对网页进行分类的系统:
   1)分类的依据,或许是基于一大堆tag对某个论坛/网站上的内容进行分类;或许就是基于普通网页对整个web上的网页分类。——第一步可以从前者做起,这就用上folksonomy了。
   2)无论如何,关键是分类表中的条目不是人工指定、而是通过用机器学习、数据挖掘的方法自动生成。。——这符合Google的模式。  这里的难点是传统的DM只是聚类,而我们这里要生成多层聚类,而且层次之间还允许多继承

该系统可以提供这样的功能:你要想了解查看个主题的网页、但这个主题又难以用几个关键字囊括(比如“世界级足球明星的童年和少年生活”)时,在查询页面上输入关键词,系统列出所有与之匹配度较高的分类条目(可能位于不同的层次),然后用户在这些条目上进行浏览。这样就可以看到比google所能找到的更全更准的网页了。但为了免于在一个分类中出现太多的网页,可以 1)机器生产的每个底层分类必须足够细,如果包含的网页超过,比如说50页,就将其分拆成两个或更多个更底层次的分类。2)结合关键词搜索:在指定的分类内搜索。

当然实现时,可以使用所谓的faceted browsing,即在分类表中导航的同时,在同一个网页内列出当前分类中的前n项内容。

----------
弱问一下:“DAG的查询是线性的”是个啥意思?在DAG上存在一种很常见的查询任务及其经典算法吗?有入门资料可提供否?

两个小小问题:( :
1)专家系统与DL或许关系不大吧?——我看的专家系统的书里讲,专家系统的主流是基于规则的系统。其主要算法是前项链、后项链搜索、还有Rete算法,而不是Tableau。
2)图书馆的分类系统没有几百年历史吧?近来不少SW的ppt里提到的Dewey Decimal Classification似乎也是19世纪末的事情(后来查了一下:The Dewey Decimal Classification (DDC) system, devised by library pioneer Melvil Dewey in the 1870s and owned by OCLC since 1988, provides a dynamic structure for the organization of library collections.


[此贴子已经被作者于2007-6-17 23:00:34编辑过]



网页人工分类确实是很难搞下去了,大而全的方式肯定是行不通的,小而精的方式我觉得还可以尝试
网页自动分类一直就是个热门研究领域啊,国际上TREC每年都要搞,国内也有C-TREC,我师兄和同学都在国内参赛过。现在自动分类最为成熟的方式还是统计学习方法把,SVM是近十几年来非常重要的突破;分类可以是有指导学习,需要事先有分好类的训练集用于机器学习。至于检索结果的分类显示现在也有较为成熟的系统了,vivisimo就是一个典型,系统会对检索结果进行实时聚类,感兴趣可以区看一下,挺有意思
SW其实还是吸引了很多图书馆人的注意的,DDC是杜威十进分类法,是美国使用最为广泛的图书分类法。分类的思想应该是很早就有了,最早的可以追溯到很早了。下面的是在百度上查到的:《七略》是我国第一部综合性的系统反映国家藏书的分类目录,又是我国最早的一部图书分类法,成书于公元前6年,根据当时的国家藏书编制而成。


--  作者:superc_7
--  发布时间:6/19/2007 7:38:00 PM

--  
以下是引用zouyuanrenren在2007-6-19 3:05:00的发言:
楼上各位太高看我了,在这边我只是个普通的学生。因为专业的关系所以对Ontology和SW有所了解和兴趣。不过刚刚入门,还在学习,还请大家多指教。
因为这边的硕士还是Coursework的,所以一般不太会承担到组里的工作,那些都是phD来做的,我们只是有所了解。因为专业课程的原因,会和他们比较熟悉。
当然能进到KR&R的group,和Frank van Harmelen这样的牛人一起工作,也是我的愿望。


呵呵,那也是很好的机会了,这两年来Vrije Universiteit Amsterdam出了不少好paper,感觉SW这方面研究还是欧洲人主动些,老美自由散漫的性格好像更倾心web2.0
至于SW的推广,我觉得并不是一个人两个人能办到的。SW最吸引人的地方在于建立在数据基础上的复杂应用的可能,无论是Amazon,Google,还是YouTube等等互联网新贵,他们之所以能够成长如此迅速是因为他们提供了在html基础下最吸引人的应用,他们都没有直接挑战互联网底层技术;而SW则是从底子上重写数据,这并非一天两天一个人两个人能做到的,还是需要有W3C、欧洲委员会、IBM等各界巨头联合推动的,个人意见呵呵
--  作者:zhaonix
--  发布时间:6/19/2007 10:39:00 PM

--  
以下是引用superc_7在2007-6-19 19:27:00的发言:
网页人工分类确实是很难搞下去了,大而全的方式肯定是行不通的,小而精的方式我觉得还可以尝试
网页自动分类一直就是个热门研究领域啊,国际上TREC每年都要搞,国内也有C-TREC,我师兄和同学都在国内参赛过。现在自动分类最为成熟的方式还是统计学习方法把,SVM是近十几年来非常重要的突破;分类可以是有指导学习,需要事先有分好类的训练集用于机器学习。至于检索结果的分类显示现在也有较为成熟的系统了,vivisimo就是一个典型,系统会对检索结果进行实时聚类,感兴趣可以区看一下,挺有意思
SW其实还是吸引了很多图书馆人的注意的,DDC是杜威十进分类法,是美国使用最为广泛的图书分类法。分类的思想应该是很早就有了,最早的可以追溯到很早了。下面的是在百度上查到的:《七略》是我国第一部综合性的系统反映国家藏书的分类目录,又是我国最早的一部图书分类法,成书于公元前6年,根据当时的国家藏书编制而成。


赞楼上!记得前一段在哪里看到一段介绍DDC的东西说:在DDC应用之前,(美国的)图书馆里的书都是按字母顺序排列的。可能中国的图书馆在这方面比较先进吧。

vivisimo,或者其姊妹站点clusty.com有点意思,虽然对“childhood story of football superstar”这种高难度的要求还搜不到满意的结果。  它似乎是先根据关键词搜索搜出网页,然后对结果进行归类(或显示出在crawling过程中归类的结果)。

机器学习,统计学习,SW人往往用来自动抽取、映射本体。再结合上面这种场景,或许是可以做点东西?


--  作者:baojie
--  发布时间:6/20/2007 1:46:00 PM

--  
看看咱们汉书艺文志,就有ontology了,呵呵。
--  作者:MerryZhang
--  发布时间:6/20/2007 2:47:00 PM

--  
我们的老祖宗还是很牛的~~~~
--  作者:owlsharpe
--  发布时间:6/26/2007 9:00:00 PM

--  
我也在SW里混了快三年了.我觉得本体是一个好东西,在ontology中进行推理也是一个好东东,快三年了,用它混了一个博士学位,还是值.除此以外,还学了一大堆形式化的东西,基本上没一点实用价值.在学术界混的话,要比数据库方面好混一点.
感谢楼主的精辟
--  作者:samson126
--  发布时间:7/11/2007 3:49:00 PM

--  
hehe 感谢大家的指点。
本人对于SW还是充满信心。
我觉得SW的应用模式可以考虑只利用其一个优点。
发掘出合适的商业模式范例,业界跟进就会很快了。
--  作者:plyjoyce
--  发布时间:8/6/2007 9:50:00 PM

--  
ding
--  作者:hunterdong
--  发布时间:8/7/2007 3:41:00 AM

--  
can't agree more with lz.
--  作者:hunterdong
--  发布时间:8/7/2007 7:22:00 AM

--  
没看懂这2者是不是一回事,谁能解释一下?smileidiot的意思是否是RDF的vertical模式不能直接套用到关系数据库,否则为什么说只有一个表呢?zhaonix的意思好像是关系数据库还是用多个表(改进后)来表示triple啊?

>   我的想法是:RDF数据模式与关系数据库的E-R模式其实很像,因此,如果各个数据源依然使用传统数据库,但是,如果:
     1)把各个Table的定义公开化
     2)Table的各个字段的名称、各个字段的取值普遍使用URI
的话,是不是也能实现异构数据集成?:)  
     RDF的一个不同是:没有那么多的Table,只需要一个就够了:“Subject-Predicate -Ojbect”,顶多把typeOf, subClassOf等单列出来。
     但我认为,这两种方式是等价的、可以互相转化吧(个人观点、没有仔细研究过牛人们对于两者差别的论述):只要关系数据库中每个Table都用一个单个的字段作为主键,那么该字段的每个值与其他每个字段及其相应取值就构成了一个Triple。

这种Triple(subject predicate object)方法很直观,也称vertical,但性能受到质疑,毕竟只有一个Table存储所有数据,不符合DB惯用的horizontal设计模式,即:DB索引等优化策略没用武之地--个人意见,欢迎讨论^_^


--  作者:zhaonix
--  发布时间:8/7/2007 9:51:00 PM

--  
以下是引用hunterdong在2007-8-7 7:22:00的发言:
没看懂这2者是不是一回事,谁能解释一下?smileidiot的意思是否是RDF的vertical模式不能直接套用到关系数据库,否则为什么说只有一个表呢?zhaonix的意思好像是关系数据库还是用多个表(改进后)来表示triple啊?

>   我的想法是:RDF数据模式与关系数据库的E-R模式其实很像,因此,如果各个数据源依然使用传统数据库,但是,如果:
      1)把各个Table的定义公开化
      2)Table的各个字段的名称、各个字段的取值普遍使用URI
  的话,是不是也能实现异构数据集成?:)  
      RDF的一个不同是:没有那么多的Table,只需要一个就够了:“Subject-Predicate -Ojbect”,顶多把typeOf, subClassOf等单列出来。
      但我认为,这两种方式是等价的、可以互相转化吧(个人观点、没有仔细研究过牛人们对于两者差别的论述):只要关系数据库中每个Table都用一个单个的字段作为主键,那么该字段的每个值与其他每个字段及其相应取值就构成了一个Triple。

这种Triple(subject predicate object)方法很直观,也称vertical,但性能受到质疑,毕竟只有一个Table存储所有数据,不符合DB惯用的horizontal设计模式,即:DB索引等优化策略没用武之地--个人意见,欢迎讨论^_^


受教了,才知道这叫vertical :( 。我前面的意思是:对于那些由RDFS/OWL的Class、Property的实例所形成的triple,可以用RDB的多个table来表示。即每个Table对应一个Class,一个必备的rdf:ID字段是其主键;该table的每条记录对应该Class的一个instance。此时,<rdf:ID, 某个其它字段的名称, 该字段的取值>构成一个triple。  ——没仔细看过,估计早有人这么做了吧。


--  作者:smileidiot
--  发布时间:8/8/2007 9:12:00 AM

--  
以下是引用hunterdong在2007-8-7 7:22:00的发言:
没看懂这2者是不是一回事,谁能解释一下?smileidiot的意思是否是RDF的vertical模式不能直接套用到关系数据库,否则为什么说只有一个表呢?zhaonix的意思好像是关系数据库还是用多个表(改进后)来表示triple啊?

>   我的想法是:RDF数据模式与关系数据库的E-R模式其实很像,因此,如果各个数据源依然使用传统数据库,但是,如果:
      1)把各个Table的定义公开化
      2)Table的各个字段的名称、各个字段的取值普遍使用URI
  的话,是不是也能实现异构数据集成?:)  
      RDF的一个不同是:没有那么多的Table,只需要一个就够了:“Subject-Predicate -Ojbect”,顶多把typeOf, subClassOf等单列出来。
      但我认为,这两种方式是等价的、可以互相转化吧(个人观点、没有仔细研究过牛人们对于两者差别的论述):只要关系数据库中每个Table都用一个单个的字段作为主键,那么该字段的每个值与其他每个字段及其相应取值就构成了一个Triple。
  

这种Triple(subject predicate object)方法很直观,也称vertical,但性能受到质疑,毕竟只有一个Table存储所有数据,不符合DB惯用的horizontal设计模式,即:DB索引等优化策略没用武之地--个人意见,欢迎讨论^_^


horizontal是指一个class一张表(一个property也一张表,等等),而vertical是指所有triple一张表(sub, pre, obj),这两者都是在relational databases中存储。现有很多RDF Triple store就是vertical,如sesame,但内部或许能打散成关于class和property等的materialized tables。个人推荐参考文献Scalable Semantic Web Data Management Using Vertical Partitioning(VLDB'07)--貌似我没权限上传,只好麻烦大家google了,嘿嘿

关于URI化relational data,这正是w3c当前热点(http://www.w3.org/2007/03/RdfRDB/),首推D2R mapping,其主要思想就是把table, column通过uriPattern创建URI,便于终端用户spaqrl查询non-RDF data

希望能和大家继续讨论,即 (1)rdf data存储查询;(2)non-rdf data可web化

谢谢


--  作者:wjwenoch
--  发布时间:8/17/2007 5:41:00 AM

--  
I hope I can live long enough to see the application of SW
--  作者:zjg
--  发布时间:8/30/2007 6:20:00 PM

--  
RDF数据库和本体数据库指的是什么啊?
--  作者:Gibeon
--  发布时间:9/22/2007 11:54:00 PM

--  
smileidiot开始趋向rdf db了?俨然专家啊。
赞!有研究逻辑的背景就是好。

--  作者:iamwym
--  发布时间:9/23/2007 11:24:00 PM

--  
老实说,自动推理能够跑出来,我觉得是借了现在计算机快了点的光,90年代的计算机上SW程序基本上是自杀。另外一个,主要是2000年以来大佬们认识到摩尔定律的终结,光靠硬件的推动提升发展计算机行业已经没戏了,只能多搞点计算机功能出来,SW就是一个爆发出来的点。
--  作者:shingo1984
--  发布时间:9/25/2007 5:06:00 PM

--  
很好的学术贴啊,学习了
--  作者:wolfel
--  发布时间:9/26/2007 9:33:00 AM

--  
以下是引用iamwym在2007-9-23 23:24:00的发言:
老实说,自动推理能够跑出来,我觉得是借了现在计算机快了点的光,90年代的计算机上SW程序基本上是自杀。另外一个,主要是2000年以来大佬们认识到摩尔定律的终结,光靠硬件的推动提升发展计算机行业已经没戏了,只能多搞点计算机功能出来,SW就是一个爆发出来的点。

确实是这样。其实现在因为计算机硬件能力的提升,沾光的岂止是自动推理?大型电脑游戏,3D图象,大规模数据库,也是计算机硬件能力提升的受益者。所以,我觉得自动推理跑出来,是正常的趋势。


--  作者:guoandzhou
--  发布时间:3/13/2008 4:48:00 PM

--  
大家都好棒,这样的贴子真好!
想问几个名词:
       datalog
      FOL-reducible
--  作者:micropuss
--  发布时间:3/20/2008 3:49:00 PM

--  
关于概率方面的处理,在RDBMS中已经有相应的方法Washington大学的Dan Suciu提出概率数据库,并作为PODS2007的Keynote,我想把概率方面的问题放到本体上来研究,本来打算引入一些领域知识,但是感觉比RDBMS的处理更复杂,我查了DL手册上的一些资料,一个趋势是用Bayes网络来做,但感觉还是不如直接用RDBMS的方法好,当然我如果要用RDBMS做的话肯定做不过别人了!
有什么好的见解??
--  作者:baojie
--  发布时间:4/10/2011 6:58:00 PM

--  
过四年再看这个帖子,别有一番滋味。大家说的,都不全对,都不全错。
W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
304.688ms