中文XML论坛 - 专业的XML技术讨论区--显示贴子

以文本方式查看主题

-  中文XML论坛 - 专业的XML技术讨论区  (http://bbs.xml.org.cn/index.asp)
--  『 Semantic Web(语义Web)/描述逻辑/本体』  (http://bbs.xml.org.cn/list.asp?boardid=2)
----  Nicola Guarino:本体层次——知识表示30年回顾（翻译）  (http://bbs.xml.org.cn/dispbbs.asp?boardid=2&rootid=&id=78080)

--  作者：duxiong
--  发布时间：11/3/2009 4:20:00 PM

--  Nicola Guarino:本体层次——知识表示30年回顾（翻译）
刚刚翻译的Nicola Guarino一篇回顾文章上半部分：The Ontological Level: Revisiting 30 Year of Knowledge Representation。贴来分享，由于有些地方理解不透，请大家发现后及时修正，谢谢。

原文可以在网上找到。

本体层次——知识表示30年回顾

Nicola Guarino
ISTC-CNR, 本体应用实验室

1．简介
25年前，Ron Brachman, Richard Fikes和Hector Levesque[5]发表了一篇开创性论文，描述一种基于两个独立组件(即用于区分概念和句子的Tbox和ABOx)的混合知识表示系统(KRYPTON)，Tbox用于表示概念知识，ABox用于表示断言知识。概念在TBox中用带结构的形式化表示是现代描述逻辑的先驱之一，这种带结构的形式化方法使得人们可以用复合的描述来表示诸如“岩浆岩、灰色岩石或无子女家庭”等名词短语。概念知识库可以看作是这些描述之间的推理关系网络。如果基础词汇和描述组合的规则很多，网络会因为可以构造复杂的描述而很快变得非常复杂。例如，即使用很小的属性集来表示岩石不同性质，也很容易得到一个非常复杂的分类体系，正如作者在图1中指出的。

在这种背景下，作者讨论了“有多少种岩石？”这类的查询，发现看起来很简单的问题，其实非常难以回答。不能只看网络中岩石概念所包涵的节点来回答，因为一旦有新的词汇加入到属性集中，节点数量就会激增。为此，他们提出了一种函数方法，将知识表示系统设计成仅回答有关概念间推理关系这类“安全”的问题，而答案往往与知识库结构无关，比如“大块灰色岩石是灰色岩石”等。

很显然，在这个例子中，Brachman和他的同事们用极其简单抽象的方式理解“岩石种类”这个术语，而忽视了一个基本事实，对许多人来说，学校教的岩石种类有三种：岩浆岩、变质岩和沉积岩。另一方面，他的两位同事在早期的一篇关于知识表示中的术语学[6]的论文中，却在强调区分“增强模式晶体管”（晶体管的一种）和“通路晶体管”（大型电路中晶体管的一种用途）的重要性。

这种区别为什么会被忽视？我的结论是，我们在追求逻辑简单和可计算性的时候，忽视了术语使用所隐含的不同本体论前提问题。结果导致大多数知识表示语言，包括OWL这样的本体语言，都不能够区分逻辑结构相似而本体蕴含不同的概念。比如，“大块岩石”和“沉积岩”具有相同的逻辑结构，两者都可解释为两个（元）逻辑属性的与，但我们知道，这两个概念有着根本的区别。为什么会这样呢，我们分析下面这两个问题：

>“岩石”、“大”和“沉积”等元属性的本质；
> 它们在结构化术语中互相组合，互相修饰的方式。

很不幸，目前的表示语言给我们提供了强大的结构化的描述工具，并对其形式化语义精心控制，以保证推理效率。至于有必要采取适当机制来控制带结构的形式化表示的本体约束，则尚未达成共识，因为对这些元组件的本质和结构关系来说，它们的语义与之无关。

另一个例子是前面提到情形中的二元关系而不是一元属性的问题，来看Bill Wood在他的经典论文《链接中有什么？》[38]中的老例子：
JOHN
HEIGHT: 6 FEET
HIT: MARY
就像Wood所发现的，“HEIGHT”和“HIT”关系的本体实质是不同的，但毫无疑问他们都被看作是“特性”或“角色”（从描述逻辑的观点看），因为，在标准的带结构形式化表示的语义中，这些结构仅是任意的二元关系。所以，30年过去了，仍然不能说Wood的问题得到了解决。

实际上，如今的本体大量涌现，但许多问题依旧：我们现在有本体语言，但是除了大量前面提到的本体区分的形式化分析成果之外，如何将这种区分嵌入到语言中还没有达成一致，以至于有关表示语言基本结构的前提（或假设）依旧隐含在知识工程师的脑海中，无法表达，难以共享。这些成果包括OntoClean[20，21]、一元属性的本体特征的相关研究[18，19，31]，以及基本二元关系的扩展分析比如部分关系、位置关系或从属关系等[32，37，2，9，33，34，12]。文献23提出了一个该领域研究的具体计划，受OntoClean本体区分启发，为UML引入基于本体的完构框架，约束UML模型元素语义。这些还只是初步工作，离我们评说的基于本体的完构表示语言还有很长的路。甚至，就我目前所知，还没有人探讨按照本体区分限定语义的表示语言对可计算性的影响。

下面，我来回顾一下1994年发表的文章的主要目的和方案，按照目前取得的研究成果，提出下一步的工作方向。本文结构如下：下一节基于Ron Brachman的经典论文讨论知识表示语言的“分层”思想，提出引入特定的本体层次；第3节举例说明表达结构对明确的本体约束的现实需要；第4节概述有关一元和二元关系之间形式的本体区分的研究成果，了解元层次类别表示语言基本本体的草拟情况；第5节讨论当前知识工程实践中本体层次的作用。

2．知识表示的层次

层次元语
实现层次存储单元，指针
逻辑层次命题、谓词、函数、逻辑运算符
认知层次概念类别、结构关系
概念层次概念关系、元对象和动作
语言层次文字术语
图2. 知识表示形式化使用的元语分类（引自[4]，认知层次位缺失层次）

1979年，Ron Brachman讨论了当时知识表示系统使用的各种元语的分类，提出将其分成四层，从实现层到语言层（图2），每个层次对应一个明确的元语集。在实现层，元语仅仅是存储单元和指针，允许构造没有任何先验语义的数据结构；在逻辑层次，元语包括命题、谓词、逻辑函数和运算符，以现实世界中对象的关系给出形式化语义，对这些关系的实质没有设置特定的前提，经典谓词逻辑是通用的、统一的、中性的形式主义，用户可以按照自己表示的目的自由运用。在概念层次，元语有确定的认知论的解释，对应语言无关的（独立于语言的）概念，比如基本动作或题元角色等；在语言层次，元语则直接与特定的自然语言的名词或动词关联。

Brachman的KL-ONE[4，7]系统是第一个体现该思想的形式系统实例。其主要贡献是为认知结构，比如框架和语义网（Semantic network）给出了一个认知论基础，（在他的经典文章《链接里有什么？》[38]中）解决了其中的形式化矛盾。Brachman解决Wood问题的答案是概念链接必须由认识论链接考虑。认识论链接表示的是知识中的结构联系，这对确证概念推理是十分必要的。KL-ONE对IS-A关系的推理给予了特别的关注，提供了一系列元语来描述概念的（最小）形式化结构，以保证“一个概念和另一个概念之间关系的形式推理”。这样的形式化结构由概念的要素（元概念和角色表达式）以及它们之间的关系组成，独立于下列约束：

>元概念的含义；
>角色自身的含义；
>角色对概念含义的实质贡献。

由此可以想见概念的含义完全是任意的。实际上，KL-ONE目前派生的系统和描述逻辑的语义是这样的：概念对应于任意的一元谓词，而角色则对应任意二元关系。也就是说，在认识论层次，相对于形式化表示，更加强调形式化推理。形式化表示的任务，比如领域的结构，则留给用户去完成。

当前，基于框架的语言和面向对象的形式化都面临同样的问题，也是所有认识论层次语言的共同问题。一方面，它们优于纯逻辑语言的是，诸如对应类别和特性的谓词可以具有特定结构意义，这是一系列本体约束的结果，很大程度上是出于认知和语言的原因，而且完全取决于所要完成的任务。这些本体约束从知识库开发过程已开始就在不同的本体层中积累[11]。另一方面，这些本体约束隐含在知识库开发者脑海中，因为在涉及本体选择时，这些知识表示语言一般都是中性的。在某种程度上，正如人工智能语言权威学者所说[13，27]，这也是核心本体杂乱而随意的结果，因为我们创造了概念化，之后我们需要最大限度地不受约束地解释我们的表示。

在1994年的论文中我反对这种中立性，主张知识表示严格的本体基础可以提高知识工程的质量，至少构造一个能够看得懂的（如果不能重用的话）知识库相对容易一些。毕竟，即使知识表示中本体是随意的，但一切存在都是与我们相关的，至少最大限度地避免严重的本体不确定性是有益的。在解释本体时，对各种本体的基本类别使用不同的模型，就可以减少本体的不确定性。由此可以看到，“大”和“岩石”可以使用不同的模型表示，并约束其语义用以反映一般的本体区分。

层次元模型主要特征解释
逻辑层次谓词形式化任意
认识层次（概念和角色的）结构关系结构任意
本体层次（满足含义条件的）结构关系含义约束
概念层次认识论元语概念化主观
语言层次语言元语语言主观
图3. 本体层次的主要特征

符合上述要求的表示语言就属于本体层次的。这是我在Brachman层次分类的基础上提出的一个新的层次，在逻辑层和本体层之间（图3）。如果认识层是结构层，那么本体层就是含义层。在本体层，知识元语满足形式含义的要求，来限定基于形式本体区分的将逻辑理论的解释。

3．从逻辑层到本体层

假设，要声明存在红色苹果，在逻辑层次，直接这样写：
（1）
在认识论层次，如果想要在领域（比如将苹果与犁区分）上添加某种结构，最简单的形式是多类逻辑，但需要确定哪个谓词与类别对应，可以写成：
（2）
也可以写成：
（3）
还可以写成：
（4）。
所有这些带结构的形式化都等价于前面的关于一个类别的公理，每个都包含一个隐含的结构选择。但直观上看，（3）式似乎很奇怪，颜色当作苹果的量词！于是这样推理：假设有一种红色(红色的实例),其属性是苹果？！

不幸的是，我们所使用的形式化方式并不能做出正确的选择，我们又类别的思想，但其语义完全中性，因为一个类别可以对应一个任意的一元谓词。即使像描述逻辑或者基于框架的语言那样，使用更加结构化的形式，并允许使用特性或所谓的角色，没不能解决问题。因为我们还是要在这样的说法中作出选择：
（５）（a Apple with Color Red）
抑或：
（6）(a Red with Shape apple)

因此，在认识论层次，除了将结构选择留给用户，没有办法做到排除“不合自然”的选择。

相反，本体层次上，我们想要的是一个形式的、限定语义的说明，以反映结构元语背后的本体约束，所以，逻辑谓词和结构元语之间的关系不再是中性的选择：也就是说，每个结构元语对应一个特定的类型的属性（或者关系）。在上例中，区分是“红色”和还是“苹果”隐含在这样的事实中，前一个属性用于区分其个体的实例，而后一个不是。用哲学的语言来说，就是分类的和无分类（或特征）的属性，用自然语言大致可以表述为，前者用名词说明，后者用形容词说明。关键是并不是所有属性都一样，只有类别属性才对应于常说的“概念”。

按照上述标准，谓词Red（按其常用意思）就不满足能作为一个概念（或类别）的条件。但这似乎只是一个看问题的角度问题：在本体层次，还是需要用户确定哪个条件满足使用Red谓词的内涵。就上例的另一种情形来看：假设一个画家，它的调色板上的标签用的是自然事物的术语，比如深浅不一的红色，他用“桔红”、“樱桃红”、“草莓红”和“苹果红”来标注。这时（3）式就很合理了，意思是，在各种红色中，有一种苹果红。

如何说明这种语义的不同？这不仅说明Red属于不同的领域，也反映了它们作为谓词的方式不同。这就是其本体实质的不同，用于表达的谓词的类型不同。某种程度上，这种差别也可以用日常的自然语言的方式来揭示：比如，第一种情形中，Red是一个形容词，在画家的例子中，是名词。不幸的是，当从语言分析过渡到逻辑分析的时候，这种区别就消失了，因为两个例子都使用同样的谓词。

对知识表示的形式化来说，总是要在公式中使用自然语言的词汇，并以此提高声明的可读性，传达没有显式声明的含义。但自然语言的词汇是多义的，当这些词汇变成谓词时，给他们加上本体类别标注是十分必要的，再加上适当的公理化，以确保传达正确的内涵，至少排除那些最歧义的误读。这基本上就是我和Chris Welty在OntoClean方法论[21]中所提出的观点。但是，就我的本体层次方案，目标更广。在知识表示形式中嵌入一些基本的本体类别，约束其自身的表示元语。Giancarlo Guizzardi的博士研究[24]一定种程度对此进行了尝试，但他的工作只涉及一种概念模型语言（UMLV2.0）的语义约束，我还没有看到在描述逻辑这类的只是表示形式中进行予以约束的尝试。

接下来，我简要总结和回顾1994年论文发表以来，形式本体研究中发现的一元属性和二元关系之间主要的区别，相信对知识表示具有重要意义。希望这些区别对下一代本体层次表示语言有所启发。

[此贴子已经被作者于2009-11-4 8:47:59编辑过]

--  作者：laotao
--  发布时间：11/3/2009 5:36:00 PM

--
求原文连接

--  作者：duxiong
--  发布时间：11/4/2009 8:47:00 AM

--  The Ontological Level: Revisiting 30 Year of Knowledge Representation
http://www.loa-cnr.it/Papers/OntologicalLevelRevisited

--  作者：Humphrey
--  发布时间：11/6/2009 8:14:00 PM

--
应该是一篇综述性质的文章了？不过不知道作者在语义网研究领域地位如何，往往好的综述都是出自名家之手啊。
楼主外语不错。

--  作者：cjcsccj
--  发布时间：11/24/2009 11:59:00 PM

--
呵呵，作者可是本体研究领域中的泰斗啊

W 3 C h i n a ( since 2003 ) 旗下站点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》

20,125.000ms