CRM系统:基于C IDOC CRM的虚拟博物馆语义网络架构
物馆之间相同的数据,也可以容纳不同的数据。CIDOC CRM模
型可以方便地使文化遗产领域的各种数据得到映射,从而使得
集成并且解释领域内各种异构数据成为可能。
基于以上考虑,我们设计了语义层包括:用OWL 表示的
CIDOC CRM文物数据模型,数据模型到各个博物馆后台数据
库的映射以及请求重新形成(Query Reformulation)机制。当用
户根据CIDOC CRM数据模型发出请求时,系统自动根据模型
与相关博物馆间的映射机制对请求进行重新形成,转换成对应
博物馆能够执行的请求。
(2)数据映射机制和查询转换机制
本系统的数据映射机制和查询转换机制的设计具有以下
特点:
①目标数据源,即系统中基于本体的语义模型是根据CI2
DOC CRM独立于各个博物馆源数据预定义的,而源数据模型
又是各自独立并且独立于目标数据模型的。
②目标数据和源数据模型具有不同的结构,系统需要在设
计阶段定义从各个源模式到目标模式的映射规则,在指令执行
阶段由查询转换机制自动完成映射。
③当新的数据源加入时,相应的映射规则也要随之创建。
④如果目标数据模式发生改变,映射规则也应随之改变。
假设本系统命名为I,则I可以表示为一个三元组( T,
{ Si } , {Mi } ) , 其中T是基于本体概念语义模型的目标模式
(以下简称目标模式) , { Si } 是多个分布式博物馆数据库源模
式(以下简称为源模式)集合, {Mi } 就是从源模式到目标模式
转换关系集合。也就是对于任意一个数据库源模式Si ,就有一
个映射关系Mi 与之对应,完成从Si 到T的映射, 1≤i≤n, n是
分布式博物馆源数据模式的个数。
无论是源模式还是目标模式,对于一个命名为H的模式,
它的组成元素由对象集合O和关系集合R构成,记作ΣH。由
于请求是针对目标模式发出的,所涉及到的目标模式元素在源
模式中有些是不存在的,这部分模式元素称为源的虚拟模式元
素,记作VS。因而对应于从源模式S到目标模式T的映射分
为两种情况: ①直接匹配,从一个或多个源数据模式元素( ∈
ΣS )直接映射到目标数据模式元素( ∈ΣT ) ; ②间接匹配,源
与目标模式元素之间并不存在直接对应关系,只能由一个源模
式中虚拟的模式元素( ∈VS )映射到目标模式元素( ∈ΣT ) 。
源模式中,VS 经过一系列由源到目标的映射规则ms
A {Mi }重
新解释为由源模式元素( ∈ΣS )组成的表示。
映射规则是指如何将源模式中的VS 部分通过操作运算
转换为由ΣS 组成的表达式表示。其中操作运算包括标准运
算符Selection σ, Union ∪, Natural Join þ ü | , Projection π, and
Renameρ以及根据系统数据需要自定义的一些其他操作运算,
如组合关系Composition,邮编、街道组合(Composition)成地址;
与之相反的分解关系Decomposition等。这些关系的设计都是
在系统设计阶段完成的。
如上所述,系统在设计时收集所有映射规则信息,在处理
请求时,由查询转换机制进行请求指令重新翻译。原理如下:
假如用户的请求指令是建立在关系代数的基础上的,那么将遵
循Select2Project2Join模式。如果q代表一个用户请求,当q被
发出时,系统自动将q解释成qRe , qRe就是一个在系统I中数
据源能够执行的用户指令。对于请求q具有形式:π(X)σP ( r1
þ ü |
r2
þ ü | ⋯rN ) , 1≤i≤N , attr ( q) = X, 其中, P是选择谓词; q是针
对ΣT 中的对象和关系发出的,目标模式中的每一个关系ri 都
与{Mi }中的一系列映射规则相联系,表示为Sj ×m s
A ri ,代表
将映射规则序列m s 作用于某数据源Sj 可以得到目标关系ri。
其中m s ∈{Mj } , 1≤j≤n, n指数据源的个数。将q中的ri 用
∪ ( Sj ×mS )替代从而获得qRe ,这样当向数据源Sj 发送由qRe
分解的请求时,系统同时将相应的映射规则mS 也发送给Sj ,
数据源Sj通过Σsj就能够正确地获取目标系统中的关系ri。
例如,用户可针对图3中基于本体语义模型的浏览器向导
发出以下查询请求:“西周材质为铜的礼器有哪些?”。这个请
求是建立在CIDOC CRM模型的目标模式基础上的,涉及到了
E22, E41, E57, P1, P4, P45, P108模式元素,与源数据模式中的
元素不吻合,这就需要根据表1与图3之间的映射规则由系统
的查询转换模块将指令翻译成表1所在系统能够执行的请求:
ΠAntique_name (σDATE_FROM > 1134BC∧DATE_TO < 781BC∧
MATER IAL = bronze∧USUAGE = gift Antique_table)
其中σ表示Selection,π表示Projection; Antique_table为表名。
31112 其他模块
UDD I是分布式Web服务的信息注册规范,它主要实现注
册和发现功能。服务发布者可以根据这一规范进行注册,以便
被需要该服务的用户发现。当用户通过浏览器发出请求后,命
令被转换为UDD I查找命令,UDD I提供给用户Web服务的名
称和地址,命令分发模块负责绑定和调用目标服务。分散在各
个地方数字博物馆的服务执行完后,将各自的返回结果发送给
信息重组模块进行信息的整合重组,最后返回给用户。
312 Web服务层
Web Services在系统集成方面是非常适用的技术。全国乃
至世界各地的文物博物馆都可以提供基于Web Services的服务
接口,供其他的应用程序调用,达到共享服务的目的。在Web
Services的模型下,任意的服务消费者(即接口使用者)只需理解
一种通用的组件接口(即Web Services) ,就可以利用现有的In2
ternet上的Web服务,而无须考虑Web服务的内部实现机制、操
作平台、开发语言等。此外对服务的调用是SOAP ( Simp le Ob2
jectAccess Protocol) [17 ]消息机制下的远程调用,因此两者实现
的是松散耦合机制。即使在日后的运作过程中,当Web服务产
生了接口上或功能上的更改,服务的消费者可以通过Web Ser2
vices的描述性文档发现这样的更改,自动适应这种更改。
针对目前数字博物馆系统的分散和异构特性,我们选用
Web Services技术进行集成。一般各个分散的数字博物馆系
统都提供基于关键字的查找以及基于图片内容检索的功能,对
这些功能函数进行改造以Web服务的形式发布并在文物私有
UDD I注册中心注册以便服务的发现。图4所示的系统中的分
布式博物馆、中间层和浏览器用Web Services技术连接起来。
下面结合图4说明虚拟文物博物馆参观者在浏览器发出
请求后的处理流程:
(1)虚拟博物馆浏览者通过浏览器提交文物的查询请求,
UDD I接收查询要求,确定目标Web服务名称和绑定地址。
(2)如果查找请求是基于关键字或基于内容的查找,那么
由系统的命令分发模块直接将请求定向到相应的博物馆,调用
相应的Web服务。
(3)如果查找请求是基于语义的,那么命令定向到语义层
处理,语义层接到请求后,根据CIDOC CRM模型与后台博物
馆数据库数据结构的映射关系,将查找请求重新翻译成当地数
据库格式能够理解的请求,再调用后台博物馆的Web服务。
(4)从各个博物馆返回的调用结果经系统信息重组机制
汇总转换返回到服务调用者。
313 用户接口设计
浏览器是将博物馆大量信息对外展示的窗口,所以浏览器
设计也相当重要。本系统浏览器的检索入口部分主要包含基
于关键词、图像内容以及基于语义的检索。基于关键字和图像
内容的检索服务主要是通过Web服务从博物馆旧系统中集成
过来的。用户输入查询关键字或者是上传需要匹配的图片,分
布在各地博物馆的Web服务在当地执行任务,将结果各自传
给信息重组机制最后通过浏览器呈现给用户。
基于语义的查找部分是建立在基于本体语义搜索引擎基
础上的。为了帮助用户较好地形成查找问题,我们设计了基于
视角(View2based)的浏览器[ 18, 19 ]。所谓视角就是将描述文物
信息的术语归类,每一类称为一个视角。例如,我们把描述文
物的信息分为四个视角类型共九个视角,每个视角下又包含若
干个术语,具体如表2所示。
表2 文物视角信息
视角类型视 角
文物特征文物类型、文物材质
文物创作创作者、创作时间、创作地点
文物用途使用人、使用地点、使用场合
文物展览博物馆
用户可以根据视角中术语来形成查找问题,如在图6所示
的现实界面右侧,用户通过选择文物类型中的“铜器”,文物材
质中的“黄铜”,创作时间中的“周”,使用场合中的“礼物”,就
形成了以下查找:周朝用作礼物的、材质为黄铜的铜器是什么?
通过以上选择,查找命令在图6的右下角形成,点击“提交”按
钮就启动查询。查找到的文物可能是一个集合,用户可以根据
以上查找机制继续提炼查找结果。当用户点击某一个文物的
小图标时,此文物相关的信息将展示在图6所示页面的左侧。
展示界面中间部分提供了本文物相关查找的查找入口,如查找
与本文物相同创作时间、相似使用场合的作品等。
4 结论
本系统利用CIDOC CRM概念模型及Web Services技术,
构建了领域内智能型知识搜寻及信息查找的分布式架构。使
得数字博物馆在查询使用上不再局限于关键词或是图片基于
内容的查找,而且在不改变原有系统数据的基础上,最大程度
地实现了数据共享与交换。另外还为数据进一步推论、验证提
供了基础。实践证明文化遗产领域的概念参考模型CIDOC
CRM更适合用于数字博物馆数据的描述。本系统的一系列架
构,配合不同领域的Ontology,可应用在电子、电机、医药、航天
等Ontology定义的各个领域。由于CIDOC CRM模型是从认识
论的角度对文物描述而制定的,而对于文物的多媒体信息描述
不是很全面,另外为保护文物的属地特性,对于某些文物信息
的版权控制也显得相当重要。为满足以上要求,国际上已有相
关组织分别使用MPEG27 和MPEG221[ 20 ]标准对CIDOC CRM
进行扩展融合[ 21, 22 ] ,以使数字博物馆数据得到更加全面的基
于语义的描述。
参考文献:
[ 1 ] Time Berners Lee, James Hendler, Ora Lassila. The Semantic Web
[ J ]. Scientific American, 2001, (5) .
[ 2 ] Vernadat F B. Enterp rise Modelling and Integration: Princip les and
App lications[M ]. France: Chapman & Hall, 1996.
[ 3 ] ICOM /CIDOC CRM Special Interest Group. CIDOC CRM version
31419 [ EB /OL ]. http: / / cidoc. ics. forth. gr/docs/ cidoc_cr m _ver2
s