CRM系统：基于C IDOC CRM的虚拟博物馆语义网络架构

物馆之间相同的数据,也可以容纳不同的数据。CIDOC CRM模型可以方便地使文化遗产领域的各种数据得到映射,从而使得集成并且解释领域内各种异构数据成为可能。基于以上考虑,我们设计了语义层包括:用OWL 表示的 CIDOC CRM文物数据模型,数据模型到各个博物馆后台数据库的映射以及请求重新形成(Query Reformulation)机制。当用户根据CIDOC CRM数据模型发出请求时,系统自动根据模型与相关博物馆间的映射机制对请求进行重新形成,转换成对应博物馆能够执行的请求。 (2)数据映射机制和查询转换机制本系统的数据映射机制和查询转换机制的设计具有以下特点: ①目标数据源,即系统中基于本体的语义模型是根据CI2 DOC CRM独立于各个博物馆源数据预定义的,而源数据模型又是各自独立并且独立于目标数据模型的。 ②目标数据和源数据模型具有不同的结构,系统需要在设计阶段定义从各个源模式到目标模式的映射规则,在指令执行阶段由查询转换机制自动完成映射。 ③当新的数据源加入时,相应的映射规则也要随之创建。 ④如果目标数据模式发生改变,映射规则也应随之改变。假设本系统命名为I,则I可以表示为一个三元组( T, { Si } , {Mi } ) , 其中T是基于本体概念语义模型的目标模式 (以下简称目标模式) , { Si } 是多个分布式博物馆数据库源模式(以下简称为源模式)集合, {Mi } 就是从源模式到目标模式转换关系集合。也就是对于任意一个数据库源模式Si ,就有一个映射关系Mi 与之对应,完成从Si 到T的映射, 1≤i≤n, n是分布式博物馆源数据模式的个数。无论是源模式还是目标模式,对于一个命名为H的模式, 它的组成元素由对象集合O和关系集合R构成,记作ΣH。由于请求是针对目标模式发出的,所涉及到的目标模式元素在源模式中有些是不存在的,这部分模式元素称为源的虚拟模式元素,记作VS。因而对应于从源模式S到目标模式T的映射分为两种情况: ①直接匹配,从一个或多个源数据模式元素( ∈ ΣS )直接映射到目标数据模式元素( ∈ΣT ) ; ②间接匹配,源与目标模式元素之间并不存在直接对应关系,只能由一个源模式中虚拟的模式元素( ∈VS )映射到目标模式元素( ∈ΣT ) 。源模式中,VS 经过一系列由源到目标的映射规则ms A {Mi }重新解释为由源模式元素( ∈ΣS )组成的表示。映射规则是指如何将源模式中的VS 部分通过操作运算转换为由ΣS 组成的表达式表示。其中操作运算包括标准运算符Selection σ, Union ∪, Natural Join þ ü | , Projection π, and Renameρ以及根据系统数据需要自定义的一些其他操作运算, 如组合关系Composition,邮编、街道组合(Composition)成地址; 与之相反的分解关系Decomposition等。这些关系的设计都是在系统设计阶段完成的。如上所述,系统在设计时收集所有映射规则信息,在处理请求时,由查询转换机制进行请求指令重新翻译。原理如下: 假如用户的请求指令是建立在关系代数的基础上的,那么将遵循Select2Project2Join模式。如果q代表一个用户请求,当q被发出时,系统自动将q解释成qRe , qRe就是一个在系统I中数据源能够执行的用户指令。对于请求q具有形式:π(X)σP ( r1 þ ü | r2 þ ü | ⋯rN ) , 1≤i≤N , attr ( q) = X, 其中, P是选择谓词; q是针对ΣT 中的对象和关系发出的,目标模式中的每一个关系ri 都与{Mi }中的一系列映射规则相联系,表示为Sj ×m s A ri ,代表将映射规则序列m s 作用于某数据源Sj 可以得到目标关系ri。其中m s ∈{Mj } , 1≤j≤n, n指数据源的个数。将q中的ri 用 ∪ ( Sj ×mS )替代从而获得qRe ,这样当向数据源Sj 发送由qRe 分解的请求时,系统同时将相应的映射规则mS 也发送给Sj , 数据源Sj通过Σsj就能够正确地获取目标系统中的关系ri。例如,用户可针对图3中基于本体语义模型的浏览器向导发出以下查询请求:“西周材质为铜的礼器有哪些?”。这个请求是建立在CIDOC CRM模型的目标模式基础上的,涉及到了 E22, E41, E57, P1, P4, P45, P108模式元素,与源数据模式中的元素不吻合,这就需要根据表1与图3之间的映射规则由系统的查询转换模块将指令翻译成表1所在系统能够执行的请求: ΠAntique_name (σDATE_FROM > 1134BC∧DATE_TO < 781BC∧ MATER IAL = bronze∧USUAGE = gift Antique_table) 其中σ表示Selection,π表示Projection; Antique_table为表名。 31112　其他模块 UDD I是分布式Web服务的信息注册规范,它主要实现注册和发现功能。服务发布者可以根据这一规范进行注册,以便被需要该服务的用户发现。当用户通过浏览器发出请求后,命令被转换为UDD I查找命令,UDD I提供给用户Web服务的名称和地址,命令分发模块负责绑定和调用目标服务。分散在各个地方数字博物馆的服务执行完后,将各自的返回结果发送给信息重组模块进行信息的整合重组,最后返回给用户。 312　Web服务层 Web Services在系统集成方面是非常适用的技术。全国乃至世界各地的文物博物馆都可以提供基于Web Services的服务接口,供其他的应用程序调用,达到共享服务的目的。在Web Services的模型下,任意的服务消费者(即接口使用者)只需理解一种通用的组件接口(即Web Services) ,就可以利用现有的In2 ternet上的Web服务,而无须考虑Web服务的内部实现机制、操作平台、开发语言等。此外对服务的调用是SOAP ( Simp le Ob2 jectAccess Protocol) [17 ]消息机制下的远程调用,因此两者实现的是松散耦合机制。即使在日后的运作过程中,当Web服务产生了接口上或功能上的更改,服务的消费者可以通过Web Ser2 vices的描述性文档发现这样的更改,自动适应这种更改。针对目前数字博物馆系统的分散和异构特性,我们选用 Web Services技术进行集成。一般各个分散的数字博物馆系统都提供基于关键字的查找以及基于图片内容检索的功能,对这些功能函数进行改造以Web服务的形式发布并在文物私有 UDD I注册中心注册以便服务的发现。图4所示的系统中的分布式博物馆、中间层和浏览器用Web Services技术连接起来。下面结合图4说明虚拟文物博物馆参观者在浏览器发出请求后的处理流程: (1)虚拟博物馆浏览者通过浏览器提交文物的查询请求, UDD I接收查询要求,确定目标Web服务名称和绑定地址。 (2)如果查找请求是基于关键字或基于内容的查找,那么由系统的命令分发模块直接将请求定向到相应的博物馆,调用相应的Web服务。 (3)如果查找请求是基于语义的,那么命令定向到语义层处理,语义层接到请求后,根据CIDOC CRM模型与后台博物馆数据库数据结构的映射关系,将查找请求重新翻译成当地数据库格式能够理解的请求,再调用后台博物馆的Web服务。 (4)从各个博物馆返回的调用结果经系统信息重组机制汇总转换返回到服务调用者。 313　用户接口设计浏览器是将博物馆大量信息对外展示的窗口,所以浏览器设计也相当重要。本系统浏览器的检索入口部分主要包含基于关键词、图像内容以及基于语义的检索。基于关键字和图像内容的检索服务主要是通过Web服务从博物馆旧系统中集成过来的。用户输入查询关键字或者是上传需要匹配的图片,分布在各地博物馆的Web服务在当地执行任务,将结果各自传给信息重组机制最后通过浏览器呈现给用户。基于语义的查找部分是建立在基于本体语义搜索引擎基础上的。为了帮助用户较好地形成查找问题,我们设计了基于视角(View2based)的浏览器[ 18, 19 ]。所谓视角就是将描述文物信息的术语归类,每一类称为一个视角。例如,我们把描述文物的信息分为四个视角类型共九个视角,每个视角下又包含若干个术语,具体如表2所示。表2　文物视角信息视角类型视　角文物特征文物类型、文物材质文物创作创作者、创作时间、创作地点文物用途使用人、使用地点、使用场合文物展览博物馆　　用户可以根据视角中术语来形成查找问题,如在图6所示的现实界面右侧,用户通过选择文物类型中的“铜器”,文物材质中的“黄铜”,创作时间中的“周”,使用场合中的“礼物”,就形成了以下查找:周朝用作礼物的、材质为黄铜的铜器是什么? 通过以上选择,查找命令在图6的右下角形成,点击“提交”按钮就启动查询。查找到的文物可能是一个集合,用户可以根据以上查找机制继续提炼查找结果。当用户点击某一个文物的小图标时,此文物相关的信息将展示在图6所示页面的左侧。展示界面中间部分提供了本文物相关查找的查找入口,如查找与本文物相同创作时间、相似使用场合的作品等。 4　结论本系统利用CIDOC CRM概念模型及Web Services技术, 构建了领域内智能型知识搜寻及信息查找的分布式架构。使得数字博物馆在查询使用上不再局限于关键词或是图片基于内容的查找,而且在不改变原有系统数据的基础上,最大程度地实现了数据共享与交换。另外还为数据进一步推论、验证提供了基础。实践证明文化遗产领域的概念参考模型CIDOC CRM更适合用于数字博物馆数据的描述。本系统的一系列架构,配合不同领域的Ontology,可应用在电子、电机、医药、航天等Ontology定义的各个领域。由于CIDOC CRM模型是从认识论的角度对文物描述而制定的,而对于文物的多媒体信息描述不是很全面,另外为保护文物的属地特性,对于某些文物信息的版权控制也显得相当重要。为满足以上要求,国际上已有相关组织分别使用MPEG27 和MPEG221[ 20 ]标准对CIDOC CRM 进行扩展融合[ 21, 22 ] ,以使数字博物馆数据得到更加全面的基于语义的描述。参考文献: [ 1 ] Time Berners Lee, James Hendler, Ora Lassila. The Semantic Web [ J ]. Scientific American, 2001, (5) . [ 2 ] Vernadat F B. Enterp rise Modelling and Integration: Princip les and App lications[M ]. France: Chapman & Hall, 1996. [ 3 ] ICOM /CIDOC CRM Special Interest Group. CIDOC CRM version 31419 [ EB /OL ]. http: / / cidoc. ics. forth. gr/docs/ cidoc_cr m _ver2 s