元数据可分为哪三类
大家好!今天让创意岭的小编来大家介绍下关于元数据可分为哪三类的问题,以下是小编对此问题的归纳整理,让我们一起来看看吧。
开始之前先推荐一个非常厉害的Ai人工智能工具,一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等
只需要输入关键词,就能返回你想要的内容,越精准,写出的就越详细,有微信小程序端、在线网页版、PC客户端
创意岭作为行业内优秀的企业,服务客户遍布全球各地,如需了解SEO相关业务请拨打电话175-8598-2043,或添加微信:1454722008
本文目录:
一、DC 元数据在成果地质资料编目中的应用
李 磊 李效广 张良军 郑锦娜 王心华
(天津地质调查中心)
摘 要 本文主要研究了 DC 元数据和成果地质资料编目之间的映射关系,探讨了如何在此基础上基于 XML schema 技术对生成的地质资料核心元数据进行建模,并利用其来构建分布式共享平台体系。
关键词 DC Dublin Core XML schema OAI 地质资料 编目
0 引言
成果地质资料是指各类地质工作或专题研究项目完成时,按相应技术规范的规定和原项目设计要求,以文字、图、表等形式提供的一整套科技文件材料。我国地质资料馆成果地质资料案卷级目录库多采用国土资源部颁布的《地质资料电子目录著录格式规定(试行)》或中国地质调查局发展研究中心制订的规则标准而建,文件级编目采用《原始地质资料清理数据库》系统标准。以这些标准完成的编目,在实现资料检索、传播、共享、服务、利用方面一直起着非常重要作用。然而,此类编目与地学数据库元数据抑或其他文献编目平台无法实现交换。事实上,成果地质资料作为一种地质专业文献,具有文献的共性,与其他文献目录库互为交换是必要的,特别是与地学信息元数据实现共享是必要的。
元数据是关于数据的数据,是关于信息资源的形式、主要内容、存放位置等信息的综合。目前,元数据技术研究已经深入到各个领域,有专业领域的元数据,如关于地理空间数据的数字地理空间元数据、图书馆文献馆藏资源的机读目录。也有适用范围广泛的元数据,如都柏林核心元数据。笔者经过对比各种元数据,认为成果地质资料作为地质信息资源的重要载体,虽然有空间信息,但是其结构和内容并不符合空间数据的标准。成果地质资料作为一类文献资源,虽然可以以机读目录编目,然而机读目录由于其字段复杂,对录入人员专业要求较高,适用类型狭窄,故考虑到与其他类型资源的交换问题,其并不适于作为通用的元数据标准。而都柏林核心元数据(Dublin Core,DC)简单易用,其最初是为描述网络资源,现已发展成可以描述任何信息资源的元数据标准,应用范围广泛,便于组织与数据交换,可以提高检索数据的准确性。
笔者通过研究认为,利用都柏林核心元数据(DC 元数据)编目成果地质资料,可很好地解决异地多源数据共享的问题,会更有利于促进成果地质资料社会化服务。
1 成果地质资料编目与 DC 元数据的映射
1.1 成果地质资料编目
成果地质资料是指物理上的一套地质资料,除了其具有档案的基本编目信息外,还有具体的文件级资料内容信息。根据其内容形式的不同,成果地质资料文件由 8 类资源组成:正文、审批、附图、附表、附件、数据库和软件、多媒体和其他。这些资源信息全部以表的形式存储在成果资料目录数据库中[1]。
以原始地质资料清理数据库为例,成果地质资料案卷级编目主要字段包括馆藏机构编号、馆藏机构名称、资料编号、资料名称、资料类别、资料类型、语种、编写报告单位、编著者、形成(提交)时间、工作程度、密级、关键词、关键词(矿产)、地理坐标、行政区划、内容提要、工作时段,共计 18 个字段;文件级编目的所有 8 类资源的共有字段包括:资料编号和资料名称,其中审批需要增加审批机构和审批日期,附图则需要增加比例尺。
1.2 DC 元数据字段
都柏林核心元数据产生于 1995 年,经过 10 年不断扩展和完善,形成了 15 个基本核心元素,通过限定词对元素进行细化和修饰的元数据方案,用于描述越来越丰富的网络信息。DC 元素依据其所描述内容的类别和范围,可分为三组[2]:①资源内容描述类元数据项 7 个:分别为 Title、Subject、Description、Language、Source、Relation、Coverage;②知识产权描述类元数据项 4 个:Creator、Publisher、Contributor、Rights;③外部属性描述类。元数据项 4 个:Date、Type、Format、Identifier。具体字段的定义参见表 1。
DC 限定词是对 15 个元素的语义进行限定和修饰的词。它的制订遵循著名的向下兼容原则,即修饰词的语义包含于未修饰词中,在范围上对未修饰词的语义进行限定,在深度上对未修饰词的语义进行延伸[3]。
1.3 映射关系
笔者通过对比研究,认为:
(1)案卷级编目字段除了Format(格式)外,其余14个基本元素皆可与DC核心元素建立起对应关系。在覆盖范围(Coverage)元素中,由于地质资料兼具时间特征与空间特征,故采用限定词spatial(空间范围)和 temporal(时间范围)对覆盖范围进行描述;此外,由于成果地质资料部分元素具有行业特殊性,需要增加三个自定义字段作为补充,分别为Districts(行政区划)、DataCategory(资料类别)和WorkingDegree(工作程度)。而Relation(关联)与Contributor(其他责任者)在成果资料目录库中无对应字段,需要单独填写。其中Relation(关联)填写的内容为成果地质资料所含的所有文件级内容的唯一标识码,关系为部分为(HasPart),即所描述的案卷级资源在物理或逻辑上包含被参照文件级资源,Contributor(其他责任者)填写数据库录入人员姓名。
(2)文件级的各类资源中,由于各自属性内容有所差别,最终分为三类资源:第一类资源为正文、附表、附件、数据库和软件、多媒体和其他这六类文件级资源,均与 DC 核心元素建立起 4 个对应关系,其中 Format(格式)和 Relation(关联)这两个元素在库中无对应字段。需要说明的是:这里 Format(格式)填写的是地质资料的媒体类型和资源大小。在这六类资源中,数据库和软件、多媒体资源只有源电子文件[1],其余均有源电子文件和存档电子文件。Relation(关联)填写的是文件级资料所对应案卷级资料的唯一标识码,关系为部分于(is part of)。第二类资源为审批资源,其在第一类资源的基础上增加了Creator(创建者)和 Date(日期)两个元素来表示审批机构和审批日期。第三类资源为附图资源,其在第一类资源的基础上增加了自定义字段比例尺(Scale)。
通过将 DC 字段的定义和原始地质资料清理数据库中的字段定义进行比对,最终得出了 DC 元数据与该数据库字段的映射关系,案卷级编目对应关系如表 1 所示,文件级编目对应关系如表 2、3、4 所示,由此确定了成果地质资料核心元数据的元素集。在该核心元素集中,如果映射关系成立,则沿用 DC 元数据的元素名称,若未找到对应关系,则采用自定义元素名称。
表 1 DC 元数据与成果地质资料案卷级编目映射关系表
续表
表 2 DC 元数据与成果地质资料文件级正文、附表、附件、数据库和软件、多媒体和其他资源编目的映射关系表
表 3 DC 元数据与成果资料文件级审批资源编目的映射关系表
表 4 DC 元数据与成果资料文件级附图资源编目的映射关系表
2 实现方法
XML(Extensible Makeup Language)是一种结构化与半结构化数据的标志语言,由互联网联合组织(W3C)所开发和创建,其目的不仅在于满足不断增长的网络应用需求,更是为了确保在通过网络进行交互合作时,具有良好的可靠性和互操作性,XML 作为一种独立于系统的表达数据信息的标记语言,更适合于元数据在网络系统中进行数据交换。
XML Schema 是采用 XML 语法描述,提供描述和控制 XML 文档的一种规范。用于定义 XML 文档中使用的元素、属性和数据类型,简单地讲,就是利用一个通用模式,生成具有不同数据但相同结构的XML 数据文档。Schema 与 XML 文档的关系,相当于类和对象之间的关系。有了 XML Schema,XML 文档的写法就有了限制,利用 XML Schema 对成果地质资料核心元数据进行建模生成的 XML 元数据,可以便于资源在网络系统中进行数据管理,从而更好地实现传输。
具体实现过程中可以使用 altova 公司的 XML spy 工具完成成果地质资料核心元数据的建模,生成HTML 或者 Word 形式的 XML schema 文档。基于建模文档,开发人员可以依托相关 xml 技术,比如apache 公司的 XMLBeans[4],实现查询成果资料目录数据库中的对应数据,通过 Schema 来修饰生成需要的 XML 文档,整个过程皆可以用代码实现,无需多次录入数据。最终将生成的 XML 元数据文档以 XML混合数据库(hybird database)形式存储。经过对比研究,作者认为基于 XML schema 技术可很好地实现成果地质资料核心元数据表达。
3 实例
以下是基于 xml 来描述的一条地质资料案卷级目录元数据:
第八届全国地质档案资料学术研讨会文集
“内蒙古阿拉善地区矿产资源潜力评价综合研究”项目是中国地质调查局 1999 年 10 月下达的地质调查综合研究项目(任务书编号:0499201021;项目编号:K1.1.4.4;科研项目编号:DK9902033)。在前人工作基础上,该项目以板块构造、边缘成矿和成矿系统理论为指导,紧紧围绕本区矿产资源评价工作的部署,以野外地质调查为基础,从本区实际出发,重点开展了工作区已知矿点和重要物化探异常区的野外地质调查;开展了区域地球化学背景、层控型朱拉扎嘎式金矿、火山岩型铜金矿和与花岗岩有关的金矿床等的研究工作,进一步厘定了各类矿床的成矿地质条件和控矿因素,明确了找矿标志,归纳了区域成矿规律,筛选了物化遥异常,并在此基础上圈定了找矿有利的预测区,编制了阿拉善地区 1∶50万区域成矿预测图,提出了下一步工作部署建议。
第八届全国地质档案资料学术研讨会文集
第八届全国地质档案资料学术研讨会文集
4 成果地质资料数据共享技术探讨
基于网络的成果地质资料数据共享,主要存在两个问题:首先,成果地质资料分布比较分散,服务方式不尽相同;其次,用户是分布的,其背景、教育程度、熟练程度等相差很大。因此必须研究一种合适的分布式数据的共享体系来整合这些分散的数据资源,为互联网用户提供统一的数据共享服务[5]。
作者经过比较国内外常用的分布式共享平台体系,认为 OAI(open archives initiative)数据资源整合模式比较适合成果地质资料数据共享。OAI 对外提供了开放文档元数据采集协议(OAIMH)。它最主要的目标就是通过元数据采集模式来实现网络上发布信息的不同组织之间的互操作,为其提供一个与应用无关的元数据互操作框架。OAIMH 基于 HTTP 协议,返回的数据采用 XML 格式,所有的存储必须为自己的资源产生 Dublin Core 的元数据以供交换,由此来实现各个节点之间的网络互操作。数据生产者无需完全开放自己的本地资源,只需共享元数据,这样既不用改变本地存储数据的软件结构,又能轻松实现联合检索和数据共享。不失为一种经济的互操作模式,故将成果地质资料目录转换为 DC 元数据能在更大范围内与其他科学数据实现共享交换。由于篇幅限制,对共享平台如何实现不做进一步的论述。
5 结论
用 DC 标准来设计成果地质资料核心元数据完全可行,基于 XML schema 技术可以实现建模,最终生成 XML 元数据文档。最终在基于 OAI 协议的数据资源整合模式下构建分布式共享平台,交换生成的地质资料核心元数据,将能更好地实现成果地质资料的共享与服务,进而能最大限度地发挥地质资料信息的潜在价值,服务整个社会。
参 考 文 献
[1] 李效广等 . 机读目录在成果地质资料管理中的应用前瞻 . 中国地质学会第二届学术研讨会论文集,[C]. 2010
[2] 刘芳,朱沙 . 数字图书馆中基于 XML_RDF 的 DC 元数据描述体系 [J]. 大学图书情报学刊,2005
[3] 盛剑锋 . 电子期刊 MARC 与 DC 编目数据比较 . 图书馆论坛 [J],2008,(2):104 ~ 107
[4] 杨典华,杨志刚 . 基于 XML 和 DC 元数据标准研究教育资源的元数据及其数据传播 . 现代教育技术 [J],2006,(16):57 ~ 67
[5] 诸云强 . 地球系统科学数据共享关键技术研究 M. 北京:科学出版社, 2009:36 ~ 57
二、Ceph RGW:数据的存储及寻址
RGW是一个对象处理网关。数据实际存储在ceph集群中。利用librados的接口,与ceph集群通信。RGW主要存储三类数据:元数据(metadata)、索引数据(bucket index)、数据(data)。这三类数据一般存储在不同的pool中,元数据也分多种元数据,存在不同的ceph pool中。
1、 Metadata
元数据信息包括:user,bucket,以及bucket.instance。其中:
user: 主要是对象存储的用户信息
bucket:主要维护bucket name与bucket instance id之间的映射信息
bucket.instance:维护了bucket instance信息
查看user的元数据如下:
radosgw-admin metadata list user:
radosgw-admin metadata get user:testid:
radosgw-admin metadata list bucket:
radosgw-admin metadata get bucket:first:
radosgw-admin metadata list bucket.instance:
radosgw-admin metadata get bucket.instance:first:{bucket_id}
2、Bucket Index
bucket index主要维护的是一个bucket中object的索引信息。一个bucket对应一个或多个rados object(开启bucket shards下)。维护的是一个key-val的map结构,map存放在object的omap(rocksdb)中,key对应的rgw object,val是关于rgw object的一些元数据信息,检索bucket的存放的object时,需要这些信息。omap也包含一个Header,其存放的是bucket account info,如此bucket中Object的个数,总的size等。
3、Data
rgw object内容,存放在一个或多个rados object中。rados object分为header和tail部分,header最多可以容纳512KB的数据,如果一个rgw object的大小小于512KB,那么只有header。否则剩余的数据会按照集群rados object的大小条带化分割成多个rados object。
在Pool: {zone}.rgw.meta利用namespace隔离多个存储空间:
对于Pool: {zone}.rgw.log也包含多个namespace:
当检索对象存储中的一个object时,会包含三个要素:user,bucket,object。user主要是RGW用于获取user id验证ACL;bucket及obejct用于确定object在pool中的位置。
User
user数据存储在 {zone}.rgw.meta:users.uid 中,如下:
包含两部分: ups3: user本身信息; ups3.buckets: 用户所属的bucket。
ups3: 用户的基本信息,及ACL/Bucekt Quota/User Quota等;对应struct RGWUserInfo, 定义于rgw_common.h。
ups3.buckets:用户所属的Buckets,key-value结构,存放于omap结构中;对应struct cls_user_bucket_entry,定义于rgw_common.h,数据操作如下:
通过{uid}.buckets查到用户具有哪些buckets,并且这些bucket以下基本数据。
Bucket
Bucket信息存在在 {zone}.rgw.meta:root 中,如下:
first: 记录了bucket与bucket_instance_id的对应关系,其对应于数据结构:struct RGWBucketEntryPoint
.bucket.meta.first:1c60b268-0a5d-4718-ad02-e4b5bce824bf.44166.4: bucket instance;寻址方式:.bucket.meta.{tenant}:{bucket.name}:{bucket_id};对应结构体:struct RGWBucketInfo。
其中Bucket ACL及IAM Policy存放在bucket instance object的attr中。如下:
获取Bucket ACL及IAM Policy数据如下:
Object
Bucket Index: Bucket中包含的Object信息,都存放在一个或多个Object的 omap 中。此omap为一个key-value结构,key为object的名称,value对应 struct rgw_bucket_dir_entry : cls_rgw_types.h 。
Bucket Index Object:
如下:
在此bucket下,有一个object: ntp.conf:
检索value:
omap header记录了以下统计信息:
对象存储object的数据存放在pool: {zone}.rgw.buckets.data 中。object的构成及寻址分为以下两类:
一个RGW Object可以由一个或多个rados object构成。其中第一个 object 是此RGW 的 head 对象,主要包含一些元数据信息,如 manifest, ACLs, content type, ETag, and user-defined metadata 。这些metadata存放在此head 对象的xattr中。其中 manifest 描述了此rgw object在分布情况。同时,此head对象,最多可额外容纳 4MB 数据,如果RGW Object大小下于 4MB ,那么此 RGW Object就不会分片,只有此 head 对象。
如下检索:
目前bucket下有一个 ntp.conf , <4MB 。检索其 manifest :
如上:
max_head_size: 表示head对象最大size;
head_size: 表示当前head 对象size;
prefix: 用于在rados中分片object的寻址。
RGW OBject ACL:
上传一个 >4MB 的 RGW Object,检索其 manifest 信息:
Manifest信息:
根据 manifest 检索对象:
对于一个大的RGW Object,会被切割成多个独立的RGW Object上传,称为multipart。multipar的优势是断点续传。s3接口默认切割大小为15MB。
在此,上传一个60MB大小的Object。
分成了四个部分上传,查看rados对象:
包含了三类对象, head,multipart,shadow 。
multipart 下的 manifest :
所有的object的检索是根据上述manifest信息构建object index:
在上以上的信息中,此RGW Object大小为48128000字节,分为4段,三段15MB,最后一段为920KB。同时每段存储在rados集群中的条带化大小为4MB。因此15MB大小的分段,也分为4个rados object,一个multipart首部,及3个shadow分片。920KB大小的分段只有一个multipart首部。
.rgw.root :
包含的都是zone,zonegroup,realm等信息
三、3、元数据信息采用哪两个文件进行保存?
(1)规则库
规则是数据质量检查的具体标准,主要包括大数据的约束规则、合理性规则和检查规则等。规则分为三类:约束规则、计算规则和条件规则。
约束规则描述了一种必须为真或假的强制规则。这种约束可以是结构化约束,也可以是行为约束。
➢ 结构化约束:当创建术语或者改变术语之间的关系时,结构化约束能够保证术语的完整性。
➢ 行为约束:典型地被定义为“前置条件”和“后置条件”。只有在符合“前置条件”的情况下,操作才能够正确地执行;“后置条件”保证了操作结果的正确性,“后置条件”表示该行为是否满足了其预期的结果。例如,客户在开户时余额为0,在能够使用移动业务之前,必须先充值,这里的前置条件就是必须先充值,而后置条件是指所办理的业务是否成功办理。
(2)算法库
算法库主要是指支撑上述规则所需要的基本算法的集合,这些算法结合具体的规则由数据质量检查相关功能调用。
3)度量信息
度量信息是数据质量检查的基本依据,它反映了数据质量的衡量标准,也是元数据管理模块技术元数据的一个重要组成部分。
度量信息是经验的积累,需要在数据质量不断建设的过程中逐步精确化。随着衡量标准的不断细化和精确,大数据系统的数据质量也会不断提高。
四、数据库和元数据的关系是什么,怎样来区分它俩?
元数据,就是表示数据的数据,只要不是我们存储到数据库里的数据,大多都可以理解为元数据。描述数据库的任何数据—作为数据库内容的对立面—是元数据。因此,列名、数据库名、用户名、版本名以及从SHOW语句得到的结果中的大部分字符串是元数据。数据库就是存放数据的仓库。
以上就是关于元数据可分为哪三类相关问题的回答。希望能帮到你,如有更多相关问题,您也可以联系我们的客服进行咨询,客服也会为您讲解更多精彩的知识和内容。
推荐阅读: