最新
推荐
2014年高等教育信息化十大“关... 01-04 教育部成立教育信息化专家组 12-24
CERNET第二十一届学术年会 11-24 李志民:互联网促进人类文明迈... 11-15
|
科研需求催生DataStaR 康奈尔的图书馆员通过调查发现,合作过的学者对数据监护确实有不少需求,这使得图书馆确信主动开展合作能给双方都带来切实收获。从调查结果来看,学者对数据监护的需求五花八门,最常见的几点有: ·需要一个协作空间以便科研过程中分享数据; ·需要协助确认共享时应该分享原始的还是加工后的数据、是完整的还是重点的数据; ·需要在期刊不提供发布途径时,依科研资助者要求完成数据发布; ·需要了解下阶段用户如何使用数据,避免误读、误用。 还有些学者干脆想知道别人使用他们的数据后做出了什么新成果,有些人希望后继使用者能在发表成果时注明原始数据源及其所属资助项目名称等等。当然DataStaR 也许无法满足所有要求,但这些需求也确实反映出学者普遍觉得靠自身去处理数据有些力不从心,发展一个本地的、阶段型的数据发布方案是很值得研究的事情。 DataStaR 的运作模型 DataStaR 系统主要由4 部分构成: ·基于Fedora 的数据集存储库; ·基于Vitro 的语义元数据存储库; · 用于对文件格式进行批量自动识别的开源工具:数字记录目标识别程序(Digital Record Object Identification,DROID,由英国国家档案局开发); ·用于向外部永久存储库传输文件的内容转移协议——面向存储的简单网络服务协议(Simple Web Service OfferingRepository Deposit,SWORD,由英国JISC资助开发)。 以一位生态学者研究某物种的分布为例,操作流程大致如下:用户首先将野外观测数据汇总,然后录入一个电子表格成为数据集。她将电子表格上传到DataStaR,此时系统会根据用户注册时填写的信息以及检测到的文件格式自动生成一些基本元数据,用户只需补充一项描述信息的元数据并设定他人访问权限。 上传时,用户选定一个未来发布的目标库,系统会根据目标库的要求,生成合适的元数据表单供用户填写;若选择“待定”,则要填写一些额外的元数据供备用。随着数据集不断丰富,最终还可生成显示物种分布情况的地理信息系统( G I S ) 数据集,D a t a S t a R 的图书馆员在这一过程中根据生态学及G I S 数据存储库的不同标准,协助学者决定应该共享哪些数据,整理和格式化数据,创建高质量元数据等。 决定哪些数据应该共享以及如何组织,在一定程度上根据预期用户而定。就生态学来说,一般预期数据将会用于反复分析,或集合多位研究人员的数据进行对比,故加工后的数据集就比原始观测数据更有用。至于元数据,一些元数据很容易理解和完成,另一些则可能需要专业知识或对具体要求进行仔细研读才能完成。目前图书馆员协助学者创建元数据中最重大的作用就是准确赋予受控词和主题词、知识产权申明的书面表述、撰写地理坐标等特殊元素的规范表达等。DataStaR 虽然不承担数据集长期保存任务,但它会对数据集的元数据进行备份,这些高质量的元数据可供学者未来反复使用,也是其提高用户忠诚度的重要手段之一。 科研结束时,用户和图书馆员一同核对元数据和数据,将整理好的数据集发布到一个生态学的学科库,如CUGIR;将相应的GIS 数据集发布到纽约州立GIS 数据交流中心,最后将两个数据集的备份存储到康奈尔大学图书馆自己的机构库eCommons 里。数据从DataStaR 流动到外部学科库的机制可自动亦可手动,视目标库的结构和要求决定。当向eCommons 发布数据集时,系统可从早前提交的学科记录中提取必要元数据并自动生成到机构库中,然后将数据集和作为支撑材料的学科记录一起存入;向生态学科专门数据存储库发布的工作也是自动完成,但向纽约州立GIS 数据交流中心提交时则由于政策规定,必须由图书馆员人工操作。
|
版权所有:中国教育和科研计算机网网络中心 CERNIC,CERNET,京ICP备15006448号-16,京网文[2017]10376-1180号
关于假冒中国教育网的声明 | 有任何问题与建议请联络:Webmaster@staff.cernet.com