公告栏:

首页 > 思想·文史 > 列表

从哈佛大学的人文数据库说起

作者:浙江大学教授 徐永明

  ◤二十一世纪是数字化走向数据库化进而走向智能化的时代。目前,世界各国都在加紧本国文献的数字化并对业已数字化的文献进行数据挖掘,建立各种类型的数据库,并结合最先进的现代科技,向智能化的方向迈进。在这样的背景之下,中国人文研究何去何从,也是我们必须思考的问题。
 
海外关于中国研究的四大数据库
 
1.中国历代人物传记数据库(CBDB)
 
  CBDB 是“China Biographical Database project”的简称,中文名称为“中国历代人物传记数据库”,网址为http://isites.harvard.edu/icb/icb.do?keyword=k16229。该项目是由哈佛大学东亚语言与文明系Peter K.Bol(包弼德)教授主持的项目,合作单位有北京大学中国古代史研究中心和台湾“中研院”历史语言研究所。“中国历代人物传记数据库”是目前世界上最大的中国历史人物传记资料分析数据库,迄今上线的中国历代人物已有40万人之多,此外还有中国地方志等其他数据源近50万人的数据还在源源不断地添加中。该数据库不仅能查找一个人物的生卒年、字号别名、籍贯、科举仕进等最基本的传记资料信息,而且还可以查找一个人物的亲属关系、社会关系,并将其可视化。该数据库目前免费开放,使用者可以在线查询或将数据库(access)下载到本地电脑查询。
 
  譬如,当我们利用access数据库查到宋濂的社会关系并想将其可视化的时候,可以将查找的数据保存为网络分析工具Pajek或Gephi的存贮格式。
 
2.中国历史地理信息系统(CHGIS)
 
  CHGIS是“中国历史地理信息系统”(China Historical Geographic Information System)的简称,也是由哈佛大学东亚语言与文明系Peter K.Bol(包弼德)教授主持的项目,项目经理为Lex Berman(贝明远)。它是一个开源性质的中国地理信息系统网站,网址为http://www.fas.harvard.edu/~chgis/。该项目与复旦大学史地所合作,将中国历史地名和历史地图矢量化,并且以关系型数据库的方式记录地名的层级及沿革信息,由此凡涉及中国古代历史地名的,都可通过数字化的中国历史地理信息系统得以可视化的展示。网站提供了中国历史地名经纬度的查询和中国矢量化历史地图的下载。矢量化历史地图包括点(points)和多边性(polygon)两种类型。
 
3.世界学术地图(Worldmap)
 
  Worldmap是哈佛大学地理分析中心(the center for geographic analyisis)开发的一个全球地理信息研究成果发布和共享平台。网址为worldmap.harvard.edu。其中中国部分,包括了人口统计、宗教、交通、城市研究、少数民族和语言、能源、环境、教育、气候、公共健康、经济、历史等诸多领域的地理信息和地图。譬如,与文史有关的,有明代进士分布图、明清驿站路线图、金华文人社会关系地理分布图、1820年中国寺庙分布图、明代卫所分布图等。比如我们可以根据Worldmap下载的数据,利用QGIS在本地电脑显示明代驿站图。
 
4.文本自动标识平台(Markus)
 
  Markus是由荷兰莱顿大学中国史教授魏希德(Hilde De Weerdt)主持的数字人文项目,其网址为 http://dh.chinese-empires.eu/beta/。该平台利用CBDB的数据库及其他数据库,将读者上传的古代文献文档自动标识,读者可以对自动标识出来的结果进行编辑修改,并可将最终的结果导入数据库,进行定量统计分析。除此之外,读者还可对标识的字词进行点击,平台的右侧会自动出现该标识字词的相关信息。如果是地名或名物字词,平台还具有可视化功能。
 
开发中国的学术地图发布平台
 
  第一,加紧建设中国古代文史地理信息数据库。地理信息与人类活动息息相关。就单个人物来说,包括人物的籍贯、行迹、社会关系的地理分布;就群体来说,包括一个群体的地理分布和迁徙轨迹;就非生命的物体来说,也有其存在、分布和变化的区域与轨迹;就一个地方来说,则包含了既往时间里人、事、物等地理信息的总汇。根据本人的初步统计,《中国古籍总目·集部》各类型的作者约有16000余人(不包括子部中的小说类作者),如果按一、二、三流作者的标准衡量,历代一、二流的集部作者至少也有几百人。而这样作者及其作品的地理信息,就包括了作者著述的地理分布、作者社会关系的地理分布、作者籍贯的地理分布、作品所涉及地名的地理信息、作者的个人行迹路线、某一时间点全国作家所在的位置等地理信息。这些地理信息都需要我们进行调查、著录,配上经纬度,建成数据库。
 
  第二,加紧建设中国名物图片数据库。中国古代文学作品中有着大量的名物词语,如动植物、器皿、药材、器械、服饰等。这些名物词语,即便有了文字的释义,有的我们还是不能得到清晰的认识。但如果配上图片,则一目了然,印象深刻。实际上,我们的古人已经做过这方面的工作,譬如,关于《诗经》《离骚》之类的作品,都有对其中的草木虫鱼进行注释并配有图片的著作。像《本草纲目》这样的中医药著作,也配有大量的图片。但是,古代文献中的图片,大量的还是以纸本或电子扫描本的方式存在,今人鲜有对其挖掘和标识,并建立可供查询和可视化的数据库。从荷兰莱顿大学魏希德主持的Markus文本标识平台中我们可以知道,文本和图片只有建立起一一对应的数据库格式,才能对文本进行自动化标识和可视化呈现。
 
  第三,加紧建设学术地图发布平台。虽然中国的学者可以将自己的研究成果在哈佛大学的Worldmap上发布,但也存在着一些问题。其一,由于Worldmap的服务器在哈佛大学,受防火墙的影响,虽然我们可以访问Worldmap网站,但速度非常慢。其二,Worldmap所使用的地图底图和图层,没有九段线,不符合中国的法律。因此,有必要在中国境内建立可供中国学者乃至海外学者发布的、适合中国国情的学术地图发布平台。浙江大学与哈佛大学于2017年10月13日签订了合作共建学术地图发布平台的协议。根据协议,浙江大学将对哈佛大学的Worldmap安装系统进行改造,开发出适合中国学者发布的学术地图发布平台,其服务器将设在浙江大学。经过几个月的艰苦奋战,由浙江大学社会科学研究院与哈佛大学地理分析中心(The Center for Geographic Analysis)共建的“学术地图发布平台”(http://amap.zju.edu.cn)上线发布会于2018年3月在浙江举行。这标志着适合中国国情的综合性学术地图发布平台真正诞生。
 
《社会科学报》总第1612期5版