【中宏网讯】2020年6月8日,由北京大学数字人文研究中心联合北京大学人文社会科学研究院、历史学系和北京论坛共同主办的“数字人文视角下的中国历史研究”研讨会在线上进行。本次研讨会是“北京论坛云端国际论坛系列”的首场活动,根据现场统计,有近万人在线参与了这次研讨会。
本次论坛邀请了北京大学历史学系邓小南教授、哈佛大学东亚语言与文明系包弼德(PeterK.Bo)教授、德国马克斯普朗克科学史研究所的薛凤(Dagmar Schfer)教授、荷兰莱顿大学区域研究所的魏希德(Hilde De Weerdt)教授,以及台湾“中研院”历史语言研究所研究员陈熙远博士五位重量级学者。论坛召集人为北京大学信息管理学院王军教授,由北京大学历史学系何晋教授、南京大学历史学院梁晨教授及北京大学中国古代史研究中心的史睿研究员共同主持。
包弼德,国际著名中国历史研究学者,哈佛大学东亚语言与文明系讲座教授,曾任哈佛副教务长和哈佛慕课平台负责人。他是哈佛大学中国历史公开课(China X)与数字人文导论公开课的主讲人,中国历史地理信息系统项目(CHGIS)和中国历代人物传记资料库项目(CBDB)的负责人。包弼德教授主要研究方向为:中国唐宋元明思想史研究,中国文化精英历史研究,数字人文网络基础设施建设等。出版了大量中文、日文和英文的学术著作与研究论文。
以下是论坛发言实录:
何晋:非常感谢包弼德教授的精彩介绍。下面我们请薛凤教授,薛凤教授主要致力于中国古代科学技术史的研究,刚刚荣获2020年德国最高学术荣誉"莱布尼茨奖",她主持有关中国地方志的数据库项目,并推出了自己的数字人文工具Lo Ga RT。
薛凤教授题目是《新方法开辟新领域,历史研究中的数字人文》。有请。
薛凤,德国柏林马克斯?普朗克科学史研究所所长,柏林工业大学科学技术史教授。主要致力于中国古代科学技术史的研究,刚刚荣获2020年度德国最高学术荣誉——莱布尼茨奖。主持有关中国地方志的数据库研究项目,推出了数字人文研究工具LoGaRT。著作有《工开万物:17世纪中国的知识与技术》等。
薛凤:大家好!我谢谢大家,而且我谢谢包弼德和魏希德,因为他们已经说了很多问题,所以我不需要多说。我今天本讲座我想讨论数字人文对史料资源新的研究方法的作用,和在那个作用之内的问题我想专注于到未来。我的论点真的很简单,但是有可能稍微大胆,因为尽管对问题的回答一直是许多数字人文研究方法和发展的前沿,但我想建议应该把提出新的研究问题和产生新的研究方法作为下一代的前沿。
我讲基于马普科学研究所在构建地方志研究工具LoGaRT相关经验,包弼德他已经说的文件请大家未来的时候可以细致的读一下,在这里我想按照这个经验简单的举例说明一些此类新颖的话题。
对于我来说数字人文创新有两个方向的发展,一个是方法,一个是技术的创新。
方法的创新和技术的创新是不同,也和计算机科学领域的创新不同。数字人文学科长久以来很注重计算机科技方面的创新,也就是说历史学通过数字人文重组和呈现。像从文本中提取数据,以新的方法排列并重组数据,这些重组和展示工具定义了整个时代,就是new data base construction的时代。但是正是这些必要的事情,比如说提取和处理数据使历史学家非常困扰,也导致他们对使用数字人文方法犹豫不决。因为把信息提取出来以后内容被以表格和数据库形式组织和呈现,那么很多内容就丢失了,这个感觉比较存在的。
我觉得一个问题是数字家(计算机科学家)的目标,具我所了解是发展技术的,历史学家的目标是分析内容的发展,也发展我们对历史的了解,所以两个专家的目标不一样,方法也不一样,不好配合。所以简单来说数字人文最大的一个挑战是把两个专家结合起来。
薛凤教授关于“地方志和灾害”的数字人文研究
今天我很荣幸被邀请来参加这次会议,可以考虑到这个问题,在接下来几分钟之内我想讲一讲我对转换数字人文科学的一些想法,讲一讲如何从使用数字工具提取信息转换成利用这些工具来进行分析的,或者换句话说也就是从把史料资源看成信息源,转化到把它看成研究问题的资料库。
我们两个行业我觉得共同的目标可以解决很多问题和产生新的方法,创新我们的行业,这个就是我们new human ities的目标到底在哪里?所以我举那个例子LoGaRT我估计有的人也已经参加过陈诗沛所介绍的全部的情况,所以我不多说,可是大概的概念我想给你们解释一下。
第一我应该说作为一个科学历史学我研究的问题是基本的,最基本当然是什么是科学和科学怎么发展起来的?因为我想了解科学的发展我也得了解它的来源,一个它的来源是地方性的知识,所以我对中国的地方志很感兴趣,所以我开始这个项目。在LoGaRT那个项目之内我把地方志不当成一个资料库,还是一个研究课题,所以我想了解它怎么代表中国原来地方性的过程,它的发展,如何影响和怎么形成当地的知识或者当地的认识。
我给你们举一个例子,我觉得这个还是一个比较大,能理解或者比较麻烦能理解的问题。
第一个在想想从一个信息源回到问题的方向,到研究问题的资料库,这个就说明我利用这个Lo Ga RT全部的Data Base,是为了提出新的研究问题。我想问的问题是用地方志为了了解灾害的出现和政治,这个是有一个很长的过程,已经有很多这方面的研究,开头有可能是竺可桢。和很多其他历史学家不一样的是,我想用灾害内容为了分析地方性的知识新的发展变化和政治。所以我的研究方向是我看那个数据之内的政治或者数据的结果影响。这个跟原来的竺可桢(的研究)有一个很大的变化,因为大部分的人他们利用地方志为了了解到什么时候出现灾害,所以你们看这是观点话题的变化。
可以说当然我要分析这个方向我需要很多的材料,一边当然是地方志,另一边是以前这方面的研究我也得考虑到,另一方面我也得了解地方志自己的发展,全部的材料放在一起我可以利用各种各样的工具,比如说Visualization为了了解到情况,和你一下子看到这个材料的Visualization可以看到很多问题出现的,不是回答而出来的,而是问题出来的。这个问题是为什么在一个方位之内只有几个地方志,他们基本上只记录下来元代的灾害,不记录下来其他时代的灾害,他们为什么这样做?这是一个新出现的问题。在这里可以看到橙色的点都是记录下来元代的灾害,其他的地方有时候他们记录下来早期的灾害,不一定记录下来之后的灾害。
这样给你一个例子,我为什么觉得我用数字人文的时候有更多的问题,不一定是有更多的有答案的回答。
我觉得有几个事情我们可以考虑到我们为什么这个方向对数字人文发展和创新有很大的用处。因为数据本身还不是一个信息,信息需要一个无法从信息中提取的结构,这样的结构就是地方志,数据的本身还不是一个信息,就是说如果我们把数据转到一个新的结构做成一个新的数据库的时候,我们也有一个新的了解,我们也有新的意义,可是我们用数字人文为了把数据本身的信息,对这个感兴趣的话我们希望留下来原来的结构,我们也得分析原来的结构和它的过程,原来的数据库和新的了解有关,我们可以发展新的了解有关来源的意义。
所以这方面有一个区别。
和这两个方向我就觉得对数字人文创新很重要的分析数据和分析结构,就是两个一起分析,我们就可以更多的了解到底原来的情况是怎么发展出来的。
当然地方志只是一个例子,我们发展这个Lo Ga RT的时候才考虑到这个linkage,我们就可以提出很多问题,我刚才给你看的灾害的问题只是之中的一个。
我觉得如果我们将注意转到史料资源本身的问题,它是如何被取舍的?为什么是它被采用了呢?或者人家怎么利用这种材料?我认为数字人文是探讨这些问题的完美工具,它帮助我们思考我们认为理所当然的事情,以及我们是否可以对我们认为我们理解的东西可以有新的一个认识。
谢谢大家。
何晋:谢谢薛凤教授。最后我们有请陈熙远博士,陈先生是台湾中研院史语所研究员,专长明清史研究,他现在是中研院数位文化中心召集人,该中心一直致力于推动跨学科的数位人文研究,台湾中研院在上个世纪80年代就开始了数位典藏与数位文化的建设,研究中国史的学者可能大多有所了解,下面我们有请陈先生。
陈熙远,美国哈佛大学历史与东亚语文联合学程博士,现为台湾中研院历史语言研究所研究员,中研院数字文化中心召集人。研究专长为明清史,近代中西文化交流中的宗教概念变迁、国家权力与民间信仰、历史书写与政权转移、以及明清以来的日常生活与礼法秩序、明清档案研究等。
陈熙远:大家好!刚刚我听了几位前辈包括我的老师包弼德先生深入浅出的探讨,我应该来讲是数位人文研究的门外汉。我今年刚接任数位文化中心的召集人,很多东西还在学习过程中。几位老师都现身说法或者就近取譬谈到数字人文是他们研究的课题。
史语所成立的时候是在1928年,我们所长傅斯年先生在讲说:"我们不是读书的人,我们只是上穹碧落下黄泉动手动脚找东西"。的确当时历史语言研究所所找到的东西其实包括王国维当初在讲到最近二三十年中国发现的一些重要材料,他认为中国古代新的学问大都是由于新的发现。20世纪中国学问的五大发现之内其实包括了殷墟甲骨、简牍、内阁大库事实上都是成为史语所在后来发展之中很重要的助力。如果说在过去对于一个史学的研究者来讲,我们当初资料库的建设可以作为数位人文研究的发源开端的话,其实我觉得这个数位人文的研究对史学研究者已经造成非常深远的影响,史语所在1984年就开始做汉籍自动化的作业,90年代开始内阁大库的整理,基本上我们当时希望就是一个数据检索提供最基本研究者的方便。换句话说这样的一个数据库的使用还只是一个big data,并不是结构化的smart data。需要从研究者的选题,史料的援引到成果的展现都和我们过去历史研究不同了。
我想到以前比如说王充在写完《论衡》之后,它其实因为在中土并不容易得到,所以像蔡邕也好、王朗也好他们会私藏敝帚自珍看到的王充《论衡》而作为谈助,让人们觉得他们的学问与众不同。但是事实上过去在使用材料来讲,从诗人的藏书楼,到慢慢(变成)公共的图书馆,到现在所看到的云端资料库,我们基本上都已经不再从故纸堆里面"众里寻他千百度",弹指之间我们事实上就可以"海底捞针",全靠我们的"翻云覆雨手"。换句话说不知不觉历史学家都已经,像傅斯年先生所讲的,都不是读书人了,我们都不在读书了。
当然了我刚才讲的是1.0初步的一个数位人文的建构,也就是一个资料库的建置,大数据的汇集。现在大家强调我们数位研究迈向了机器学习和人工智能,我觉得学者基本上不再像"上穹碧落下黄泉动手动脚找东西",而很可能是在东西上动手脚,简单来讲就是将"上穹碧落下黄泉"所收集的东西转成数据库,透过这种数位工具让这个东西长出手脚来,像薛凤教授讲到地方知识的时候有一个技术和资料的关联,建立起这种结构性和脉络化的关联,所以包括像包弼德老师所提到的门阀消退的问题,也许我们可以看到一个大势,重新去覆案历史发展中宏观的课题,或者那些细节,这些细节包括大家刚才谈到的,魏希德教授讲到她使用码库思在探讨,很多藏在文本分析和注记里面,藏在历史夹缝的微观细节。当然现在人工智能或者人文研究的这样一个加成作用我们已经看到很多不同的成果,包括刚才包教授所讲到历史研究上面所发表的课题,但是是不是能够真正落实下去?还是停留在云端上的这种呼吁?事实上需要探讨的。
台湾“中研院”数字人文研究中心开发的研究平台
当然我们在想,我自己作为一个历史研究者想到一个问题,当我们想象美丽新"数"界出现以后,数字人文发展终点是不是历史学家的没落,我们大家都知道历史学家事实上是要"就天人之际,通古今之变,成一家之言"。其实历史学家本身也在不断演化和蜕变之中。我们想想看,在数位人文终极的这样一个乌托邦里面,我们可能有着AI人文学者出现,或者在我们教学互动方面透过AI向人们展示。在某种意义之下是不是人们都是历史学家?换句话说我们还需要历史学家吗?刚刚包老师讲到明中叶王学的人,左派王学有一个重要的人叫王艮,他讲到满街都圣人,满街都是圣人,人人都有圣根贤种,愚夫愚妇都可以成道成贤,理学家还需要阅读圣人的经典吗?如果人人都是历史学家的话,我们还需要历史学家吗?或者是说过去苏轼在讲"博观而约取,厚积而薄发",未来像傅斯年所讲的不读书的学者是不是反而是"约观而博取,薄积而厚发"?以前苏轼所讲到希望大家在为学做人上面要泛观博览,"博学于文,约之以礼",在数位纪元里,历史学家还需要什么样的专业?我想这值得我们思考的,因为我们今天主题是数字人文对历史学的研究影响。
我想到如果在谈到这些,其实刚刚邓小南老师在开场的时候也提到了,其实也包括魏希德在用了布洛赫的这个讲法,面对实证的时候史学家还有一个想象的作用和功能,或者用邓老师刚才讲的时候说的历史真正的体悟,还有这种内心的感触。比如说随着科技和人文结合的时候,是不是历史学家还有一个这样子的断裂,从一个文学的想象,还有实体的感悟,随着这种追问与辨识能力不断提升,我觉得刚刚邓老师也提出了很多很有趣的方向,给我有很大的启发。
当然美丽新"数"界的规划可能只是遥远的乌托邦问题,或者反乌托邦的想法。我想简单来讲,至少我们在数位2.0里面,包括我在的中研院数位文化中心,我们也做基本的规划我们探讨人文学研究数位转向是怎么样的?文化中心基本上一直在人文的研究上面,所以它是一个院级的单位。
所以在语言之上我们希望透过四个核心的课题加以规划。在左面我们会看到是数位人文知识库的建立,我们希望延续过去数位资料库的建置,希望能够更开放,更跟其他的资料库进行关联,或者我们所谓的链接。另外就是所谓的数位人文技术的研发,数位人文研究工具的建置,我们是不是可以透过核心技术的研发萃取分析文本。左下角我们另外一个部分,如果我们把知识整合研发结合起来,至少先从中研院开始鼓励数位人文创新计划的发展。最后面临这个东西研究的成果,或者在研究成果的过程中很可能透过一个数位展示和实体出版来记录,来完成。
简单来讲我们在数位知识库里面大家可以看到我们跟各个人文处所的合作,也刚刚包括地理的资讯中心、研究所、台湾史研究所、语言所和近史所,这是我们近两年研究课题。当然在这两年重点的,每个所有不同建置的项目,希望透过这个视角我们特别强调它是一个链接的,是一个关联的,它不只是一个纯粹数据库的建立,它希望能够是至少像薛凤教授提到的一个结构性的数据库的建立,使得它更能够有意义的协助研究者进一步做探寻的工作。
我想作为一个人文研究者来讲,包括历史研究者至少有两个重要的问题,一个是文本的分析,另外一个我们现在越来越重视图像的分析,即使做基本的人文历史或者是艺术史方面都可能需要这两方面相参互证。所以在文本分析上面我们有语意标记和词频的分析,这个其实在发展上面和码库思和魏希德教授所讲到其实有很多重叠的地方,也包括视觉的资料化,当然我们图像分析的研究建置也包括希望能够跟一个国际互通架构的建置,包括我们希望做微观的比较,链接开放的建议,还有语意的标注,影象文字的辨识。
文本分析平台其实它跟码库思其实有异曲同工之秒,我们希望能够把文本资料汇集进来然后进一步跟研究学者能够合作来进行文本的检索包括字频的分析,关键词的标记。当然也可以在一个视觉化的运用展示技术呈现出来,这两个事实上我们包括跟史语所的医疗室的研究小组以及各个台湾的大学,还有新加坡南洋理工大学合作所进行的一个项目。当然除了这个之外随着图像分析研究的平台,我们希望透过一个IIIF国际图像互通的架构进一步对这个研究更深入的探讨。换句话说我们现在看到的简牍,并不只是把它当做一个字来处理,这是一个大家很熟悉的在汉简里面的甲渠侯的资料里面的"侯"这个字,我们想包括来探讨它书写内容是如何并且是怎么样正确地释读还有标记。我们希望从一个释文的标记到它所属部件的描述,甚至研究者对它的特征辅助的一个记载和评论,然后能够汇总起来,因此就是说我们就把所谓的图像展示和验证以及搜寻能够结合一起来,使得我们可以透过不同的图像展示验证和搜寻的API,使得这个研究者不只是看到既有馆藏的资料,更可以通过馆藏资料跟相关单位的现场东西加以联系,我们能够进行相参互证的工作。
我们关联数据重要性,大家看到右上角这个藏在史语所的鹿方鼎为例子,可以看到透过一个所谓开放关联的结果然后跟Getty建立起所谓的索引点的联系,然后我们就可以做主题,和台湾故宫博物院,以及像在Europeana以及哈佛还有大英博物馆里面所藏相关的藏品进行对照和比较工作。
当初我们也建立了研究参考的检索系统,过去纯粹为了研究者方便,作为他们的参考的体系,我们从过去数位典藏的项目里面一直延续到现在,我们都进行维建的工作。
前面两个事实上是我们一方面是资料库的建置,另一个方面是属于工具研究平台的发展设计。最重要的还是落实下来是不是有人文学者真正地利用既有的所谓的数据资料库,然后透过一个文本也好,图像的分析这样的工具,进行它们想要开发或者想要探讨的主题。我们看到我们每年会透过申请审查的方式,然后鼓励所有的人文科学研究的学者能参与,这是大家看到几个课题,这是我们这两年跟史语所、近史所和文哲所这几个人文研究单位所进行的。
最后一个部分其实是我们希望能透过,因为我们数位中心在院方要求下希望能够考虑成立一个院级的出版社,事实上是一个实体出版,将来跟所谓数位展示连接起来。包括我们自己本身的一些国际连接,包括包教授所讲的我们参加CBDB,还有好几个单位我们都有做国际合作的关系。我们希望不只是对于学者来讲所谓"致广大而尽精微,极高明而道中庸",我们希望不只是对研究者本身把他研究的成果尽精微的展示出来,我们也希望通过展示的模组或者平台让一般的人也可以参与,所以这方面我们最近努力的目标,事实上我们有一个展示平台的规划,开放博物馆的规划。
研究者是把他的学术成果能够数位展示,他可以作为实体出版,实体出版是能够透过这样的平台做数位展示。这个数位展示并不仅是一个研究成果最后的展示,我们也希望透过网络的各种不同模组的设计,能够把研究者的研究历程记录也能够保留下来,甚至可能研究的素材和研究数据能够保留在数位展示空间里面,和相关的学者分享,甚至可以进一步探讨或者更新协定。这个情势下包括我们所谓的群力协助,或者相关学者集体参与是我们希望或者标榜的目标。
除了这个之外我们也希望这样的平台能够让一般的美术、图书馆、档案馆、博物馆甚至到一般的百姓,在我们开放博物馆人人都可以当馆长、当策展人,他可以透过公共授权的方式所进行的藏品做收集、展示、转译或者创作的再应用。
基本上我们也希望不只是学者一个人的武林,甚至可以到全天下共享的江湖。我们现在目前所设计的东西包括展览模组和展示的一个方式,包括地图和时间以及分析的工具,所谓社会网络的分析,或者利用国际图像互通架构可以使得相关的图像会诊到我们展示平台。
这是我们其中一个小例子,这个例子事实上刚好叫所谓的"构树",因为它结果的关系也叫"当当树",它的材质常常用来印钞票,所以也个也叫"钞票树"。这是我们院里面钟国芳教授所做的研究,他的研究成果有一个重要的突破成果,所以我们把它转译成三个关于构树主题相关的展览,这个并不只是一个生物学家的研究,事实上也和我们的语言所、民族所进行合作,所以有的时候我们看到左上角是"植物学家的人文学之旅"。他这个除了自己本身有研究成果展示以外,有一个实体展览,再把实体展览重新放在数位展示来,包括过去他所积累的相关资料或者他研究的历程也放在这个数位展示的平台来。
最后我想让大家看一下,因为大家受COVID-19的影响,都只能(待在家里),过去我们希望这个数据库不是一个仓储,而希望能更联结起来,我们是希望透过这个平台,因为刚好我们知道5月18号上个月事实上是一个所谓的国际博物馆日,我们用数位展示平台来展示一些东西,这是一个博物馆日的功能。
欢迎大家来看,谢谢大家在云端聆听我粗略的报告。
谢谢。
何晋:谢谢陈熙远博士,也谢谢以上五位专家精彩的报告,在座和在听的人,特别是另外两位主持人史睿先生和梁晨教授那里已经收集了不少听众的问题,下面是提问和交流的时间,我们请史睿先生和梁晨教授主持。
史睿:各位参与活动的老师和听讲的师友们大家好。我们已经收集了很多提问的信息,我就把其中一些问题归纳出来转交给各位有关的老师,请他们做进一步陈述和回答。
首先有一个问题是问包教授的,问题是这样的:数位人文研究方法比较依赖于数据的搜集,这样的一种新方法是否意味着它在某一类史料上比较有效,而在有一些领域里面会不是特别能够展现它的功能?这种方法局限性在哪?它的未来前景到底怎样?
包弼德:这个问题提的很好。我想从另外一个角度来讲,我们不是从材料来讲,而是从问题来讲,从研究题目,研究问题意识来讲。我就举个例子我个人研究中国思想史,特别是宋元明清,如果我要了解朱熹的哲学思想我一定要看朱熹比较重要的文章跟注解。举个例子说,他的中庸有一个讲法"人文道心",他引用特别有名的十六字,"人心惟危,道心惟微;惟精惟一,允执厥中"。把人心跟私欲,道心跟天理做一个新的定义。这个是跟数字人文不大有关系,除了文本,我现在所看到的文本都是数字化的文本。
但是如果我自己有一个另外问题,我看到朱熹有这个讲法以后谁开始接受的这个新的定义?人心就是私欲,道心就是天理或者天理的意识,我怎么解决这个问题?怎么回答?我可以看每篇从朱熹那个时代所写的文章,或者四书经解、五经经解,看他们是怎么讲的。可是最有效的方法是一个人文挖掘文本的方法,数字人文文本挖掘的方法,看很多不同文章,开始在哪一些文章他们提到人心、道心,同时提到天理、私欲。比如说如果这个元朝在开科举制以前,从朱熹去世以后115年之间谁接受这个新的想法?谁有另外一个想法?这个是一个数字人文,这个和我自己要问的问题有关系,这个可以说是学术社会史的问题,谁受到他的影响?谁接受他的说法?如果我对这样的问题没有兴趣我不用讲,所以不是资料是限制我,我自己提到的问题最重要。魏希德也提到这个,先要看到我们有什么兴趣,什么想法,什么问题,然后我们选择最实用的方法去研究,有的是好好详细读一篇文章,有的是挖掘文本的方法。所以我觉得我不是专门要做数字人文的研究,我要研究中国历史关于思想史,思想价值的问题,我要利用最合适的方法,不一定非得用数字人文的方法去解决。
或者我是要用社会史的一些问题,做社会史也是和社会科学非常有关的,要用群体传记学的方法。群体传记学我们可以利用非常多的材料收集关于人的生活,从墓志铭、《宋史》、诗等等我们都可以收集这些资料。所以我们比如说CBDB是一个有关系的数据库,收集非常多的各类的资料,从各类要标记,从标记得到数据,把数据放在有关系性的数据库,才可以做社会科学的方法去研究。可是我研究中国文学我不一定用这样的方法,不是我的问题,不是我的兴趣,所以我想不是从资料来讲,我们应该从问题意识去讲。
梁晨:谢谢包教授。我觉得包老师回答已经非常清楚了对于这个问题,因为对于什么样的材料适合在数字人文研究中有很多学者提出这样的质疑,包教授回答非常明确,从问题意识出发。同时我们很多教授提到过"史无定法",要根据你的研究题目再结合材料,才能确定用什么样的方法。但这些方法主要都是针对我们史学家的或者专业史学工作者,这里有一个新的问题不是针对史学家的,是给薛凤教授的,他的问题是,现在这些新的方法新的工具为学者研究开辟了新的天地,使得我们学者能够提出新的问题,但是这些研究,因为它有很大的开放性,特别是这些平台,甚至很多个人自我材料也可以成为现在新的研究材料,是不是使得我们普通人有机会用新的视角看待自己的历史,甚至自己做一些分析,薛凤教授有什么样看法?
薛凤:谢谢,这是一个很大的问题,所以我不知道怎么回答。可是我觉得有各种各样的方法,我跟包弼德教授一样觉得从问题开始和从兴趣开始,这个兴趣也是决定用什么方法。不过我估计基本上是在全部中国历史上有一个好处,因为材料很多,而且材料很丰富,我们有一个好处,我们可以试试很多的事情,试试很多方面的研究方向,也有一个不好处,因为全部的材料已经研究过,从各种各样的地方,从各种各样的观点,有时候我就觉得我们太固执,我们觉得只能这样看,不能用新的方法分析的,因为我们特别了解一个Source,不过很多这种Sources其实也是很大,很丰富,很不一样。所以这方面我觉得从新的问题开始,从你的兴趣开始,可以提出很多这方面的想象。一方面非常了解你的材料,另一边还是有你新的兴趣,把两边联合起来肯定会有新的方法出现的。
我们的研究所现在有一个人他也利用一个新的方法,就像陈老师提出的这个事情,他跟一位数学家一起合作,为了研究欧洲这方面的材料。其实Challenge比较大,历史学家和数学家一起合作为了了解历史方面的问题。我觉得这个方向还是很有希望。因为很多这方面的algorithms(算法),我们需要这种algorithms,但是这种algorithms是他们逼着我们做的事情,我们不愿意做的事情,所以这方面的合作,和他们合作怎么发展algorithms,为了发展我们历史方面的研究是一个新的领域。
史睿:刚才我们也看到有问题问魏希德教授。他这样说的:数字人文这样研究方法它需要人文学者和工程师的合作,像这样跨越领域的合作以前是很少的,有哪些经验可以借鉴?我总结在数字人文方面应该说是人文学者对于新的技术提出了最高的要求,但是他是一些最少的用户,但是他研究的问题有最高的文化文明价值,数字建设也非常难,建成的数据库和结果在学术界取得一个学术信任这个过程也比较长。在这样非常复杂的状态下两方面应该如何合作?这些合作当中有哪些经验可以分享给大家?谢谢。
魏希德:这边网络不是很稳定,出问题的话我等一下再回来。其实提出的很复杂的问题,我讲一下我自己这方面的经验。之前当研究生的时候,开始教书的时候,总是一个人自己做研究,自己读书,自己写文章。开始开发码库思的时候和计算机学家一起合作,开始和何浩洋,后来我们开发了一个机器学习的模型,这是跟计算机学家合作的,另外那个文本对比,这是另一个计算机学家。写数字历史文章的时候,也是刚才讲的那个有关党争或者是社会网络比较分析这篇文章,也是和数学家还有历史学家、计算机学家一起合作的,真的是跨领域的一个合作。这个当然有它的挑战,有的时候还是很难的,特别是作为历史学家跟计算机学家或者数学家也好一起合作,有的时候合作不顺,因为可能互相不了解要解释的问题。
这方面觉得在我个人的经验上还是看其他人的一些项目的时候,我自己觉得非常重要的一件事情是要频繁相处,这个合作应该是深入的,不一定是长期的,因为学术界蛮复杂的生活,但是至少一般的来讲项目是几年的工作,这段时间里面我觉得应该频繁相处,为什么呢?要一起讨论问题,作为历史学家不只要讲到自己比较感兴趣的问题,也要讲到自己在读的那些资料的特征在哪里,因为跟你一起做研究的计算机学家他自己可能也是感兴趣,而且不仅是感兴趣,他可能会自己提出一些新的问题,或者新批评或者建议,而这个我觉得非常重要。因为我常常看到其他人开始做数字历史的研究或者其他的数位人文研究的时候,他们就说我自己做自己的,我就雇佣一个技术员来做这个工作,我觉得这个有时候还是非常成功的,不是最成功,也不是最得意的一项工作,因为这样就不会互相学习,互相学习我觉得蛮重要的。当然这个是有挑战,你刚才也提到当然意味着我们自己要培养自己,或者自己去学习到一些新的学术,不一定是skill,不止是skill,也是新的学术,新的理论。这个当然需要时间,但是我觉得还是很值得。这样做可以说是一个realisticreason,自己觉得要是不了解的话,常常就会碰到这样的情况,一个计算机学家他会说你就用这个吧,你这个问题我已经有这个结案。所以他就是一种模板化,一种templatesolution,这个常常也不合适我们,我们要做的研究。所以当然计算机学家他总是会引用其他人已经做出来的一些程序,这个不算是问题。但是我觉得自己做研究的时候总是要注意到数位人文的一部分真的是反映我自己要做的研究吗,真的是解释我自己要解释的,所以这个蛮重要的。
另外一点也是非常重要的,我们写文章的时候也是一起写的,主要还是我来写,但是比如说社会网络分析的话,数学家来给历史学家解释,他为什么利用这个probabilisticmethod,因为这样我们历史学家也可以学习到一些新的知识,而且对他也很有趣,这个也是对我们历史学家比较重要的一件事情。我们常常会觉得数学家他可能比较有特定的看法,他相信的就是客观的事实,但不一定是这个样子,他们对uncertainty(不确定性)也是有非常深的了解,所以我觉得跟他们合作可能会发现到学术界不一定是那么分开的,他们的兴趣常常跟我们是类似的。
最后一点,要这样做的话,一定要找到合适的人,这个不是很容易,合作的时候一定要找到愿意和你长期合作的一个人,所以这个有时候还是对人文学科感兴趣的计算机学家或者数学家,但是总会有人,所以自己要努力。
我觉得看我自己做的,或者看其他人已经做的,就觉得其实还有进步余地,总是觉得不满,因为做这个事情很不容易,我们慢慢的来做,我们慢慢来进步,这样才会有我们可能将来要见到的那个数字人文。
梁晨:谢谢魏教授。魏教授主要讲的人的合作,当然大家也知道数位人文合作除了人还有材料,所以刚才陈熙远教授在介绍台湾中研院这些资料的时候,数位典藏工作的时候有非常多的听众在问一个问题希望陈先生解答一下,目前史语所典藏数据库对于中国史研究而言,材料上有什么样的特点?主要的内容有什么样的特点?目前开发利用的情况是什么?请陈先生再多做一点介绍。
陈熙远:我刚好可以借助这个机会向大家报告,因为刚好是COVID-19疫情的关系,可能全国各地和世界各地方的学校在授课方面,在研究方面受到比较大的冲击,所以史语所在上个月已经正式向全世界开放汉籍资料库的使用,以及内阁大库那个资料库的应用,它基本是到9月底,所以我们非常欢迎线上的朋友试试看我们资料库,当然我们很希望能够(得到)回馈。
大家谈到这个资料库的建置。我们基本上当时从研究者的立场,从我们过去"上穹碧落下黄泉"所收集的各种各样的材料,也包括我们图书馆的典藏。从一个所谓汉籍自动化的作业,当初创办开发这两个人,其实早期一个在资讯中心,一个是我们史语所一位前辈同仁,他们早年留学美国,在哈佛访问的时候开始激荡,很多很重要的东西需要人文学者和专业的科技人员考虑到,比如说通过演算法或者电脑程式能不能提供更好的,包括字形的解决,包括一些错别字的辨证,包括字体的标注。
大家使用史语所汉籍资料库可以看到,我们希望也加入到所谓不只是从Big Data的建置,也希望可以到智慧型也就是smartdata的建置,大家可以看到我们重要的标识以及人名、地名甚至可以和GIS联系起来。我们可以跟人名权威(资料库)作为联系,还有从早期的关联字的搜寻。我们其实每年希望能开放,至少让使用的学者能够回馈,回馈机制是非常重要的。
前辈都谈到一个很有趣的问题,一个资料库它能够真正为人所用,或者是一个重要的主题,研究者和一个所谓的技术开发人员能否搭配起来?这想起来了过去讲这个"体用"和"道器"的问题。有些是比较单纯的资料库,我所负责的内阁大库的整理,它们还没有到达一个全文辨识的阶段,我们基本上做一个所谓的后世资料库,是我们原数据的一个建置,让大家能够进一步去检索,做图像的阅读、阅览,这个东西将来还有各种不同开发的可能。所以我觉得这个需要一方面是使用者,一方面需要开发者。在这个过程之中是不是这个技术人员能够在某种之下了解到研究者的需求,或者反过来讲研究者需求是不是能够很精准地把他所想象可以运用的一个,或者他需求本身,纳入到一个程序开发者考虑的项目里来,这两个密切的合作其实很重要的。每年其实我们都有比如说汉籍和我们开发的厂商合作,和研究相关同仁进一步能够商讨,各种可能进一步把它优化的情形,这是漫长的道路,需要大家前赴后继的努力。
暂时回应到这里,希望大家有机会利用在9月底我们开放,大家免费试用,我希望大家可以给我们任何不同的回馈,谢谢。
王军:刚才陈老师介绍的内容我个人很感兴趣,我自己有一个问题。刚才陈老师介绍中研院的数位化项目特别多,它涉及到中研院下面基本上十几个所,包括史语所、近语所。而且在新技术应用方面也非常的前沿,我们看到最后陈先生展示的内容,包括关联数据将现在中研院各方面的数据包括和哈佛,包括艺术图库之类的数据都关联在一起。因为我自己是资讯科学背景,所以我非常跟兴趣,在中研院这些技术的问题,这些项目开发的问题,这些工程建设的问题是怎么样解决的?难道我们每个所都有资讯科学家和历史学家合作吗?还是我们有一些商业团队和中研院方方面面研究人员在一起合作?
陈熙远:王教授的问题非常重要。其实严格来讲由中心透过审核制度资助各个人文单位进行他们相关的藏品和典藏或者过去征集任何的档案和文件进行数位化工作,在数位化工作希望能够建立最基本的资料库,我们也希望它们能够开放关联,因为对整个研究者来讲是非常方便的,国内的学者也好,也希望能够征求全世界相关的资料库,将来有机会能够串联在一起。
事实上我们中心来讲,我们中心除了团队有专业的图书资讯的人才,当然也有相关科技的工程师一起来参与。但更重要我们要跟相关信息专业的教授合作,其实早期在推动数位典藏计划里面就有很多重要的资讯方面的学者参与这样的计划,从图像、文字到影音,这三方面都有相关的学者愿意投入。很显然这并不止是一个相加的问题,不止是digital加humanity,事实上它有很多内在或者牵合的考量在里面。当然不可能我们现在包括资助的所有人文社会科学它们建资料库的时候都有相关的技术支援来进行。但是我们希望透过我们每年的成果的展示,以及相关课题的研讨,我们当然包括每一年都会举行会议,主要早年由项洁教授开始推动的,今年由中研院举办所谓数位典藏和数位人文研究,今年已经第11年了,所以顺便向大家推销一下,我们也特别邀请了薛凤教授作为我们其中一位专题讲者。我们希望各所透过这样媒介和我们中心密切的合作,这个其中还在摸索当中。王军教授讲话讲的没有错,我们怎么样能够一方面有一定的学术的成果和成绩,不止是人文学者,包括参与的科技的人才,这个东西严格来讲在中研院还没有完全解决。但是很重要的一点,现在至少在中研院对这个东西是相当重视的,也希望透过数位中心平台把人文研究能够做比较好的发展。
各所所面临的问题到时候想办法在经费上来处理。可是我觉得王军讲的东西很有趣,我们刚才谈的时候我们知道大部分的资料库是商业的,但是中研院包括我给大家讲的汉籍也好,内阁大库也好,原则上是由中研院进一步来维建或者是管理,甚至是经营,每年从海外和国内所申请的经费我们必须留在中研院本身的,很奇怪我们没有商业公司做一个统筹的工作,这和其他的数据库相对来讲有非常不同,像我们熟悉的方志库、古籍库等等,这个东西怎么解决?或者用一个更好的方法来进行开放,我想我们这次在开放过程中也是纳入到我们议程中来探讨的。
谢谢。
梁晨:因为我们这次讨论原定的时间是7点到9点,现在时间已经到了,各位嘉宾在全球各地也比较辛苦。我们做最后一个提问,最后一个问题比较宽泛,也希望各位嘉宾有想法都可以参加讨论,所以我们选择了一个问题。选择这个问题也和包教授讲的内容有关,包教授讲的我们过去传统研究,特别是你对比人性的关心,思想的关心,也可以选择深入的阅读做个案的分析等等。但是这种研究好处是它可能是很深入,有很多感悟,但是同时它可能对于大家对于更多人接受理解有障碍有难处。数字人文好处它的很多研究可能技术过程比较复杂,但是展现出来的结果特别容易出现量化的结果,大家理解接受比较容易,也使得全球做中国研究,欧洲研究,美国研究的时候很多比较,很多对比变得更加密切。所以听众有这样的问题在今天这样一个技术环境之下诸位专家都是做中国历史,特别是中国古代史研究的,大家觉得现在中国历史研究在数字人文这种帮助之下对我们全球文明产生什么样价值和贡献?怎么样看待中国历史的研究推动我们全球文明的建设?
包弼德:这个问题太大了。
梁晨:怎么样更好做比较分析,用数字人文的方法?
包弼德:我们总是给不是给专门学中国历史的人讲,说中国历史的文献2500年以来是一直有继承性,很广大,很详细。而中国历史一定是世界史非常重要的一部分,也是我们将来的实践里面,也是我们世界人民共同的资源。这样是可以讲的,可是我们怎么证明有这样的事情?所以我们做这个数据库比如说CBDB的时候,我们也有一个目的,让中国历史学以外的人知道中国的资料,中国的数据那么丰富。欧洲史跟中国史有一点很有趣的不同,我们看欧洲中叶它们关于地方的,有时候在某一些地方它们地方的资料非常丰富,比中国丰富得多。举个例子意大利Florence它们关于书信的档案比全中国历史多得很,所以我们有不同的scale的问题。中国的文献很多是全国性的,可是到了宋朝特别是南宋以来地方志的资料也是很重要的一个,所以这个LoGaRT是很有趣的。所以中国的地方史的资料到了17世纪、18世纪还是比欧洲丰富。所以从资料来看有一些非常重要的不同,可是从问题意识来讲,有很多问题可以做一个比较性的研究。不是一个好回答,可是就是这样子回答。
魏希德:这个问题中国能够怎样做一些贡献,对全球史做一个贡献,我觉得有几个方面。
第一就是当然中国历史出了很多数据,数据很多,这也是一个贡献。
另一个20世纪中国人文科学家也出了很多参考书,这些参考书其实很值得我们注意,可以利用这些来做一些先进的平台,其实CBDB就是一个例子,其他的项目也是。
讲到历史经验,我自己的看法其实我们应该把中国历史的经验连接到其他全球史,这是很难做的事情,但是我觉得现在我们应该开始做的事情。之前数位人文开始红的时候大部分大项目其实是每个国家做每个国家的项目,东亚、欧洲、美国都是这样,这个当然有它的好处,我们现在已经有很多数据库。它的一个缺点其实这些常常没有办法互用,所以我觉得将来希望我们可以进一步把中国、整个东亚的历史经验、数据、平台连接到其他国家或者是文明,这个当然不好做。但是我觉得这个不只是现在的一个问题,这个也可以让我们做新的一种历史,因为之前我们19世纪开始我们写的历史也是一个nationalistichistory,是一个祖国的历史,我们把所有的全世界全人类的数据放在一起的时候可能会发现常常这些全国性的历史可能是误会一些比较大的发展,所以我希望我们能够进一步做这个工作。
薛凤:我只是稍加两句。我觉得包弼德说了最重要的事情。我还是说我是一个科学历史家,我当然觉得如果你看到中国历史的话,你用长期特殊材料,最大的好处当然是我们在这里可以看到长期的认识发展,人家怎么发展起来的,怎么指导事情的,这点来讲你们的材料还是有特点的。当然和多样性有关系的,因为各种各样的地方都有不同的材料,它利用digitalhumanities的方法也不同,因为你们有这么多的,或者中国有这么多文件方面的材料,又有很多文物方面的材料,当然这里有一个挑战,可是也有一个;possibility和chance。所以我当然希望中国在这个方向也继续发展起来的,因为我估计这方面的能力还是很强的。
梁晨:谢谢教授。三位教授讨论结合起来对大家有非常大的提示的。我们要讨论中国文明,中国的经验对人类文明有什么贡献,我们首先得问我们是不是足够多的理解了中国文明和中国历史。包教授和魏教授讲解里面非常重要地提示我们,数字人文可以帮助我们更好的从一个长时段、大范围角度理解中国历史,所以你会有很多newfacts,当你有了这些newfacts以后你可能会认识重新理解中国社会,而这样你会形成真正的所谓中国发展的经验,而如果这些经验是可靠的,是可以比较的,当然可以对人类文明或者全球文明有一个更新的贡献。
这是我的总结,当然不一定对。
我们的讨论是不是就到这里?因为现在已经9点15分,我们下面现在把主持权交给王教授和何教授。
何晋:非常感谢刚才四位嘉宾对大家问题非常精彩的回答,也非常感谢两位主持人。
最后因为时间也不早了,我做一个非常简单的总结,可能我们有一些听众后来来的稍微比较晚一些。
今天晚上我个人也觉得收获非常的丰富,虽然我自己做一个研究历史的学者,我自己也知道史学研究我们要从文献,我们一般说的数据出发,但是我们知道通过数字人文这样一个新的对数字进行结构化,全新的组织最后呈现出完全不太一样的面貌,或者提供出的信息,和我们之前利用人脑组织有非常大的不一样,有时间、地点,时间空间等另外一个维度或者不太一样的一个呈现,例如人物互相之间彼此交错复杂的关系,这些都对我们的研究会产生非常大的影响。
同时当然随着数字计算的这种发展,尤其是将来AI的发展,就像陈熙远博士担心的那样,我们将来也会存在人工智能和史学家之间互相表达了这样的忧虑。目前我看到我们的四位教授所做的项目的介绍,主要以文献为主,就是我说的以文字为主,陈熙远教授也说到了中研院也在开发以图像或者将来以声音为主,我想文字、图像、声音将来都会成为我们新技术处理,给我们提供非常不一样的史学研究的材料。
同时,我们通过各位教授分享我们也看到目前的数位人文,对我们史学工作者来讲还有很多的技术难度,我们需要和计算机专家和数学家合作,当然就像刚才提到的一样,我们不能把他们看作我们雇佣出来的工人或者当做一个工具用,他们可能也是我们数字人文当中的研究者,他们也是贡献者,但是我们同时也看到其实史学研究在很多时候当然因为领域不一样,有的需要合作,但很多的时候我个人觉得有点像家庭手工业劳动者,是一个个人的,我希望将来,我个人非常希望,这种数字人文发展到将来对我们一般史学研究者工作者来说不再有技术上的障碍,我们人人都可以利用非常容易使用的方法作为我们史学研究的非常重要的方法,当然这种方法也可能是我们史学研究众多方法当中的一种方法,当然它很重要。
同时我也希望我们这次的研讨能给我们尤其是未来的年轻的一些史学的学生,或者未来的工作者对他们有影响,我们也希望将来我们的大学课堂也有数字人文方面的课程,像有的教授说的其实我们都是半路临时学习,我们希望将来做一个工具性的上面,我们希望将来有非常熟练的,有科班出身的人才,将来对我们史学研究应该是一个非常大的促进。
还有一个我个人感觉,大概也因为数字人文发展到现在虽然也有很多年了,我们看到不同的学者在不同领域的时候他们也都开发了各有特色的这样的平台,看起来有一点像各自为战,但是我们同时也看到像码库思和DocuSky其实也有合作,所以我们看到在各自为战的情况下也有各自的合作,当然我们希望将来我们有一个非常好的一个整合的平台,或者大家能够更应用的平台,这是对未来我个人非常大的一个期盼。
我就简单总结这些,总之非常感谢今天晚上各位嘉宾,也感谢各位参与的听众。
最后的时间交给这次会议的召集人,他还有一些比较重要的信息给大家交代。
王军:谢谢何教授的总结。首先还是要感谢今天参与研讨的五位学者,我们不仅从他们这了解到了数字人文和史学结合的前沿领域的知识,而且我们感受到了这五位学者他们的人格魅力。据现在不完全统计三大直播平台上观看这次研讨会至少有5000人,我想这样的活动能吸引这么多人参与,对于刚才最后一个问题,我们对中国历史的研究,对于中国本身对世界文明有什么贡献?我们在线5000人共同聆听了一次全球重量级的学者对中国历史的讨论,这个对于未来,对于数字人文领域对于中国历史学习的研究会产生什么影响?至少我们从在线的5000人看到。
现在中国大陆互联网有个很流行的名词"后浪",今天这五位学者可以说是我们的前辈,在他们已经有了这么丰厚的学术基础之上还积极接纳数字技术,应用数字人文的方法进行研究,对于我们"后浪"提出了什么期望呢?借这个机会也宣布我们后期的活动,希望大家积极参加。
我们计划在6月底要启动一个数字人文创新作品展,随后会有一个数字人文国际论坛。这个计划我们是打算实现三个目标,第一个目标我们看到在数字环境下对于人文学科,社会科学的研究,数字技术和计算的方法现在得到越来越多的应用。所以我们希望在这样一个活动中能培养下一代人文学者,使他们既具备深厚的人文修养,同时又具备应用计算技术,应用最新人工智能进行研究和设计能力,在此情况下推动数字人文领域发展。
同时我们在今天文化产业大环境下,我们也需要企业的参与,希望通过这样一次活动把教育研究和企业联接在一起。
跟以往的这些大赛为了有所区别,我们希望数字人文创新作品展有明确的人文研究问题的,像包教授提到的不管用什么方法最终回答人文的问题和回答历史的问题。
我们这次作品展设想除了传统已有大家熟悉的提交学术论文之外,我们也希望能够征集以人文研究,人文的问题为导向的,以数据分析为方法的设计作品,它包括信息图,包括动画影片,包括交互式网页,同时我们也欢迎各类的系统开发,包括程序设计,包括微信小程序等等。
随后时间里我们也欢迎各类数据集开发者还有工具库开发者和我们联系,至少在这个平台上把我们已有的这些先生介绍的开放数据集,包括中国历史人物资料库,中国历史地理信息系统,北大社会与调查数据推荐给数字人文研究者和学习者使用,在上面探索开放数据库的价值,同时也推荐大家使用我们这一次数字人文工作坊所介绍的这些工具,包括台大开发的DocuSky,魏希德教授和何浩洋工程师最早开发的码库思,包括薛凤教授介绍的LoGaRT等等诸如此类的工具。
我们把作品征集上来以后我们采取这样一种评审方式,会请每一位参加展览的作者都成为评审者,评审与他同等形式的作品,通过评审的前200份作品的作者我们邀请他参加年底北京大学举办的数字人文论坛。这样话我们为数字人文学习者,研究者和爱好者提供一个跨学科交流协作平台。我们这样的设想我们正和今天参加研讨的五位学者讨论,很有可能我们会把它变成一个国际性的数字人文创新作品展和国际性的数字人文论坛,同时和有关部门讨论,我们也希望这样的活动能够成为一个持久的长期的活动。目前各种准备工作已经就绪,网站也开发了,下面我们把细节敲定以后会公布,请大家关注我们数字人文中心的公众号,关于数字人文创新作品展的消息和数字论坛的消息我们会及时发布。
总之我们希望通过一系列的活动我们将互联网开放、平等、多元、协作的精神与源远流长人文传统结合在一起,打造一个国际化的多学科融合的数字人文协作与交流平台。这就是今天我们给大家介绍他们工作的五位学者,也是他们工作的一个目标,也是刚才先生们在一起讨论的一个主题,而要完成这样的一个目标也需要我们"后浪"在电脑屏幕前参与这次研讨会的老师和同学和我们爱好者共同努力完成。
谢谢大家在周六晚上参与这样一次大规模的学术研讨活动。最后我还是要感谢一下参与组织这次活动的北京论坛各位老师,还有数字人文实验室各位同学,他们为组织这次论坛付出了多方面努力。也谢谢我们今天主持的这几位老师,谢谢大家。希望大家进一步关注我们数字人文公众号,这次活动也是北京论坛云端国际论坛系列首场活动,后期北京论坛会举办一系列的活动,请大家继续关注,我们后会有期。谢谢大家。【特别鸣谢:北京论坛供稿,陈钰琪校对】
免责声明:本文仅代表作者观点。