文献数字化背景下的学术研究

——以人文科学为例

郑永晓
内容提要 根据现代知识体系形成和管理方面的理论,人类的智慧是通过由数据而信息而智慧这样一种层级递进的方式产生的。数字化文献的大量出现和数据库的广泛应用,对于人文科学的深入发展、对现代知识体系的形成具有积极正面的作用和深远的影响,这种影响只会在深度和广度上继续发展而不会逆转。
关键词 人文科学、文献数字化、现代知识体系

一、当前人文科学研究与数字化文献的应用

钱锺书先生有一句名言:“大抵学问是荒江野老屋中二三素心人商量培养之事,朝市之显学必成俗学。”钱先生发表此论的背景是上个世纪八十年代末学界部分人士筹办《钱锺书研究》,“钱学”似有方兴未艾之势,而钱先生本人对此坚决反对,故有此言。笔者浅见,考虑到钱先生本人的知识结构和当时发表此论的背景,钱先生此处所言学问应主要是指人文科学,而与自然科学无涉。这层意思本来显而易见,无需论证,但由于拙文主要考察人文科学与计算机科学的关系,故不得不先作此画蛇添足的界定。

钱先生此言虽然简单,却透露出人文学科的几个重要特点。比如,做学问要有一个相对安静单纯的环境,与喧嚣浮华相隔离;学术极具个性化色彩,主要依赖于个体的思维与创造,二三个素心人切磋培养即可,无需大规模的集体项目运作;学者必须是“素心人”,能耐得住寂寞,有甘做冷板凳的功夫。对此,学界有很多透彻深入的解读,此处不再赘言。笔者想借此说明的是,尽管人文科学涵盖多种学科,每个学科也各有其独具的特点,但是像文史哲这种典型的人文学科,其基本的功能和目的是产生“思想”,而“思想”的产生当然主要是依赖于人的创造性思维而不是其他。虽然自然科学和社会科学也并非不产生“思想”,但是相对而言,人文科学不像自然科学那样依赖于科学实验,也不像社会科学那样借助于统计分析。所以,这其间的区别还是比较明显的,这正是钱先生认为学问是“二三素心人商量培养之事”的原因所在。

但是,我们也必须认真思考钱先生这段言辞的前提,钱先生所言“二三素心人”能够“商量培养”出学问,是因为他那睿智的大脑已经储存了大量的信息。他所以能够写出《谈艺录》、《管锥编》那样博通古今、融汇中西的巨著,一个显而易见的前提是他阅读了大量古今中外的书籍。钱先生阅读之广博、记忆力之超强是人所共知的。几个不识字的白痴或者读书甚少的人,即使再“素心”,也切磋不出学问来。

但是,这世上能够具备钱先生那样睿智大脑的人毕竟少之又少,作为普通的学者,我们先天的条件和后天的素养都无法望其项背。于是我们只好借助于一些工具,帮助我们储存和记忆,这类工具在过去是卡片和笔记,在上个世纪九十年代以后,则是计算机和网络。计算机及相关技术是二十世纪最伟大的发明之一,也是人类迄今为止最好的记忆和储存工具。正是由于这个特性,使得像文史哲这类传统的人文学科也与尖端自然科学中的IT技术建立了密切关系。

令人惊叹的是,早在上个世纪八十年代,钱锺书先生就准确预见到计算机科学必将对人文科学产生重要影响,因而积极支持在中国社科院设立计算机室。在他的鼓励和支持下,栾贵明先生等陆续开发出了国内最早的《全唐诗》数据库及《论语》数据库、《红楼梦》数据库等。

上个世纪九十年代初,由作家、学者换笔开始,计算机技术的相关应用开始步入人文学术的殿堂。至九十年代中期以后,网络和数据库开始进入学者的视野,一些先行者尝到了使用数据库的甜头。至本世纪以来,无论是文献数据库的开发建设,还是文史工作者的实际使用都到达到了一个较高层次。

根据笔者有限的见闻,如果说在5年以前尚有极少数学者对使用与电脑、网络、数据库有关的一切有抵触情绪,对自己不使用还颇有自负、自得、不屑一顾的心态,那么现在这样的学者已属十分稀有了。数据库和网络的优越性其实根本无需论证,比如我们可以远程查询包括日本宮内厅书陵部、国会图书馆、东京大学东洋文化研究所汉籍善本全文影像资料库等日本六十余个机构的部分汉籍藏书影像,可以检索到哈佛大学哈佛燕京图书馆特藏资源库的部分文献,可以阅读中美百万册书数字图书馆的数字文献。例繁不备举。这对于在更广泛的范围内占有学术资料、开拓学术视野、促进学术的与时俱进与良性发展显然是非常必要的。

正是意识到了文献数字化和数据库的极大优越性,也伴随着学者队伍年龄层次的新老更替,近年来绝大多数学者都把文献数据库作为获取学术资源的重要途径。“国学宝典”、“中国基本古籍库”和电子版《文渊阁四库全书》、《四部丛刊》等已经在近年来的学术研究中发挥了相当的作用。

诚然,就古籍数字化进程和文史领域的数据库建设而言,尽管已经取得了不小的成绩,但是由于版权保护、国家支持力度以及某些技术方面的原因,总体上还只能说处于初级阶段。而从人文学科领域学者的应用而言,大多数学者也仅仅是把数据库当作一个检索工具。通常情况下,治学严谨的学者在检索到自己需要的资料后会进而用纸质书籍进行复核,而少数不严谨的学者则会直接引用。这种情况确实对学术垃圾的制造起了推波助澜的作用。

但是,我们不能因为极少数人利用网络数据库便于复制、拼凑的特点,就否定数据库的积极作用。

如果我们把目光仅仅盯在网络和数据库易于复制、便于抄袭的特性,而阻碍、延缓文献数字化和网络数据库的发展,则未免有目光短浅、因噎废食之嫌。不了解网络的特点,没有掌握这种学术利器的特性,站在一种天然正确的道德制高点上,对文献数字化进程和网络数据库冷眼旁观甚而指责,是一种故步自封、不负责任的做法,不利于学术在新时期取得更好、更快的发展。

 

二、数字化文献与建立现代知识体系之关系

根据现代知识体系形成和管理方面的相关理论,数据经过整理成为信息,信息经过系统化成为知识,而知识是“智慧”和“思想”的渊薮。这就是著名的DIKWData–to–Information–to–Knowledge–to–Wisdom)理论。这个体系最早可以追溯到英国著名诗人托马斯·斯蒂恩·艾略特在1934年为伦敦教堂所写的庆典剧《岩石》(Choruses from The Rock”)。在这篇诗剧中,艾略特写到:Where is the Life we have lost in living?/Where is the wisdom we have lost in knowledge? / Where is the knowledge we have lost in information?大意是说,我们在哪里遗失了生活中的生命?我们在哪里遗失了知识中的智慧?我们在哪里遗失了信息中的知识?198212月,美国教育家哈蓝·克利夫兰Harlan Cleveland)引用艾略特的这些诗句在其出版的《未来主义者》一书提出了“信息即资源”(Information as a Resource)的主张。其后,教育家米兰·瑟兰尼(Milan Zeleny)、管理思想家罗素·艾可夫(Russell .L. Ackoff进一步对此理论发扬光大,前者在1987年撰写了《管理支援系统:迈向整合知识管理》(Management Support Systems: Towards Integrated Knowledge Management ),后者在1989年撰写了《从数据到智慧》(“From Data to Wisdom”,Human Systems Management 7[1]

 根据这种理论,数据是数字、文字、图像、符号等,是一些事实的集合。在没有被处理之前,本身不代表任何潜在的意义。而当通过某种方式对数据进行组织和分析时,数据的意义才显示出来,从而演变为信息,信息可以对某些简单的问题给予解答。信息经过系统化处理,成为信息的集合,从而上升为“知识”。知识是对信息的应用,是在对信息进行了筛选、综合、分析等等过程之后产生的。知识不是信息的简单累加,往往还需要加入基于以往的经验所作的判断。此外,知识基于推理和分析,还可能产生新的知识。因此,知识可以解决较为复杂的问题。

智慧和思想是人类思维的高级形式。智慧是对知识的有效利用,它所关注的是事物发展的未来,是试图理解过去未曾理解的事物。智慧和思想是人类所独有,并且不可能借助任何工具而产生。

在这个链条中,智慧固然最可宝贵,但是人类的智慧却不可凭空产生,它是通过由数据而信息而智慧这样一种层级递进的方式才可能出现。

显然,数据处于链条的基础位置。换言之,没有数据的处理,就没有后来的信息和知识,当然也就更不可能有智慧和思想。

如果这个理论成立,我们就需要重新审视古籍数字化的作用,重新探讨在人文学科领域加强建设文献型数据库的必要性和紧迫性。

前辈学者经常告诫我们,治学应该尽可能掌握第一手资料。这是非常正确的,永不过时。问题在于如何尽可能多地掌握第一手资料,如何让更多的第一手资料为我所用并经过分析、推导,提出自己独特的学术见解。在信息化技术已经相当发达的今天,通过人工抄写、记录卡片的形式不仅显得毫无必要,而且浪费太多的时间。就其获取原始资料的深度、广度和效率而言,与通过数据库的方式相比,根本不在一个层次上,不具有可比性。

我们有理由相信,伴随数字化进程的加快,在不远的将来,清代以前的文献和部分现当代文献都会完成数字化,可以通过快捷方便的数据库方式进行有效使用。在这样的治学环境下,我们研究一个学术命题,都会真正实现竭泽而渔式地获取到相关的所有学术资料。建立在这样一种全面掌握学术资料前提下的学术研究,显然更有可能得出更接近事实和真理的结论,从而把学术研究在新的环境下向前推进一步。

 

三、数字化文献对人文科学的影响具有不可逆转性

诚然,人文学科具有自己的特点。比如,文学研究就需要长期浸淫于文学作品中,体味、咀嚼、涵咏的功夫十分重要。曾有学者担心,计算机时代,学术资料获取的便捷减少了学者深入体味、研读、咀嚼作品的时间,甚至根本就略过了这样一个必不可少的过程,而仅仅凭借若干东拼西湊的剪贴资料就攒出一些所谓论文来。

这些担心并非没有道理,学界也确实存在着部分学者利用网络和数据库剪贴资料的便利拼凑学术垃圾的现象。

问题在于,抄袭和制造学术垃圾并非计算机时代的专利。这种现象从来就有,只是由于现今学术队伍越来越大,少数学者的道德水准有待提高,学术评价体系中对发表论文数量的过分追求,导致现在劣质论文的数量也相应增加。根治这种顽症需要多方面的努力,如果把目光过分集中在所谓网络和数据库的弊端上,不仅不能解决问题,反而掩盖了这种弊端产生的真正原因,而难以从根本上杜绝这种现象的蔓延。

    笔者以为,作为自然科学重要成果和工具的计算机技术也是促进人文科学发展的利器。人文科学与自然科学在某些交汇点上并非水火不容,而是可以相互促进,共同发展。在传统文史研究方面,以当代网络通讯技术为支撑的古籍数字化和各种文献数据库正是实现学科发展的重要辅助工具。

    在清代以前,普通学者的治学往往依赖于个人藏书的多寡,所以很多学术造诣深厚的学者兼有藏书家的身份。

二十世纪以来,科研、教育机构和公共图书馆的藏书在学术发展过程中扮演了重要角色。就人文学科而言,一个科研机构的实力在一定程度上是与其收藏的该领域藏书的数量成对应关系的。没有藏书,也就不能占有学术资料,自然也就很难出产高质量的学术成果。

二十一世纪以来,数据库的作用日益明显。在社会科学领域,如经济学、人口学、社会学等,很多学术成果是靠统计数据才能有发言权的,所以,各种权威数据库的地位早已在纸质书籍之上。而在人文科学领域,尽管这种局面还没有出现,但是我们可以断言,随着古籍数字化进程的加快和质量的提高,至少数据库的地位达到与传统书籍对等的程度是完全可以想象的。

笔者以为,计算机和数据库的全面使用,并不会弱化人文学科的特性和优势。甚至可以说,正是由于计算机简化了很多事务性的工作,可以节约出大量时间用于体味、涵咏作品,并进行思考。用前文所言现代知识体系理论来说,就是计算机可以帮助我们加快在数据处理和信息加工方面的进程,尽快到达知识和智慧阶段。使我们有更多的时间去思索,去探究形而上的问题,去提出更多对文化、对思想有真正建树的理论。

尤为重要的是,古籍数字化的进程、文献数据库的广泛利用、以IT为代表的自然科学在人文学术领域的深度参与是不以我们的意志为转移的。这是一个必然快速向前发展的过程,而不可能出现倒退或逆转。例如,在史学中有历史文献学、在文学中有古典文献学,文献学的发展受计算机的影响极大,类似古籍标点、版本比对等很多工作将会被计算机所取代。传统文献学必将向数字文献学转化。新兴学科和交叉学科将出现,并促进各相关学科融入到现代学术体系中[2]

从科研的角度而言,数字化有利于加快现代学术体系和研究范式的建立;从知识管理的角度而言,数字化有利于实现从数据到信息,再到知识的跨越性发展。从阅读和知识传播的角度而言,现在的年轻人已经习惯了屏幕阅读。传统纸质书籍尽管还可以与电子读物并存一个较长时期,但终究会被数字化读物所取代也是无可置疑的。那么,在这种趋势下,像文史哲这样的传统人文学科,顺势而为,加快数字化进程,及早促进学术体系转型,显然是学术发展的必由之路。

尝试将IT技术应用于人文学科研究,是国际、国内人文研究领域的发展趋势。20世纪60年代,美国等就有人文计算(Humanities  computing) 与数字人文(E-Humanities)之说。1979年开始,国际信息处理联合会(IEIP)定期组织“数据库在人文学科和社会科学中的应用”的工作会议。2005年,成立了国际性组织—国际数字人文组织联盟(The Alliance of Digital Humanities Organizations)。人文科学研究在方法上越来越明显地表现出向实证的社会科学乃至自然科学靠拢的倾向。[3]人文科学中的这样一种发展趋势,无论是否承认,如何评估,都将不可逆转地向前发展,这是从事人文科学的工作者绝对不能回避的。

 

四、余论

笔者以为,必须从发展人文科学、建设当代文化的战略高度审视古籍数字化和相关文献数据库的建设工作。

改革开放以来,尽管我们的经济建设取得了举世瞩目的成就。但是,社会上过分追求物质利益、金钱至上、道德水准低下的状况还没有得到根本的改变,令人十分忧心。笔者以为,造成这种状况的根本原因是市场经济环境下,经济利益的驱动力量过分强大戕害了人文精神的发展与重建。大、中、小学文科教育力度不足,科研机构中人文学科相对弱势,整个社会文化氛围中对人文精神的关注与培养严重滞后。这对于我国提高文化软实力、发展高水平的文化创意产业显然形成了极大的制约。

改变这种状况的根本点在于从源头上重视人文精神的重建,而这个源头就是我们源远流长的传统文化。

一方面,传统文化对于重建当代人文精神具有重要的基础作用毋庸置疑。另一方面,传统文化虽然以不同的方式影响着一代又一代的民众,但在当今全球化浪潮高涨、民众学习外语的热情远高于学习母语的情势下,传统文化也并不会自动发挥其应有作用。

若要使传统优秀文化在当代人文精神重建中担当重要角色,则必须从科研、教育、社会人文环境培养等各个环节入手,以现代化的手段挖掘传统优秀文化的底蕴,并使用当代民众易于接受的方式将这种文化精华渗透进先进文化的发展建构中。

显然,以现代化的手段深入挖掘传统文化的精华在这个链条中是基础中的基础。而这正是古籍数字化的重要性所在。我国历史悠久,典籍众多,或说浩如烟海,或言汗牛充栋,即使代有学人深入钻研,所涉及的文献数量也往往是沧海一粟。如果只是凭借人力对传统学术进行探索,不仅不符合现代学术潮流,更难以让传统文化在重建当代人文精神的艰巨任务中起到重要作用。

因此,古籍数字化任重而道远,文献数字化的发展和数据库建设及其广泛的利用是大势所趋。在文献数字化背景下的人文科学研究,应该适应这一发展趋势,推动古籍数字化和文献数据库建设向更加专业化的方向发展。只有这样,人文科学才能与时俱进,也才能在当代人文精神重建过程中发挥应用的作用。

 

参考文献:

[1]Wikipedia.http://en.wikipedia.org/wiki/DIKW

[2]郑永晓.古籍数字化与古典文学研究的未来[J].文学遗产.2005,(5.

[3]唐磊.网络时代的人文社会科学知识生产[M].未刊稿。

 

 

 

Academic Research in the Context of Literature Digitization

----Taking the Humanities as an Example

 

ZHENG Yongxiao

 

(The Literature Institute, Chinese Academy of Social Sciences, Beijing, 100732)

 

Abstract: According to the "DIKW” theory, human’s wisdom is generated in a progressive way: originally from data, then into information, then into knowledge and last into wisdom. The massive appearance of digitized literature and the extensive application of database have exerted some positive and profound influence on the development of the humanities and on the formation of modern knowledge system, and this kind of influence will only continue in the depth and the breadth but not reverse.

 

Keywords: Humanities, Literature Digitization, Modern Knowledge System

 

原载:重庆教育学院学报2012年第2期
文章阅读数[2466]
中國文學網 | 《文學遺產》雜誌社   百年紅樓夢   網絡文化與文學   現當代文學研究
責任編輯:    編輯郵箱:wenxue@cass.org.cn
版權所有:中國社會科學院文學研究所 京ICP備 05084176 號