情感计算应用于古典诗词研究刍议

郑永晓
内容提要 传统文化语境中,人的情感是一种主观性极其浓厚、难以捉摸,甚至是只可意会、不可言传的意识。IT、人工智能等学科的发展,使得情感计算也逐步进入人文学科的视野。情感计算可以在古典诗词的情感模式、情感尺度、文体特征、风格嬗变等方面进行有益的尝试,在研究方法和研究角度等方面,为传统人文学科注入新的血液,有助于探索新的学术增长点。
关键词 情感计算;人文学科;古典诗词

Abstract In the context of Chinese traditional culture, human emotion is a kind of mentality which is of strong subjectivity, unfathomable, and unutterable. Along with the development of IT and artificial intelligence sciences, Affective Computing has gradually been introduced into the humanities. Affective Computing can be used in the study of Chinese classical poetry, such as in terms of examining emotion patterns, emotion scale, writing features and style’s evolution in the poetry. From the perspectives of research methods and research angles, Affective Computing can be regarded as new blood injected into the traditional humanities, and it can help explore new growth point for academic research.

Keywords: Affective Computing; The Humanities; Classical Poetry

 

 

 

1.引言

情不自禁、情窦初开、情深意重、情同骨肉、情同手足、情人眼里出西施等等人们耳熟能详的成语,都在揭示着传统文化语境中,人的情感是一种主观性极其浓厚、难以捉摸,甚至是只可意会、不可言传的意识。邓丽君那首家喻户晓的《月亮代表我的心》,虽然在开始唱出“你问我爱你有多深?我爱你有几分?”似乎试图对爱有多深给出一个数值型的准确答案,但终是以一句“月亮代表我的心”作结,予人以回味无穷、深情绵邈之感。

然则情感尺度之深浅可以计算、度量吗?在计算机科学诞生之前,似乎从未有人试图提出如此“愚蠢”的问题。而在信息技术、人工智能已经比较发达的今天,经过二十余年的酝酿、研究,情感计算(affective computing已经成为一门崭露头角的新兴学科,或者说一个很有前途的研究领域。

情感计算可以追溯到人工智能学说的创始人之一Marvin Minsky 教授的相关理论。他在《The Society of Mind》一书中指出:“问题不在于智能机器能否有任何情感,而在于机器实现智能时怎么能没有情感。(The question is not whether intelligent machines can have any emotions, but whether machines can be intelligent without any emotions.)[1]此论可以视为情感计算研究的滥觞。其后,麻省理工学院的Rosalind W. Picard教授在其《Affective Computing》一书中对情感计算作了较为深入的研究。根据她的理论,如果我们希望计算机具有真正的智能且能够自然地与我们交流,我们就必须赋予计算机具有识别、理解、甚至拥有并表达情感的能力。[2]情感计算被视为建立和谐人机环境的基础之一,可应用于智能机器人等多个领域。

有关情感计算的研究因为信息技术的飞速发展而显得十分迫切。近年来,基于自然语言处理技术的现代汉语分析颇受学界关注,成为计算语言学和人工智能研究领域的热点,尤其在机器翻译、词性标注、句法分析、词义消歧、语音识别、人工智能、自动文摘、问答系统、信息检索、语义网等方面产生了较多成果。[3]在这些研究中,文本分类是信息检索和数据挖掘的基础,是计算机对信息文本基于一定的标准和上下文环境自动进行类别区分,对内容进行选择性过滤的重要方法。[4]

    自然语言处理技术的成熟显然有助于情感计算的研究,其中若机器翻译、词性标注、句法分析、人工智能、信息检索、语义网等方面的研究均与情感计算有密切的关系。以现代汉语语料为处理对象的情感计算研究受到越来越多的重视。[5]此类研究所取得的进步,当对情感计算在其他领域的拓展带来积极影响。

那么,情感计算是否可以应用于传统的人文学术研究,例如中国古典诗词研究中呢?依笔者不成熟的浅见,这是完全可能并且具有相当潜力的研究领域。

中国古代汉民族文学从总体上而言以抒情性文学为主,叙事性文学居于次要地位。像诗、楚辞、词、曲等文学史上的主要文体都可以视为广义的诗,即使是以叙事为主的元明清杂剧、南戏和小说等也夹杂着大量抒情意味浓厚的诗词。

关于文学作品何以有如许多的情怀需要抒发,南朝齐梁之际的文学批评家钟嵘在《诗品序》中有言:“若乃春风春鸟,秋月秋蝉,夏云暑雨,冬月祁寒,斯四候之感诸诗者也。嘉会寄诗以亲,离群托诗以怨。至於楚臣去境,汉妾辞宫;或骨横朔野,或魂逐飞蓬;或负戈外戍,杀气雄边;塞客衣单,孀闺泪尽;或士有解佩出朝,一去忘返;女有扬蛾入宠,再盼倾国。凡斯种种,感荡心灵,非陈诗何以展其义;非长歌何以骋其情?”[6]举凡气候之感发、亲友之聚散、臣子之贬官离境、美女之倾国倾城,无不因其激荡心灵需要发于歌咏而形于诗篇。

也正由于情感的多寡在文学作品中的地位几无出其右者,所以古往今来,是否有情便成了评价文学作品优劣最重要的尺度之一。《诗大序》有“情动于中而形于言”之语,陆机《文赋》有“诗缘情而绮靡”之说,刘勰《文心雕龙·体性篇》谓“吐纳英华,莫非情性”,白居易《与元九书》云“感人心者,莫先乎情”。尽管对情在文学作品中重要性的理解以及如何表达情感,不同时代,不同批评家的观点并不完全相同,但是反对无病呻吟、为文而造情却可以称得上是所有作家和批评家的共识。

情感是优秀文学作品的核心成分,而情感作为人之心灵的一种感受,纯属一种主观性的意识活动,又如何可以转化成客观物件,变成可以计算的对象呢?笔者以为,情感固然是主观的,但情感的表达却往往需要借助客观的景色物象来实现。而客观的物象一旦被融入到文学作品中,则又往往成为作家主观情志的投射对象,成为一种兼具主观、客观的统一体,而这种浸润着作家主观情意的物象,因其具有客观属性,从而能够成为被统计计算的对象。比如杜甫《月夜》诗:“今夜鄜州月,闺中只独看。遥怜小儿女,未解忆长安。香雾云鬟湿,清辉玉臂寒。何时倚虚幌,双照泪痕干。”其中之“鄜州月”、“香雾”、“云鬟”、“清辉”、“玉臂”、“泪痕”等等显然寄寓着诗人丰富的情感,是诗人情感的投射对象。诗人当时在长安,妻子儿女在鄜州,不写自己看月而写妻子看月,思家之切溢于言表。同样是杜甫,其《月夜忆舍弟》:“露从今夜白,月是故乡明。”《梦李白二首》之一:“落月满屋梁,犹疑照颜色。”在文学作品的世界里,月亮绝对不是那个冷冰冰的挂在天边的纯客观物象,而往往是作家怀念故乡思念亲友的媒介,对月亮的描写无不与思念亲友的情感联系在一起。正是基于这样的理解,我们就可以通过统计分析作家对月亮这个意象的使用情况观察其作品情感的深度和广度。

将情感计算应用于古典诗词研究在本世纪以来已经引起了部分学者的重视,并取得了很多富有启示意义的成果。如北京大学胡俊峰、俞士汶先生基于640余万字的唐宋诗语料,在进行多字词计算机辅助提取的基础上,开发了具有语义联想功能的面向概念的唐宋诗搜索引擎。[7]虽然其研究内容并非集中于情感计算,但是其中基于计算机自动取词和语义联想功能方面的研究,与情感计算关系密切。厦门大学苏劲松2007年所作硕士论文,以计算机辅助研究宋词为目的,采用多重松弛迭代计算方法,对宋词词语的情感标注问题进行了研究,构建了一个实验性系统并取得了较为准确的词语情感标注。[8]台湾元智大学罗凤珠教授是较早思考将情感计算应用于文史研究中的的学者。她认为:“文学以抒写情感为主轴,将诗词文本经过语义概念分类,并将情感分为正面与负面情感,能使文学研究更趋细化和深化。”并指出:“它们处于自然科学与人文科学的交汇点,在未来的文史研究中有着广阔的前景。”[9]她以唐宋词作品为统计分析对象,得出了很多富有启发性的结论。

笔者日前参加北京大学李铎教授的研究生毕业答辩,题目是《计算机辅助宋词研究》,文章利用计算机程序对宋词文本进行统计分析,以实现宋词词谱计算机自动比对分析、宋词词汇统计、宋词词汇意象分析等功能,也多有情感计算的影子。凡斯种种,都说明部分勇于探索的学人已经将研究触角延伸到情感计算与文学研究的结合部。

 

2.情感计算应用于古典诗词研究的方式举例

情感计算应用于古典诗词研究的目的是让计算机能够在某些方面具备甚至超越类似于人的情感理解能力,并且能够快速完成人难以完全精确理解的那一部分。换言之,计算机通过缜密的计算,有可能在某些方面更为清晰地分解出人在情感表达方面的差异,而这差异在古典诗词研究方面是极有价值的。试举几例:

其一,可应用于文体特征区分和影响研究。中国文学在数千年的嬗变中,产生了不同的体裁,各种文体因其产生的时代不同、功能相异而有其不同的文体特征。曹丕《典论·论文》曾说:“盖奏议宜雅,书论宜理,铭诔尚实,诗赋欲丽。”是在中国文学批评史上较早就文体之间的不同特性进行简单区分的例子。其后,文体区分趋于明晰,明人徐师曾编写《文体明辨》,辨析各类文体达127类。但是,另一方面,由于很多文体具有同源性及不同文体之间相互借鉴等因素,有时对文体的区分并非易事。即以本文所言诗词而论,诗与词、词与曲的关系等,即非三言两语所能区分清楚,而就某些具体作品而言,有时还很难判断到底应算作诗还是词。比如专录唐五代词作品的《尊前集》,即选录唐玄宗、李白、韦应物、王建、杜牧、刘禹锡、白居易等人的词作,从形式上看,多为四、五十字的小令,不少属于五七言齐言形式写的小歌词,如《竹枝》、《杨柳枝》、《纥那曲》等,这些作品后来也被清人辑入《全唐诗》。由于盛唐、中唐正是词体的形成时期,诗词界限不明,仅从形式如字数多寡等方面无法作出准确的阐释和判断。为此不少学者试图从作品的内在特质方面进行区分,如近人王国维说:“词之为体,要眇宜修。能言诗之所不能言,而不能尽言诗之所能言。诗之境阔,词之言长。”[10]缪钺先生说:“词之所以别于诗者,不仅在外形之句调韵律,而尤在内质之情味意境。”“诗显而词隐,诗直而词婉,诗有时质言而词更多比兴,诗尚能敷畅而词尤贵蕴藉。”[11]此足以说明,类似诗词这样为人熟知的文体,也仍然难以就某些作品的体裁归属做出明确的判断。又如词和曲,词曲本来同源,金元以后,“曲”体盛行,“词之曲化”成为趋势,于是词曲之辨又成为问题。王易论词曲之别云:“词意宜雅;曲则宜稍通俗。”“词敛而曲放;词静而曲动;词深而曲广;词纵而曲横。以词笔为曲,不免意徇于词;以曲法为词,亦将辞浮于意。”[12]这些名家的辨析言之成理,颇具说服力。但是,美中不足的是从理论上固然给予了我们如何辨析诗词之别、词曲之别的有力武器,而在实际操作中却未必得心应手。这不仅因为历唐宋辽金元明清数代,诗词曲作品如汗牛充栋,不可胜计,也因为文学作品之鉴赏实为主观性很强的工作,言人人殊,很难取得一致意见。而在这个问题上,笔者以为,情感计算可以在一定程度上帮助厘清这一学术难题。

解决这一问题的关键是必须采取逆向思维。文学史上的任何文体,并非是先制订一个标准,再根据这一标准去创作,而是相反,各种文体都是作家们(包括民间作者)逐步摸索,写出成功的优秀作品后,众人模仿,最终约定俗成地成就一种文体。既然如此,我们现在可以反过来,利用计算机对历史遗存的众多作品,进行模拟、分析并提炼出事实上的标准。这种标准当然会包含很多因素、很多方面,既包括形式,也包括内容,当然也可以涵盖不同文体在表达情感方面的异同。比如,前述缪钺先生论诗词之别有“诗直而词婉”之言,洵为至论。汉乐府有一首著名的诗《上邪》:“上邪!我欲与君相知,长命无绝衰。山无陵,江水为竭,冬雷震震,夏雨雪,天地合,乃敢与君绝!”其感情之炽烈,表述之大胆,在词曲等文体中是不可想象的。在词中,表达同样的情感,我们所见更多的是以委婉曲折的方式予以表述。即使像金人元好问《摸鱼儿》“问世间情是何物,直教生死相许”这样的词句,以生死相许表达对至情至爱的讴歌,情感之表达已相当炽烈,但较之《上邪》之决绝,似终有程度深浅之别。显然,诗与词在情感的表达方式及所用词汇、意象等方面是有区别的。假如我们能够用计算机对逯钦立先生所编《先秦汉魏晋南北朝诗》、清人所编《全唐诗》、陈尚君先生纂辑《全唐诗补编》、北京大学编纂《全宋诗》等和唐圭璋先生纂辑之《全宋词》进行统计分析,必能较为精确地分析出诗词二种文体在句式、用词、情感意象等方面的区别。笔者同事刘京臣先生所作博士论文《盛唐中唐诗对宋词影响研究》,即主要利用编程技术,对唐诗影响于宋词创作的某些方面作了细致的比对,得出“贬谪体验”与“感伤情结”是中唐诗歌给予宋词最为宝贵的精神财富等结论。此文虽非主要关注情感计算,但其中涉及的部分内容已经是在利用情感计算的方式,分析宋词所继承于唐诗之处,重点在于分析二者之相似相同的方面。反之,我们同样可以利用这类技术来分析二者之差异和不同之处,这实际上是一个问题的两个方面。比较而言,李白的诗使用“君不见黄河之水天上来,奔流到海不复回”等阔远的意象来反衬人生的短促,李煜的词句“问君能有几多愁,恰似一江春水向东流”,虽也用了“一江春水”这样的意象以抒发其愁绪无边之慨,王国维还称赞说“词至李后主而眼界始大,感慨遂深”,但是李煜词表达的感伤显然与李白有很大的不同,这其间当然有很多因素,仅就字面及二人所使用的意象而论,李白使用了“天上来”、“奔流到海”等意象,想落天外,语带夸张,悲怆已极而不失干云豪气,是一种巨人式的感伤;李煜使用“几多愁”、“一江春水”等意象,则予人一种无可奈何之感。

人工比对仅限于个案。如果使用计算机对全部诗词曲的总集进行统计分析,通过建立不同文体间常用意象的语料库,并对选定的字词出现频率进行统计分析,为不同类型的情感模式建立分析模型,当能够得出依靠人力所无法得出的有关该文体情感表达特征的比较精确的结论,从而也就能够依靠情感计算的结果来衡量区分不同文体间的区别。

在某种文体的内部,也往往有不同的具体体裁,如诗歌有五古,七古、五律、七律、五绝、七绝等。利用上述方法,应该同样可以计算出诗歌的这些不同体裁在表达情感方面有何区别。而在词体中,小令、长调在表达情感方面有何差异,都可通过情感计算使之明晰化。

其二,可应用于文学作品风格的嬗变研究。中国文学源远流长,不同文体、不同风格的作品交相辉映,共同铸就了璀璨的文学历史长河。作品风格的嬗变历来是文学史研究的重点关注领域之一,如果把情感计算引入诗词研究,对于作品风格嬗变规律的把握是否能够更进一步?笔者以为,答案是肯定的。比如唐宋诗优劣之争、唐宋诗之异同,是近千年来诗歌史上一大公案,历宋金元明清以迄现代,聚讼纷纭,难有定论。钱锺书先生云:“唐诗、宋诗,亦非仅朝代之别,乃体格性分之殊。”“唐诗多以丰神情韵擅长,宋诗多以筋骨思理见胜。”[13]缪钺先生云:“唐诗以韵胜,故浑雅,而贵酝藉空灵;宋诗以意胜,故精能,而贵深折透辟。”[14]所言均精辟透彻。简言之,唐诗的作者多为纯粹的诗人,正处于诗史发展的高峰时期,所作诗歌往往情思隽永,感人至深;而宋诗的作者多兼有官员、学者、理学家等数种身份,以文为诗,以议论为诗,多追求思想深刻和议论精警。唐宋诗有这如许多的差异,则唐宋诗风格之演变必然有一个过程。一般认为,大体而言宋诗特色的形成源于杜甫,中经韩愈的以文为诗,至宋初梅尧臣、苏舜钦等人的探索,最后至北宋中期元祐年间苏轼、黄庭坚等人而大成。我们固然可以通过大量阅读唐宋诗歌作品得出唐宋诗风迥异的结论,但是通过人工方法很难详细全面地比对唐宋诗的具体差异,以及这种差异在发端、发展以迄定型这一漫长时间段中的嬗变过程。利用情感计算理论和方法,我们完全可以掌握唐诗、宋诗究竟在意象选择、情感语汇方面有何差异,以及这种差异在不同时段的具体显现和变化。

与此类似,清诗是在继承前代诗歌传统尤其是唐宋诗歌的基础上发展而成。宗唐宗宋贯穿清诗发展的始终。大体而言,清人的眼光较为开阔,学唐者不废宋,宗宋者亦不贬唐。但鉴于清诗数量庞大,学唐学宋之争又几乎贯穿整个清代,虽然《全清诗》尚未问世,但如果利用情感计算方法,但将现有清诗总集,如《清诗别裁集》、《国朝正雅集》、《全清诗钞》等与《全唐诗》、《全宋诗》等进行比对,当能有助于判断清诗的风格偏于唐、偏于宋?抑或在唐宋之外,自成一脉?

第三,可应用于不同作家作品风格的比对。对于存世作品数量很少的作家们而言,如果比较其作品异同相对比较容易,而对于作品数量众多的作家,如果需要细致地比对其异同,计算机和情感计算便大有用场。比如,李白存诗约九百九十余首,诗风雄奇飘逸、清新奔放,对宋代苏轼影响甚深。苏轼存诗四千余首,诗风清新豪健,善用夸张比喻,确有与李白相近处。而就个人气质和才华言,苏轼也是宋代最接近李白的诗人。但就是这样两位都属天才横溢型的诗人,其作品的特质因所处时代差异等原因,也颇有不同。例如李白游庐山,作《望庐山瀑布》,极力描写“日照香炉生紫烟,遥看瀑布挂前川。飞流直下三千尺,疑是银河落九天”的宏伟气魄,情辞丰赡;苏轼游庐山,则作《题西林壁》云:“横看成岭侧成峰,远近高低各不同。不识庐山真面目,只缘身在此山中。”见解深刻,以气骨见长。一般而言,唐诗雍容华贵,多妩媚清新、雄浑丰腴之句,情溢乎辞;宋诗则多苍凉、老辣之感,以议论精警取胜,情浅而思深。如果利用情感计算的方法,全面统计分析李白、苏轼的诗作,当能清晰、准确地显示出二者的异同,也能从个案的角度对解析唐宋诗之异同提供一个极好的注脚。

以笔者浅见,情感计算可应用于古典诗词研究的方面很多,除上述几点外,诸如词学中的豪放词与婉约词的问题、古代话本小说中出自书会才人的诗词与一般作家诗词的比对问题,唐诗对汉魏六朝诗歌的继承问题等等,均可通过情感计算方法印证或补充传统学术方法之不足。

 

3.情感计算应用于古典文学研究的具体方法

情感计算应用于古典诗词研究,是一个新鲜事物,需要治文史之学者与IT人士密切配合。工作环节比较复杂,对于文史研究者具有一定的挑战性。笔者以为,如下几个步骤似是必须首先完成的:

第一,建立完善的古典诗词作品文本数据库。经过二十余年的发展,古籍数字化进程得到飞速发展,包括《全唐诗》、《全宋诗》、《全宋词》、《全金元词》、《全元散曲》在内的元以前的诗词作品和明清以后的部分作品基本都有数字化版本。问题在于,有些数字化作品开发者仅仅满足于可以全文检索等功能,而版本意识不强,校勘质量不高,错字、别字迭出,异体字处理由于字符集标准的滞后等原因也不能满足学术发展的要求。如果将情感计算应用于古典诗词研究,所依托的数据库,必须经过严格审慎的校勘。

第二,对文本数据库中表达情感的词汇进行人工标注。若要计算机识别诗词中情感的表达,必须首先告诉计算机什么样的词汇、句式常用于表达情感,其情感模式如何,比如哪些词汇和意象多用于表达失望、厌倦、痛苦、愤怒,哪些词汇、意象多用于表达留恋、满意、愉快、期盼等。这其中特别需要注意的是,在古典诗词中,某个种类的意象往往有若干不同的词汇可以表达,必须将相同、相似的意象及其表述的情感模式告诉计算机。如前所述,诗词中经常出现月亮这种意象,用以表达思家、怀人等情感。但是“月亮”在古典诗词中有很多代称,正如李白《古郎月行》所言“小时不识月,呼作白玉盘”,并不仅仅用“月”来称呼。如元稹《纪怀赠李六户曹》“华表当蟾魄,高楼挂玉绳”,以“蟾魄”代替月亮;苏轼《宿九仙山》“夜半老僧呼客起,云峰缺处涌冰轮”,以“冰轮”代替月亮,其他如婵娟、玉兔、桂魄、玉盘、玉钩、玉镜等等,多不胜举。因此,必须首先由相关学者把这些意义相同、相近的术语、意象标注出来,作为计算机学习的基础。

    第三,计算机在学习一定数量的人工标注的基础上,实现对数据库的自动标注。所以将计算机和情感计算引入古典诗词研究,就是因为计算机对海量数据的处理能力较之人工处理有着天然的优势。情感计算的目的不是应用于单个作品的研究,而是力求实现对批量的作品进行精准的处理。因此,计算机实现自动标注、自动统计和建立在数据基础上的分析是必不可少的。需要说明的是,由于计算机擅长快速处理海量数据,在情感计算方面,计算机所依托的数据越多,其得出的结论也越具有相对科学性。具体到古典诗词研究而言,必须在前述完善的文本数据库的基础上,使计算机尽可能获得足够多的计算目标,所以,实现自动标注是非常重要的一环。而自动标注的成功与否又与前述人工标注及计算机程序的科学性密切相关。

第四,对文学作品中的情感表达模式进行必要的分类,并建立相关意象聚类与情感表达模式之间的关联,也就是建立若干诗词的情感模型。此处所谓“聚类”,取自“聚类分析”(cluster analysis)一词,一种根据物以类聚的原理,对物品或指标进行多元统计分析的方法。这种方法的要旨是在没有任何模式可供参考或依据,即在没有任何先验知识的前提下,能够将大量的数据合理地按照各自的特性分类到不同的类或簇。同簇中的对象具有相似性,而不同簇中的对象则具有相异性。目前被广泛应用于数学、统计学、计算机科学等领域。在计算机科学中,聚类分析是数据挖掘的主要任务之一。笔者此处提出“意象聚类”,是因为在古典诗词中作品中,作家情感的表达与其所使用的意象有密切的关系,例如“乌衣巷”原为六朝帝都建康(金陵)的里巷,得名于三国时吴国之乌衣营,东晋时为王谢望族聚居宴游之地,后二族衰落,乌衣巷成为平民居所。唐刘禹锡《金陵五咏·乌衣巷》诗有“旧时王谢堂前燕,飞入寻常百姓家”之句,寄托其世事沧桑、兴亡盛衰之感,后世作家用“乌衣”、“乌衣巷”、“王谢堂前燕”作为典故使用,或寄托世事变迁之慨,或发思古之幽情,如周邦彦《西河·金陵》:“想依稀王谢邻里,燕子不知何世,入寻常巷陌人家,相对如说兴亡,斜阳里。”赵长卿《鹧鸪天·咏燕》:“追盛事,忆乌衣,王家巷陌日沉西。”汪元量《莺啼序·重过金陵》:“乌衣巷口青芜路,认依稀、王谢旧邻里。”在笔者看来,“乌衣”、“乌衣巷”、“王谢堂前燕”等就构成了一个简单的意象聚类,因为它们表达的情感相同或相近。又比如,“南浦”常用以表示依依不舍的送别,寓有伤感之意。屈原《河伯》:“送美人兮南浦。”江淹《别赋》:“春草碧色,春水渌波,送君南浦,伤如之何!”白居易《南浦别》诗:“南浦凄凄别,西风袅袅秋。”纳兰性德《点绛唇·寄南海梁药亭》:“一帽征尘,留君不住从君去。片帆何处,南浦沉香雨。”与此相类似的还有“隋堤”、“灞桥”、“长亭”、“阳关”等,共同构成了一组表达惜别之情的意象聚类。计算机在分析《全唐诗》、《全宋词》、《全元散曲》等总集时,很容易获得有多少作品使用这些意象抒发了这种情感。如果我们以“乌衣巷”、“南浦”为核心,分别建立合适的聚类分析模型,则历朝历代或各种文体中分别有多少符合这种模型的情感表达就很容易计算出来。

需要说明的是,在数据挖掘技术中,聚类分析并不需要任何先验的知识,而是根据某种算法,如基于网格的方法(grid-based methods)或基于模型的方法(model-based methods)等。情感计算应用于古典诗词研究,当然也可以主要依靠计算机的统计分析,如对诗词按照语法结构进行自动词语切分,由计算机自动筛选出某种类型的词汇。但是,考虑到古典诗词研究是一门非常复杂的学科,古人写作诗歌并不完全遵守相关格律,而对词学来说,不同词牌、词牌变体等十分复杂。况且还有如上文所言,一种物象(如月亮)还有多种代称等情况。故笔者以为,必须将人工方法与计算机结合起来,由文学专家与计算机专家相互协作,才能完成这一任务。

以上几点所述其实都是围绕古典诗词情感语义资源的建设而言的,此为情感计算的必要前提。其要旨在于按照计算语言学的标准,对诗词文本的采集、存储、检索、统计等定义一套符合规范的标准,对诗词文本的词法、句法、语法进行语义分析,并以此为基础作出语言定量分析、作品风格分析、文本语言理解等方面的应用和研究。其构成要素有二:大容量语料库和能够应用于古典诗词统计分析的算法或者模型。其核心是有助于机器对诗词文本的理解,让传统的诗词语料文本转化成机器可读的文本。鉴于古典诗词的文本与现代汉语语料有明显的区别,因此,在建设古典诗词语料库时,除了借鉴近年来自然语言处理技术在现代汉语研究方面成功的经验外,还需要特别关注古典诗词本身的语言特点和文化内涵。而在具体操作层面上,大体而言应涵盖这样几个部分:①文本预处理子系统:旨在根据语料文本的特性,格式化非结构化数据,并将文本按规则录入到语料库中。②句法语法分析子系统,旨在通过人工和机器相结合的方式,梳理语料文本的语法结构和情感表达方式。③字词切分与学习子系统,鉴于古典诗词的特殊性,让机器通过学习和人工辅助逐步完成字词自动切分等工作,此为后续情感词汇聚类分析的前提。④意象聚类子系统,旨在通过建立典故、隐喻词汇、习惯用语等知识库,为系统提供学习对象,并最终通过人工和机器相结合的方式,以适当的算法,建立统计分析模型。当然,由于这是一项十分复杂的工作,此处所言仅举其大概而已,实际工作要复杂得多。

 

4.情感计算应用于古典诗词研究面临的问题与挑战

自上个世纪六十年代以来,人文计算Humanities computing)与数字人文(E-Humanities)方面的理论已经逐步为国内外人文学界所接受,人文科学研究在方法上越来越明显地表现出向实证的社会科学乃至自然科学靠拢的倾向。将情感计算理论应用于中国传统诗词研究并非天方夜谭或旁门左道,但是,这毕竟是一项新事物,是两种完全不同性质学科的交叉,在探索的过程中难免会遇到问题甚至挑战。

比如,文学作品中共性与个性的关系:优秀文学作品的魅力就在于其独特性,在于其超越前人、提供了独具特色的情感表达方式,个性永远是文学艺术作品历久弥新的魅力所在。不同的时代,不同的作家,不同的文体,甚至同一个作家在不同的时期,其作品风格都千差万别,而计算机似乎只擅长于处理共性的元素。依笔者浅见,这是情感计算难以克服的弱点。在一个可预见的时期内,都无法克服。

就某些文体而言,一篇作品中甚至包含着截然相反的情感,最明显的是词的上下阕是两个相对独立的单元,可以表达完全相反的情感,但二者又是一篇不容拆分的作品。如果一首词的上阕欢乐无限,下阕愁苦异常,情感基调不同,如何计算?

作为地球上迄今智力最发达,情感最丰富的高级动物,人的情感及其表达方式极为丰富,甚至各种情感瞬息之间可以相互渗透、相互转化,把握、捕捉极为不易。古典诗词作为由历史上最优秀的作家创作的,凝聚着大量心血的经典作品,其能够产生持久魅力的源泉之一就是有时很难完全明白其中的情感内涵,况且从接受美学的角度看,有些情感恐怕是作者都没意识到的,所谓作者未必然,读者何必不然。读者在阅读文学作品时,会根据自己的人生体验与作者产生共鸣。这是计算机的情感计算所无法替代的。此外,由于受政治情势和个人际遇的影响,有些作家故意将作品写得很隐晦,或是表面写爱情而寄寓政治倾向。例如李商隐著名的《无题》诗“相见时难别亦难,东风无力百花残。春蚕到死丝方尽,蜡炬成灰泪始干”云云,到底是写爱情,还是别有寄托,寄托的具体内容是什么,千余年来,历代批评家颇多争议,迄无定论。类似问题都是情感计算所无法解决的。

 

总之,情感计算应用于像诗词研究这样的人文学科中,还处于尝试和遐想阶段,尚有大量工作要做,既面临机遇,也充满挑战。拙文仅是就这一前沿课题提出个人的一点不成熟的思考,妥当与否,尚祈方家教正。

 

参考文献

[1]Marvin Minsky. The Society of Mind[M].New York:Simon& schuster,1986: 163.

[2]http://en.wikipedia.org/wiki/Rosalind_Picard.

[3]杨皓东,江凌,李国俊.国内自然语言处理研究热点分析[J].图书情报工作,2011(10):112-117.

[4]张春燕.基于自然语言处理的文本分类分析与研究[D].江西理工大学,2011.

[5]赵鹏,何留进,孙凯,方薇.基于情感计算的网络中文信息分析技术[J].计算机技术与发展,2010,11.

[6]钟嵘著.陈延杰注.诗品注[M].北京:人民文学出版社,1961:2-3.

[7]胡俊峰,俞士汶.唐宋诗之计算机辅助深层研究[J].北京大学学报自然科学版,2001,5.

[8]苏劲松.全宋词语料库建设及其风格与情感分析的计算方法研究[J].厦门大学,2007.

[9]罗凤珠.引信息的“术”入文学的“心”——谈情感计算和语义研究在文史领域的应用[J].文学遗产,2009(1):141.

[10]王国维.人间词话[M].上海:上海古籍出版社,1998:19.

[11]缪钺.诗词散论[M].上海:上海古籍出版社,1982:54-56.

[12]王易.词曲史[M].北京:东方出版社,1996:14.

[13]钱锺书.谈艺录[M].北京:中华书局,1984:2.

[14]缪钺.诗词散论[M].上海:上海古籍出版社,1982:36

 

收稿时间:201272

 

 

郑永晓:中国社会科学院文学研究所,博士,研究员。主要研究领域为唐宋文学、文献学、古籍数字化。E-mail:literature@cass.org.cn

原载:《科研信息化技术与应用》2012年第3卷第4期
文章阅读数[2868]
中國文學網 | 《文學遺產》雜誌社   百年紅樓夢   網絡文化與文學   現當代文學研究
責任編輯:    編輯郵箱:wenxue@cass.org.cn
版權所有:中國社會科學院文學研究所 京ICP備 05084176 號