孙茂松教授:数字人文代表了未来的方向,语言文学方面的数字人文研究尤其需要注重机器与数字的结合|声律·网络·未来:第三届清华大学数字人文国际论坛
【“ZiDongHua”之人文化天下:数字人文】孙茂松:数字人文代表了未来的方向,语言文学方面的数字人文研究尤其需要注重机器与数字的结合,是一个需要团队的通力合作的工程,如此方能回应一些人文社科中的重大问题,借以提升中国在国际学界的影响力。
白钰卓:《“九歌”自动作诗系统的开发与建设》一文报告了清华大学自然语言处理与社会人文计算实验室(THUNLP)“九歌”作诗系统的研发情况,包括自动作诗、集句、对联等功能与相关的算法与原理,对人工智能进行诗歌创作与研究提供了可能的方案。
数字使人文更新 ——“声律·网络·未来:第三届清华大学数字人文国际论坛”纪要
2022年11月12日至13日,由清华大学人文学院、《数字人文》编辑部主办,巴克内尔大学中国研究所协办的“声律·网络·未来——第三届清华数字人文国际论坛”,在清华大学以线上线下的形式成功举办。来自多个国家/地区的包括20所境外高校在内的40多家高校及科研机构的六十多位学者发表了他们的最新研究成果。近年来,数字人文在中文学界蓬勃发展,此次论坛正值清华大学与中华书局共同创办的《数字人文》学术辑刊创刊三周年之际,也是三年来编辑部第二次召集数字人文专业会议。大会秉承前两届论坛的精神,力图做到翔实、生动、专业、前瞻,以实事求是的态度,避免数字人文的泡沫化,让数字人文的教学科研范式沉落到传统人文学科内部,使之真正生根发芽,开花结果。为此,论坛精心筹备了三个专题——“声律与古典诗歌专场”“网络分析专题暨专刊发布会”“未来学者专场”,均是水到渠成,瓜熟蒂落的一次集中的成果展示。此次论坛作为清华大学人文学院成立十周年系列学术活动之一,获得了清华大学文科处“双高”计划和国际合作与交流处“国际化能力提升行动计划”的支持。作为清华大学第26次教育工作讨论会人文学院新文科人才培养研讨会的一部分,与会专家还就数字人文教育与交叉学科人才培养作了研讨。
Opening Ceremony
开幕式
在2022年11月12日的开幕式上,清华大学人文学院院长刘石、清华大学人工智能研究院常务副院长孙茂松、北京大学中文系主任杜晓勤三位教授分别致辞。刘石教授首先介绍了以清华为核心的数字人文跨学科团队,该团队在学校的大力支持下于四、五年前成立,以人文学院、计算机科学与技术系和统计学中心的师生为主,也得到了来自社科院、澳门理工大学和浙江大学等高校学者的支持。受国家社科基金重大项目资助,几年来创建了数字人文刊物、门户网站和“璇琮数字人文智慧平台”,还开设了面向日新书院本科生的试验性课程。他还强调,数字人文与传统学术并不脱节,在现在和未来都是一种趋势。孙茂松教授代表计算机学界对论坛顺利召开表示热烈祝贺,他赞许三个议题具有新意,充分反映了数字人文的特点,带有浓厚的人文色彩。数字人文代表了未来的方向,语言文学方面的数字人文研究尤其需要注重机器与数字的结合,是一个需要团队的通力合作的工程,如此方能回应一些人文社科中的重大问题,借以提升中国在国际学界的影响力。杜晓勤教授指出,数字人文有三个历时性含义,一是上世纪用数字手段辅助人文研究;二是二十年前开始结合网络技术、大数据技术从事学术研究;三是现在将数字人文视为与理工科交叉的学科,有了自己独特的研究对象。清华大学人文学院已形成自己的学科特色,在数字人文研究中占有重要的一席。本次会议与前两次相比,呈现出焦点更集中、问题更具体、选题更前沿的倾向。既有个案,又有理论。既有传统特色,又展望未来,对当下数字人文研究有积极的推进意义。
01
清华大学人文学院院长刘石教授致辞
02
清华大学人工智能研究院常务副院长孙茂松教授致辞
03
北京大学中文系主任杜晓勤教授致辞
Classical Poetry and Prosody
古典诗歌与声律专场
“古典诗歌与声律专场”下设“大数据与声律研究”“语言与韵律”“基础设施与诗歌研究”“诗学研究的数字人文应用”四个研讨专题。
“大数据与声律研究”专题中,报告人主要围绕近体诗格律与词调研究两方面展开讨论。来自清华大学人文学院的韩娅非、陆泉宇和曲一迪的三篇文章着眼于《全唐诗》、《全宋诗》等大规模声律样本数据对传统命题与关键材料的接驳与阐释。韩娅非《<全唐诗>七言四句诗的声律验证与发现》一文对唐代七言绝句的声律情况作了定量考察和验证;同时,结合音乐文学史的相关命题,讨论了中唐声诗的格律化,以及背律七绝的创作与音乐性的关系等命题,对“乐”与“律”二者的互动关系进行了详细的阐释。陆泉宇《永明体到近体中句内声调规则对立嬗变的考察:以“蜂腰”与“二四异声”为例》一文对“蜂腰”和“二四异声”两个重要概念进行统计分析,在改进统计学方法的的基础上,对不同版本的“蜂腰”与“二四异声”观念作了辨析,对“初腰”等诗律学命题作了解释,并描绘了两个规则在六朝到唐代的嬗变图景。曲一迪、韩玉凤《绍兴新制与宋诗声律》一文从南宋时在《礼部韵略》基础上修订的《附释文互注礼部韵略》中一项声律条目入手,探究了绍兴时期科举诗里“平平仄平仄”与“仄仄平仄仄”等句式的使用情况与原因,及其对唐代试律法式的继承与拓展并进一步讨论了这与“拗救”等观念的关联,认为“大拗必救”说是后人对二四同仄句式的误解。文章同样指出宋代民间与官方的声律分层,基于不同制度背景,诗律规则会呈现出不同面貌。
伍三土(温州大学)、曾智聪(香港都会大学)、王琳夫(华东师范大学)三位的报告集中围绕词律标准的确定与数字化构建方法展开。与诗律研究相比,词律面临倚声填词与依词、依谱填词间的争议以及一调多体的问题,因而更不容易直接进入大数据统计分析的方法之中。伍三土《宋词行腔理论与乐谱实证分析》一文尝试充分运用音乐与文辞双方的本体史料,从节奏、声字、韵字三个层面细化讨论宋词声辞关系,与字声结合提出一套系统的宋词行腔法则,并对其适用范围加以限定,认为这套行腔法则的词作及同时代其他歌谱。文章以姜夔词为样本,借助数字人文方法绘制了声辞关系对照曲线并进行旋律与字声数据比对,量化验证了文中提出的行腔理论。曾智聪《柳永慢词声律与抒情量化研究刍议》一文就柳永慢词声律的量化进行了纲领性的分析,将平仄句式、韵脚韵部、韵位疏密等声律要素与文本细读结合,深入分析词中声律与抒情的关系。具体实现方式为,将柳永约110首慢词连同诠释资料(metadata)制作为数字文本并进行标记(tagging),建立“柳永慢词声律资料库”,让纯文字文本变成有意义的资讯,即所谓“数位文本加值”。王琳夫《词谱研究的数字化实践》一文指出,目前大数据方法应用于词律仍较为谨慎,由于在声辞配合形式、填词方法等基本问题上目前仍乏共识。词谱编撰的三种传统方法中,相较于诗律法与例词四声谱,应用最为广泛的“互校法”本质上就是程序化、规模化、精细化的字声统计,其思想内核与今日的大数据理论相合。自动笺注字声、多音字辨析、声律比较统计等方法的应用也能够极大地减少文献比对中的机械劳动。
在评议与讨论环节,刘洋(中国政法大学)与诸雨辰(北京师范大学)两位学者指出,在用大数据方法进行声律研究的过程中,对于数据处理手段以及规则的解释十分必要,这体现了科学研究中的可还原复现原则。另外,以数据对接某些传统规则与概念时,有必要首先廓清基本定义,尤其对于粘对、拗救等具有一定争议的概念范畴。诗与词的所谓格律化一定程度是建立在文体案头化基础上的命题,然而在声律研究中,音乐作为一项重要影响因素所产生的作用是不可忽略的,这关涉到声诗体裁确认、诗题变迁,以及声辞对照中的古音还原等一系列问题。
“语言与韵律”专题由谢思炜(清华大学)、冯胜利(北京语言大学)、刘丽媛(莱顿大学)、邱冰(清华大学)、张培阳(南阳师范学院)、郝若辰(清华大学)等学者参与发表与讨论,这一专题主要关注于诗歌中的韵律句法及其与声律的互动机制,以及对汉语史上某些问题的具体探讨。
谢思炜《白居易七言诗特殊句式探考》一文讨论了白居易诗中的“节点变化”问题以及格律诗对偶句中的“失对“现象,基于广泛全面的梳理,对前人的既有相关命题进行了反思与再考察,并对古代诗歌的词性、句法等重要问题加以翔实细致的考论。冯胜利《论中国韵律文学史上节律理论的发明》一文由刘丽媛代为宣读,文章对韵律文学史下的理论进行了详细梳理,对屈原、沈约、刘勰等人的韵律理论分别进行分析,突出强调了“节律”这一因素对文学创作的影响,并以探讨诗律与文律诞生的的机制属性。邱冰《中古汉译佛经语体色彩的数字化呈现》一文以人称代词、时间副词、范围副词三类词为代表,通过不同作品中不同词类的文言词/口语词使用情况的比较,对中古佛经的汉译语体与风格作了量化分析与可视化展示。张培阳《言数:传统七古体制及其演变研究之一》一文从“言数”这一角度出发,将分为纯七古、近七古、杂言七古和骚体七古四大类,通过对先唐及唐代七古的分体裁、分作者考察,对“七古”这一体式的演变情况及其内在作用机制进行了分析。郝若辰《节奏、声律与句法:生成诗律学视阈下古典汉诗与英诗格律比较》一文,由《鲁拜集》与传统七绝的形式对译切入,继而从音步、句长与用韵三个方面将英诗与古典汉诗进行比对,聚焦于生成诗律学的“tension”理论与传统拗救说发生机制上的共性,尝试提出以节奏作为句法与声律间桥梁的古典汉诗生成韵律理论。
评议与讨论环节中,谢思炜与张培阳先后指出,首先,对于诗歌形式要素的研究应避免求之太甚与过度阐释,诗作的经典性未必等同于某些形式标准或规则的普适性。其次,节奏是关涉多个方面的重要概念,因而确定音步划分原则应慎之又慎,在前人提出的不同观点中仔细甄别,选取能同时与句法理论及诗歌诵读节律衔接者。第三,关于诗句言数、押韵方式的讨论应具备历史性思维,从诗体生成演进等角度切入。
在12日的第三场讨论中,陈逸云(微软亚洲工程院)、李梅霞(中国人民大学)、白钰卓(清华大学)、丁唯(美因茨大学)、潘长在(清华大学)等基于数字人文基础设施建设与诗歌研究的相关问题进行了报告,由陈逸云、胡韧奋(北京师范大学)两位学者主持评议。陈逸云《以搜韵网为例谈声律智能化在辨音、校雠和辅助创作上的应用》一文对其建设的“搜韵网”诗歌平台的功能与应用进行了详尽的介绍,通过展示其对于诗律分析、对语统计、版本勘定、诗歌创作等方面的应用,展现了智能化诗歌平台对传统诗歌研究的独特价值。李梅霞《易数、乐律与古典诗律融通后的数据库建设研究—以Unicode 13.0为中心》一文将乐律、诗律与易数相结合,分析了“数”在此三者中的共通作用。文章还讨论了三者融通后、以Unicode13.0为中心的数据库建设具体方案。白钰卓《“九歌”自动作诗系统的开发与建设》一文报告了清华大学自然语言处理与社会人文计算实验室(THUNLP)“九歌”作诗系统的研发情况,包括自动作诗、集句、对联等功能与相关的算法与原理,对人工智能进行诗歌创作与研究提供了可能的方案。丁唯《PoemMetaVis:古典诗歌元数据动态交互式可视化探索》一文,以东坡词为例,进行了对诗歌主题、动态词频、诗歌时间线、情感倾向、物象语词等方面的可视化展示。这有助于基于大数据对东坡词、以及其他古典诗歌进行多方面、多视角的研究与理解。潘长在《TopWORDS-Seg分词方法及其在诗歌上的应用 》一文,介绍了基于古典文献、医疗、法律文献等专业领域开发的中文分词工具TopWORDS-Seg。TopWORDS-Seg通过利用贝叶斯框架将无监督和有监督的机器学习方法相结合,攻破了专业词汇占比大且标注成本高的语料的分词难题。中文语料的分词是文本挖掘的基础步骤,分词精度和新词发现的表现极大程度地影响到后续任务的实现,例如主题模型、关系提取等,目前TopWORDS-Seg在用于维基百科与《深度学习》测试中均有突出表现。将其用于古典诗歌分词,准确度比原始TopWORDS算法有10%的提升,并且初步回应了五言诗中212和221两种基本节奏的大致比例。
“诗学研究的数字人文应用”讨论组于11月13日上午分为两场开展,第一场由李斌(南京师范大学)与陈婧(香港理工大学)负责主持及评议。Jack W Chen(陈威,弗吉尼亚大学)《文学史、主题模型、散度度量:以阅读全唐诗为例》(Reading the Quan Tang shi: Literary History, Topic Modeling, Divergence Measures)一文讲述了如何通过主题模型和趋异测度两种远读的方法来探究《全唐诗》及相关文学史问题。Jack W Chen教授指出,传统文学史的书写倾向于反复书写或关注一小部分经典作品和读者,而大数据提供了全面探究文本的可能性。Jack W Chen对《全唐诗》的内容构成进行了分析,并介绍了LDA主题模型在《全唐诗》研究方面的有为之处,认为只有将数字人文方法和人类视角交织结合,才能对文学史有更为深入的理解。刘昭麟(台湾政治大学)《唐宋格律诗分词标记的探索》一文围绕唐宋格律诗的分词工作展开讨论,认为诗歌的创作以美学抒情为要,基于个人赏析与诗人创作原意,诗歌不见得有如计算机领域所想象的唯一分词。但在这一基本常识之外,希望能够通过构建格律诗数据库以完成适用于大批量诗歌的分词。许建业(香港树仁大学)《数位人文与明代唐诗选本研究》集中展现了对建设唐诗选本数据库的思考。发言首先简述了目前已有的唐诗选本数据库平台的优缺点,指出当前的常用平台存在缺乏归类、作者时代错置、OCR校对、及版本混杂等问题,指出理想资料库应具备全文检索、排列版本、统计方法、保留副文本等系统功能,并与智慧古籍平台进行合作,以便更好助力唐诗选本研究。王丽丽(哈尔滨工程大学)与郭思文(北京航空航天大学)《音以韵美:“音美”视域下<诗经>英译的美学观照——以<关雎>的三个英译本比较为例》一文基于许渊冲“三美”论中的“音美”原则,从比较视角考察《关雎》三个英译本(许渊冲、Legge、Pound)中音韵美学的异语建构情况。借助Praat 6.0语音软件比较了译本与原文的节奏、声音和韵律,结果显示三个译本的节奏较忠实原文,元、辅音比例以及超音段特征(音高、音强和音长)与原文拟合度较高。此外,三个译本均通过大量的头韵、谐元音和谐辅音还原原诗的叠词和双声。这一通过译本的比较分析探究中国诗歌英译过程中“音美”构建,同样可以为中国诗歌在英语世界传播提供可借鉴的范式。评议环节,学者们对相关问题进行了热烈交流。本组集中讨论了数字人文研究中字词、诗集、韵律处理的三个主题,认为当下分词、建设数据库的工作需要目标驱动,建立古诗文数据库也是推进研究的基础,具有广阔前景。
第二组的报告交流由朱翠萍(中华书局)与唐宸(安徽大学)主持、评议。李斌(南京师范大学)、何盈学(华东师范大学)、高策(清华大学)的合作研究《多源数据参照的古典诗歌立体远读法初探——以乾隆四万余首御制诗为例》将多源数据参照的古典诗歌“立体远读法”应用于乾隆御制诗的研究中。研究首先通过版本选择、结构化整理、数据清洗、自动标点等步骤,构建起乾隆诗全文数据库;进而对创作风格与频率两个疑难问题进行重点分析。这一研究推动了对大规模文献乾隆诗的整体把握,避免对单一文本数据、孤立的统计分析,具有方法论层面的探索价值。清华大学李飞跃与宋佳霏《基于文本相似度分析的<红楼梦>诗词溯源研究》一文利用数字人文方法的“编辑距离”“词袋模型”“doc2vec”与“LDA主题模型”,筛选出《红楼梦》所化用的唐宋诗句及其诗集来源,分析它们在词句、篇章层面的关系,从而探究曹雪芹的阅读经验与《红楼梦》诗意风格的生成关系。通过分析这些诗句在康乾时期的所属诗歌选本及其版本流传状况,认为《才调集》等选本对《红楼梦》的诗歌创作或具有直接影响。同时,报告通过与传统文本细读方法的比较,指出了文本相似度分析方法的得失并提出了改进方法。韩玉凤(清华大学)《唐宋诗中的“江湖”书写》一文以“江湖”的词旨演变为切入点,考察唐宋两代诗人使用“江湖”的用法差异。通过构建《全唐诗》《全宋诗》中与“江湖”一词的共现矩阵,发现唐宋“江湖”诗歌多与送别、贬谪等语用背景相关;相较于唐,宋代“江湖”诗有着更为强烈的时空意识。唐宋言及“江湖”较多的诗人中,唐代杜甫、白居易偏爱“隐居”义,宋代诗人则广泛使用“江湖”多层含义。唐宋诗“江湖”指向地点均以南方区域为主,唐代多指向江淮、荆楚、巴蜀、岭南等区域;宋代指涉地多为长江流域,这与两代不同的制度和交通背景有关。吴奕燊(清华大学)与黎泓(伦敦大学学院)的《古典诗词的空间分析途径初探——以李杜诗比较为例》一文以李白、杜甫诗歌的比较为中心,将现有作家的生平行迹与作品编年系地数据、作品写作地与写及地数据、作家社会关系数据、历史地理地图基础数据结构化,从而形成后续研究的参照坐标,这一研究的意义在于挖掘作家对文学史地理意象的贡献,对现有主流社会关系网络分析工具的“籍贯定位”局限性起到有效弥补作用,也有助于对作家文学书写的空间距离作个案分析。在评议与讨论环节,与会学者们指出,基于计算语言学及相关研究的相似度分析与运用了GIS等技术的地理信息空间是本组报告集中应用的两种手段,关注于类似的交叉与拓展,对于传统文科研究大有裨益。
“古典诗歌与声律专场”的四个讨论专题,基本包含了当前古典诗歌与数字人文交叉互动的主要可能。声律研究以其数据完备、方法清晰的特征能够与数字人文方法较好结合,因而在此次论坛中给予了更多关注。然而声律并非古典诗歌形式的唯一向度,在阐释分析数据的时候不仅应关注声律数据本身,同时也需要着眼于与之紧密相关的节奏、句法因素,并且从语言学、汉语史的视角看声律因素的生成与变化。在基础设施建设讨论组,“搜韵”与“九歌”团队也带来了精彩分享,为用户提供了知其然与所以然的机会。此外,本组关于分词、编码、可视化等细部问题的讨论也有益于人文与技术的深入融通。“诗学研究的数字人文应用”组通过拓展论题,探究了古典诗歌的远读的诸种可能。“远读”概念最初由Franco Moretti在《世界文学猜想》一文中提出,主要针对大量无法细读的非经典以及浩如烟海的跨语言文本,讨论组里的几篇报告文章让我们在这两个维度上看到了新的可能,没有局限于可视化呈现,而是致力于文本挖掘和知识发现,很好地践行了“数字让人文更新”的理念。
Network Analysis and the Special Issue Launch
网络分析专题暨专刊发布会
“网络分析专题暨专刊发布会”以“从隐喻到模型:作为研究与批评路径的网络分析”为主题,由巴克内尔大学东亚系的陈松副教授和中国社会科学院文学研究所助理研究员赵薇负责召集和组织。来自清华大学、社科院文学所、巴克内尔大学、南京大学、北京大学、中国人民大学、哈尔滨工业大学、陕西师范大学、南京师范大学、浙江大学、南京农业大学、澳门理工大学、岭南大学、南洋理工大学、芝加哥大学、斯坦福大学、加州州立大学、加州大学尔湾分校、伊利诺伊大学厄巴纳-香槟分校、中央华盛顿大学、波士顿大学、阿斯伯里大学、威廉玛丽学院、哥廷根大学的三十多位跨学科学者、二百余位海内外听众齐聚线上,就中文网络分析在人文研究和计算批评中的新进展展开研讨。
11月12日上午的“人文网络分析的实践探索”专场伊始,《数字人文·网络分析专刊》(2022年第1期)执行主编赵薇回顾了与陈松教授一道,历时三载的酝酿和筹备过程,对各位作者自始至终的信任和支持表示诚挚感谢;对专刊评审人及作者、编者在这个过程中表现出的远远超出传统治学的严谨态度和探索热情致以敬意。同时也深刻地感到,尽管自1990年代起,网络分析便被中国的社会学家,人类学家用于非正式关系的研究,但它郑重地用于实打实的人文问题,逐渐进入传统学者的眼帘,从而成为一种独立的研究路向,真正凝聚起一批人,却是近几年的事。网络分析不仅实现了从早期作为人际关系的“隐喻”,到研究关系结构的“模型”这样一个“概念上的飞跃”,也开始由建模而走向“批评”,为人文学术带来洞见和影响,因而很有必要以专刊的形式将这一趋势勾勒、呈现出来。
上半场三位报告者的聚焦点是纯文本网络的分析与批评。来自加州州立大学萨克拉门托分校人文与宗教研究系及历史系的秦颖博士,根据人物对话的方向和次数,构建了《唐语林》的对话关系网络,对宋代轶事小说中“语”的性质和其编纂倾向做了深入探究和反思。基于实体共现,伊利诺伊大学厄巴纳—香槟分校的尚闻一博士提取《世说新语》中人物互动关系,运用网络模拟、指数随机图模型、社群发现等多种手段,层层推理、验证了小说中门阀贵族的身份标识是否凝聚成有效社群的问题,在社会史的向度上拓展、深化了对历史经典论断的讨论。来自南洋理工大学的马昭仪代表“空间人文与场所计算实验室”团队发言,他们采集155部唐传奇文本中的OD数据,以唐长安城的坊里为节点、以故事人物在不同坊里间的移动轨迹为边,构建出坊里空间交互网络,将中心度、模块化的计算和文学制图、空间插值等人文地理的分析手段结合,对各个坊里的重要性及其彼此之间的相互联系做分析,探索了社会权力结构更迭的空间表征形式。
这一场的评议嘉宾,南京师范大学文学院实验中心许超主任肯定了秦颖研究对历史和文学因素的谨慎区分,尤其赞赏其灵活运用点击度分析,从一千多条轶事材料中发现了“玄宗因素”及其在文本后半部分的“反转”。尚闻一的网络不仅基于语义,而且具有现实的社会历史意义,他的分析和做法有很高的借鉴意义,可以进一步尝试不同的聚类算法,找出异常值,同时扩大网络规模、尝试不同的经验性赋值。许超也指出,古代文献自动抽取关系的准确率不高,人工提取反而较好;而数据如果过于稀疏,难以分出有意义的网络,历史价值的阐释较为困难,但是单纯的叙事分析却自有闪光点。评议嘉宾南京大学历史学院王涛教授高度赞许何捷教授团队将可见度指标引入社会感知分析的创造性做法,建议进一步排除提取节点异常值影响,并结合小说文本中的具体案例做分析,以增添结论的说服力。
下半场论由《数字人文》副主编、《澳门理工学报》的桑海主持。来自陕西师范大学历史文化学院的张光伟主任以西夏文字典《文海》中所收的字为节点、以解释关系为边,将整部字典转化为有向网络,通过重复删除出度为零的节点找出基本字集,全面发现《文海》中的循环解释现象,从而重建了西夏字的解释层级。其后,南京农业大学人文与社会发展学院李惠副教授对社会网络分析的常用算法和模型进行了细致评估,并对其中可能存在的不足做出说明。中国人民大学信息资源管理学院博士后研究员严承希从互文性理论入手,采用编辑距离、字符串匹配等文本复用算法,建立起基于句串相似度的中国古代“十三经”互文数据集,开发出实用的系统,实现了内、外部互文性可视化分析与浏览,也初步展示了互文网络的生成。
下半场的发表得到南京大学历史学院王涛教授和邱伟云副教授的热烈回应。王涛认为张光伟的研究在人文基础设施建设上具有开拓意义,为后续西夏文研究夯实了根基,同时提出算法应用于死文字研究的通用性问题,以及套用其他语种字典进行反证的可能性。评议嘉宾邱伟云副教授亦非常钦佩张光伟的做法,指出可以进一步会通概念史研究路径,探析汉人与西夏人在各自字词典中所体现出的概念分类系统上的异同,进行思想观念的比较与互动研究。针对李惠的发表,邱伟云建议未来可尝试对中国特有关系网络社会模式进行探勘和多重建模,并与当前已建构的全球网络模型进行比较,推出具有中国特色的社会网络模式。他也充分肯定了严承希研究的实践意义,认为可进一步关注中国传统经典在互文过程中的传播与接受问题,期待对先秦典籍在互文网络中的分群现象的新探索,进而验证乃至商榷目前常见的先秦诸子学分类的适当性;而经过计算巨量文章中的言说修辞的互文,还可探讨其背后所隐含的思维框架及意义。
发布会的第二个专场“海外汉学中的网络分析”于2022年11月13日上午以Zoom Webinar的形式在线上举办,由本次专刊的另一位执行主编陈松主持,十余位海内外学者分别做了英文发言和评议、讨论。中央华盛顿大学的历史学家林如莲(Marilyn Levine)教授首先展示了近四十年来综合实地访谈、档案收集和电子化,坚持不懈地建设中国人物传记资料库(CBD)的辛劳工作。随后,重点陈述了如何运用层次聚类和网络分析的方法,将属性数据转化为关系数据,构建起一战后中国旅欧知识分子群体的社会网络,用以考察其组织和活动情况。这项数字人文研究为早期党史研究贡献了宝贵资料和全新视角。哥廷根大学东亚研究系卢娴立(Henrike Rudolph)助理教授聚焦二十世纪八十年代出版的一项中国妇女活动家集体传记,运用双模网络分析人物-事件-机构等等传记节点,将潜隐于正统历史叙述背后的、被遮蔽的赋权结构揭示了出来。斯坦福大学东亚语言与文化研究系马杰(Maciej Patryk Kurzynski)博士的研究,则借助词嵌入、主题模型和网络分析,设计出一套测度崇高美学效应的计算模型,并通过对两部当代长篇小说词汇网络的中心度分析与计算批评,为人们在革命或后革命氛围中重新理解崇高修辞的生产机制提供了量化视角。
评议嘉宾Paul Vierthaler (李友仁)助理教授,是来自威廉玛丽学院的青年汉学家,数字人文学者。他认为林如莲运用层次聚类的多变量分析手段和网络分析结合的做法值得称道,这种方法利用成百上千的人物属性数据,如籍贯,年龄,留学,机构等等,展现了个人之间不同寻常的迷人联系,这是传统路径难以呈现的。同时他也对这些基本数据的具体样式感到好奇。李友仁赞赏卢娴立致力于开发本体来为数据建模的做法,将人物关系与传记节点分开后,更便于人们认清传记资料实际上传达了怎样的思想,女性以什么样的身份被编织进了历史叙事。而1949年前后网络的对比,则带来了更多吸引人的发现。针对Kurzynski的报告,李友仁认为作者以一种十分有价值的方式,不仅将中国文学叙事中的崇高时刻展现出来,而且将它们之间的关系从叙事框架中突出出来。在这个过程中,Kurzynski使用了高尔基的《海燕》来引导语义模型,而句子共现的窗口大小,也会影响最终的提取结果。在这一场的问答和讨论环节中,两位发言人分别做出回应。林如莲教授展现了高维属性数据的编码方式,Kurzynski博士则回答了岭南大学环球中国文化高研院黄峪博士关于文学远读的问题。赵薇与林如莲教授分享了启用相同方法构建文体网络时遇到的困难,如降维带来的数据丢失问题,还对这种以属性相似性为基础的网络中心度计算的实质究竟为何提出自己的看法。
下半场的“工具、平台和基础设施”专题由浙江大学海宁国际校区人文社科研究中心姜文涛副主任主持,共有三个团队的学者发言。作为一个合作团队,阿斯伯里大学社会科学与历史系助理教授马飞立(Alex Mayfield)、波士顿大学的梅欧金(Eugenio Menegon)和Daryl Ireland博士,认识到目前亚洲研究面临的问题与挑战,着手开发了中国基督教历史资料库(CHCD)。他们以现今人文数据库中仍不多见的Neo4j图数据库管理系统为底层技术,通过语义三元组的结构来储存数据,搭建了简洁易操作的人机交互界面,用户可调节参数,检索并生成有关数据库中的人,机构和地点等实体之间的网络。芝加哥大学Digital Studies项目的康森杰(Jeffrey Tharsen)副主任和ARTFL项目的格拉德斯通(Clovis Gladstone)副主任,采用基因序列比对和向量空间相似性计算的办法,建立了用于文本互文性查询和交互可视化的TextPAIR平台,可将“二十四史”中的全部借用、引用,或构成影响关系的相似段落提取出来并建立关系网络,以期发现不同以往的宏观模式。最后,加州大学尔湾分校东亚语言与文学系荣休教授、著名汉学家傅君劢(Michael Fuller)教授做了题为“Exploring Multidimensional Relations with the China Biographical Database”的报告。重点谈及如何将CBDB传记资料库中的人物放置在多维属性数据中(如生辰,亲属,师承,任职等),来构建复杂网络,进行比较研究。
评议嘉宾北京大学信息科学技术学院袁晓如教授从可视化角度,以及用户、数据和交互性三个层面,对现有工具的局限性做了评估和分析,并呼吁跨学科合作,建设用户使用体验更好的、沟通专家与普通用户的中介性平台。在问答环节,Mayfield团队回应了陈松所关心的可否将数据和结果导出用于自行分析的问题,欢迎更多的学者来亲自探索这个交互平台。本场由陈松教授做总结发言,他对合作编辑人、各位供稿学者、技术支持人员以及专刊主办方在编纂与发布过程中的支持表示感谢,也对因非学术因素而带来的出版延迟表示歉意。
两天的论坛圆满落幕。诚如召集者所说,他们固然无法用一场论坛,一期刊物的形式,将国内外从事人文网络分析研究的高手一网打尽,但却希望能够就此形成一束高质量的、具有创新价值的经验集合。不仅对于推动中文文、史网络分析的研究和批评意义重大,同时也开启了真正自由探讨的气氛。对他们而言,数字人文需要这种深入的讨论,甚至数字人文自身更存在于这种充满了探索,疑问和不确定性的过程之中。
数字人文的未来更在青年学者身上。专门面向在校生和青年学者的“未来学者”专栏、专场,一直是《数字人文》的特色,旨在发掘新人,鼓励合作,大胆促成新观点、新方法。本次专场由清华大学人文学院教师严程负责召集和主持,分为现代场和古代专场,一共有十位来自清华大学、南京大学、复旦大学、北京语言大学等高校的纯人文背景的本科生和硕士研究生分享了他们的个案研究,可以说是近年来正在实验中的数字人文教学实践的一次初步成果集结。
董晓涵:《性别试验场:ABO小说中女性意识初探》利用共词分析方法,统计多部ABO小说中热点形容词与主人公ABO性别和自然性别的共现频次,构建语词网络,结合文本人工泛读,探讨其中反映的性别意识。王涛、桑海和赵薇老师认为该选题很有价值,是网络文化与数字人文结合的常识性探索,但需要有更强的问题意识来指引;在概念界定和结果阐释方面,也要做更精细的工作。
康吉赢:《数字时代的生态小说研究 从概念验证到计算批评》设计了量化实验,验证了二十世纪的生态话语进入美国小说叙事体系的过程中小说“生态程度”的发展演变。王涛和桑海老师充分肯定了其对相关分析的创新应用,以公式和曲线的远读方式来勾勒百年小说的生态化程度也令人耳目一新。不过,关于生态文学的概念仍然需要细致界定;在论证上,选择文本和证明方式有循环论证之虞,也需要注意。
雷征宇:《“Humanist”线上数字人文研讨会:组成、内容及展望(1987-2018)》对历史上活跃至今的“Humanist”邮件群组的发展情况做了数字人文分析。桑海和赵薇老师认为其选题意识,以及融宏观观察和微观关照于一身的角度尤其可嘉,也期待看到更加有机、全面、深入的延伸性探索。
吴桐:《社会关系隔阂与非理性情感宣泄》运用词向量建模,网络分析等方法探讨《第二十二条军规》文本中意象与情感关系,对人物处于“非理性”状态的语言特征进行验证。王涛老师认为一个本科低年级学生能运用众多工具比较到位地论证问题很不容易。也指出用情感词典进行情感分析的风险。桑海老师认为需要多运用国外的研究成果,意象词汇和情感词汇需要有明确的界定。姜文涛老师提出“非理性情感”“社会关系隔阂”等概念也需明确,同时社会性也应考虑进去。
下半场有五篇论文分享,涉及先秦到明清的论题。
付慧琳的《社会角色视角下的古代女性书画家群体分析》借助echarts等工具将古代[zw1] 女性书画家群体形象的关键信息进行了可视化转译,从群体特征的角度对古代女性书画家进行形象建构。朱翠萍老师认为需要明确文章中44位画家的代表性,论证“师徒传承”这一角度的文献全面性和有效性;邱伟云老师和唐宸老师就数据结构和数据量的扩充提出期望。许可老师对文章的具体内容进行了详细评议,并就明确 “社会角色”、完善摘要信息给出了具体建议;老师们表达了对数据和结论进一步完善的期待。
黄焕波的《干支与吉凶——金文所见周人诹日方法的一种模型》一文借助统计方式对“初吉”的问题进行了探索。朱翠萍老师肯定了文章明确的问题意识。唐宸老师认为文章创新性强,学术态度严谨,提示作者要看到历时性变化和特定场合吉日的不同,并建议与当时的立法环境相结合。邱伟云老师提出,“阳日”“阴日”的名词作为发明的概念是否会与传统的“阴”“阳”观念发生混淆;“诹日”一词指的是在哪一天举行占卜,用这个词做标题是否会引起争议;对系统做验证时可以考虑进一步扩展数据量。
刘梦涵的《古典诗词“参横”意象的时令规律与审美价值——基于数字人文天象模拟技术的探析》借助天文软件,模拟苏轼、陆游、朱彝尊等名家作品中的天文现象,归纳古典诗词中参横意象的审美价值。朱翠萍老师认为此文带有明确的问题意识,从科学入手,再从叙事出。唐宸老师评价说:天文软件能够对文学考证起作用,本论文创新性强。不过对于时令规律的边界可以细化;学术语言可以再多加锤炼。许可老师也建议图片可以再丰富一些,内容会更完善。
徐艺玮:《晚清以降中文书面语中颜色词的使用与演变》根据洋务运动至今的中国报纸数据,对颜色及其共现词进行分析,挖掘颜色反映出的历史环境变化及与文化发展的关系。朱翠萍老师点评说:选取的数据量大,说服力大,相对可靠,未来可以尝试按照专题分开,延伸到不同领域,使结论更丰富。邱伟云老师认为要说明如何分层抽样及去重。许可老师建议可以进一步缩小范围,比如针对广告文献作相关探讨。
张琳越、钟钰婷的《数字人文视域下汤显祖“临川四梦”比较分析》借助现代技术手段,从词频、人物社会网络等四方面分析四部作品,对于学界目前对汤显祖的一些论断提出新的见解。朱翠萍老师认为采用远读的方式,解决了二梦与三梦的争端。不过数据量相对小,可以扩大到整个传奇来看;也可以放在跨文化的视野下与西方的文献对比探讨。唐宸老师认为有些论述和分析可再加强,《邯郸记》的情感方面的论述可以展开;重视原生文本以及传奇对它的影响。许可老师认为得出的结论与数字人文要更加结合,用数据要来支撑结论。
获得了从事数字人文研究的老师们细致深入的点评,同学们纷纷表示受益匪浅。未来学者专场圆满落下帷幕。
Closing Ceremony
闭幕式
持续两天的三个分论坛之后,举行了简短的闭幕式。《数字人文》副主编桑海代表论坛组委会公布了第三届“未来学者”优秀论文评选结果。与以往不同的是,本届论坛获奖文章从全体参加论坛的在校生中产生,不再局限于学生分论坛。经过与会专家的投票评选,陆泉宇获得“第三届清华数字人文论坛未来学者优秀论文”一等奖,徐艺玮、黄焕波获二等奖,刘梦涵、康吉赢、曲一迪/韩玉凤获三等奖。其中,陆泉宇、刘梦涵、康吉赢等三位同学的获奖论文都是在本科课程作业的基础上完成的。
最后,桑海副主编对第三届清华数字人文国际论坛作了总结。他首先回顾了三届数字人文论坛的历史,忆及《数字人文》团队的创始和发展过程。2017 年第一届论坛是国内首次以“文学研究”为主题的数字人文国际会议。刘石教授当时就寄予厚望,对数字人文在文学研究中的前景充满期待,会议的一些召集人和参与者后来也成为团队骨干。时隔两年,在第二届论坛召开时,清华大学数字人文已发生了“狂飙突进”的变化,在论坛上发布了《数字人文》创刊号,成为中国大陆正式出版的第一本数字人文学刊。在这两届论坛之间,刘石教授主持的国家社科基金重大项目“大数据技术与古典文学文本研究”立项,《数字人文》也在摸索中逐步进入状态。编辑部始终坚持严肃的学术精神,不轻易扩大数字人文概念的边界,努力探索中国数字人文研究的学术标准,对缺乏问题意识或徒有技术却不具人文性的研究持审慎态度。第三届论坛体现出团队在研究和教学上新的突破,更加具体、接地气,三个主题分别聚焦于“声律”这一研究领域、“社会网络”这一研究方法,以及“未来学者”这一关乎数字人文后劲的重要面向。声律是传统诗歌研究中的重要问题,但因文本量庞大,只能举例论证,历来聚讼纷纭,而数字人文方法使得对诗歌声律进行总体统计分析和建模成为可能。在论坛中既能看到谢思炜教授这样造诣精深的古典文学研究者,也有刚进入该领域的新锐学者,特别是孙茂松教授领衔的“九歌”作诗团队,虽是计算机专家,却有对人文的热爱和尊重。他在繁忙的计算机学术工作中分出一脉情怀来专事研究与开发,为数字人文学者树立了好样板。网络分析论坛展示了网络分析方法从隐喻到模型的发展轨迹,及其应用于中国文史研究所诞生的新成果。网络分析专刊执行主编陈松和赵薇也为此付出了巨大努力,希望后续的一系列专刊不放弃标准,越做越有特色。最后,在未来学者论坛中,我们真正感受到了后生可畏,对于数字原生一代的青年学生,数字与人文的关系更加自然,或许孕育了更多令人惊喜的发现。
我要收藏
个赞
评论排行