【ZiDongHua之会展赛培坛收录关键词:图像图形 人工智能 大模型】
 
  【竞赛】第五届CSIG图像图形技术挑战赛季军团队介绍
 
  获得本届CSIG图像图形技术挑战赛总决赛季军的团队是“中文文本智能校对大赛”赛道冠军苏州大学“黑模型·乐改”团队。
 
  01
 
  赛道介绍
 
  随着人工智能技术的迅猛发展,其在各行各业的应用不断深化,对经济社会的影响日益显著。如何打通产学研体系,深入行业应用的技术难题,为人工智能产业输入源源不断的人才,是行业关注焦点。通过大赛聚焦关键问题、探索解决方案,成为行业趋势。
 
  尤其在校对领域,人工智能对中文校对应用的能力升级方面扮演了关键角色,特别是在提升校对效率、准确性和个性化服务上有着突出的增强作用。
 
  在中国图象图形学学会主办的CSIG图像图形技术挑战赛系列赛事中,金山办公承办了中文文本智能校对大赛。根据赛制,个人或者团队参赛者可以构建一个完整的AI算法参与挑战赛。主办方使用ChERRANT评估校对算法效果,通过对比预测编辑和标准编辑,计算预测结果的精确度、召回度、F值指标,评估纠错模型的性能,并使用字级别的F0.5指标作为最终评判结果。
 
  为提高赛事的挑战性,金山办公发布了贴近真实使用场景的比赛数据,以反映用户在日常生活中常见的错误类型。金山办公希望通过赛事让高校开发者能够学以致用,以工程思维践行产学研融合,实现从技术研究到应用实践的跨越。
 
  此次比赛共吸引67所高校、338支队伍,累计548人参赛。最终,四支参赛队伍获得大赛的一二三等奖以及丰厚的现金奖励。其中,本队伍(苏州大学“黑模型·乐改”团队)凭借一种全新的无需训练的拼写纠错方法获得大赛冠军。
 
 
  图1金山办公为冠军团队颁奖
 
  02
 
  参赛方案
 
  本队伍提交方案可分别三大模块:字词错误纠正、句法错误纠正、结果合并与后处理。
 
  1.字词错误纠正:本模块中我们尝试同时建模拼写和多字少字这些字词错误。其中无训练大模型建模是我们提出的全新方案,效果非常好,通过对大模型解码过程的控制,可以使大模型在不经过任何训练的情况下,就拥有出色的字词错误修改能力。该方案单个模型在主办方提供的LabelData数据集上可以取得0.7844的F0.5,性能远超经过大规模数据训练的传统拼写纠错模型。
 
 
  图2无训练大模型字词纠错方法
 
  2.句法错误纠正:在句法纠错方面,我们使用Lora方法训练了大模型,同时全参微调了中小模型(Bart、Bert),并在最后通过投票集成的方式,同时利用这两种模型来提高最终结果。
 
  3.结果合并与后处理:考虑到在实践中,字词错误的识别和纠错相对容易,而语法错误更复杂,识别和纠错的难度更高,因此在合并不同模型的纠错结果时,我们首先考虑字词错误的结果,如果句子中没有发现字词错误,则认为句子中不存在字词错误,应该采纳语法错误的纠错结果。在对结果合并后,我们通过定义规则的方式来对结果进行优化,如根据国家语委刊发的《异形词整理表》来替换结果中残余的异形词,同时利用掩码语言模型来对结果中的“的/地/得”进行相应处理。
 
  此外,本队伍还使用了一些数据增广策略,对数据进行扩充,我们分别在悟道语料库、大模型续写语料上基于规则,以字/词为基本单位,对句子进行随机的替换、删除、添加操作,结合混淆集,同音、形近词表生成基础的拼写错误。
 
  03
 
  总结
 
  在本次比赛中,我们在前人比赛的经验上进行了进一步的探索。首先,我们提出了全新的无训练大模型建模方案,通过对大模型解码过程的控制,可以实现在不经过任何训练的情况下,将任何有汉语生成能力的模型改造成一个字词错误识别和纠正模型。该方案在比赛中取得了最好的效果,表现出了极为优秀的泛化能力。
 
  此外我们还采用了有监督训练的模型来对无训练大模型建模方案进行补充。在训练有监督模型时,我们创新性地提出了运用大模型的续写能力来合成数据集,从而保证合成数据的领域与目标数据集一致。同时还兼具时效性。这些合成数据有效地提升了有监督模型,尤其是小模型在目标数据集上的表现。
 
  最终,我们通过投票集成的方式,同时利用无训练大模型建模方案和有监督模型,取得了第一名的好成绩。