华科大人工智能与自动化学院“文行者”的“取经”路！

　　【ZiDongHua之自动化学院派收录关键词：华中科技大学人工智能自动化学院 ChatGPT】

　　华科大“文行者”的“取经”路！

　　一只“猴子”

　　三般变化

　　十余师徒

　　行走在国产大模型的

　　漫漫“取经”路上……

　　我校人工智能与自动化学院

　　“文行者”团队

　　建立多模态大模型

　　通过差异化竞争领先大市场

　　“取经”之路

　　危机四伏、困难重重

　　HUSTer们如何

　　化险为夷、修成正果

　　让我们一起来看——

　　多模态大模型Monkey的Logo

　　在10月中旬举办的中国国际大学生创新大赛（2024）总决赛中，“文行者”团队凭借基于多模态大模型的文档智能处理系统脱颖而出，获得产业命题赛道金奖。

　　深耕数年换得厚积薄发，三大分身聚焦垂直场景

　　多模态大模型是一类可以同时处理和整合多种感知数据（例如文本、图像、音频等）的AI架构，凭借其丰富的世界知识和出色的对话能力，多模态大模型能够如同人类一样深入理解和感知世界。

　　2022年，ChatGPT横空出世，多模态大模型热潮席卷全国，各大互联网科技公司纷纷涌入该赛道，而各类大模型也在众多场景中展现了惊人的能力。

　　事实上，在多模态大模型还没有成为行业“风口”之前，“文行者”团队就已经在为文字大模型厉兵秣马。从2011年到2020年，团队十年埋首传统文字视觉任务；而在2021年至2024年，团队转向大模型领域，持续攻关并取得技术创新突破。

　　深耕文字领域14年，兑现的是团队在国产文字大模型领域的厚积薄发。

　　2024年1月，在白翔、刘禹良两位教授的指导下，团队正式发布多模态大模型Monkey。它具有一种多层级的描述生成方法，通过依次对进行整体简述、空间定位、模块化识别、描述赋分选取和最终总结，可大幅提升描述的准确性和丰富程度。Monkey也因此入选了CVPR 2024亮点论文和最具影响力论文Top20。

　　接下来的几个月里，Monkey如同孙悟空，变换出三个分身——TextMonkey、PdfMonkey和MathMonkey。

　　这三个分身，是团队利用Monkey在文字信息处理领域取得的重大突破。三款产品各自精准聚焦办公信息智能处理、专业文档智能理解和K12教育智能解题三个垂直场景，能够实现一个模型解决多场景多任务问题，通过差异化竞争领先市场。

　　团队成员模拟路演

　　文字处理性能全面提高，核心技术回应四大痛点

　　从数量上说，目前国内基础大模型研发机构已超过全球其他国家的总和。但在质量上，“学得少”“看不清”“看不长”和“解不透”四大痛点仍在制约现有大模型的文字处理性能。

　　针对难题，团队交出了一份令人满意的答卷。这份答卷用四大核心技术分别回应了四大痛点，全方位提高项目的文字处理性能。

　　传统大模型容易忽略细节，而人工图文数据标注成本高，导致大模型“学得少”。针对这个问题，团队提出了多粒度数据自动生成技术。团队用“无中生有”来形容这项技术，即零人工成本生成细粒度、多模态、多样化的高质量数据。

　　面对密集细小文字，许多大模型很难清楚识别，这就是“看不清”。于是，团队提出了动态增量高分辨率裁剪技术。“就是将一个完整的高分辨率图像切分为多个小块，然后将每个小块依次输入到模型中。”这项技术在不增加计算量的情况下，大幅提升了输入的分辨率，让Monkey真正意义上拥有了“火眼金睛”。

　　现有大模型输入长度受限，长一点的文献就无法理解，面向“看不长”的问题，团队提出了长文档稀疏采样技术。在用户输入超多长页文档之后，Monkey会根据用户提出的问题进行大规模相似性度量搜索，从而获取与问题相关的重要信息块。“删繁就简”的创新点，打破了传统模型对输入长度的限制，实现了对无限长文档的高效处理。

　　传统的解题大模型通常依赖大量题库数据进行解题，对于题库之外的几何推理等复杂问题，大模型也“解不透”。基于此，团队提出了多步思维链推理矫正技术，将Monkey“训练”成了一只明思善辨的“猴子”。在解题过程中，Monkey不再机械地输出，而是会实时进行自我反思、多步推理，大幅提升决策的准确性。

　　团队成员与命题企业对接

　　团队成员实地考察百度飞浆（武汉）中心

　　稳扎稳打团队屡创佳绩，人才培养机制持续优化

　　参加中国国际大学生创新大赛、接下百度公司的产业命题、打造Monkey的三个分身、站在决赛的舞台上……每一步，团队都“做了充分的准备”。他们日复一日发现问题、查阅资料、询问专家、尝试求解，失败了就换个方法重新再来、成功了就继续寻找下一个问题。与此同时，人工智能与自动化学院和启明学院也在持续提供支持和指导。小到项目说明中的文字细节、比赛中的后勤保障，大到实验室资源、行业赞助，“学院可以说是有求必应”。

　　“文行者”团队是人工智能与自动化学院拔尖创新创业人才培养的缩影。近年来，人工智能与自动化学院始终秉持着培养学生创新意识、创业精神和实践能力的初心，将创新创业教育贯穿人才培养全过程。未来，学院也将持续优化创新创业管理机制，持续整合优势资源，建立专家库，搭建创新创业更高平台，为学生提供良好的创新和竞赛平台。

　　学院为参赛团队提供专家指导

　　孙悟空历经九九八十一难最终修成正果，而对于躬耕文字大模型的“文行者”团队来说，“正果”仍然在路上。未来，在大模型领域的角斗场上，团队将要持续开源高质量项目，突破国际闭源技术壁垒，把这条取经路走得更宽、更远、更长。

　　华中科技大学（ihuster）

　　来源/华科大新闻中心

清华大学“主动配电网能量管理与集群控制系统、装备及其应用”成果荣获北京市科学技术进步奖一等奖

北控水务第13家产业学院成立助力给排水职业本科教育高质量发展

紫冬日新智控未来 | 清华大学自动化系举行首届“紫冬”博士后论坛暨“紫冬讲坛”专场活动

中国人工智能学会2024年度会士增选名单揭晓

清华大学自动化系建系55周年首场科技成果转化路演会举办

“天河”超级计算机获小数据图计算能效世界冠军

由华中科技大学参与主办的第三届世界元宇宙大会11月23日在中国光谷科技会展中心开幕

中国科学院大学多位导师获中国青年科技奖

非夕受邀出席斯坦福新机器人中心开幕式，展示创新性的自适应机器人产品及应用

信立方安全大模型亮相“2024年清华大学国家卓越工程师学院工程博士论坛”

京津唐教育协同发展迈入新阶段

4位北航教授，荣获中国青年科技奖！

浙大学生的机器人世界，到底有什么？

沈阳自动化所韩志研究员荣获第十八届中国青年科技奖

华中科技大学电气学院Hi-Motor团队凭借自主研发的永磁电机设计工业软件荣获中国国际大学生创新大赛金奖

第四届“天智杯”人工智能挑战赛北航“牵星”团队，勇夺冠军！

华科大2024年度重大学术进展，揭晓！

第十七届全国大学生创新年会举行 | 华中科技大学5个项目获奖

第18届浙江省高校自动化类专业院长、系主任论坛顺利召开

朗新科技集团与上海交通大学携手共筑校企合作新高度，赋能AI未来