多模态大模型——通用人工智能路径的探索

多模态大模型——通用人工智能路径的探索

发布：自动化网来源：中国科学院自动化研究所发布时间：2021-07-13 14:34
第一对焦：中科院自动化所

7月9日，中国科学院自动化研究所所长徐波在2021世界人工智能大会（WAIC2021）上就人工智能的最新进展进行报告，发布了自动化所研发的跨模态通用人工智能平台——“紫东太初”。

　　“紫东太初”跨模态通用人工智能平台以多模态大模型为核心，基于全栈国产化基础软硬件平台，可支撑全场景AI应用。

　　多模态预训练模型被广泛认为是从限定领域的弱人工智能迈向通用人工智能路径的探索。自动化所“紫东太初”跨模态通用人工智能平台瞄准成为实现通用人工智能的开天之斧，在智能世界混沌初开之际开辟新局。

　　依托面向超大规模的高效分布式训练框架，自动化所构建了具有业界领先性能的中文预训练模型、语音预训练模型、视觉预训练模型，并开拓性地通过跨模态语义关联实现了视觉-文本-语音三模态统一表示，构建了三模态预训练大模型，赋予跨模态通用人工智能平台多种核心能力。

　　“紫东太初”兼具跨模态理解和生成能力。与单模态和图文两模态相比，其采用一个大模型就可以灵活支撑图-文-音全场景AI应用，具有了在无监督情况下多任务联合学习、并快速迁移到不同领域数据的强大能力。引入语音模态后的多模态预训练模型，可实现共性图文音语义空间表征和利用，并突破性地直接实现三模态的统一表示。特别地首次使“以图生音”和“以音生图”成为现实，对更广泛、更多样的下游任务提供模型基础支撑，达成AI在如视频配音、语音播报、标题摘要、海报创作等更多元场景的应用。

　　此外，自动化所研发团队还提出了弱关联三模态数据的语义统一表达，可同时支持三种或任两种模态弱关联数据进行预训练，有效降低了多模态数据收集与清洗成本。

　　总结来说，此跨模态通用人工智能平台包括三大关键技术和六大核心能力。三大关键技术为多模态理解与生成的多任务统一建模、面向国产化软硬件的高效训练与部署、多模态预训练模型架构设计与优化。六大核心能力则体现为多模态统一表示与语义关联、跨模态内容转化与生成、预训练模型网络架构设计、标注受限自监督模型学习、模型适配与分布式训练、模型轻量化与推理加速。

　　会上，徐波所长展示了基于“紫东太初”平台打造的虚拟人“小初”，并进行通用多模态大模型的人机对话演示，展示了不同模态间的互相转换和生成实例，涵盖视频描述、智能问答、图像检索、吟诗作赋、中文续写、双语翻译、语音识别等多个功能。生动证明，通过图文音三模态的关联与协同可以有效地提升机器的理解和生成能力，让AI接近人类想象力！

人机对话演示

多模态大模型具备对丰富图文音的理解能力，与单模态的GPT3不同，交流更加生动自然流畅

　　徐波所长表示，“大数据+大模型+多模态”将改变当前单一模型对应单一任务的人工智能研发范式，多模态大模型将成为不同领域的共性平台技术，是迈向通用人工智能路径的探索，具有广阔的应用前景。同时，全栈国产化通用人工智能平台的实践将使人工智能研发的规则发生重大变革并逐渐形成壁垒，对我国实现AI领域科技创新、占领核心技术高地具有重要的战略意义。

自动对焦：徐波人工智能世界人工智能大会多模态大模型模式识别通用人工智能

咨询详情：如需咨询文中涉及的相关产品或解决方案详情，请加微信：ZiDongHuaX 。

微信联盟：徐波微信群、人工智能微信群、世界人工智能大会微信群、多模态大模型微信群、模式识别微信群、通用人工智能微信群，各细分行业微信群：点击这里进入。

鸿达安视：水文水利在线监测仪器、智慧农业在线监测仪器　　　　　　金叶仪器：气体/颗粒物/烟尘在线监测解决方案

西凯昂：SMC气动元件、力士乐液压元件、倍加福光电产品等　　　　　山东诺方：颗粒物传感器、粉尘浓度传感器

深圳金瑞铭：RFID射频识别、智能传感器等物联网解决方案　　　　　　北京英诺艾智：容错服务器、边缘计算解决方案

“紫东太初”开始像人一样思考实现感知理解决策执行一体

智造实力领先，中之杰智能获2024IDC中国生态创新奖

光谷脑机接口芯片完成首例临床测试，将为全球科研团队提供价值1亿元设备

首自信公司亮相2024全国数据治理年会暨博览会，并成功入选数据管理优秀案例

智能化探索频传捷报！博泰车联网入选高工智能汽车硬科技创新TOP50

宏景智驾荣获高工智能汽车TOP50智能汽车硬科技创新奖

打破国际垄断、填补国内技术空白！浦东这家企业全球首发智能焊接新产品

工业设计未来设计创新项目需求

博泰车联网斩获“ICCE产业创新实践”等多项重磅荣誉

2024第十届中国创新设计大会暨中国创新设计产业战略联盟成立十周年大会在嘉善成功举行

国地中心携手上海大学成立人形机器人联合创新中心，共启人形机器人发展新篇章

中国科学院自动化研究所3项成果获2023年度北京市科学技术奖

2024中国5G+工业互联网大会丨百度创始人李彦宏：大模型赋能科技创新和产业创新，在自动驾驶领域应用广泛

中科创达成立中国大陆首个Arm SystemReady Devicetree合规实验室

携手合作赋能创新—2024汽车创新大会在广州开幕

华为云（深圳）具身智能产业创新中心启动，华为云与乐聚加速推进具身智能

首批16家企业“加盟” 多家上市公司参与华为（深圳）全球具身智能产业创新中心正式运营！

CoRL 2024 | 谷歌DeepMind、Meta与Franka Robotics共探机器人学习领域新突破！

三年世界声博会，看国家智能语音创新中心的创新之路

最大载重500公斤！航程超800公里！北京科创企业新研无人机亮相中国航展

多模态大模型——通用人工智能路径的探索

“紫东太初”开始像人一样思考 实现感知理解决策执行一体

智造实力领先，中之杰智能获2024IDC中国生态创新奖

光谷脑机接口芯片完成首例临床测试，将为全球科研团队提供价值1亿元设备

首自信公司亮相2024全国数据治理年会暨博览会，并成功入选数据管理优秀案例

智能化探索频传捷报！博泰车联网入选高工智能汽车硬科技创新TOP50

宏景智驾荣获高工智能汽车TOP50智能汽车硬科技创新奖

打破国际垄断、填补国内技术空白！浦东这家企业全球首发智能焊接新产品

工业设计未来设计创新项目需求

博泰车联网斩获“ICCE产业创新实践”等多项重磅荣誉

2024第十届中国创新设计大会暨中国创新设计产业战略联盟成立十周年大会在嘉善成功举行

国地中心携手上海大学成立人形机器人联合创新中心，共启人形机器人发展新篇章

中国科学院自动化研究所3项成果获2023年度北京市科学技术奖

2024中国5G+工业互联网大会丨百度创始人李彦宏：大模型赋能科技创新和产业创新，在自动驾驶领域应用广泛

中科创达成立中国大陆首个Arm SystemReady Devicetree合规实验室

携手合作 赋能创新—2024汽车创新大会在广州开幕

华为云（深圳）具身智能产业创新中心启动，华为云与乐聚加速推进具身智能

首批16家企业“加盟” 多家上市公司参与 华为（深圳）全球具身智能产业创新中心正式运营！

CoRL 2024 | 谷歌DeepMind、Meta与Franka Robotics共探机器人学习领域新突破！

三年世界声博会，看国家智能语音创新中心的创新之路

最大载重500公斤！航程超800公里！北京科创企业新研无人机亮相中国航展

“紫东太初”开始像人一样思考实现感知理解决策执行一体

携手合作赋能创新—2024汽车创新大会在广州开幕

首批16家企业“加盟” 多家上市公司参与华为（深圳）全球具身智能产业创新中心正式运营！