张亚勤关于智能驾驶及智能交通趋势 、生命科学与生物医药领域的判断 一:
【文章解读】
一:生命科学与生物医药领域:随着基因测序技术、高通量生物实验、传感器等技术的发展,生命科学与生物医药领域正在步入数字化3.0时代,数字化、自动化进程加速。健康计算作为一种新型智能科学计算模式,是以人工智能和数据驱动为核心的第四研究范式。它将极大助力人类探索并解决生命健康问题;
二:自动驾驶领域:建设高等级智能网联道路是智能驾驶及智能交通的一大趋势,既保证了智能车量产的可能性,又保障了高级别自动驾驶基于场景驱动落地的可行性;中国版自动驾驶-汽车驾驶自动化:《汽车驾驶自动化分级》是我国智能网联汽车标准体系的基础类标准之一,由工业和信息化部于2020年3月9日报批公示,2021年1月1日正式实施。
市场监管总局(标准委)针对自动驾驶功能正式出台《汽车驾驶自动化分级》国家推荐标准(GB/T 40429-2021)。新标准2022年3月1日起正式实施。
张亚勤:生命科学与生物医药领域数字化、自动化进程加速
生命科学与生物医药领域正在步入数字化3.0时代,AI正在加速生命健康与生物医药领域向着更快速、更精准、更安全、更经济、更普惠的方向稳步发展。
——张亚勤
9月26日下午,2021年世界互联网大会在乌镇召开。在数据与算法论坛上,清华大学智能产业研究院(AIR)院长张亚勤院士围绕“人工智能赋能生命科学”这一主题,介绍生物世界发生的数字化和智能化新变革,并分享清华大学智能产业研究院(AIR)在人工智能与生命健康交叉学科发展上的新布局。本次报告由张亚勤院长及团队成员马维英、兰艳艳、黄婷婷共同完成。
(摄影/浙江日报记者 李震宇)
随着基因测序技术、高通量生物实验、传感器等技术的发展,生命科学与生物医药领域正在步入数字化3.0时代,数字化、自动化进程加速。健康计算作为一种新型智能科学计算模式,是以人工智能和数据驱动为核心的第四研究范式。它将极大助力人类探索并解决生命健康问题。
人工智能从上世纪五十年代发展到今天,产生了很多不同的算法,尤其是以早期的RNN、LSTM和CNN为代表的深度学习技术,及过去这两年的GAN、transformer- d (BERT和GPT-3模型), 预训练模型等等,可以说从我们感知方面语音识别、人脸识别、物体的分类,已经和人达到同样的水平。但在自然语言理解,知识推理,和视频语义和泛化能力方面还有很多差距。另外在算法透明性,可解释性,因果性,安全,隐私和伦理等方面还存在较大挑战。
在可信AI计算方面最近又很多进展, 一个例子是联邦学习,这也是清华大学智能产业研究院的一个重要研究课题。联邦学习主要有两种方案,一种是横向联邦学习,它主要面向不同来源特征和模型相同的场景,能够保证相同模态不同来源数据之间的隐私性。另一种叫做纵向联邦学习,它可以处理不同来源的特征和模型不同的情况,能够保证多模态数据之间的隐私性。
我们已经看到,AI正在加速生命健康与生物医药领域向着更快速、更精准、更安全、更经济、更普惠的方向稳步发展。具体体现在,人工智能在蛋白质结构预测、CRISPR基因编辑技术、抗体/TCR/个性化的疫苗研发、精准医疗、AI辅助药物设计等方面的研究已成为国际前沿战略性研究热点。
考虑到这样的学科发展趋势和产业背景,清华大学智能产业研究院(AIR)在“AI+生命健康方向”做了四个研究方向的布局,聚焦在研究“AI增强个人健康管理与公共卫生”、“AI+医疗与生命科学”、“AI辅助药物研发”与“AI+基因分析与编辑”方向。
作为交叉领域研究与应用,AIR认识到人工智能与生命科学、生物医药领域存在较大的知识鸿沟,缺乏面向生物计算的数据集、AI平台、核心算法、计算引擎,同时跨界人才也非常稀缺。针对以上挑战,AIR提出“AI+生命科学破壁计划”,目标是定义AI+生命科学领域的核心前沿研究任务,跨越生命健康领域与人工智能的领域鸿沟,打破壁垒,促进AI与生命科学的深度交叉融合,加速科学发现。
为此,我们需要构建面向生命科学领域的人工智能基础设施、数据平台、核心算法引擎,支撑生命科学前沿研究任务。同时通过打造旗舰公开数据集,组织算法挑战竞赛,构建AI+生命科学的众智平台,培养跨界人才,构建产业生态。
AlphaFold2是AI+生命科学的一个典型成功案例。它的成功因素来自于两方面,首先,是任务的特殊性,蛋白质结构预测就可以看作从序列到三维结构的一个一一映射问题,因此它是一个well define的AI问题。这就是破壁计划的目标,要找到生命科学中意义重大,但同时又能抽象为适合AI的研究任务。第二,是模型的优越性。一方面,长时间的生命科学领域的研究积累了大规模的蛋白质结构数据,而AlphaFold2的整个模型架构则充分利用了数据驱动的端到端深度学习模型,大数据与深度模型的结合恰恰是第四范式的典型特点。因此,AlphaFold2带给我们的启示就是在AI+生命科学的研究中,要注重破壁和第四范式的重要性。
显然,AlphaFold2仅仅是一个开始,它的成功正在开启一个新的模式。蛋白质结构的精准预测为生命科学家提供了高效的计算工具,也为基于AI的重大生命科学发现提供了可能。未来,抗体、抗原的表位预测,肿瘤的精准疗法,TCR/个性化疫苗的设计与优化等方向将成为重要的研究热点,并在AI驱动的新计算模式下取得突破性进展,AI+大分子制药的黄金时代将正式到来。
其中,还会产生很多新的科学挑战,也预示着将产生新的计算范式,例如,干湿融合的闭环式计算框架。一方面人工智能模型通过高通量、多轮湿实验的闭环验证和数据补充将变得更为智能。另一方面,通过主动学习或强化学习的方式, AI将主动规划湿实验的自动化进行,形成干湿闭环验证、迭代加速生命科学发现与产业应用。我们预见到,通过干湿闭环打通,生命科学研究与生物医药产业将迎来新的研究范式与产业模式。
AIR目前在基因数据的表达和预测方面已经取得了一些初步进展。最近,由我们清华大学智能产业研究院(AIR)的兰艳艳教授带领GeneBert团队设计了一个新颖的基因预训练模型,通过构建序列与转录因子之间的二维矩阵,实现了一个多模态的基因预训练模型,获取了基因数据的有效表示,尤其是挖掘了非编码区的数据价值,在下游的启动子、转录子结合位点的预测,先天性巨结肠疾病的基因筛选任务上都大幅提高了性能。我们相信,类似预训练这样的前沿AI技术在基因数据上的持续深入应用,将进一步挖掘基因数据的价值,帮助我们破解人类的密码,在癌症的精准治疗等重要问题上发挥作用。
总结来看,我们认为,生物世界正处于数字化、自动化和智能科学计算的新变革中,用计算的方法,即人工智能和数据驱动的第四研究范式来辅助人们探索并解决生命健康的问题成为一个重要的研究方向。未来,需要学术界和产业界共同推动生命科学、生物医药、基因工程、个人健康各领域从孤立、开环向协同、闭环发展,实现更快速、更精准、更安全、更经济、更普惠的生命科学与生物医药创新,这代表着下个十年巨大的科学发展与产业创新的新机会。
我们热切呼吁更多的人来关注、支持或投身于这个新兴交叉学科的发展。
撰文排版 / 冼晓晴
校对责编 / 黄妍
张亚勤:建设高等级智能网联道路是智能驾驶及智能交通的一大趋势
2月24日,全球首个车路协同自动驾驶数据集DAIR-V2X正式发布,向境内用户提供下载使用。该数据集由清华大学智能产业研究院(AIR)联合北京市高级别自动驾驶示范区、北京车网科技发展有限公司、百度Apollo、北京智源人工智能研究院共同发布。
此次发布的数据集首次实现在相同时空下,车端与路端联合视角的2D、3D标注方法创新,作为业界、学界首个开源车路协同数据集,将大力服务科研、产业、政府机构,有效协同各方进行车路协同的学术研究和产业落地,促进我国车路协同发展。
数据集正式发布
2020年2月,国家发改委联合相关部委出台《智能汽车创新发展战略》,将“推进智能化道路基础设置规划建设”作为重要的国家战略任务,明确了“单车智能+车路协同”的中国特色自动驾驶路线,车路协同成为各界研究重点。
面向学界业界痛点 架起研究与落地桥梁
北京经济技术开发区管委会副主任、北京市高级别自动驾驶示范区工作办公室主任孔磊表示,未来将及时利用数据转化制定一批车路协同数据标准,推动行业数据要素、接口、格式等标准统一,为示范区建设和行业发展提供参考和指导;通过数据开放,为高校和科研机构提供基础数据,为企业产品研发测试提供支持,有效加速产学研用协同,同时继续开展数据开放和共享服务模式探索,推动数字经济发展。
DAIR-V2X数据集整体特征
DAIR-V2X学业界及产业界效益
张亚勤发言
清华大学智能产业研究院(AIR)院长张亚勤教授认为,建设高等级智能网联道路是智能驾驶及智能交通的一大趋势,既保证了智能车量产的可能性,又保障了高级别自动驾驶基于场景驱动落地的可行性。在智能交通领域,AIR已与多家企业开展校企合作,包括车路协同自动驾驶、垂直行业、小车物流、Robotaxi等应用场景。面对相关数据集的缺乏,不能满足各界实现数据驱动车路协同的现实问题,AIR发起数据集建设,并将数据集对高校、科研院所、产业用户开放,可以更好地支撑科研机构进行科学研究。
DAIR-V2X数据集全球首次发布
此次发布的全球首个车路协同自动驾驶数据集DAIR-V2X,对于促进我国高级别自动驾驶技术的研发具有重要意义。在新基建、交通强国战略指引下,“单车智能+车路协同”的中国特色自动驾驶路线以其领先性,逐步得到国际认可。未来,在产学研各界基于车路协同自动驾驶数据集的有效协作下,将继续推动车路协同自动驾驶的应用落地,助力我国自动驾驶和智能交通产业的快速发展。
评论排行