【文章导读】:近日,由清华大学智能技术与系统实验室副主任黄民烈发起,联合十余家科研机构和二十多位知名学者共同制定的全球首个《AI对话系统分级定义》正式发布。
黄民烈表示,AI对话系统任务繁多、评价维度多样、技术路线丰富,撰写小组在制定《分级定义》时仅关注完全由机器主导的对话系统。同时,为了在实际应用中发挥价值,《分级定义》的制定是从用户可感知,以及可观察、可测量、可度量的角度出发,不考虑系统的具体技术实现方式,也不区分助理类任务、闲聊、知识对话等,均以“场景”进行表述。
具体来说,L0级的AI对话系统完全没有自动对话能力或无法给出较高质量的对话。L1级能完成单一场景的较高质量对话,但无法处理场景之间上下文依赖;L2可以同时完成多个场景的较高质量对话,具有处理跨场景的上下文依赖和自然切换能力,但是无法完成新场景较高质量的对话。L3级能针对大量场景开展高质量对话,同时在新场景中也能有较高质量的对话。L4级不仅在新场景中有高质量对话能力,还有较高的拟人化程度。L5级则在L4级的基础上,还能主动学习和持续学习,具有多模态感知与表达能力。

 

全球首个AI对话系统分级定义出炉,和你对话的AI是几级?

 

 

“嘿,Siri”“小度小度”“小爱同学”……只需一句简单的唤醒语,就能与人工智能(AI)对话、让AI实现指令。这个场景相信你并不陌生,但你知道跟其他AI相比,和你对话的AI水平如何吗?

近日,由清华大学智能技术与系统实验室副主任黄民烈发起,联合十余家科研机构和二十多位知名学者共同制定的全球首个《AI对话系统分级定义》(以下简称《分级定义》)正式发布。

南都·AI前哨站了解到,参照自动驾驶汽车的分级,AI对话系统也被分为L0-L5六个等级。据测试,在此《分级定义》的标准之下,当前全球AI对话系统水平最高已发展至L2至L3之间。

AI对话系统被分为L0-L5六个等级

如今,AI对话系统在日常生活中随处可见。比如银行、电信服务商配备的自动应答机器人,显著降低了他们的运营成本;人们在网购时,平台的智能客服会根据提问快速给出解决方案。在大数据、大算力的支持下,更先进的AI对话系统不仅可以回答用户的问题,还能以有趣的方式进行各种话题讨论。

然而,AI对话系统作为当下AI领域的前沿技术,却缺乏行业规范或统一标准,在实际应用中产生了水平参差不齐、评价体系不一的现状。

因此,为了更好地评估AI对话系统的能力水平,黄民烈联合学界和业界科研机构制定了全球首个《分级定义》,旨在衡量AI对话系统的能力水平,促进AI对话系统的进一步研究,为行业应用提供参考。

 

黄民烈讲解对话系统分级定义

黄民烈表示,AI对话系统任务繁多、评价维度多样、技术路线丰富,撰写小组在制定《分级定义》时仅关注完全由机器主导的对话系统。同时,为了在实际应用中发挥价值,《分级定义》的制定是从用户可感知,以及可观察、可测量、可度量的角度出发,不考虑系统的具体技术实现方式,也不区分助理类任务、闲聊、知识对话等,均以“场景”进行表述。

据了解,《分级定义》参考了美国汽车工程师协会(SAE)对自动驾驶汽车的分级定义——自动驾驶按照机器介入程度从无自动驾驶(L0)到完全自动驾驶(L5)分为五个等级。

具体来说,L0级的AI对话系统完全没有自动对话能力或无法给出较高质量的对话。L1级能完成单一场景的较高质量对话,但无法处理场景之间上下文依赖;L2可以同时完成多个场景的较高质量对话,具有处理跨场景的上下文依赖和自然切换能力,但是无法完成新场景较高质量的对话。

L3级能针对大量场景开展高质量对话,同时在新场景中也能有较高质量的对话。L4级不仅在新场景中有高质量对话能力,还有较高的拟人化程度。L5级则在L4级的基础上,还能主动学习和持续学习,具有多模态感知与表达能力。

对话系统分级定义

全球AI对话系统最高等级在L2至L3之间

依据《分级定义》,黄民烈等研究人员还通过让一定数量的测试者与AI对话系统进行充分的对话交互,对常用的一些AI对话系统进行了测试。

在测试之前,测试者被告知系统的能力范围但不告知系统的技术实现方式,最后由测试者从相关性(回复与上文的适配度)、信息量(回复是否提供足够必要的信息,而非通用回复)和自然度(与人类回复相比的自然度,包含语法是否通顺、是否包含常识错误等)三个维度进行主观的总评分。

据InfoQ报道,多位参加制定的专家学者表示,在此《分级定义》的标准之下,当前全球AI对话系统水平最高已发展至L2至L3之间。现阶段,AI对话系统在从L3向L4迈进的过程中,还面临诸多挑战。

小米技术委员会主任、AI实验室主任王斌表示,《分级定义》发布后,AI对话系统能力水平的衡量将有据可依。《分级定义》让用户能够更多地关注、更清晰地理解AI对话系统及其当前的能力水平;行业也有了统一的评估规范,有助于企业明确研发方向。

据悉,该《分级定义》提出之后,黄民烈还将联合该领域相关研究机构及研究者开展白皮书的编纂,聚焦AI对话系统的发展历程,详细阐释《分级定义》的制定目的和标准。

采写:实习生韩艳燕 南都记者蒋琳