【ZiDongHua 之品牌自定位收录关键词:微链视觉   人工智能   通用人工智能  机器视觉

五道口人 | 成为通用人工智能机器人认知技术引领者——访2020级GELP校友冉祥

冉祥,2020级GELP校友,微链视觉董事长。

问:请您和我们简单介绍一下最早创办微链视觉的契机和初衷。

冉祥:我们是从2016年开始调研,并在2019年正式启动这个项目的。当时,我们注意到制造业的工作环境相对恶劣,与写字楼里舒适的条件形成鲜明对比。工厂在冬天可能会达到零下10度到零下20度的低温,夏天也会非常炎热。此外,一些例如焊接和涂胶的工作,还存在一定的危害性,对人体健康有影响。因此,我们预测未来的年轻人不太可能再从事这些工作。在这种背景下,我们开始思考如何利用数据和技术替代这些繁重、危险且对健康有害的工作场景。

工业自动化这个相对传统的领域已经发展了很多年,但为什么仍然有如此多的产业工人?以汽车行业为例,为什么仍然需要大量的人力?根本原因在于产品的复杂性。例如,如果我们想将车门安装在汽车上,当车门从传送带上运送过来时,可能存在位置上的偏移。但传统的工业自动化并不能解决这类问题。

因此,我们认为人工智能和视觉技术是解决问题的关键,特别是传统的二维视觉无法解决的情况,可能需要运用三维视觉技术。随着技术储备的积累和技术进步,这个问题终将被解决。因此,我们决定进入这个行业,在这个过程中我们也遇到了很多以前没有想过的问题。

问:遇到了哪些问题?

冉祥:在工业领域,不论是使用视觉技术、运动控制还是人工智能,工业场景都需要一个综合性的跨学科技术。特别是在人工智能受到广泛关注后,大家开始思考人工智能如何进入物理世界。因此,我们非常早就开始研究如何让人工智能认知我们的物理世界、控制我们的物理世界,并真正取代物理世界中的工作。在这个过程中,会面临一些挑战。

首先是精度的问题。例如,在光线条件下,许多物料会反光,比如金属,而反光会导致在拍照时信息的丢失。我们就需要思考在这种情况下如何实现精确的识别。其次是运动控制的问题。举个例子,当我们使用工业机器人分拣抓取一个深箱里面的物体的时候,机械运动抓取上面物体的时候容易实现,但当我们的机器人开始抓取下层物体的时候,就可能会撞到箱子甚至撞坏物体,机器很难理解空间,并学会如何绕过障碍物和根据空间和目标的姿态变化来生产新的运动轨迹。因此,我们需要思考如何让人工智能理解三维空间,结合空间里的目标和之间的障碍物与运动控制的规则,并让机器人可以实时生成最优的运动轨迹规划,实现智能化的机械操作。想要解决这些问题需要研究精细的技术解决方案,而不仅仅是一个算法、一个模型,因为其中涉及许多细节上的挑战。

实际上,许多学术研究机构也在探索人工智能在物理世界的应用,但它们做的任务相对简单,比如抓取零食、倒咖啡等。这与我们所面对的工业场景相比存在很大的差距。在工业场景中,倒水的精度肯定是不够的,如果我们想要将两个物体安装在一起,通常需要达到亚毫米级别的精度。在这种级别下,光线的明暗变化、温度的升降和地面轻微的振动等因素都会影响识别和抓取的失败。因此,在工业领域,想要打造一个产品并使其可用、可交互,其中需要突破无数个技术难点和技术极限。同时,作为走在前沿的人,我们会遇到许多前人从未遇到过的问题,也很难获得别人的开源算法。所以,工业领域的技术研究是相当艰辛的。

问:请您具体讲一讲,微链视觉AI技术具体的运用场景有哪些?

冉祥:我们大约70%到80%的技术都用于解决生产线上的工人问题。首先解决的是一些比较危险的情况,就像前面提到的焊接、涂胶等损害人体健康的场景,我们的目标是尽量让工人不参与这些任务。逐步地,我们还会让机器替代人工进行一些较重、较大物件的搬运工作。我们最终的目标是实现无人工厂,即逐步减少工人的参与,包括螺丝的拧紧、装配以及物流分拣等环节。我们在其他领域也有一些拓展应用,例如,垃圾处理站的检测、分拣和投炉焚烧发电,大件货物的卡车装载,具有污染排放和辐射风险场景的作业,自动化的粮食种植、智能化的畜牧业养殖,等等。

目前我们的产品在某些方面还未得到广泛应用,主要有两个原因。第一个原因是,从客观条件来看,在标准的工业自动化产品领域,我们现有的技术和产品只能解决大约30%的问题,还有70%的问题是现有技术无法解决的。技术是不断进步的,所以需要年轻人去研究和突破这70%的难题。第二个原因是,有一些问题尽管现有技术也可以解决,但投资成本太高,在目前阶段广泛应用的成本并不划算。但随着技术的进步和规模化,技术价格是在下降的,成本最终也会降到非常低的水平,这时,大规模应用就会变得普遍。就像我们看到的早期电脑和手机的价格很高,只有公司、大老板才能用,而现在电脑和手机已经变得非常普遍。所以,虽然现在存在一些限制,但我相信随着技术的发展,我们的愿景最终将实现。

我认为AI进步的重要价值应该不仅仅在于提高人类社会的效率和价值,还可以解决一些我们目前无法解决的问题,如星际探索。为什么人类不能在月球、火星上建立基地?是因为那些地方没有氧气,不适合人类长时间生存。但如果我们的AI机器人能够自己工作,我们就可以把机器人送上去。因为机器人只需要电能,不需要氧气。它可以在那里建造大型建筑物,在里面建立一个封闭的生态系统,实现循环的氧气供应。这样,我们就可以逐步解决星际探索中的难题。

问:AI发展到今天,其应用的难点是什么?

冉祥:事实上,AI已经经历了多个发展阶段。第一代AI主要是通过读取大数据并预测多种可能性来应对各种情况。然后,我们通过不断投喂数据的方式让AI成为了所谓的“文科生”,即通过对大量数据的死记硬背,用匹配的方式应答各种问题。

然而,我认为现在的AI已经从匹配开始走向理解。新一代的AI需要学会识别物体,更进一步地,AI还要理解空间,知道物体的空间位置。理解空间和匹配空间是不同的,因为匹配空间需要大量的数据,比如想要识别杯子在桌子上的空间位置,这个杯子在桌面上每一个微小的变化就会产生一个数据,那如果想定位杯子的三维位置,就需要海量的数据,这是难以完全标记出来的。但我们人类生活在三维空间中,如果我们想让AI进入我们的物理世界,就必须让它首先具备识别三维空间的能力。既然我们无法标记出所有的三维数据让AI去匹配,那么我们就可以采用一种教“理科生”的方法来让它理解空间。简单来说,我们需要一个通用人工智能(Artificial General Intelligence),就是像教小孩子认识杯子一样,我们不可能教他认识世界上的每一个杯子,我们只需要拿一个杯子告诉他,经过几次训练,下次他就能够自己识别出来。目前,通用人工智能(AGI)尽管还没有商业化,但在实验室中,我们的AI不要提前投喂任何新的数据,他就已经能够识别出任何新的物体,并计算出它们在空间中的位置,你可以定义让他做任何工作。当然,我们更愿意叫这个为微链DaoAI强机器人智能。因为他不仅仅是识别和理解,他还需要自主工作。

问:您认为未来AI的发展是否存在安全性的问题?

冉祥:失控的可能性存在,但从根本上来说,这是人类的问题。人工智能本质上是由人类创造的工具。AI目前掌握的所谓认知能力和推理能力,都是人类利用数学模型构建出来的。我们赋予它什么样的能力,它就具备什么样的能力。就像人类自身也受到社会驯化的影响,中国人受到儒家文化的影响,西方人受到基督教文化的影响。为什么我们无法跳脱这些影响呢?原因在于我们被一套模型所塑造,人工智能也是如此。人类是否存在杀人犯,是的,有些人失控了,变得反社会。因此人工智能也可能出现这种情况。

因此,我认为问题的本质仍然是人类的问题。我们现在需要关注的并不是如何防范人工智能,而是防范那些创造和控制人工智能的人。如果人工智能的进步带来了不好的后果,那也是人类造成的,而不是人工智能本身造成的。我认为真正的风险在于人类,管理人工智能的本质是管理人类。我比较同意采取类似核武器管理的方法,建立一个人工智能保护伞组织。

问:对于AI在发展过程中数据的安全性问题,您是怎么看的?

冉祥:数据的安全问题归根结底是利益的问题。在我们社会的基本形态中,无论是国家,还是个体、组织,都有各自的利益,因此,数据保护的核心在于保护利益。各方为了保护自身的核心数据会采取一些方法和措施,数据的安全边界也因此而存在。AI公司的员工通常不会人为去看数据,都是直接将数据投喂给AI模型去训练,也就是说工作人员并不会知道投喂的是什么数据,而且数据的流向在服务器上都是有日志的,他是受到企业严格监管的,也就是任何人非法使用了数据,从技术路径上都是可以追责的。

从另一个角度来看,数据的安全性问题也可以说是一个相对的概念。随着社会的发展和开放程度的提高,我们对数据的安全边界也在不断变化。同样,工业数据也是如此。过去,工厂的生产线数据和视频是不允许外泄的,但最近大众汽车公司却将自己的生产工艺视频公开给大家观看。类似的例子,比如过去我们非常注重信息的隐私,但现在我们刷个短视频,类似的视频马上就会涌现出来,它知道我们在看什么。因此,数据的安全边界是相对的,并且随着社会的发展和技术的进步,隐私的概念可能会进一步改变。

此外,我认为开源对于学术研究和技术进步也是非常重要的。将学术研究成果公开,可以促进学术和技术的进步,避免重复造轮子,良性地推动研究的快速迭代和创新。当然,企业技术的开源也是有益的,它可以帮助建立一个生态系统,让更多的人参与其中,推动整个行业的发展。

问:您认为未来AI会发展到什么程度?

冉祥:我认为未来人工智能的发展将极其深远。最终,我相信人类将不需要亲自去做任何事情,一切都可以由人工智能来完成。更重要的是,我预见未来所有人都会使用人工智能来处理事务,就像现在如果你不会使用电脑,你几乎无法完成任何工作一样。现在的人工智能正在不断迭代,直接的结果是我们过去十年、二十年甚至一百年、两百年都无法突破的一些技术可能在未来的五到十年会有爆发式的突破。因此,人工智能的进步不仅仅是人工智能本身的进步,更是整个人类文明的进步,人工智能只是提供了一个让人类文明前进的工具。

对于人们对人工智能的恐惧,他们所害怕的不是人工智能本身,而是人工智能强大工具所带来的后果。但就像过去有了汽车,马车夫就失业了一样,这是人类社会文明进步的一个附带属性。因此,我们不应该停留在过去,而是要赶紧学习人工智能,不要一直学习骑马,而是要学习开车。

问:是什么契机让您选择来到五道口金融学院深造?在这里您有哪些收获?对于企业的发展有哪些帮助?

冉祥:在过去,我对金融和资本并不了解,因为我一直专注于实施自己的想法和愿景,对未来充满乐观。后来,我认识到资本能够极大地提高效率,借助资本的力量,我们可以将原本需要花费十年时间完成的事情,在一两年内实现。我希望通过在五道口金融学院的学习,了解如何利用资本赋能来加速公司的发展。我相信除了技术壁垒之外,人才和资本也是成功的要素。

在创业领袖项目中,与同学们,特别是与更年轻的创业者的互动对我来说也非常重要。通过交流,我从他们身上学到了不同的思维方式,也开阔了自己的视野,找到了进步的关键点,这对我的第二次创业非常有帮助。

问:对于那些希望了解并应用AI技术的校友和同学,您对他们有什么建议?

冉祥:首先,对于任何技术,尤其是新技术和颠覆性创新技术的出现,在社会上总是会有很多争议和不同的观点。但我认为,无论是哪种技术,我们都应该拥抱它。因为技术推动了人类的进步和发展。从最早的钻木取火到青铜器、铁器的运用,再到蒸汽机、电气时代,以及现在的信息技术和人工智能时代,我们一直处于技术不断发展的过程中。

当今信息技术的发展带来了人工智能,我们无法拒绝它,只能好好利用它。任何技术都会带来负面影响,但这些都只是其副作用。最好的情况是,我们能够引领技术的发展,如果无法引领,我们也应该紧跟其后,但不要成为因技术进步而被抛弃的人。

《五道口校友通讯》2023年7月刊(2023年第3期总第48期)