【ZiDongHua 之品牌自定位收录关键词:大模型 机器人 大模型 自动驾驶 】
00后耶鲁博士携产业链老兵创业,半年造出的人形机器人要量产了 | U报道
在人工智能不断突破边界的今天,具身智能正掀起新一轮技术革命浪潮。作为这波热潮中的一枚创业新星,UniX AI仅成立半年,便推出两款自主研发的人形机器人产品,其中轮式双臂机器人Wanda即将步入量产阶段。
近日,UniX AI CEO&创始人杨丰瑜围绕人形机器人产品切入场景、研发路线、触觉大模型等话题,接受「甲子苏州」专访,阐述UniX AI对具身智能的独特理解,展示这一段不同寻常的产业化加速之路。
来源 | 甲子苏州
作者 | 八度
设想一个场景,对机器人说一句:“我想吃一份减肥餐。”
它在几分钟内,给你拿上一块嫩豆腐,给土豆丝胡萝卜削皮,制作出一碗减脂豆腐汤,并拿出勺子端到你面前,待你吃完,给你把盘子刷了洗了。
当你下令“帮我把衣服洗了”,它能自己拿起你的脏衣服,放入洗衣机,并操作好洗衣机的各项模式。
这些场景好似只存在于科幻影片,但如今,它已经进入现实。在优理奇科技(UniX AI)办公室内,Wanda和Martian,两款人形机器人,正在厨房、卧室等家庭场景中模拟运作。
UniX AI是一家创立半年多的公司,为何能迅速开发两款人形机器人产品?「甲子苏州」在深入对话后,发现了两点原因:
其一,这和创始人和团队的技术沉淀有很大关系。创始人杨丰瑜,00年出生,毕业于密歇根大学工学院计算机专业,并于耶鲁大学进行博士深造,目前已发表15篇机器人视触觉论文。杨丰瑜提出了世界首个融合触觉的预训练多模态大模型UniTouch。
在杨丰瑜看来,触觉最大的应用一定是机器人。
“这波具身智能浪潮最重要的就是通用和泛化,我们在机器人材料识别、非刚性物体抓取操作等精细动作上,触觉大模型都发挥了非常重要的作用。”杨丰瑜说道。
换言之,触觉大模型,可以让机器人连续处理家庭场景中的精细活,这项技术正是UniX AI的长处。
其二,要想具身智能机器人真正产业化,杨丰瑜非常清楚,一定要降成本。“我们的产品必须是C端用户可以接受的成本。如果我卖几十万、上百万,那就不是C端场景了。”
杨丰瑜表示,团队在工程和供应链管理上投入了巨大的精力,特别是在优化物料清单(BOM)方面。
当然,这也与UniX AI地处苏州有很大关系。他提到,苏州在许多关键零部件的生产上,提供了强有力的支持。结合自主研发,UniX AI从一开始就直奔机器人的量产,并且力求普惠性。
杨丰瑜向「甲子苏州」透露,UniX AI的物料清单(BOM)成本介于一部苹果手机和一辆入门级汽车的价格之间。
由「甲子苏州」现场拍摄
伴随大模型发展,具身智能的热度“扶摇直上”,舆论场声量日益高涨,相关公司的融资动辄数亿。
作为这波热潮中的一枚创业新星,UniX AI为何选择先从家庭场景切入?具身智能技术发展到了哪一步?创业半年,杨丰瑜向我们展现了他对行业的观察,和作为局中人的思考。
以下为「甲子苏州」与杨丰瑜的对话内容,经过编辑整理。
01
00后创业,瞄准消费级通用机器人
甲子苏州:你之前提到,公司的核心逻辑是从场景出发。你从什么时候确定公司围绕C端市场及家庭场景的机器人展开?为什么瞄准消费级?
杨丰瑜:对,这是一个非常好的问题。在选择应用场景时,我们有一整套自己的逻辑,主要基于三个关键点。
首先,具身智能这个行业在今天还处于非常早期的阶段,并没有太成熟。
在我看来,如果我们拿苹果手机来类比这个赛道的话,它可能还处在“iPhone 1”时代。所以我们认为,在挑场景的时候优先要考虑能不能“真的卖出去”,卖出去的前提是,容错率不能太低。
我们今天讨论的这一波具身智能,无论从场景的复杂度还是泛化性要求来看,都非常高。如果想从Day 1就做到99%甚至更高的准确率,那是非常困难的。因此,我们选择场景时,必须选择一些即使只有80%、90%或者95%的准确率,客户也愿意买单的场景。我们认为,对于初期来说,这可能是一个比较好的起点。
其次,我们不会一开始就深入到特定的工厂生产线,因为今天很多人都在喊“上产线”这个事儿,但我们观察过很多生产线,也和很多伙伴交流过,工厂对容错率的要求非常严格。
在许多高复杂性场景中,机器人的表现还不够精准,所以我们认为在这种情况下,选择容错率较高的场景是很重要的一点。
第三,我们的终极目标是做一个通用具身的场景,也就是说,很多年以后,机器人会是一个科幻片里看到的,能够执行任何任务的通用机器人,我们公司从上到下都高度相信这件事儿能做成。
因此以终为始,我们认为数据对智能机器人的发展至关重要。我们在考虑数据飞轮的时候,不光考虑数据的绝对数量,也会考虑数据的质量和多样性,我们希望前期收集到的数据是高质量、有意义的。
甲子苏州:也就是说,在你看来,C端市场的容错率更高?
杨丰瑜:是的,公司几个核心高管都是从大的场景方出来,包括C端、工厂、物流、供应链、to G等几乎所有的潜在场景我们团队原来都深度参与过。目前大多数面向企业(ToB)的需求我们都慎重评估过,客观地说对初创公司不算特别友好。我们也不完全锁定在C端这个场景里面,B端我们也考虑做,但是有选择性地做。
说到容错率,B端工业场景,其实是要求你不允许出错。因为我们使用机器人的地方都是量产场景,任何一个小错误都可能导致灾难性的后果。比如在汽车产业中,可能就要返厂,这个影响非常大。
在家庭场景中,容错率高一些,这其实也是相对的。比如机器人在洗衣服时不小心将衣物掉在地上,这影响没有太大,可以让机器人捡起来再放回洗衣机。当然家庭场景中也要求安全,所以我们在安全性上下了很多功夫。
甲子苏州:在创业之前你做过怎样的调研?这种消费级场景的机器人市场需求有多大?
杨丰瑜:在创业之前,我们做了大量调研,不然不会盲目进入这个赛道。当然,无论是技术还是场景,它们都是快速变化的。但我们对我们选择的这个场景是有高度的信心。
我认为第一点是,消费级机器人理论上市场空间非常大,它不仅包括家庭,还包括零售、办公服务等场景。我们只看家庭,中国家庭的规模大约有5亿户,假设我们的产品能覆盖1%的家庭,再乘以我们产品的单价,整个潜在的市场空间至少在千亿元以上。当然,家庭场景肯定有自己的挑战。
所以,如果我们想尽快实现机器人的普及,特别是在消费级场景中,我认为有几个要素。
第一个要素是从成本端考虑,我们的产品必须是C端用户可以接受的成本。如果我卖几十万、上百万,那就不是C端场景了。
基于此,我们团队投入了大量精力在供应链上,包括自研优化BOM(物料清单)等方面,我们会非常快速地将成本降到C端用户可以接受的水平。我认为这是非常重要的第一点。
第二点从价值上讲,强替代逻辑在具身智能的第一轮演进中很难实现,所谓的强替代逻辑,就是要求你新的产品与原有的东西进行比较。比如在家庭中,我卖的机器人,我可以负责任地说,我的第一代产品替代不了人,也不是用来替代人的。无论是从速度、准确率还是智能性来看,都跟人没有办法比较。
当然我对整个机器人行业的长期发展,非常有信心。我坚信未来的某一天,机器人可能跟人差不多,甚至超过人的效率,就像我们在漫威电影中看到的管家贾维斯一样。
但我们从务实的角度上来看,这是一个渐进式的路线,人机混合将会长期存在。这种人机混合不一定是物理上的混合,可能是人和机器人在同一个空间内工作,也可能是工序上或流程上的分配。类似于自动驾驶的L2、L3级别,机器人或自动驾驶的智能体可能能够处理80%、90%甚至99%的情况。但在一些极端情况下,可能需要人为干预。
从整个产品的角度来看,L0意思是纯人工远程控制操作,L2意味着快速学习一些自定义功能,再加上一些半人为干预的功能,再加上少量的几乎不需要人为参与的全闭环功能。我觉得它是这么一个渐进式的路线。
从我们近期的观察来看,包括特斯拉Optimus最新的发布会也从一味的强调B端到更多的C端人机混合渐进式路线,这和我对行业的理解思考不谋而合。
甲子苏州:以前自动驾驶经常讲L2、L4,现在具身智能也有L2、L4路线出来了?
杨丰瑜:其实没有,这是我们自己内部类比的自动驾驶路线,可能也有别的名字,这样主要便于理解,总之它是个渐进式的路线。
甲子苏州:现在你会怎么分配学业和创业之间的时间精力?
杨丰瑜:其实我觉得不矛盾,我现阶段精力差不多全部在创业上面了,前两天我又中了一篇文章,我今年应该中了接近10篇关于人工智能或机器人领域的顶会,所以现在我也是从学校里on leave(休假)全职创业做事。
02
半年自研机器人
优理奇选择“先入为主”
甲子苏州:UniX AI的首款产品是轮臂式机器人,为什么选择轮臂式,而不是现在大火的人形机器人、双足机器人?
杨丰瑜:我觉得第一点是从技术层面来讲,你可以看到我们实际上有两款产品,一款叫Wanda(轮式双臂),另一款叫Martian(人形双足)。从技术战略上讲,我们是瞄准难度更大的双足加上灵巧手来进行研发的。
第二点,我们从商业化的角度来考虑这个问题。我认为有很多因素需要考虑,其中之一是场景的成熟度。今天很多场景并不一定需要双足机器人来做,轮臂式机器人完全能够覆盖。
而且,轮臂加上机械爪的方案,无论从前期开发、成本,还是推广角度来看,都相对有优势。我们认为这种方案基本上适用于家庭和绝大多数的商业服务场景,甚至在工厂里,原来使用AGV的地方,我认为都可以使用轮式,除了可能需要上楼梯或户外的情况。
当然,我们最终的目标肯定是瞄准全场景的通用性,这是一个循序渐进的过程。
甲子苏州:其实还是渐进式路线的一环。
杨丰瑜:是的。
甲子苏州:科技圈经常用“拿着锤子找钉子”来比喻只有技术没有落地场景。你认为现在UniX AI瞄准的消费级机器人存在这一现象吗?
杨丰瑜:我们公司整个核心高管都是从产业里面出来的,我们拥有全球性的领军人才,加上产业界经验非常丰富的老兵,所以我们对应用场景的理解非常深刻,这是第一点。
第二点是,我们的研发是全栈式的自研,我们的产品团队会做非常深入的一些调研,我们不会闭门造车,我们也不会盲目追随许多大B的长尾需求。
从功能上讲,我们是L4+L2+L0渐进式的路线,以上这几个点是互相结合、互相扩充的。
我们制定这三个技术路线和功能,其实也是避免“拿着锤子找钉子”的现象。
甲子苏州:你们在创业的时候,在行业里有对标的公司吗?
杨丰瑜:具身智能,客观来说,是去年才出现的一个新事物。在国内,我们的友商成立时间最早是2022年底,绝大多数是在2023年。
实际上,我想创业的时候,应该是去年这段时间,我们大概花了半年左右的时间来招揽人才。那个时候,我认为整个具身智能行业都还在一个早期阶段,谈不上对标,因为大家都没有产品,很多商业化路径都没有形成。
所以我觉得整个行业中所有人都在摸着石头过河做这件事,大家勇于走出了第一步,我们也愿意在具身智能行业里面作为一个先驱者不断探索技术的极限、产品的极限。
甲子苏州:此前优理奇对外称,首批百台人形机器人即将量产,现在量产计划和节奏大致如何?
杨丰瑜:我们从第一代产品发布以来,收到的订单意向已经超出了我们的预期,我们正在紧锣密鼓地研发Wanda 2.0版本,后续的产品会分批次的交付。这一百台机器人的主要价值不在于它能够为我们产生多少收入,而在于可以极大程度锻炼团队的量产能力以及深入场景与用户一起共创打磨产品。我们认为,“三代出精品”是非常重要的一件事。
03
当机器人遇见触觉大模型
甲子苏州:我们看到,优理奇在触觉大模型上是有自己的技术之道,触觉大模型,可以让机器人连续处理家庭的精细活,这算是你们最大的亮点之一?
杨丰瑜:当然,我本人是搞触觉传感研究出身。我们所说的触觉,因为我原来是这块研究的第一作者,所以可以肯定地说,它是全世界第一个包含触觉的多模态大模型。
我认为触觉在操作上是“皇冠上的明珠”,在许多精细操作层面上,比如我需要把一个水瓶盖拧紧,需要拧到什么程度,水才不会漏,才能确保它被拧紧?或者怎么把一些比较软的物体拿起来?
其实我们之前发布的demo你可以看到,我们甚至可以用我们的触觉算法拿起一块嫩豆腐,所以毋庸置疑,在触觉传感领域,这绝对是我们一个非常大的竞争优势。
在模型层面上,我们拥有全世界最顶尖的包含触觉的多模态大模型。在数据层面上,全世界最大的两个包含触觉的视触觉数据集都是我本人做的。当然,我们在创业之后又将这些数据集的规模扩大了一个量级。
触觉大模型,在绝大部分的物理世界交互中有极其重要的作用,也能沉淀具身智能相对稀缺的数据。
甲子苏州:这些已有的技术,是支撑你们快速进行产品研发的重要支撑?
杨丰瑜:是,刚刚我们讲的是触觉传感领域,这是我自己的一些技术。我们团队不只是我一个人的技术结晶,我们还有一套感知操作解耦的范式。
我们看到这一代的具身智能核心变量是泛化,但很可惜的是,生搬硬套端到端模型的做法,反而没有用上大模型带来的泛化能力。通过感知和操作解耦,我们有一套基于关键点的模仿学习可以快速通过少量示教模仿学习动作实质。同时通过我们自己预训练的触觉融合多模态大模型的泛化能力,在物体、场景、运动,三个维度达到非常强的泛化性。
另一个重要的点是,我们用多模态反馈做了闭环的控制。我觉得具身智能从定义上讲,就是跟环境实时交互,并通过环境交互反馈的数据不断优化它的策略的过程。
所以,我们不是一套开环逻辑,比如我要让机器人去抓一个东西,不是说“好的,我看到了,我要抓取一个点,然后开始执行传统的运动控制算法”。如果过程中物体位置发生挪动,或者中间出现障碍物需要绕行,这些都是原来开环没有办法做到的,但我们可以做到非常强的一个闭环控制。
另外,我们的模型是一个白盒模型,而不是一个端到端的纯黑盒模型。这意味着我们有几个关键点,可以人为地进行可视化,并进行添加、删除或修改。你可以理解为,比如让大家一起参加考试,其他一些端到端的方式可能只是输入题目,然后输出答案,没有中间过程,你不知道为什么对,也不知道为什么错。这种模型的可干预性和可纠错性实际上很差。
但我们的白盒模型的可解释性非常高,我们兼具了强大的泛化性和灵活性,能够支持非常复杂的任务。另外,我们对数据的利用率非常高,只需要非常少量的数据就能做到非常强的泛化性。
而且,从算法层面上讲,我觉得机器人一定是软硬件深度耦合的结果。我们的算法和硬件同步开发,软件强耦合,迭代速度非常快。我们的硬件成本基本上在行业中做到了极致。
同时,我还想补充一点,我们对算力的要求非常低,是真正可端侧训练部署的模型架构,我们甚至在和一些国产GPU探索合作机会。
所以在WRC上,可以看到我们不需要在机器人旁边插上一台电脑。我的机器人可以使用一些工控机和端侧芯片来完成很多任务,满足了具身智能在场景中发挥作用的前提。可以一边移动一边操作,这在行业里非常难得。
04
具身智能机器人的“普惠点”
甲子苏州:听说UniX AI的团队中有很多从机器人、汽车产业出来的供应链专家,在团队搭建上你是如何考虑的?如何看待供应链的重要性?
杨丰瑜:我觉得这个问题问得非常好。从第一天开始,我们就坚决要走全栈式的软硬件深度耦合的路线。这件事从一开始就非常明确,因为我们看自动驾驶,最终能够走到终局的要么是主机厂,如特斯拉,要么是跟主机厂深度绑定的一些公司。
所以,从软硬件的角度来讲,我们一定是两手都要抓,两手都要硬。你刚谈到供应链,供应链更多是在硬件层面,我们整个硬件团队也投入了非常大精力,我觉得硬件团队有几个价值:
第一,我们整个软件核心自研实现了指数级别的成本降低。今天很多公司如果依靠外购来组装一个机器人,现在市面上能做人形机器人或者搭建人形机器人框架的公司,虽然没有上百家,肯定也有大几十家。所以,组装一个机器人本身并没有大家想象的那么困难。但是,如果要把机器人卖到实际场景中,从降本的角度考虑,这是非常重要的事。因为今天人形机器人还没有起量,这是一个先有鸡还是先有蛋的问题。
第二,我前面反复强调初期快速迭代的能力非常重要。我们有一个非常精干的硬件团队,使得我们的产品开发迭代速度非常快,尤其是我们可以随时发现问题、随时修改。
比如,我们的软件深度耦合了很多需求,这些需求不是硬件本身的需求,而是由场景、由实现这个场景的算法端提出的需求,这些需求可能会发生变化。所以,我们需要保证一个非常敏捷高效的迭代速度。如果依靠外购,这件事很难做到。外购一方面很多时候只能买到一些标品,这些标品不能满足特定场景的需求。如果让他们定制化开发,灵活性又不如自己来做。
第三点是我们在算法上是一个白盒,但我们也希望在硬件上接近一个白盒。因为今天的数据飞轮肯定是一个长周期的事情,不是一两年就能见效的。就自动驾驶而言,数据飞轮才初见成效。
所以,我们一定要考虑到长周期内硬件的迁移复用,以及数据的迁移复用,这是非常关键的。
甲子苏州:你在选人上有哪些标准?
杨丰瑜:可以肯定的是,我们不会过度扩张团队。我们现在大约有100人的规模,不准备快速扩张到几倍的规模。我觉得机器人这个行业,不是一个劳动密集型产业,它是一个技术和知识密集型产业。所以,人才的密度很重要。
关键的几个人很多时候就能让你做得非常快,这也是我们团队发展非常快速的一个原因。从硬件上我们少走了很多弯路,从算法上我们从一开始就非常清醒地知道应该怎么做,而且我们的算法团队能够快速落地,有非常强的软件结合经验,才能让我们在半年时间内就完成了产品的发布和非常多的demo。
甲子苏州:我对你们在机器人供应链中“降本增效”这块非常感兴趣。你刚才也提到了一些,现在UniX AI机器人价格可以透露吗?
杨丰瑜:价格我现在不方便透露,但我可以给你一个大致的概念,我的BOM成本应该是在一个苹果智能手机和一个入门级汽车的售价之间。
你也提到了增效这个词,我们团队在提升机器人现有阶段效用的点上也花了非常多的精力。具体产品细节现在不太好披露,不过可以说的是具身智能的iPhone 1时代已经到来。
只有成本和效用两条曲线的加速交汇,才可以加速通用具身智能普惠点的到来。
从我们现在的市场调研来看,对于部分行业尝鲜者,普惠点已经到来。随着我们的量产机会推动,针对大众的具身智能普惠点也不会遥远。
甲子苏州:一个机器人它会涉及多少零部件?
杨丰瑜:我们大概拆细了,不算螺丝、螺母,其他大约有3~500个零部件。
甲子苏州:机器人供应链的降本增效,和UniX AI地处苏州有关系吗?
杨丰瑜:当然,客观地讲,我认为苏州在制造业技术上非常扎实,尤其在机器人产业上游许多关键零部件上,比如减速器、关键传感器等领域很成熟。
今天中国机器人供应链主要集中在以苏州为中心的长三角地区和以深圳为中心的珠三角地区。而且在上一波机器人浪潮中,苏州在扫地机器人、移动机器人、服务机器人等方面有着非常强的聚集效应。我们在排摸产业链的过程中也多次碰到特斯拉在长三角储备供应链,这些也是我们团队深耕长三角的原因。
而且,因为苏州的制造业底子很厚实,在生产资源上也非常支持。比如苏州工业园区有很多工厂场地,有非常丰富的配套政策,我觉得这些对创业者来说是非常友好的。
评论排行