前美团外卖技术负责人创业,做具身智能时代的“餐饮世界模型”
具身智能的落地,正在从实验室走向最真实、最繁忙的物理世界。
而元节智能(AtomBite.AI)选择了一个看起来并不性感、但足够真实的场景:餐饮后厨。
36氪获悉,具身智能公司元节智能近日完成千万级种子轮融资,由英诺科创基金领投,水木清华校友种子基金、知名投资人个人跟投。资金将主要用于餐饮场景具身世界模型研发及核心产品落地。
元节核心团队在成立公司前有过较长时期的探索和孵化,此次融资标志着项目初步验证可行性,并已拿到国内外多家头部公司的产品合作部署意向。
元节智能的创始团队带有鲜明的“美团基因”。
创始人兼CEO王栋博士曾任美团外卖事业部技术负责人,管理千人产研团队,主导构建支撑日均数千万订单的外卖算法、数据与系统架构;联合创始人李滔曾执掌美团外卖算法与数据体系,是少数真正跑通过“全链路数据算法驱动”的技术负责人;联合创始人李浩哲则是连续创业者,具备多年全球化商业落地经验。
过去几年,餐饮数字化已经被SaaS、点餐小程序、配送调度系统改造了一轮又一轮,但当全球外卖订单持续攀升,一个长期被忽视的问题开始变得越来越突出:从商家出餐到骑手取餐之间,仍然存在大量高度依赖人工的物理操作环节。
比如打包、封签、分拣、接驳、配送。
这些流程看似琐碎,却直接影响整个履约效率。错单、漏单、撒漏带来的损耗,会同时传导至用户、商家、骑手与平台四端。与此同时,全球餐饮行业还普遍面临结构性用工问题:北美快餐行业时薪持续上涨,国内餐饮门店则长期存在招工难、流动率高的问题。
离开美团之后,王栋曾在北美与新加坡进行了持续数月的市场考察,深入走访大量餐饮商家与外卖平台。他最终形成了一个明确判断:餐饮后厨,可能是具身智能最具确定性的商业落地方向之一。
原因在于,这个场景同时具备几个关键特征。
首先,它是全球共通需求。无论中国、北美还是东南亚,餐饮行业都面临人力成本上升与履约效率问题。
其次,它的ROI足够清晰。只要能够降低错单率、减少人工、提升出餐效率,商家就愿意为此付费。
更重要的是,相比家庭、养老等强调情感交互的场景,餐饮属于专业服务领域,决策链条更短,中小商家合作意愿更强。
在接受36氪采访时,王栋表示,服务业本身占据全球GDP的巨大比例。如果能够在餐饮后厨这个高频场景中建立起真正可运行的具身方案,实现从模型到应用的系统性落地闭环,本身就价值巨大,并且也具备未来再向家庭厨房等更复杂的场景延伸的可能。
企业供图
相比不少公司优先做“通用具身世界模型”,元节智能更倾向于从真实场景中持续学习以逐步建立模型能力。
王栋表示,“移动能力(Locomotion)经过七八年发展,其实已经基本解决了。现在行业真正的焦点,开始转向精细操作。虽然灵巧手距离真正成熟还有距离,但二指、三指夹爪已经出现大量成熟的工程化方案,可以支撑部分标准化任务落地。”
在这样的判断下,元节智能没有把重点放在重新发明机器人硬件,而是要做一套面向餐饮场景的“世界动作模型(World Action Model,WAM)”。
在王栋看来,VLA(Vision-Language-Action)路线过度依赖语言模块进行高层规划,但对视觉表征不足,而真实世界里的动作控制,本质上并不依赖语言。“人类真正的动作控制路径,其实没有那么强依赖language。更核心的问题,是视觉理解、物理理解,以及动作如何与真实世界建立映射。”
基于这一判断,元节智能在模型层面更强调探索融合视觉(Vision)与触觉(Touch)的“VT-WAM”(视觉-触觉世界动作模型)。王栋解释道:“视觉看得见物体,却看不见接触;触觉看不见全局,却看得见成败。视觉ground的是世界的几何侧面,触觉ground的是世界的物理侧面。VT-WAM再把这两类信息通过隐空间综合进一个能预判接触后果的‘世界-动作模型’。”
世界模型不仅需要视觉感知能力,更重要的是理解真实物理世界中的规律与因果关系。他举例说,一个饮料杯是否装水、装得满不满、温度是冷是热,都会影响机器人抓取时的摩擦力、重心变化与操作稳定性。
元节智能希望通过视觉、触觉等多传感器协同感知物体状态,并在模型中嵌入对液体晃动、重心变化等物理属性的因果理解,让机器人的动作不只是基于数据拟合,而是真正符合现实世界的物理规律,从而提升抓取与操作的稳定性和精细度。
从技术架构来看,元节的系统大致分为三层:最上层是具身世界模型,用于形成对后厨环境的认知,并完成决策与动作规划;中层是任务编排与调度引擎,将认知结果转化为具体执行计划,并统一调度不同设备;底层则是自研核心部件与通用硬件本体的融合,确保系统能够在真实后厨长期稳定运行。
这套架构背后的核心逻辑是:不是先造一个通用机器人,再去寻找应用场景,而是在一个足够高频、足够痛的场景里持续收集真实交互数据,反过来喂养世界模型,让模型在物理世界中越来越“聪明”。
餐饮后厨每天都在重复大量高频操作——打包、分拣、搬运、烹饪、接驳——这些动作天然能够形成海量、多样化的真实世界数据,而这类数据很难单纯依靠仿真环境生成。
企业供图
具体落地路径上,元节智能目前选择从“外卖打包与接驳”切入。这是整个履约链路中出错率最高、标准化程度相对较高、同时又最容易量化价值的环节。
“打包环节的任务范围清晰,场景可控,我们的路径是以商业价值为依据,先聚焦提升抓取精准度,做到可用可靠。”王栋表示,“站在商业视角,商家并不在意你的机器人像不像人,会不会跳舞,商家更在乎你到底能帮我干什么活。”
目前,元节的方案是将高频、标准化动作交给端侧轻量化小模型执行,例如套餐装盒、封签等动作,以降低延迟与网络依赖;而云端大模型则主要用于处理异常情况,例如物料缺失、异物干扰等复杂场景,并通过KDS系统联动后厨人工补位。
打包环节模型预计会在2026年内进入真实商家后厨进行规模化部署。
在团队的设想中,未来模型能力会从打包这一单点环节切入,继续向更复杂的后厨操作延伸,包括分拣、配送接驳、烹饪协同,甚至逐步进入更广泛的服务业场景。