7月2日至7月5日,2025年全球数字经济大会在京召开。北京智源人工智能研究院院长王仲远在接受新华网专访时表示,具身智能是一场至少持续5到10年乃至更长时间的产业革命,需保持长期视角推动技术突破与产业落地,智源研究院通过技术创新与生态协作突破发展瓶颈,推动产学研深度融合与人才培养,助力中国在全球具身智能领域占据领先地位。
新华网:您觉得具身智能会在哪些产业率先爆发?2到3年内具身智能“集中力量办大事”主要发展方向是什么?
王仲远:具身智能是一场长期的产业革命,至少持续5到10年乃至更长时间,对于具身智能需要保持长期的耐心。在未来2到3年内,我认为其率先会在to b的场景里应用,比如在封闭的场景里应用机器人进行货物或包裹的分拣、零件的装配等。这些场景的特点是机器人可在相对封闭的环境中作业,较少与人类打交道,对硬件和模型的成熟度要求相对较低,更容易实现在产业端的落地应用。
新华网:您曾提到“具身大脑RoboBrain 2.0是目前全球最强的开源具身大脑大模型”,这个标准是什么?整个具身大脑目前全球产业竞争格局是什么?
王仲远:多模态大模型虽具备在具身机器人上应用的潜力,能帮助人工智能感知、理解世界并对人类指令进行推理,但是缺乏对于空间和时间的感知。而机器人在真实的物理世界里,它要面临的是一个三维的空间,加上时间序列的特点,使得多模态大模型并不能简单地直接适配于具身机器人,这就是我们研发具身大脑大模型的意义所在。
智源研究院研发的“具身大脑RoboBrain”,从3月份在中关村论坛上发布1.0版本,到6月份在智源大会上发布2.0的7B版本,再到如今在全球数字经济大会上发布2.0的32B版本,其一直不断提升的是对于空间的感知和推理能力,从而能够指挥机器人本体根据用户的交互来执行具体指令。因此,在指令拆解、空间感知、空间理解、推理能力以及闭环反馈等能力上,RoboBrain 2.0的优势显著。同时,RoboBrain 2.0还有一个显著的特点,它能真正跨本体,适配各种构型、品牌的机器人本体,例如机械臂、轮式单臂、轮式双臂以及双足人形机器人等,并通过大小脑协作框架,使其易于部署在不同的机器人上,这是其他具身大模型不太具备的能力。在行业里已有的具身相关基准评测上,RoboBrain 2.0也都显著优于其他已发布的具身大模型。这些都是其作为全球最强的开源具身大脑大模型的依据。
新华网:您曾提到具身智能产业发展瓶颈之一就是“数据不足”,未来如何解决这个问题?
王仲远:当前具身智能行业发展面临诸多挑战。例如本体不够成熟导致成本较高,难以大规模采集数据,数据缺乏又导致模型能力弱,进而导致落地应用难,而落地应用难又进一步导致机器人本体很难量产出货,形成了发展中的循环悖论。要想破解悖论,需要整个具身智能行业各参与方的共同努力。
为破解数据难题,智源研究院在做具身大脑大模型时,采用独特的技术路径:通过海量互联网数据构建模型基础能力,利用模拟器在仿真环境中生成数据以增加数据获取来源,最后再通过真机采集少量真实物理世界的数据对模型进行微调,使模型能够快速适应物理世界。我们发现人类的学习过程也有类似的特点,如今小朋友可以通过电视、手机等获取大量来自互联网的信息,例如通过观看视频学习某项技能,再通过在真实物理世界进行少量尝试,就能获得相应的能力。那么具身大脑大模型也有类似获取能力的可能性,这也是智源研究院在破解数据难题上所做的尝试。
新华网:智源研究院在推动产学研合作中积累了哪些经验?企业与科研机构的合作模式如何实现共赢?
王仲远:智源研究院从成立之初就一直拥抱开源开放的生态,将自身科研项目定位为“高校做不了、企业暂时不愿意做”的一些科研项目,与高校和企业形成差异化定位,使其成为了链接科研工作者与产业的人工智能生态平台。
目前,国内有100多位智源学者与智源研究院共同进行科研技术攻关,近百家企业与智源开展战略合作,实现产学研联动。智源研究院的重要特点是所有的研究以落地为目标,以服务产业和支撑产业为使命,通过开源开放的方式,联合智源学者和生态合作企业,将人工智能产业、高校学者和研究机构串联起来,实现多方共赢。
新华网:在AI领域人才争夺白热化的背景下,智源研究院如何平衡学术与产业需求,吸引全球顶尖人才?
王仲远:智源研究院始终秉持“功成不必在我”的使命感,致力于为年轻人,尤其是青年人工智能科学家提供平台和舞台。我们一直倡导“青年人才挑大梁”,不论资排辈也不看头衔,而是更看重研究员过往的代表作,提倡代表作文化。
在实践过程中,我们既为年轻人提供成长舞台,又培养他们在科研领域不断创新突破的能力。在过往发布的众多重磅科研成果中,很多项目的负责人年龄不到30岁。正是这种独特的模式才能为中国的年轻科学家带来更多发展的可能性,也吸引全球顶尖人才关注智源研究院。