重磅!具身智能驱动的手术机器人自主操作新突破:纯视觉AI解决方案与Sentire思腾系统深度融合

来源:梅斯医学MedSci

点击:6931

A+ A-

所属频道:新闻中心

关键词:具身智能 手术机器人 视觉AI

    随着全球老龄化加剧,腔镜手术量年增长率超18%,外科医生面临巨大操作负担。现有手术机器人(如da Vinci)虽能辅助手术,但任务自动化局限于特定场景(如预编程动作),缺乏跨场景泛化能力。而近期重磅发表于《Science Robotics》(最新影响因子为27.5,五年影响因子达32.9)的一项名为“Surgical embodied intelligence for generalized task autonomy in laparoscopic robot-assisted surgery”的研究中提出了基于具身智能的腹腔镜手术机器人通用任务自主性研究,旨在突破传统手术自动化方法对额外传感器输入或基于人工预定义规则与模型依赖的局限性,通过视觉基础大模型,具身智能控制策略学习,首次实现多任务、跨场景的自主操作。研究团队构建了包含视觉解析(Visual Parsing)、感知回归器(Perceptual Regressor)、策略学习(Policy Learning)与视觉伺服控制(Visual Servoing Controller)的全新VPPV范式,依托团队自研的开源仿真平台SurRoL,实现了通用手术机器人的自主操作,并在商业平台Sentire思腾®腔镜手术机器人(以下简称“Sentire思腾®”)上完成活体动物体内验证1。



    研究亮点总结

    全球首例临床场景下自主手术活体动物验证:在外科医生监督自主模式下完成活体猪模型3类任务。


    纯视觉人工智能方案,无需任何额外传感器:自主操作仅需手术机器人视觉系统输入,可无缝部署至真实临床场景。


    通用性:数据驱动的解决方案,可应用于多种自主操作任务。


    开源仿真平台SurRoL的生态价值:100%自研具身智能平台,涵盖手术机器人交互环境,多种手术任务仿真,强化学习训练引擎。


    自动化“第三只手”,解锁人机协作新范式:机器人自动完成多种辅助操作,有望提升外科医生手术效率。


    方法论创新与技术架构

    VPPV全流程范式



    关键创新:基于视觉基础大模型实现稳健场景理解,强化学习范式实现通用的多任务策略学习,AI策略与传统控制的分层融合架构提升自动化的稳定性,模块化的设计更利于算法的更新与迭代。


    实验验证与关键结果分析

    手术训练任务的自动化

    在SurRoL仿真平台上,VPPV完成了7项常见的机器人腹腔镜手术基础训练任务的学习和自动化,包括到达针抓取点 (NeedleReach),针拾取(NeedlePick)、纱布拾取(GauzeRetrieve)、拾取与放置(PickAndPlace)、桩转移(PegTransfer)、板匹配(MatchBoard)和针重新抓取(NeedleRegrasp)。令人印象深刻的是,系统在虚拟环境中的表现出色——例如针头拾取、纱布拾取的任务成功率达到100%,桩转移任务成功率为98%。更关键的是,当这些在"虚拟世界"中训练的AI技能被应用到真实的手术机器人上时,依然保持了良好的表现。在达芬奇研究平台(dVRK)的真机测试中,纱布拾取达到96%,而对于针头拾取任务虽有更好的精度要求,仍能达到成功率84%,而对于进阶手术训练任务桩转移,能达到86%的成功率,证明了VPPV方法良好的仿真-现实迁移能力。


    离体组织实验(Sentire思腾®)

    为了更接近真实手术环境,研究团队在离体猪胃组织(保留胃网膜动静脉)上进行了严格的验证实验,采用国产的Sentire思腾®腔镜手术机器人完成5类辅助任务自动化验证,总成功率接近90%。实验设置严格模拟真实手术场景:组织随机旋转(±180°)、平移(±5cm),并引入光照变化、模拟烟雾及呼吸运动干扰。其中三项关键技术指标表现尤为突出:


    内窥镜自主操控:该任务目标为自动调整内窥镜的姿态,使得手术器械位于视野中央。通过视觉解析实时定位器械尖端,DDPG策略驱动内窥镜调整位姿,使器械稳定居中于术野,成功率达95%(图1);这项技术可以解放医生对手术工具和腹腔镜的操作切换及对视野的频繁控制,让医生专注于手术操作本身。


    自动纱布精准拾取:该任务目标为自动拾取纱布并且放置于出血点进行止血,该任务通常为助手医生完成。FastSAM分割结合IGEV深度估计,定位纱布中心点;RL策略控制器械迹接近目标,视觉伺服执行抓取后覆盖出血点,成功率达91%(图2);


    自动软组织牵引:在腹腔镜手术中,经常需要牵拉组织以获得更好的手术视野。MPM软体仿真训练的策略驱动器械抓取目标组织,机械臂自主牵拉组织暴露术野,在器械多构型(针持、双极钳)及烟雾干扰下保持鲁棒性,成功率达91%(图3),实验结果表明该算法学会了如何有效地抓取和牵拉软组织,为主刀医生创造理想的操作空间,并成功实现人机协作下的软组织切割。


    图1 离体实验中,真实世界场景的不同设置对内窥镜操控的影响


    图2 离体实验中,真实世界场景的不同设置对纱布拾取的影响


    图3 离体实验中,真实世界场景的不同设置对软组织牵引的影响


    实验结果证明:

    平台兼容性:VPPV框架无缝适配Sentire思腾®应用程序编程接口(API),控制延迟低于25ms;

    环境鲁棒性:在烟雾、光照变化、器械多构型下保持高成功率;

    操作高效性:(图4)统计了机器人执行轨迹的长度,展示极小的冗余动作。


    图4 基于运动学数据记录的各任务机器人执行轨迹长度结果


    活体动物验证(Sentire思腾®+监督自主性)

    研究团队在约30公斤活体猪模型上进行了最具挑战性的验证实验。实验同样采用了国产Sentire思腾®腔镜手术机器人,这项实验采用了创新的"监督自主性(supervised autonomy)"安全模式:由资深胃肠外科医生首先在腹腔镜视野下标记安全操作区域,随后在医生密切监督下自主执行任务,医生可随时接管控制权,确保手术安全。实验在香港中文大学医疗机械人创新技术中心的混合手术室内进行,模拟真实的机器人辅助胃部游离手术环境。(图5):


    纱布拾取成功率83%:这看似简单的任务在活体环境中面临前所未有的挑战。血染纱布与周围软组织的颜色差异极小,传统的颜色识别方法完全失效。VPPV方法创新性地采用视觉基础模型,不再依赖单纯的颜色特征,而是通过形状、纹理、空间和语义的综合分析来识别目标,实现了纱布中心的定位和自动抓取和,展示算法在动态复杂环境中的适应能力;


    软组织牵引成功率 77%:在活体环境中,软组织的物理特性与离体组织存在显著差异——场景更加复杂多变。研究团队成功验证了革命性的人机协作模式:AI控制的"第三只机械手"专门负责组织牵拉,为手术视野创造理想空间,而主刀医生可以专注于操控其他两只机械臂进行精细的肠系膜解剖。这种协作模式显著提升了手术效率,减轻了医生的操作负担。


    血管夹闭成功率67%:这是技术难度最高的任务,需要在直径仅5毫米的猪右胃网膜动脉上精确放置止血夹。而10毫米宽的夹闭器要求控制精度达到2.5毫米级别。当夹闭器接近血管时,精密的视觉伺服控制器自动激活,通过图像反馈进行精准的血管定位。实现了成功夹取,代表了毫米级精度自动化的技术突破。


    图5 在监督自主性模式下进行的活体动物试验验证:(A)活体实验装置;(B)自动化手术任务示意图,包含纱布拾取、软组织牵引和血管夹闭。每个任务展示两个示例场景,包含内窥镜图像(顶部)、估计的深度图(左下方)和目标物体分割(右下方)


    本研究通过VPPV范式首次实现手术机器人多任务零样本仿真-现实迁移,其成功源于三层创新架构:视觉解析层(FastSAM+IGEV处理真实手术噪声)、策略抽象层(感知回归器输出物理可解释的9D状态向量)、执行优化层(DDPG规划与视觉伺服闭环控制)。这一框架在Sentire思腾®腔镜手术机器人上的验证具有里程碑意义,其本质在于康诺思腾凭借全栈自研与垂直整合战略构建的技术平台——通过底层机电系统(轨迹误差<3.3mm)、实时控制固件(API延迟25ms)与立体视觉模块[1080p/60fps双互补金属氧化物半导体(CMOS)+现场可编程门阵列(FPGA)加速]的深度耦合,形成独特的AI就绪且AI 友好架构。该平台不仅承载离体组织5类辅助任务全流程自动化(内窥镜操控/纱布拾取/软组织牵引等),更支撑全球首例活体血管夹闭AI自主操作,其开放性接口使VPPV算法与硬件无缝协同,MPM软体仿真参数反向校准机械臂力控模块(交互力误差<0.3N),完整实现从算法到系统的优化闭环。而"监督自主性"范式(医生标记安全区域+实时接管)依托多臂协同特性,在第三机械臂自主牵引时解放外科医生双手,同时模块化设计预留语音中断等扩展接口——这种跨平台部署能力(dVRK与Sentire思腾®双验证)推动手术自主性从概念迈向临床,彰显垂直整合技术生态的产业化潜力。


    技术泛化性方面,SurRoL开源仿真平台(集成dVRK数字孪生、MPM物理引擎、RL/IL算法库)已形成社区生态,加速算法迭代;而VPPV的模块化设计支持持续升级,例如视觉解析层可嵌入分割一切模型(SAM)等大模型提升分割精度,策略层可融合大型语言模型(LLM)生成高阶手术计划。面向未来,需攻克活体动态补偿(如呼吸运动建模)、长时程任务链(如吻合术)及跨平台适配等挑战,而Sentire思腾®的开放式API将在此进程中发挥核心枢纽作用——其已证明的临床兼容性与安全性,为手术自主性从L2(工具辅助)向L3(任务自主)演进铺设了产业化通路。


    研究团队




    (审核编辑: 光光)

    声明:除特别说明之外,新闻内容及图片均来自网络及各大主流媒体。版权归原作者所有。如认为内容侵权,请联系我们删除。