在机器人和代理商领域,长期的挑战包括:如果它给出了诸如“去客厅并将书带到沙发上”或“沿着门沿着大厅沿着大厅走,然后转过良好的命令”,则机器人不仅是“看到大气”,但是“计划”是“计划”的方法,这似乎是在训练中,而且在环境中都可以解决一个问题,但他们在设备上,他们是在设备涉及的问题。 (即受监视的培训状态),允许使用动作的形式思维和输出。 2。三个奖励:格式,理解和通过。在强化学习阶段,不仅为NAV-R1“到达目的地”的奖励,还为三种互补的奖励机制提供了奖励。它提出了使行动更加精确,逻辑和逻辑的人类期望NS.RGB-D图像。导航奖励:它的重点是路线的忠诚度,即轨迹的保真度,终点的精度等。这种奖励和惩罚机制可确保机器人不仅到达目的地,而且还需要合理的时间,而无需宣布和丢失。 3。缓慢的推理范式:快速脑 +稳定的身体一种非常有趣的设计灵感是导致人类认知的“双重系统理论”(快速慢)。其他系统实时具有出色的响应和控制。缓慢的系统(系统2):它负责以较低的频率运行,处理更多宏观,长期的语义信息和历史观察(视觉历史,语言说明等),并建立长期目标和语义一致性。高速系统(系统1):经常执行,它是立即响应的原因,并控制cosishort – 术语,例如避免障碍,adj用姿势,直线行走然后转弯。使用慢速系统的潜在指南,但必须是轻质和低潜伏期。两者是异步调整的。慢速提供一般的方向和语义取向,而FAST负责实施,并确保目标语义在复杂的环境中并不矛盾,但可以迅速响应环境的变化。实验和效果:它们真的有用吗? NAV-R1给出的实验证据非常令人信服,包括模拟环境和实际机器人部署中的几个参考点。对于多个导航任务(例如R2R-CE,RXR-CE和视觉语言导航中对象的对象导航),NAV-R1成功率,路线的效率(SPL,路由长度的标准度量指标)与其他高级方法相比,这些方法将在大约8%或更高的情况下提高。 VLN任务恢复,对ObjectNAV任务的部署在REA上结果l硬件还通过了测试:机器人平台(Wheeltec R550,Jetson Orin Nano + RGB-D摄像头和其他硬件)执行导航任务和走廊和走廊。尽管NAV-R1具有很强的推理功能,但它使用了云 +执行本地命令的推理 + FASF-I N-Slow Architture允许您在Edge设备上几乎实时执行资源的实时执行(与本地推断的大延迟相比,在服务器端的推理延迟端的推理延迟)。平均推理延迟比较演示屏幕:对现实的两个模拟因素的验证,以提供对NAV-R1功能的直观理解,研究团队还准备了两个典型场景和视频演示,涵盖:Simula环境和真正的机器人环境。仿真环境:借助栖息地VLN和ObjectNAV模拟平台,NAV-R1接收了自然语言导航说明,例如“将客厅从大厅传递到右边的沙发”。在VLN任务(视觉语言导航)中,NAV-R1可以理解复杂的语言描述。命令:通过棕色皮革的躺椅。您穿过敞开的法国门。留在斑马油漆的另一侧。等待镜子。在ObjectNAV任务(对象目标导航)中,对于给定的目标类别(例如“ TV Monitor”)的任务,NAV-R1积极探索,识别对象,计划合理的路线,避免障碍并迅速达到目标。命令:搜索电视监视器。现实世界:VLN ObjectNAV机器人实施研究团队是一个Wheeltec R550Hamos,在我们的移动机器人平台上实施了NAV-R1(配备了Jetson Orin Nano,RGB-D摄像头和LIDAR)。 NAV-R1制作类似的VLN机器在实际场景中,例如会议,走廊和休息区域中的烤器和ObjectNAV任务。在VLN任务(视觉语言)中,NAV-R1可以理解复杂的语言描述并在现实世界环境中执行指令。说明:移到左侧的黑色椅子上暂停,然后向右前进,然后用蓝色雨伞停下来。考虑到ObjectNAV任务(对象目标导航)中的目标类别(例如“搜索电视监视器”),NAV-R1积极探索真实的环境,定位对象并计划合理的路径以避免障碍。命令:我知道键盘是否笔直移动并跟随其前面的墙。意义和应用程序NAV-R1的冠军带来了一些实用和有影响力的可能性。 1。家庭服务/机器人在家。当机器人穿过一个混乱的环境时,根据说明寻找事物并与人互动时,它必须快速稳定,以及“ und und“结构化推理NAV-R1 +路线精确 +实时控制只能提高用户的可靠性和用户体验。当虚拟代理人或助手希望在灾难网站中,在工厂,矿山,甚至工业/危险环境中,机器人必须在不知名的环境中执行任务时,将其结合起来,将其组合起来。电子产品以及上海工程与技术大学的电气工程,以及他的研究,在视觉语言和化身智能导航方面的方向。他参加了许多科学研究项目,并正在著名世界中的模型建设。 Huang Ting是对电子和电气工程学院的掌握,上海工程与技术大学,以及电子和电气工程学院的博士生,其研究地址侧重于三种维度的视觉语言模型,对空间场景和多模型推理的理解。他参加了许多科学研究项目,并正在建设具有认知和推理能力的3D-AI通用系统。 Zhang Zeyu是理查德·哈特利(Richard Hartley)和伊恩·里德(Ian Reed)教授的指导下的大学研究人员。他们的研究兴趣源于C的领域Omputer Vision,着重于探索几何生成建模与基本Avant -Garde模型之间的可能联系。 Zhang Zeyu在许多研究领域都有丰富的经验,并正在积极探索人工智能基础和应用领域的前卫进步。 Tang Hao目前是Boya的助理/研究员和博士主管教授,Weiming ofPekín大学计算机科学系的年轻学者,并被选为国家高级人才计划。他赢得了全国范围内强调的自我资助的国际学生的奖学金,并连续第二年被列入斯坦福大学的主要科学家名单。他在美国的卡内基·梅隆大学,英国牛津大学和特伦特大学的意大利大学牛津大学,苏黎世埃德·苏里希大学工作和学习。很长一段时间,他有PL在人工智能领域进行调查,在国际杂志和会议上发表了100多种文章,并引用了10,000多次。他已获得最佳ACM多媒体纸提名奖,目前是2025 ACL现场领导者,EMNLP 2025和ACM MM 2025。有关更多信息,请参见Pers Home Pageonal:https://ha0tang.github。
特殊声明:以前的内容(包括照片和视频(如果有))可供您使用,包括照片和视频,以及“ N”平台“ Etease”用户已上传和发布。此平台仅提供信息存储服务。
注意:以前的内容(如果有照片或视频)已由社交网络平台NetEase Hao的用户收取和发布,仅提供信息存储服务。