
点击量:789 时间:2024-10-02
杏彩体育官网没念到本年岁首的斯坦福mobile aloha的热度刚过,而到本年2月的下旬,斯坦福另一个团队又推出了UMI刷盘呆板人,且这两个团队还相互清楚、还正在一块配合磋商(顺带幼幼叹息一下,斯坦福的气氛是真好并且真高产)
而其与此文《 效仿研习的集合发作:从Dobb·E、Gello到斯坦福Mobile ALOHA/UMI、FMB、DexCap 》中第一局部的纽约大学Dobb·E最大的差异,则正在于Dobb·E必要针对特定境况举行径作政策上的微调,而UMI面临不懂境况有斗劲好的泛化才智
24年5.9日更新:咱们总算和合营伙伴配合把斯坦福的UMI、DexCap胜利复现了(该当是国内最早复现这两模子的团队或之一了),然后接下来会把这两者的全面硬件十足换成国产平替
1. 至于复现经过中所遭遇的题目或贫困,如群内的姚博士所说,“说真话github上逻辑很顺的,假使只是复现原视频难度不大,合键仍旧要念锻炼自身的效力,全面的算法逻辑都要很熟谙才具够
2. 为一直夸大全面大模子呆板人的开垦步队,必要从课程膺选拔更多人才 故推出: 呆板人二次开垦线万的实体呆板人 供线下实操)
24年2.19,斯坦福和哥伦比亚大学、丰田推敲所的推敲者(Cheng Chi、Zhenjia Xu等8人)宣布了一个通用操控界面UMI,借帮这个UMI,能够自正在的完结刷盘等各式职责
应用鱼眼镜头感知境况,且通过改造SLAM与GoPro内置的IMU传感器团结应用,并正在夹持器上的两头各自增添一边镜子,以供应立体窥察 如下图所示,从左到右区分显示人类做树范的手持夹持器、观测空间、呆板人成立,此中①是一个相机,④是“相机① ”中自带的IMU感知容貌②是带有广角视野的鱼眼镜头,③是两个侧面镜用于供应立体视觉,⑤是对夹持器的跟踪⑥是基于运动学的数据过滤
起首,正在手腕上装配一个GoPro摄像头动作输入窥察,别的,无需任何表部摄像头成立。之后正在呆板人上安顿UMI时,将GoPro摄像头安插正在与手持夹持器上的不异地点相对应的统一3D打印手指处
其次,如下图所示,假使将一个大的155°视场图像矫正为针孔模子会首要拉伸表围视野(蓝线表),同时将中央最紧张的消息压缩到一个幼区域(红线内),故UMI政策应用原始鱼眼图像动作观测
接着,为看补偿单目相机视野中缺乏深度感知的题目,正在相机的驾驭两头区分安插了一块镜子,如下图所示,UMI侧面镜。超广角相机与地点合理的镜子相团结,完成了隐式立体深度估摸
与之前的呆板人凡是应用的二进造开合行动(要么收拢、要么铺开),但假使持续指定夹持器的夹持宽度则能够履行更多职责,例如扔掷一个球时,必要正在一个无误的岁月来扔掉物体
3D打印的夹持器的BoM本钱为 $73,而GoPro相机及配件的总本钱为 $298说白了,不含「阴谋电脑和那两UR5板滞臂」的仅用于数据搜求的硬件本钱为400刀,当然 好的板滞臂才贵
从开端窥察到真正感知到境况时 有观测反适时间,即观测延迟 而感知到境况做决议时,则有决议时的反适时间,即推理延迟 终末,决议好之后 做出行径 也会有一个履行岁月,即履行延迟
(b) UMI 政策罗致一系列同步窥察结果(RGB 图像、6自正在度终端履行器容貌、和夹持器宽度),并输出一系列希望的终端履行器容貌和夹持器宽度动作行动 相当于先感知境况,然后做出行动预测
职责呆板人必要履行7个办法挨次地独立行动(掀开水龙头杏彩体育网页、收拢盘子、拿起海绵、洗涤并擦拭盘子直到番茄酱被断根、安插盘子、安插海绵并封闭水龙头),如下图所示
总的来说,UMI到达了14/20 =70%的胜利率。别的,他们还揭示了他们的政策对各式滋扰物杏彩体育网页、酱料类型(芥末、巧克力糖浆、焦糖糖浆)以及对扰动的鲁棒性 而没有CLIP预锻炼的ViT视觉编码器「例如从新锻炼ResNet-34 [17]则职责完结度不成」,例如带有ResNet-34的基线政策学会了一种非反映性手脚,并马虎了任何盘子或海绵地点的转化。 因而,它不行履行职责,0/10 = 0%
“ 1 截止到24年5月初,咱们总算把斯坦福的UMI、DexCap胜利复现了(国内最早复现这两模子的团队或之一,至于Mobile Aloha则大同幼异),且已把这两者的全面硬件十足换成国产平替,迎接插足本线 通过本线下营配合完成一系列主流呆板人的复现安顿、二次开垦之后,如适当,迎接和我司的大模子呆板人项目组合营,一方面,配合为高校/公司办事,二方面,配合打造天下级通用呆板人 ”