这篇mylangrobot项目由neka-nat创建,本文已获得作者Shirokuma授权进行编辑和转载。
https://twitter.com/neka_nat

GitHub-mylangrobot :GitHub - neka-nat/mylangrobot: Language instructions to mycobot using GPT-4V
引言
本项目创建了一个使用GPT-4V和myCobot的一个演示,演示机械臂简单得到拾取操作,这个演示使用了一个名叫SoM(物体检测对象)的方法,通过自然语言生成机器人动作。通俗点换一句话来说就是,机器接受自然语言,去寻找目标然后让机械臂进行抓取的一个案例。
本项目的亮点主要是GPT-4V的图像处理和SoM物体检测算法相结合,通过自然语言和机器交互实现机械臂运动。
软件
SoM
Set of Mark(SoM)是一种用于增强大型语言模型的视觉理解能力。图像经过SoM处理之后能够在图像上添加一系列的标记,这些标记能够被语言类模型识别和处理。这些标记有助于模型更准确的识别和理解图像中的物体和内容。

这使得语言模型能够针对图像中的元素进行更精准的分析和描述,从而提高其在视觉任务上的表现。
GPT-4V
我们常聊的GPT是一个大预言模型,我们可以跟它进行对话聊天。在迭代新的版本的GPT-4V是一个大模型多模态语言模型,它不单单能处理文本信息,现在还能够处理图像信息。能够对图像理解,图像生成,图像描述的功能,这样大模型结合GPT-4的强大自然语言处理能力和现金的图像分析技术,可以提供更高效和更准确的视觉和语言综合能力。
下面是OpenAI 提供的例子
简要介绍:将一个视频提供给GPT4,通过GPT-4V对图像的处理,生成对视频讲解的内容的过程。原文链接:Processing and narrating a video with GPT's visual capabilities and the TTS API | OpenAI Cookbook
User:
"These are frames from a video that I want to upload. Generate a compelling description that I can upload along with the video."

视频中某一帧的图像
#GPT-4V对图像的描述处理
GPT4:
"
审核编辑 黄宇
-
机器人
+关注
关注
213文章
31389浏览量
223545 -
人工智能
+关注
关注
1819文章
50290浏览量
266826 -
GPT
+关注
关注
0文章
371浏览量
16956 -
机械臂
+关注
关注
14文章
601浏览量
26183 -
大象机器人
+关注
关注
0文章
87浏览量
405
发布评论请先 登录
智能机器人从0到1系统入门课程 带源码课件 百度网盘下载
智能复合机器人解决方案:优化自动化搬运与提高物流效率
富唯智能复合机器人:推动智慧医院与产业自动化的核心技术创新
从“一人一岗”到“一机多能”:人形机器人助力工厂实现自动化
RK3576机器人核心:三屏异显+八路摄像头,重塑机器人交互与感知
解锁智能制造新潜能:复合机器人“开箱即用”驱动检测自动化升级
智慧工厂 - 未来的全自动工厂
挖到宝了!人工智能综合实验箱,高校新工科的宝藏神器
利用NVIDIA Isaac Lab训练工业机器人齿轮装配任务
利用人工智能和机器人技术实现复杂的自动化任务!
评论