GPT4V学会使用键盘和鼠标上网,人类看它发帖、玩游戏

来源:爱酷猪责编:网络时间:2024-09-25 15:18:05

GPT-4V 学会自动控制计算机的那一天终于到来了。

只需要在GPT-4V上连接鼠标和键盘,即可根据浏览器界面上网:

您甚至可以快速找出“播放音乐”的播放器网站和按钮,并为自己播放一首音乐:

是不是想想都有点后怕呢?

这是一个由MIT 本科生创建的新工作,名为GPT-4V-Act。

只需几个简单的工具,GPT-4V 就可以学会控制键盘和鼠标、使用浏览器在线发帖、买东西,甚至玩游戏。

如果所使用的工具存在错误,GPT-4V甚至可以识别它并尝试解决它。

让我们看看这是如何完成的。

教GPT-4V“自动上网”

GPT-4V-Act 本质上是一个基于网络浏览器的AI 多模式助手(Chromium Copilot)。

它可以像人类一样使用鼠标、键盘和屏幕“查看”网页界面,并通过网页上的交互按键进行下一步。

为了达到这个效果,除了GPT-4V之外,还使用了三个工具。

一是UI界面,它可以让GPT-4V“看到”网页截图,并允许用户与GPT-4V进行交互。

这样,GPT-4V就能以对话框的形式体现每一步的操作思路,用户可以决定是否继续让它操作。

另一个是Set-of-Mark Prompting (SoM) 工具,这是一个允许GPT-4V 学习交互的工具。

该工具是微软为了更好地在GPT-4V上进行提示词工程而发明的。

与让GPT-4V直接“看图说话”相比,该工具可以将图片的关键细节分割成不同的部分并编号,让GPT-4V有的放矢:

对于网页也是如此。 Set-of-Mark Prompting 使用类似的方法让GPT-4V 知道从网络浏览器的哪个部分找到答案并与之交互。

GPT4V学会使用键盘和鼠标上网,人类看它发帖、玩游戏

最后,你需要使用一个自动标签器(JS DOM auto-labeler),它可以为网页上的所有交互按钮添加标签,并让GPT-4V 决定按下哪一个。

经过一组流程,GPT-4V不仅能准确判断图片上哪些内容符合需求,还能准确找到交互按钮,学会“自动上网”。

这是一个很大的项目,目前只实现了部分功能,包括点击、打字交互、自动标注等。

接下来还有其他功能需要实现,比如尝试AI标记(目前网页上的交互还是通过JS接口知道在哪里交互,而不是AI识别),提示用户输入详细信息等

比如GPT-4V-Act打开网页后可能会被铺天盖地的弹窗广告“迷惑”,进而出现交互bug。

再比如,目前的这个玩法可能违反了OpenAI的产品使用规定:

除非API 允许,否则不得使用任何自动化或编程方法从服务中提取和输出数据,包括抓取、网页抓取或网页数据提取。

所以使用的时候一定要低调(doge)

该项目发布到网上后,引起了广泛关注。

佳作!

有网友提到,甚至可以用来让AI自己读取验证码。

SoM项目中提到了这一点。 GPT-4V可以成功解码验证码(这样你以后上网可能不知道是人还是机器)。

与此同时,一些网友已经开始想象桌面自动化的操作。

AI自动标注器应该可以实现这一点,我也确实打算做一个更通用的Copilot。

不过,GPT-4V 仍然收费。还有其他的实现方法吗?

您可以期待一波免费的自动化桌面流媒体人工智能助手。

参考链接:[1]https://github.com/ddupont808/GPT-4V-Act[2]https://www.reddit.com/r/MachineLearning/comments/17cy0j7/d_p_web_browsing_uibased_ai_agent_gpt4vact/

- 超过-

用户评论

无所谓

我简直不敢相信,居然有一天AI能在网上浏览并进行游戏操作!

    有12位网友表示赞同!

眷恋

GPT4V的功能真是令人惊叹,就像一个真人玩家一样在键盘和鼠标之间游刃有余。

    有8位网友表示赞同!

北朽暖栀

这款AI在网上冲浪时的表现简直是专业级的,让人不禁对未来的互联网互动充满期待。

    有15位网友表示赞同!

孤者何惧

看着GPT4V用鼠标点击游戏菜单,然后开始自动玩游戏,感觉自己似乎成了历史的一部分。

    有11位网友表示赞同!

巴黎盛开的樱花

GPT4V的游戏技术是如此之高,甚至比一些人类玩家还要厉害,太可怕了!

    有11位网友表示赞同!

糖果控

在GPT4V玩网游的那个瞬间,我几乎忘记它只是一个程序。

    有5位网友表示赞同!

何必锁我心

AI发展到这个地步真是太令人震惊!GPT4V居然能像个人一样上网冲浪,并且玩得飞起。

    有18位网友表示赞同!

水波映月

GPT4V在网上浏览的行为很流畅,就像是一个精通互联网的游戏玩家。

    有9位网友表示赞同!

麝香味

看GPT4V在线上游戏社区发帖,真的有种它拥有独立思考般的感觉,太神奇了!

    有20位网友表示赞同!

小清晰的声音

当我看到AI用键鼠上网并进行专业级别的游戏操作时,感觉未来已经触手可及。

    有10位网友表示赞同!

心脏偷懒

GPT4V竟然能在网上寻找游戏攻略,并且实际操作起来让人惊呆了!

    有14位网友表示赞同!

歇火

这款游戏真的像是一个AI化身在互联网上自由地玩着你我最爱的游戏,太疯狂了!

    有19位网友表示赞同!

╯念抹浅笑

看到GPT4V用鼠标点击屏幕操作游戏时的精准度,让我对AI技术的进步充满敬畏。

    有19位网友表示赞同!

疯人疯语疯人愿

GPT4V在网上玩游戏的能力令人瞩目,仿佛跨越了一道技术的边界。

    有8位网友表示赞同!

凝残月

当它在网上流连于各种游戏论坛和攻略网站时,我甚至开始疑惑AI是否真的理解了人类的乐趣所在。

    有14位网友表示赞同!

青衫故人

这种AI玩网游的方式简直超越了我的想象,让我不禁思考AI与真实玩家之间的界限。

    有13位网友表示赞同!

怪咖

GPT4V能用键鼠在网上冲浪并进行游戏的举动,显示出强大的多任务处理能力和深入的学习能力。

    有9位网友表示赞同!

艺菲

看着GPT4V在网上搜索资料、了解游戏操作技巧,然后娴熟地执行这些方法,真是让人叹为观止。

    有19位网友表示赞同!

何年何念

AI在互联网上的游刃有余,尤其体现在它能在众多网站和资源中迅速找到所需信息并进行游戏操作上。

    有17位网友表示赞同!

猜你喜欢
最新游戏更多
热门专题更多
最新资讯更多