来源:爱酷猪责编:网络时间:2024-09-25 15:18:05
GPT-4V 学会自动控制计算机的那一天终于到来了。
只需要在GPT-4V上连接鼠标和键盘,即可根据浏览器界面上网:
您甚至可以快速找出“播放音乐”的播放器网站和按钮,并为自己播放一首音乐:
是不是想想都有点后怕呢?
这是一个由MIT 本科生创建的新工作,名为GPT-4V-Act。
只需几个简单的工具,GPT-4V 就可以学会控制键盘和鼠标、使用浏览器在线发帖、买东西,甚至玩游戏。
如果所使用的工具存在错误,GPT-4V甚至可以识别它并尝试解决它。
让我们看看这是如何完成的。
GPT-4V-Act 本质上是一个基于网络浏览器的AI 多模式助手(Chromium Copilot)。
它可以像人类一样使用鼠标、键盘和屏幕“查看”网页界面,并通过网页上的交互按键进行下一步。
为了达到这个效果,除了GPT-4V之外,还使用了三个工具。
一是UI界面,它可以让GPT-4V“看到”网页截图,并允许用户与GPT-4V进行交互。
这样,GPT-4V就能以对话框的形式体现每一步的操作思路,用户可以决定是否继续让它操作。
另一个是Set-of-Mark Prompting (SoM) 工具,这是一个允许GPT-4V 学习交互的工具。
该工具是微软为了更好地在GPT-4V上进行提示词工程而发明的。
与让GPT-4V直接“看图说话”相比,该工具可以将图片的关键细节分割成不同的部分并编号,让GPT-4V有的放矢:
对于网页也是如此。 Set-of-Mark Prompting 使用类似的方法让GPT-4V 知道从网络浏览器的哪个部分找到答案并与之交互。
最后,你需要使用一个自动标签器(JS DOM auto-labeler),它可以为网页上的所有交互按钮添加标签,并让GPT-4V 决定按下哪一个。
经过一组流程,GPT-4V不仅能准确判断图片上哪些内容符合需求,还能准确找到交互按钮,学会“自动上网”。
这是一个很大的项目,目前只实现了部分功能,包括点击、打字交互、自动标注等。
接下来还有其他功能需要实现,比如尝试AI标记(目前网页上的交互还是通过JS接口知道在哪里交互,而不是AI识别),提示用户输入详细信息等
比如GPT-4V-Act打开网页后可能会被铺天盖地的弹窗广告“迷惑”,进而出现交互bug。
再比如,目前的这个玩法可能违反了OpenAI的产品使用规定:
除非API 允许,否则不得使用任何自动化或编程方法从服务中提取和输出数据,包括抓取、网页抓取或网页数据提取。
所以使用的时候一定要低调(doge)
该项目发布到网上后,引起了广泛关注。
佳作!
有网友提到,甚至可以用来让AI自己读取验证码。
SoM项目中提到了这一点。 GPT-4V可以成功解码验证码(这样你以后上网可能不知道是人还是机器)。
与此同时,一些网友已经开始想象桌面自动化的操作。
AI自动标注器应该可以实现这一点,我也确实打算做一个更通用的Copilot。
不过,GPT-4V 仍然收费。还有其他的实现方法吗?
您可以期待一波免费的自动化桌面流媒体人工智能助手。
参考链接:[1]https://github.com/ddupont808/GPT-4V-Act[2]https://www.reddit.com/r/MachineLearning/comments/17cy0j7/d_p_web_browsing_uibased_ai_agent_gpt4vact/
- 超过-
拳击游戏还是有很多的玩家都是非常的喜欢尝试的,很是刺激,并且也是能够发泄心中的不快吧,现在市面上是有很多的类型的拳击的游戏,这些游戏一般都是一些格斗的游戏,其实是非常的有趣,也是相当的刺激的,游戏中是有一些不同的场景都是能够去进行体验的,我们也是能够去刺激的进行对战的,小编现在就是收集了一些有意思的拳击游戏,相信你们一定会喜欢的。
趣味烧脑游戏一般比较适合人们在无聊的时候打发时间,同时其操作以及游戏规则上都比较简单,让大家不会有上手很难的感受,可以轻轻松松就体验这个游戏的独特乐趣,并且随时下线都不用担心坑队友,同时也可以和好友一起来玩法,有多种挑战模式,可以根据自己的真实水平以及喜好来选择不同的挑战模式参与,收获到不一样的游戏趣味体验!
太空冒险类游戏顾名思义就是以外太空为背景打造的一类游戏,玩家在这种类型的游戏当中可以体验到非常独特有意思的太空冒险旅程,玩法内容的设计上充满了想象力,所有的场景都是人们在日常生活中从来没有见过的,而你可以驾驶各种各样的战舰展开无比激烈的星际对决,同时可以邀请身边的朋友一起参与到冒险当中,竞技对决的过程中十分注重
这里面为大家收集了一系列比较好玩的女生游戏,并且将会不断的更新,每个玩家都可以根据自己的喜好来选择适合自己的游戏打发时间,每款游戏都设置了新手教程,这样方便大家更加轻松的上手,不同类型的游戏可以让你领略到不一样的游戏乐趣,并且在这里随时都可以尝试其他的玩法,让你一次性就可以玩个够,同时还可以将这里的游戏乐趣分享
GPT4V学会使用键盘和鼠标上网,人类看它发帖、玩游戏
一名8 岁男孩开始使用AI 制作游戏。整个过程历时2个小时,吸引了超过50万人观看。
JS课代表,今天复习Reflect
基于WebGL thingjs 3d开发的三维大屏可视化实践
哪里可以查询车辆违章情况?汽车违章查询
官方汽车违章查询,汽车违章查询全国免费
五款车辆违章查询工具,你用过吗?
如何查询机动车是否违反交通规则?机动车违章查询方法
微信新功能:全国车辆违章查询
出租车、公司车,交管12123可以查交通违章信息吗?别担心,我来教你
用户评论
我简直不敢相信,居然有一天AI能在网上浏览并进行游戏操作!
有12位网友表示赞同!
GPT4V的功能真是令人惊叹,就像一个真人玩家一样在键盘和鼠标之间游刃有余。
有8位网友表示赞同!
这款AI在网上冲浪时的表现简直是专业级的,让人不禁对未来的互联网互动充满期待。
有15位网友表示赞同!
看着GPT4V用鼠标点击游戏菜单,然后开始自动玩游戏,感觉自己似乎成了历史的一部分。
有11位网友表示赞同!
GPT4V的游戏技术是如此之高,甚至比一些人类玩家还要厉害,太可怕了!
有11位网友表示赞同!
在GPT4V玩网游的那个瞬间,我几乎忘记它只是一个程序。
有5位网友表示赞同!
AI发展到这个地步真是太令人震惊!GPT4V居然能像个人一样上网冲浪,并且玩得飞起。
有18位网友表示赞同!
GPT4V在网上浏览的行为很流畅,就像是一个精通互联网的游戏玩家。
有9位网友表示赞同!
看GPT4V在线上游戏社区发帖,真的有种它拥有独立思考般的感觉,太神奇了!
有20位网友表示赞同!
当我看到AI用键鼠上网并进行专业级别的游戏操作时,感觉未来已经触手可及。
有10位网友表示赞同!
GPT4V竟然能在网上寻找游戏攻略,并且实际操作起来让人惊呆了!
有14位网友表示赞同!
这款游戏真的像是一个AI化身在互联网上自由地玩着你我最爱的游戏,太疯狂了!
有19位网友表示赞同!
看到GPT4V用鼠标点击屏幕操作游戏时的精准度,让我对AI技术的进步充满敬畏。
有19位网友表示赞同!
GPT4V在网上玩游戏的能力令人瞩目,仿佛跨越了一道技术的边界。
有8位网友表示赞同!
当它在网上流连于各种游戏论坛和攻略网站时,我甚至开始疑惑AI是否真的理解了人类的乐趣所在。
有14位网友表示赞同!
这种AI玩网游的方式简直超越了我的想象,让我不禁思考AI与真实玩家之间的界限。
有13位网友表示赞同!
GPT4V能用键鼠在网上冲浪并进行游戏的举动,显示出强大的多任务处理能力和深入的学习能力。
有9位网友表示赞同!
看着GPT4V在网上搜索资料、了解游戏操作技巧,然后娴熟地执行这些方法,真是让人叹为观止。
有19位网友表示赞同!
AI在互联网上的游刃有余,尤其体现在它能在众多网站和资源中迅速找到所需信息并进行游戏操作上。
有17位网友表示赞同!