视觉检测领先者
全国咨询热线:13812953225

AI替代人类从网购刷短视频开端!CMU发布多模态Web Agent基准让大模型冲浪比你还溜

发布时间:2024-02-16 22:49:36 人气: 来源:bob平台官网入口
案例介绍

  大模型的新检测来了!近来,来自卡内基梅隆大学的研究人员发布了评价LLM多模态Web署理功用的基准测验。

  近来,来自卡内基梅隆大学(CMU)的研究人员发布了一个评价多模态Web署理功用的基准测验。

  比方帮忙人类处理网上购物、会议等日常使命,比方帮忙人类考试「做弊」,还有近来风头正盛的AI机器人,也是人类在物理国际的署理。

  而为了练习AI把握这项才能,研究人员花费了许多汗水,比方联合国际各地的闻名试验室,同享机器人的练习和操作数据,比方开发了对应于实在国际的模拟器用来练习Agent。

  VisualWebArena由一组依据Web的多样化和杂乱的使命组成,这些使命评价自主多方式署理的各种功用:

  如上图所示,这个基准测验中引进了910个新使命,这些使命来自于分类广告、购物和Reddit网站上。

  分类网站是一个新环境(具有实在国际的数据),而购物和Reddit网站与WebArena中运用的网站相同。

  为了履行这个基准测验,署理(LLM)需求精确处理图画文本输入,解说自然语言指令,并在网站上履行操作以完结用户界说的方针。

  新的基准测验引进的使命需求视觉了解,能够评价依据Web的环境中自主署理的视觉和推理技能。

  为了评价VisualWebArena的功用,研究人员在WebArena的功用评价范式中引进了新的依据视觉的评价方针。

  上图展现了几个评价示例,通过运转依据履行的测验,能够全面评价开放式视觉根底使命上署理轨道的正确性。

  受Set-of-Mark提示的启示,研究人员运用JavaScript主动注释网页上的每个可交互元从来履行初始预处理进程,包含鸿沟框和仅有ID。

  如上图所示,运用包含鸿沟框和ID的带注释屏幕截图,以及SoM的文本表明方式,作为多模态模型的输入。

  下图的依据成果得出,SoM表明进步了可导航性,并在VisualWebArena上完结了更高的成功率。

  研究人员对几个最先进的LLM和依据VLM提示的署理进行了基准测验,发现一切现有的模型都显着低于人类的体现。

  虽然多模态模型一般会进步VisualWebArena的功用,但仍有很大的距离需求弥合。

  为了保证可重复性、实在性和确定性,VisualWebArena结构中的一切网站都可作为独立的开源Web应用程序运用。

  网站中可用的文本和视觉内容是从实际国际获取的,而代码则依据实际国际应用程序中常用的开源结构。

  环境和智能体能够建模为部分可调查的马尔可夫决议计划进程(POMDP):E =(S,A,Ω,T),其间S表明状况集,A表明举动集,Ω表明观测值集。

  搬运函数界说为T:S × A → S,状况之间确实定性转化以动作为条件。在每个时刻进程t中,环境都处于某种状况s(比方特定页面),并具有部分调查o∈ Ω。

  署理以o为条件宣告操作a ∈ A,这将导致新状况s ∈ S,以及成果页面的新部分调查o ∈ Ω。

  最终,界说奖赏函数R :S × A → {0, 1}来衡量使命履行的成功。在VisualWebArena中,假如状况转化与使命方针的希望共同(即方针已完结),则奖赏函数在最终一步回来1,不然回来0。

  比方在上图的第一个使命中,奖赏函数评价订单是否正确下到达输入图画中供给确实切地址,并包含正确的项目。

  调查空间Ω以实在的Web阅览体会为模型。调查成果包含网页URL、翻开的选项卡(或许是不同网站的多个选项卡)以及要点选项卡的网页内容。

  在大约 25% 的使命中,方针也会涉及到图画(比方上图的第一个和第三个使命)

  原始网页HTML作为文档方针模型(DOM)树,一般用于曾经的自治Web署理作业。 网页截图,表明为RGB阵列,在之前的视觉署理作业中现已证明了有效性。 辅佐功用树,供给了针对辅佐技能优化的网页内容的结构化和简化表明,是WebArena用于其基线LLM署理的首要表明。 本文引进的一种新的视觉表明,创意来自符号集(SoM)提示。关于网页上的每个可交互元素,用鸿沟框和ID符号它,生成一个屏幕截图,答应可视化署理通过其仅有ID引证页面上的元素。操作空间

  比较于猜测(x, y)坐标,这种表明的一个长处是,它答应专心于高档推理而非初级操控,由于许多SOTA的VLM和LLM都没有通过清晰练习,以如此精密的粒度引证元素。

  关于具有可拜访性树表明的署理,参数是树中的元素ID。关于SoM表明,运用当时页面中分配的仅有ID。

  为了评价VisualWebArena的功用,咱们在WebArena的功用评价范式中引进了新的依据视觉的评价方针。这些使咱们也能够全面评价开放式视觉根底使命的履行轨道的正确性。每个使命的奖赏都是运用下面描绘的基元手艺规划的函数。

  上表为分配奖赏r(s,a)∈ R :S × A → {0, 1} 的各种评价方针。

  依据不同的使命场景,方针的评测能够是「彻底匹配」、「有必要包含」、「有必要不包含」、或许「含糊匹配」。

  比照试验测量了7名大学生(了解网站的商业版别)在VisualWebArena使命上的成功率。

  不过由于其间的一些人还帮忙创立了使命,为了尽最大或许防止数据走漏,这儿保证他们不会被分配到自己创立的使命。

  试验对每个模板一个使命进行采样,收集了有代表性的230个使命。成果发现人类在这项使命上做得很好,整体成功率为88.7%。

  而在剩余的11.3%的使命中,人类犯的过错一般是细微的,例如没有正确阅览使命或错过了方针的一部分。

  当然也有另一种失利方式,比方受试者在查找5-10分钟后找不到适宜的帖子并抛弃,以为使命无法完结。

  特别声明:以上内容(如有图片或视频亦包含在内)为自媒体渠道“网易号”用户上传并发布,本渠道仅供给信息存储服务。

  摩肩接踵来了!上海宣告:全力运送!上海警方猜测:今日将有7万车次经G40返沪,提示→

  马克龙忽然撤销拜访基辅,网传基辅妄图将其暗算并嫁祸俄罗斯?BBC记者:这是流言

  作用迸裂!OpenAI首个视频生成模型发布,1分钟流通高清,网友:整个职业RIP

  谷歌Gemini 1.5深夜爆破上线,史诗级多模态硬刚GPT-5!最强MoE首破100万极限上下文纪录