3D 测量

AI替代人类从网购刷短视频开端！CMU发布多模态Web Agent基准让大模型冲浪比你还溜

发布时间：2024-02-16 22:49:36 人气：来源：bob平台官网入口

案例介绍

大模型的新检测来了！近来，来自卡内基梅隆大学的研究人员发布了评价LLM多模态Web署理功用的基准测验。

近来，来自卡内基梅隆大学（CMU）的研究人员发布了一个评价多模态Web署理功用的基准测验。

比方帮忙人类处理网上购物、会议等日常使命，比方帮忙人类考试「做弊」，还有近来风头正盛的AI机器人，也是人类在物理国际的署理。

而为了练习AI把握这项才能，研究人员花费了许多汗水，比方联合国际各地的闻名试验室，同享机器人的练习和操作数据，比方开发了对应于实在国际的模拟器用来练习Agent。

VisualWebArena由一组依据Web的多样化和杂乱的使命组成，这些使命评价自主多方式署理的各种功用：

如上图所示，这个基准测验中引进了910个新使命，这些使命来自于分类广告、购物和Reddit网站上。

分类网站是一个新环境（具有实在国际的数据），而购物和Reddit网站与WebArena中运用的网站相同。

为了履行这个基准测验，署理（LLM）需求精确处理图画文本输入，解说自然语言指令，并在网站上履行操作以完结用户界说的方针。

新的基准测验引进的使命需求视觉了解，能够评价依据Web的环境中自主署理的视觉和推理技能。

为了评价VisualWebArena的功用，研究人员在WebArena的功用评价范式中引进了新的依据视觉的评价方针。

上图展现了几个评价示例，通过运转依据履行的测验，能够全面评价开放式视觉根底使命上署理轨道的正确性。

受Set-of-Mark提示的启示，研究人员运用JavaScript主动注释网页上的每个可交互元从来履行初始预处理进程，包含鸿沟框和仅有ID。

如上图所示，运用包含鸿沟框和ID的带注释屏幕截图，以及SoM的文本表明方式，作为多模态模型的输入。

下图的依据成果得出，SoM表明进步了可导航性，并在VisualWebArena上完结了更高的成功率。

研究人员对几个最先进的LLM和依据VLM提示的署理进行了基准测验，发现一切现有的模型都显着低于人类的体现。

虽然多模态模型一般会进步VisualWebArena的功用，但仍有很大的距离需求弥合。

为了保证可重复性、实在性和确定性，VisualWebArena结构中的一切网站都可作为独立的开源Web应用程序运用。

网站中可用的文本和视觉内容是从实际国际获取的，而代码则依据实际国际应用程序中常用的开源结构。

环境和智能体能够建模为部分可调查的马尔可夫决议计划进程（POMDP）：E =（S，A，Ω，T），其间S表明状况集，A表明举动集，Ω表明观测值集。

搬运函数界说为T：S × A → S，状况之间确实定性转化以动作为条件。在每个时刻进程t中，环境都处于某种状况s（比方特定页面），并具有部分调查o∈ Ω。

署理以o为条件宣告操作a ∈ A，这将导致新状况s ∈ S，以及成果页面的新部分调查o ∈ Ω。

最终，界说奖赏函数R ：S × A → {0， 1}来衡量使命履行的成功。在VisualWebArena中，假如状况转化与使命方针的希望共同（即方针已完结），则奖赏函数在最终一步回来1，不然回来0。

比方在上图的第一个使命中，奖赏函数评价订单是否正确下到达输入图画中供给确实切地址，并包含正确的项目。

调查空间Ω以实在的Web阅览体会为模型。调查成果包含网页URL、翻开的选项卡（或许是不同网站的多个选项卡）以及要点选项卡的网页内容。

在大约 25% 的使命中，方针也会涉及到图画（比方上图的第一个和第三个使命）

原始网页HTML作为文档方针模型（DOM）树，一般用于曾经的自治Web署理作业。网页截图，表明为RGB阵列，在之前的视觉署理作业中现已证明了有效性。辅佐功用树，供给了针对辅佐技能优化的网页内容的结构化和简化表明，是WebArena用于其基线LLM署理的首要表明。本文引进的一种新的视觉表明，创意来自符号集（SoM）提示。关于网页上的每个可交互元素，用鸿沟框和ID符号它，生成一个屏幕截图，答应可视化署理通过其仅有ID引证页面上的元素。操作空间