栏目分类
发布日期:2024-12-29 16:26 点击次数:155
跟着东说念主工智能技艺的络续跳跃,大型谈话模子(LLMs)正在蜕变咱们与图形用户界面(GUI)的互动形貌。本文综述了奈何诓骗 LLMs 增强 GUI 自动化代理的智商,通过当然谈话指示罢了敌手机和电脑的智能操作。这种技艺的发展不仅提高了自动化的活泼性和智能性,还为 GUI 自动化领域带来了新的商榷处所和应用远景。
来自《Large Language Model-Brained GUI Agents: A Survey》综述回想
这篇著述要处理的问题是奈何诓骗大型谈话模子(LLMs)来增强图形用户界面(GUI)自动化代理的智商。具体来说,商榷奈何通过 LLMs 的讲明复杂 GUI 元素和基于当然谈话指示自主扩充看成来罢了更智能、更活泼的自动化。
该问题的商榷相干使命包括早期的基于剧本或规定的方式、连年来引入的机器学习和臆想机视觉技艺、以及最近的大型谈话模子在 GUI 自动化中的应用。
诓骗大型谈话模子(LLMs)来增强 GUI 自动化代理的方式:
架构和过程:一个基本的 LLM 驱动 GUI 代理的架构,包括操作环境、辅导工程、模子推理、看成扩充和内存不竭五个主要组件。操作环境珍惜感知面前环境景况,辅导工程构建输入辅导以指引 LLM 进行推理,模子推理生成斟酌和看成,看成扩充模拟用户操作,内存不竭用于追踪多门径任务的景况。
平台特定感知:针对不同平台(转移诞生、Web、桌面操作系统),代理使用不同的器具和技艺来感知环境景况。举例,转移诞生使用 Accessibility API,Web 使用 Selenium,桌面操作系统使用 Windows UI Automation。
辅导工程:辅导工程是要道门径,触及将用户苦求、环境景况、可用看成等信息整合成一个结构化的输入辅导。公式:Prompt=User Request+Agent Instruction+Environment States+Action Documents+Demonstrated Examples+Complementary Information
模子推理:模子推理部分将结构化辅导输入到 LLM 中,生成斟酌和看成。LLM 不错生成多种类型的输出,包括筹备、看成和补充信息。
看成扩充:看成扩充部分将推理后果更始为具体的用户界面操作,如点击、输入文本、滚动等。代理还使用种种器具和技艺来增强其操作智商,如 API 调用和 AI 器具。
要道问题及回应
问题 1:LLM-brained GUI 代理在架构和过程上有哪些要道组件?它们各自的作用是什么?
LLM-brained GUI 代理的架构包括五个主要组件:操作环境、辅导工程、模子推理、看成扩充和内存不竭。
操作环境:珍惜感知面前环境景况,包括通过截图、控件属性和 UI 元素树等形貌获取 GUI 的视觉和结构信息。
辅导工程:将用户指示和环境数据整合成结构化输入,确保 LLMs 大概理受命务需求并生成合适的看成。辅导包括用户指示、环境景况、看成文档、示范示例和补充信息等。
模子推理:通过 LLMs 生成斟酌和看成。推理过程包括筹备和看成推断两个主要门径。筹备部分将永恒任务观点为可不竭的子任务,并使用链式念念维(CoT)等方式进行筹备;看成推断部分则将筹备后果更始为具体的看成序列。
看成扩充:将推理后果更始为骨子的看成,这些看成不错是圭臬的 UI 操作、原生 API 调用或 AI 器具的使用。通过这些看成,代理大概在 GUI 环境中扩充复杂的任务。
内存不竭:关于多步任务的扩充至关遑急。短期挂念(STM)用于存储面前任务的相干信息,而永恒挂念(LTM)则用于存储历史任务数据和计谋。通过内存不竭,代理大概在多步任务中保捏贯穿性和一致性。
这些组件共同确保 LLM-brained GUI 代理大概高效、准确地扩充复杂的 GUI 自动化任务。
问题 2:LLM-brained GUI 代理在数据收罗和预处理方面有哪些具体的方式和门径?
数据收罗:
用户指示:不错通过东说念主工策画、现存数据集或 LLM 生成。东说念主工策画的指示需要确保险翳种种骨子应用场景,现存数据集不错提供运转的指示样本,而 LLM 生成则不错彭胀指示的种种性和复杂性。
环境感知:包括 GUI 截图、控件属性和 UI 元素树等。截图不错通过屏幕捕捉器具获取,控件属性和 UI 元素树则不错通过成心的器具和库提真金不怕火。
任务轨迹:需要记载代理扩充当务过程中的每一步操作,包括点击、输入、滚动等,以生成竣工的任务轨迹。
数据预处理:
数据清洗:去除疏导、无效或失误的数据,确保数据的准确性和一致性。
去重:识别并列斥数据荟萃的疏导项,幸免对模子覆按酿成侵略。
体式化:将数据退换为合乎模子覆按的体式,如调解的数据结构和编码形貌。
数据增强:通过变换、扩充和编订等技巧增多数据集的种种性和复杂性,提高模子的泛化智商。
通过这些数据收罗和预处理门径,LLM-brained GUI 代理大概赢得高质地、种种化的覆按数据,从而进步其在复杂 GUI 环境中的弘扬。
问题 3:LLM-brained GUI 代理在模子推理和看成扩充方面有哪些革命的技艺和方式?
模子推理:
筹备和看成推断:将永恒任务观点为可不竭的子任务,并使用链式念念维(CoT)等方式进行筹备。看成推断部分则将筹备后果更始为具体的看成序列。
多模态处理:纠合文本和图像信息,进步模子对复杂 GUI 环境的领会智商。举例,使用视觉谈话模子(VLM)和视觉变换器(ViT)纠合文本和图像数据进行推理。
强化学习:通过强化学习优化代理的看成袭取和扩充计谋,非常是在需要多步操作和永恒筹备的任务中弘扬优异。
看成扩充:
圭臬 UI 操作:包括点击、输入、滚动等基本的用户界面操作。
原生 API 调用:诓骗特定应用的 API 进行更复杂的任务操作,如文献操作、辘集苦求等。
AI 器具的使用:集成 OCR、图像生成、数据分析等 AI 器具,进步代理在复杂任务中的弘扬。举例,使用 DALL · E 生成图像,使用 ChatGPT 进行文本生成和问答。
这些革命的技艺和方式使得 LLM-brained GUI 代理大概在复杂多变的 GUI 环境中罢了高效的自动化任务,进步了代理的稳妥性和智能化水平。
题图来自 Unsplash,基于 CC0 契约。