tokenpocket苹果下载官网|智能代理

作者: tokenpocket苹果下载官网
2024-03-08 05:09:08

读懂AI Agent:基于大模型的人工智能代理 - 知乎

读懂AI Agent:基于大模型的人工智能代理 - 知乎首发于产品对科技前沿的关注切换模式写文章登录/注册读懂AI Agent:基于大模型的人工智能代理产品经理大群​计算机技术与软件专业技术资格证持证人AI Agent(人工智能代理)是一种能够感知环境、进行决策和执行动作的智能实体。AI Agent也可以称为“智能体”,也可理解为“智能业务助理”,旨在大模型技术驱动下,让人们以自然语言为交互方式高自动化地执行和处理专业或繁复的工作任务,从而极大程度释放人员精力。Agent 其实基本就等于 "大模型 + 插件 + 执行流程 / 思维链",分别会对应控制端 (Brain / 大脑)、感知端 (Preception)、执行端 (Action) 环节,如下,AI Agent 发展迅速,出现多款“出圈”级研究成果。2023 年 3 月起,AI Agent 领 域迎来了第一次“出圈”,西部世界小镇、BabyAGI、AutoGPT 等多款重大 Agent 研究项目均在短短两周内陆续上线,引发了大家对 AI Agent 领域的关注。目前已经 涌现了在游戏领域大放异彩的英伟达 Voyager 智能体、能够帮助个人完成简单任务 的 Agent 助理 HyperWrite、以及主打个人情感陪伴的 AI 助理 Pi 等多款优秀的 Agent 成果,AI Agent 的研究进展迅速。 1. 背景介绍大语言模型的浪潮推动了 AI Agent 相关研究快速发展,AI Agent 是当前通往 AGI 的主要探索路线。大模型庞大的训练数据集中包含了大量人类行为数据,为模拟类 人的交互打下了坚实基础;另一方面,随着模型规模不断增大,大模型涌现出了上 下文学习能力、推理能力、思维链等类似人类思考方式的多种能力。将大模型作为 AI Agent 的核心大脑,就可以实现以往难以实现的将复杂问题拆解成可实现的子任 务、类人的自然语言交互等能力。由于大模型仍存在大量的问题如幻觉、上下文容 量限制等,通过让大模型借助一个或多个 Agent 的能力,构建成为具备自主思考决 策和执行能力的智能体,成为了当前通往 AGI 的主要研究方向。 1.1 Agent这个词是如何出现的有很多人或许会疑惑,Agent这个东西看起来跟LLM也没差得那么远,那为啥最近突然Agent那么火,而不称之为LLM-Application或者其他的词呢?这就得从agent的来历上说起了,因为Agent是个很古老的术语,甚至可以追溯至亚里士多德和休谟等人的言论。从哲学意义上讲,“代理人”是指具有行动能力的实体,而“代理”一词则表示这种能力的行使或体现。而从狭义上讲,“代理”通常是指有意行动的表现;相应地,“代理人”一词表示拥有欲望、信念、意图和行动能力的实体。需要注意的是,代理人不仅包括人类个体,还包括物理世界和虚拟世界中的其他实体。重要的是,“代理”的概念涉及个人的自主性,赋予他们行使意志、做出选择和采取行动的能力,而不是被动地对外部刺激做出反应。在 20 世纪 80 年代中后期之前,主流人工智能界的研究人员对Agent相关概念的关注相对较少,这可能会让人感到惊讶。然而,从那时起,计算机科学和人工智能界对这一话题的兴趣就大大增加了。正如 Wooldridge 等人所言,我们可以这样定义人工智能:“它是计算机科学的一个子领域,旨在设计和构建基于计算机的、表现出智能行为各个方面的Agent。”因此,我们可以把Agent作为人工智能的核心概念。当Agent这一概念被引入人工智能领域时,其含义发生了一些变化。在哲学领域,Agent可以是人、动物,甚至是具有自主性的概念或实体。然而,在人工智能领域,Agent是一个计算实体。由于意识和欲望等概念对于计算实体来说似乎具有形而上学的性质,而且我们只能观察机器的行为,包括艾伦-图灵在内的许多人工智能研究者建议暂时搁置Agent是否“真正”在思考或是否真的拥有“思想”的问题。相反,研究人员采用其他属性来帮助描述Agent,如自主性、反应性、主动性和社交能力等属性。也有研究者认为,智能是“看人的眼睛”;它不是与生俱来的、孤立的属性。从本质上讲,AI Agent并不等同于Philosophy Agent;相反,它是Agent这一哲学概念在人工智能领域的具体化。在本文中,作者将AI Agent视为人工实体,它们能够使用传感器感知周围环境,做出决策,然后使用执行器采取行动。在特定行业场景中,通用大模型具有的泛化服务特性,很难在知识问答、内容生成、业务处理和管理决策等方面精准满足用户的需求。因此,让通用大模型学习行业知识和行业语料成为行业大模型,再进一步学习业务知识和专业领域工具演进为场景大模型,是生成式AI深入业务场景,承担更复杂任务的关键路径。这一过程的实现,让大模型的持续进化最终以AI Agent的产品形态,开始了对业务的流程及其管理和服务模式的重构与优化。正如OpenAI联合创始人安德烈·卡帕斯(Andrej Karpathy)认为,在各类行业组织对数字化实体的打造进程中,对于通用人工智能(AGI)的应用,将广泛采用AI Agent的产品形式开展业务,而来自于各行业领域的开发人员和创业者们,将比通用大模型的开发商们更具有对AI Agent的开发优势。AI Agent,也被越来越多的人认可为是数字经济时代深刻赋能各行各业的高效生产力工具。不同于传统的人工智能,AI Agent 具备通过独立思考、调用工具去逐步完成给 定目标的能力。AI Agent 和大模型的区别在于,大模型与人类之间的交互是基于 prompt 实现的,用户 prompt 是否清晰明确会影响大模型回答的效果。而 AI Agent 的工作仅需给定一个目标,它就能够针对目标独立思考并做出行动。和传统的 RPA 相比,RPA 只能在给定的情况条件下,根据程序内预设好的流程来进行工作的处 理,而 AI Agent 则可以通过和环境进行交互,感知信息并做出对应的思考和行动。 1.2 AI Agent研究中的技术演变史Symbolic Agents: 在人工智能研究的早期阶段,最主要的方法是符号人工智能,其特点是依赖符号逻辑。这种方法采用逻辑规则和符号表示来封装知识和促进推理过程。它们主要关注两个问题:转换问题和表示/推理问题。这些Agent旨在模拟人类的思维模式。它们拥有明确的、可解释的推理框架,而且由于其符号性质,它们表现出高度的表达能力。这种方法的一个典型例子是基于知识的专家系统。然而,Symbolic Agent在处理不确定性和大规模现实世界问题时面临着局限性。此外,由于符号推理算法错综复杂,要找到一种能在有限时间内产生有意义结果的高效算法也很有挑战性。Reactive Agents: 与Symbolic Agent不同,Reactive Agent不使用复杂的符号推理。相反,它们主要关注Agent与其Environment之间的交互,强调快速和实时响应。这类Agent的设计优先考虑直接将输入输出进行映射,而不是复杂的推理和符号操作。Reactive Agent通常需要较少的计算资源,从而能做出更快的反应,但可能缺乏复杂的高层决策和规划能力。RL-based Agents: 该领域的主要关注点是如何让Agent通过与环境的交互进行学习,使其在特定任务中获得最大的累积奖励。最初,RL-based Agent主要基于强化学习算法,如策略搜索和价值函数优化,Q-learning和SARSA就是一个例子。随着深度学习的兴起,出现了深度神经网络与强化学习的整合,即深度强化学习。这使得Agent可以从高维输入中学习复杂的策略,从而取得了众多重大成就,如AlphaGo和DQN。这种方法的优势在于它能让Agent在未知环境中自主学习,而无需明确的人工干预。这使得它能广泛应用于从游戏到机器人控制等一系列领域。然而,强化学习也面临着一些挑战,包括训练时间长、采样效率低以及稳定性问题,尤其是在复杂的真实世界环境中应用时。Agent with transfer learning and meta learning: 传统上,训练强化学习Agent需要大量样本和较长的训练时间,而且缺乏泛化能力。因此,研究人员引入了迁移学习来加速Agent对新任务的学习。迁移学习减轻了新任务培训的负担,促进了知识在不同任务间的共享和迁移,从而提高了学习效率、绩效和泛化能力。此外,AI Agent也引入了元学习。元学习的重点是学习如何学习,使Agent能从少量样本中迅速推断出新任务的最优策略。这样的Agent在面对新任务时,可以利用已获得的一般知识和策略迅速调整其学习方法,从而减少对大量样本的依赖。然而,当源任务和目标任务之间存在显著差异时,迁移学习的效果可能达不到预期,并可能出现负迁移。此外,元学习需要大量的预训练和大量样本,因此很难建立通用的学习策略。LLM-based Agent: 由于大型语言模型已经展示出令人印象深刻的新兴能力,并受到广泛欢迎,研究人员已经开始利用这些模型来构建AI Agent。具体来说,他们采用 LLM 作为这些Agent的大脑或控制器的主要组成部分,并通过多模态感知和工具利用等策略来扩展其感知和行动空间。通过思维链(CoT)和问题分解等技术,这些基于 LLM 的Agent可以表现出与Symbolic Agen相当的推理和规划能力。它们还可以通过从反馈中学习和执行新的行动,获得与环境互动的能力,类似于Reactive Agent。同样,大型语言模型在大规模语料库中进行预训练,并显示出少量泛化的能力,从而实现任务间的无缝转移,而无需更新参数。LLM-based Agent已被应用于各种现实世界场景、如软件开发和科学研究。由于具有自然语言理解和生成能力,它们可以无缝互动,从而促进多个Agent之间的协作和竞争。1.3 为什么LLM能够作为Agent的全新大脑本文将深入探讨一些Agent关键属性,阐明它们与 LLM 的相关性,从而阐述为什么 LLM 非常适合作为AI Agent大脑。自主性(Autonomy):自主性是指一个Agent在没有人类或其他人直接干预的情况下运行,并对其行动和内部状态拥有一定程度的控制。这意味着,AI Agent不仅应具备按照人类的明确指令完成任务的能力,还应表现出独立发起和执行行动的能力。这意味着一定程度的自主探索和决策,Auto-GPT等应用体现了 LLM 在构建Autonomious Agent方面的巨大潜力——只需向它们提供一项任务和一套可用工具,它们就能自主制定计划并执行计划,以实现最终目标。本文认为LLMs在自主性方面的表现主要体现在以下几点:LLMs可以通过生成类似人类的文本参与对话,并在没有详细步骤指示的情况下执行各种任务的能力来展示一种自主性。LLMs能根据环境输入动态调整输出,体现出一定程度的自适应能力。LLMs能通过展示创造力来体现自主性,比如提出新颖的想法、故事或解决方案,而这些并没有明确编入它们的程序。反应性(Reactivity):Agent的反应能力是指它对环境中的即时变化和刺激做出快速反应的能力。这意味着Agent可以感知周围环境的变化,并迅速采取适当的行动。传统上,语言模型的感知空间局限于文本输入,而行动空间则局限于文本输出。不过,研究人员已经证明,利用多模态融合技术可以扩展语言模型的感知空间,使其能够快速处理来自环境的视觉和听觉信息。这些进步使 LLMs 能够有效地与真实世界的物理环境互动,并在其中执行任务。一个主要挑战是:LLM-based Agent在执行非文本操作时,需要一个中间步骤,即以文本形式产生想法或制定工具使用方法,然后最终将其转化为具体操作。这一中间过程会消耗时间,降低响应速度。不过,这与人类的行为模式密切相关,因为人类的行为模式遵循“先思考后行动”的原则。主动性(Pro-activeness):积极主动指的是,Agent不仅仅会对环境做出反应,它们还能积极主动地采取以目标为导向的行动。这一特性强调,Agent可以在行动中进行推理、制定计划和采取主动措施,以实现特定目标或适应环境变化。虽然直观上,LLMs 中的下一个标记预测范式可能不具备意图或愿望,但研究表明,它们可以隐式地生成这些状态的表征,并指导模型的推理过程。LLMs 具有很强的概括推理和规划能力。通过向大型语言模型发出类似 "让我们一步一步地思考 "的指令,我们可以激发它们的推理能力,如逻辑推理和数学推理。同样,大型语言模型也以目标重拟、任务分解和根据环境变化调整计划等形式显示了规划的新兴能力。社会能力(Social Ability):社交能力指的是一个Agent通过某种Agent交流语言与其他Agent(包括人类)进行交互的能力。大型语言模型具有很强的自然语言交互能力,如理解和生成能力。与结构化语言或其他通信原语相比,这种能力使它们能够以可解释的方式与其他模型或人类进行交互,这构成了LLM-based Agent的社会能力的基石。许多研究人员已经证明,LLM-based Agent可以通过协作和竞争等社会行为提高任务绩效(Meta GPT)。通过输入特定的提示,LLM 也可以扮演不同的角色,从而模拟现实世界中的社会分工(Overcooked)。此外,当我们将多个具有不同身份的Agent放入一个社会中时,可以观察到新出现的社会现象(Generative Agent)。LLM研究对Agent研究的贡献AI Agent需要感知环境、做出决策并执行适当的行动。在这些关键步骤中,最重要的是理解输入给Agent的内容、推理、规划、做出准确决策,并将其转化为可执行的原子动作序列,以实现最终目标。目前,许多研究利用LLM作为AI Agent的认知核心,这些模型的发展为完成这一步骤提供了质量保证。LLM的优势:大型语言模型在语言和意图理解、推理、记忆甚至移情等方面具有强大的能力,可以在决策和规划方面发挥卓越的作用。再加上预先训练的知识,它们可以创建连贯的行动序列,并有效地执行。此外,通过反思机制,这些基于语言的模型可以根据当前环境提供的反馈不断调整决策和优化执行序列。LLM的应用:LLM为Agent研究提供了一个非常强大的基础模型,在与Agent相关的研究中,LLM开辟了许多新的机会。例如,我们可以探索如何将LLM的高效决策能力整合到传统的Agent决策框架中,使Agent更容易应用于对专业知识要求较高且以前由人类专家主导的领域。此外,Agent研究不再局限于简单的模拟环境,现在可以扩展到更复杂的真实世界环境中。Agent研究对LLM研究的贡献将LLM提升为Agent标志着向人工通用智能(AGI)迈出了更坚实的一步。从Agent的角度来看待LLM,对LLM研究提出了更高的要求,同时也扩大了LLM的应用范围,为实际应用提供了大量机会。LLM的研究方向:对LLM的研究不再局限于涉及文本输入和文本输出的传统任务,如文本分类、问题解答和文本摘要。取而代之的是,研究重点已转向处理复杂任务,这些任务包含更丰富的输入模式和更广阔的行动空间。LLM的挑战:挑战在于如何让大型语言模型高效地处理输入、从环境中收集信息并解释由其行动产生的反馈,同时保持其核心能力。此外,更大的挑战在于如何让LLMs理解环境中不同元素之间的隐含关系,并获取世界知识。LLM的行动能力:大量研究旨在扩展LLM的行动能力,让它们掌握更多影响世界的技能,例如在模拟或物理环境中使用工具或与机器人API接口。Multi-Agent系统领域:我们希望LLM-based Agent能在社会合作中扮演不同的角色,参与涉及协作、竞争和协调的社会互动。2. Agent的构建图1:LLM-based Agent的概念框架,由大脑、感知、行动三个部分组成。作为控制器,大脑模块承担记忆、思考和决策等基本任务;感知模块负责感知和处理来自外部环境的多模态信息;行动模块负责使用工具执行任务并影响周围环境。一个基于大模型的 AI Agent 系统可以拆分为大模型、规划、记忆与工具使用四个组 件部分。AI Agent 可能会成为新时代的开端,其基础架构可以简单划分为 Agent = LLM + 规划技能 + 记忆 + 工具使用,其中 LLM 扮演了 Agent 的“大脑”,在这个 系统中提供推理、规划等能力。 本文主要介绍LLM-based Agent的总体概念框架,由大脑、感知、行动三个关键部分组成(见图1)。2.1 大脑模块大脑主要由一个大型语言模型组成,不仅存储知识和记忆,还承担着信息处理和决策等功能,并可以呈现推理和规划的过程,能很好地应对未知任务。运行机制:为确保有效交流,自然语言交互能力 至关重要。在接收感知模块处理的信息后,大脑模块首先转向存储,在知识中检索 并从记忆中回忆 。这些结果有助于Agent制定计划、进行推理和做出明智的决定 。此外,大脑模块还能以摘要、矢量或其他数据结构的形式记忆Agent过去的观察、思考和行动。同时,它还可以更新常识和领域知识等知识,以备将来使用。LLM-based Agent还可以利用其固有的概括和迁移能力来适应陌生场景 。在随后的章节中将详细探讨图2所示的大脑模块的这些非凡功能。自然语言交互作为一种交流媒介,语言包含着丰富的信息。除了直观表达的内容,背后还可能隐藏着说话者的信念、愿望和意图。由于 LLM 本身具有强大的自然语言理解和生成能力,Agent不仅可以熟练地使用多种语言进行基本的交互式对话,还能表现出深入的理解能力,从而使人类能够轻松地理解Agent并与之互动。多轮交互对话:多轮对话能力是有效和一致交流的基础。作为大脑模块的核心,LLM能够理解自然语言并生成连贯且与上下文相关的回复,从而帮助Agent更好地理解和处理各种问题。然而,即使是人类也很难在一次交流中不出现混乱,因此需要多轮对话。与 SQuAD 等传统的纯文本阅读理解任务相比,多轮对话具有以下几个特点:具有交互性,涉及多个说话者,缺乏连续性;可能涉及多个话题,对话信息也可能是冗余的,使得文本结构更加复杂。一般来说,多轮对话主要分为三个步骤: (1) 了解自然语言对话的历史;(2) 决定采取什么行动;(3) 生成自然语言回应。LLM-based Agent能够利用现有信息不断完善输出,进行多轮对话并有效实现最终目标。高质量的自然语言生成:最新的 LLM 展示了卓越的自然语言生成能力,可持续生成多种语言的高质量文本。LLM 生成内容的连贯性和语法准确性稳步提高,从GPT-3逐步发展到 InstructGPT,最终达到 GPT-4。这些语言模型可以“适应调节文本的风格和内容”,而像ChatGPT这样的模型在语法错误检测方面表现出色,凸显了其强大的语言能力。在对话语境中,LLMs 在对话质量的关键指标上也表现出色,包括内容、相关性和适当性。重要的是,LLMs 不仅仅复制训练数据,而且还表现出一定程度的创造力,能生成与人类制作的基准文本同样新颖甚至更加新颖的各种文本。同时,通过使用可控提示,确保对这些语言模型生成的内容进行精确控制,人类的监督依然有效。意图和含义理解:尽管在大规模语料库中训练出来的模型已经具有足够的智能来理解指令,但它们中的大多数仍无法模拟人类对话或充分利用语言所传达的信息。要想与其他智能机器人进行有效的交流与合作,理解其隐含的意思至关重要,并使人们能够解释他人的反馈。LLMs 的出现凸显了基础模型在理解人类意图方面的潜力,但当涉及到模糊指令或其他含义时,就会给Agent带来巨大挑战。对于人类来说,掌握对话中的隐含意义是自然而然的事,而对于Agent来说,他们应该将隐含意义形式化为奖励函数,使他们能够在看不见的语境中选择符合说话者偏好的选项。奖励建模的主要方法之一是根据反馈推断奖励,反馈主要以比较和无约束自然语言的形式呈现。另一种方法是以行动空间为桥梁,从描述中获取奖励。Jeon 等人认为,人类行为可以映射为从一组隐含选项中做出的选择,这有助于用一个统一的形式解释所有信息。利用对上下文的理解,Agent可以根据具体要求采取高度个性化和准确的行动。知识研究表明,在大规模数据集上训练的语言模型可以将各种知识编码到其参数中,并对各种类型的查询做出正确的反应。此外,这些知识还能帮助LLM-based Agent做出明智的决策。所有这些知识可大致分为以下几类:语言知识:语言知识表现为一个约束系统,即语法,它定义了语言的所有和唯一可能的句子。它包括词法、句法、语义学和语用学。只有掌握了语言知识的Agent才能理解句子并进行多轮对话。此外,这些Agent可以通过在包含多种语言的数据集上进行训练来获取多语言知识,从而无需额外的翻译模型。常识知识:常识性知识指的是大多数人在幼年时就已掌握的世界常识。例如,人们通常知道药是用来治病的,伞是用来防雨的。这些信息通常不会在上下文中明确提及。因此,缺乏相应常识性知识的模型可能无法理解或误解其中的含义。同样,缺乏常识性知识的Agent可能会做出错误的决定,比如在下大雨时不打伞。专业领域知识:专业领域知识是指与特定领域相关的知识,如编程、数学、医学等。它对模型有效解决特定领域内的问题至关重要。例如,用于执行编程任务的模型需要具备编程知识,如代码格式。同样,用于诊断目的的模型应具备医学知识,如特定疾病和处方药的名称。潜在问题:尽管 LLM 在获取、存储和利用知识方面表现出色,但仍然存在潜在的问题和悬而未决的难题。例如,模型在训练过程中获得的知识可能会过时,甚至从一开始就是错误的。解决这一问题的简单方法是重新训练。但是,这需要先进的数据、大量的时间和计算资源。更糟糕的是,它可能导致灾难性遗忘。因此,一些研究人员尝试编辑 LLM,以找到并修改模型中存储的特定知识。这包括在获取新知识的同时卸载不正确的知识。他们的实验表明,这种方法可以部分编辑事实知识,但其基本机制仍需进一步研究。此外,LLMs 可能会生成与来源或事实信息相冲突的内容,这种现象通常被称为幻觉。这也是 LLM 无法广泛应用于严格的事实任务的重要原因之一。为解决这一问题,一些研究人员提出了衡量幻觉程度的指标,为开发人员提供了评估 LLM 输出可信度的有效参考。此外,一些研究人员还使 LLM 能够利用外部工具来避免错误的 LLM 输出。记忆在本文的框架中,“记忆”存储了Agent过去的观察、思考和行动序列,这与 Nuxoll 等人提出的定义类似。正如人脑依靠记忆系统来回溯利用先前的经验制定策略和做出决策一样,Agent也需要特定的记忆机制来确保其熟练处理一系列连续任务。在面对复杂问题时,记忆机制能帮助行为主体有效地重新审视和应用先前的策略。此外,这些记忆机制还能使个体借鉴过去的经验,适应陌生的环境。随着LLM-based Agent互动周期的扩大,出现了两个主要挑战。第一个挑战与历史记录的长度有关。LLM-based Agent以自然语言格式处理先前的交互,并将历史记录附加到每个后续输入中。随着这些记录的增加,它们可能会超出大多数LLM-based Agent所依赖的 Transformer 架构的限制。在这种情况下,系统可能会截断某些内容。第二个挑战是提取相关记忆的难度。当Agent积累了大量的历史观察和行动序列时,它们就会面临不断升级的记忆负担。这使得在相关主题之间建立联系变得越来越具有挑战性,有可能导致Agent的反应与当前环境不一致。提高记忆能力的方法 下面我们介绍几种增强LLM-based Agent记忆能力的方法。提高Trransformer的输入长度限制:第一种方法试图解决或减轻固有的序列长度限制。由于这些固有限制,Transformer架构很难处理长序列。随着序列长度的增加,由于Self-Attention机制中的成对标记计算,计算需求将呈指数级增长。缓解这些长度限制的策略包括文本截断、分割输入,以及强调文本的关键部分。还有一些研究修改了注意力机制,以降低复杂性,从而适应较长的序列。总结记忆:提高记忆效率的第二种策略取决于记忆总结的概念。这能确保Agent毫不费力地从历史互动中提取关键细节。一些方法利用提示简洁地整合记忆,而另一些方法则强调反思过程,以创建浓缩的记忆表征。分层方法将对话精简为每日快照和总体总结。一些特定的策略将环境反馈转化为文本封装,从而加强了Agent对未来参与的语境把握。此外,在multi-agent环境中,Agent交流的重要元素会被捕获并保留下来 。用向量或数据结构压缩记忆:通过采用合适的数据结构,智能Agent可提高记忆检索效率,促进对交互做出迅速反应。值得注意的是,有几种方法依赖于为记忆部分、计划或对话历史嵌入向量。另一种方法将句子转化为三元组配置,还有一些方法将记忆视为独特的数据对象,从而促进不同的交互。此外,ChatDB和DB-GPT将 LLMrollers 与 SQL 数据库整合在一起,通过 SQL 命令进行数据操作。记忆检索方法当Agent与其环境或用户交互时,必须从其内存中检索最合适的内容。这可确保Agent访问相关的准确信息,以执行特定操作。这就产生了一个重要问题:Agent如何选择最合适的存储器?通常情况下,Agent要求存储器具有自动检索记忆的能力。自动检索的一个重要方法是考虑三个指标: 最近性(Recency)、相关性(Relevance)和重要性(Importance)。记忆得分由这些指标加权组合而成,得分最高的记忆在模型的上下文中被优先考虑。一些研究引入了交互式记忆对象的概念,即对话历史的表现形式,可以移动、编辑、删除或通过总结进行组合。用户可以查看和操作这些对象,从而影响Agent对对话的感知。同样,其他研究也允许根据用户提供的特定命令进行删除等记忆操作。这些方法确保了记忆内容与用户的期望密切相关。推理和规划推理(Reasoning):推理以证据和逻辑为基础,是人类智力活动的根本,是解决问题、决策和批判性分析的基石。演绎、归纳和归纳是智力活动中常见的主要推理形式。对于LLM-based Agent来说,与人类一样,推理能力对于解决复杂任务至关重要 。关于大型语言模型的推理能力,学术界存在不同观点。一些人认为语言模型在预训练或微调过程中就具备了推理能力,而另一些人则认为推理能力是在达到一定规模后才出现的。具体来说,具有代表性的思维链(CoT)方法通过引导 LLM 在输出答案之前生成理由,已被证明能够激发大型语言模型的推理能力。此外,还提出了其他一些提高 LLM 性能的策略,如自我一致性、自我修正、自我完善和选择推理等。一些研究表明,分步推理的有效性可归因于训练数据的局部统计结构,与对所有变量进行训练相比,变量间局部结构化的依赖关系能产生更高的数据效率。规划(Planning):规划是人类在面对复杂挑战时采用的一种关键策略。对人类来说,规划有助于组织思维、设定目标和确定实现这些目标的步骤。与人类一样,规划能力对Agent也至关重要,而规划模块的核心是推理能力。这为LLM-based Agent提供了一个结构化的思维过程。通过规划,Agent可将复杂的任务分解为更易于管理的子任务,并为每个子任务制定适当的计划。此外,随着任务的进展,Agent可以利用内省来修改其计划,确保计划更符合实际情况,从而适应并成功执行任务。通常,规划包括两个阶段:计划制定和计划反思。计划制定:在制定计划的过程中,Agent通常会将总体任务分解成许多子任务,在这一阶段,人们提出了各种方法。值得注意的是,一些著作主张LLM-based Agent一次性全面分解问题,一次性制定完整的计划,然后按顺序执行。与此相反,其他研究(如 CoT 系列)则采用自适应策略,一次规划和处理一个子任务,从而更流畅地处理复杂的整体任务。此外,有些方法强调分层规划,而另一些方法则强调一种策略,即从树状结构的推理步骤中推导出最终计划。后一种方法认为,在最终确定计划之前,Agent应评估所有可能的路径。虽然基于 LLM 的Agent展示了广博的常识,但在遇到需要专业知识的情况时,它们偶尔也会面临挑战。通过将这些Agent与特定领域的规划者相结合来增强它们的能力,已证明能产生更好的性能。计划反思:制定计划后,必须对其优点进行反思和评估。LLM-based Agent可利用内部反馈机制(通常是从已有模型中汲取灵感)来完善和改进其战略和规划方法。为了更好地与人类的价值观和偏好保持一致,Agent会主动与人类接触,从而纠正一些误解,并将这些有针对性的反馈吸收到其规划方法中。此外,它们还可以从有形或虚拟环境中获得反馈,如任务完成情况的提示或行动后的观察,帮助它们修改和完善计划。可迁移性和通用性在大规模语料库上预先训练的模型可以学习通用语言表征。利用预训练模型的强大功能,只需少量数据进行微调,LLMs 就能在下游任务中表现出卓越的性能。无需从头开始训练新模型,从而节省了大量计算资源。然而,通过这种针对特定任务的微调,模型缺乏通用性,很难推广到其他任务中。LLM-based Agent不只是发挥静态知识库的作用,而是展现出动态学习能力,使其能够快速、稳健地适应新任务。看不见的任务泛化:研究表明,LLMs 可以根据自己的理解,按照指令完成在训练阶段没有遇到过的新任务。多任务学习是其中一种实现方式,例如,FLAN 在通过指令描述的任务集合上对语言模型进行微调,而 T0 则引入了一个统一的框架,将每个语言问题转换成文本到文本的格式。提示的选择对于适当的预测至关重要,而直接根据提示进行训练可以提高模型对未知任务进行泛化的鲁棒性。值得期待的是,通过扩大模型规模和训练指令的数量或多样性,可以进一步增强这种泛化能力。情境学习:大量研究表明,LLM 可以通过上下文学习(ICL)完成各种复杂任务,上下文学习指的是模型从上下文中的几个例子中学习的能力。少量语境内学习通过将原始输入与几个完整示例串联起来,作为丰富语境的提示,从而提高语言模型的预测性能。ICL 的主要思想是从类比中学习,这与人类的学习过程类似 。此外,由于提示是用自然语言编写的,因此交互是可解释和可改变的,从而更容易将人类知识纳入 LLM 。与监督学习过程不同,ICL 不涉及微调或参数更新,这可以大大降低模型适应新任务的计算成本。除文本外,研究人员还探索了 ICL 在不同多模态任务中的潜在能力,从而使Agent应用于大规模真实世界任务成为可能。持续学习:最近的研究强调了 LLM 的规划能力在促进Agent持续学习方面的潜力,这涉及技能的持续获取和更新。持续学习的一个核心挑战是灾难性遗忘:当模型学习新任务时,往往会丢失以前任务的知识。为应对上述挑战,人们做出了大量努力,这些努力大致可分为三类:参照以前的模型引入经常使用的术语 ;近似先验数据分布;设计具有任务自适应参数的架构。Voyager尝试解决由 GPT-4设计的课程学习方案(即难度递增的任务),通过从较简单的程序中综合出复杂的技能,该Agent不仅能迅速增强自身能力,还能有效对抗灾难性遗忘。2.2 感知模块感知模块的核心目的是将Agent的感知空间从纯文字领域扩展到包括文字、听觉和视觉模式在内的多模态领域。文本输入LLM-based Agent已经具备了通过文本输入和输出与人类交流的基本能力。在用户的文本输入中,除了明确的内容外,还隐藏着信念、愿望和意图。理解隐含含义对于Agent掌握人类用户的潜在和潜在意图至关重要,从而提高Agent与用户的交流效率和质量。一些研究采用强化学习来感知隐含含义,并建立反馈模型以获得奖励。这有助于推断说话者的偏好,从而使Agent做出更个性化、更准确的回应。此外,由于Agent被设计用于复杂的真实世界环境,它将不可避免地遇到许多全新的任务。理解未知任务的文本指示对Agent的文本感知能力提出了更高的要求。经过指令调整的 LLM 可以表现出卓越的零样本指令理解和泛化能力,从而无需针对特定任务进行微调。视觉输入视觉输入通常包含大量有关世界的信息,包括Agent周围环境中物体的属性、空间关系、场景布局等。因此,将视觉信息与其他模式的数据整合在一起,可以为Agent提供更广泛的背景和更精确的理解,加深Agent对环境的感知。为了帮助Agent理解图像中包含的信息,一种直接的方法是为图像输入生成相应的文本描述,即图像标题。字幕可以直接与标准文本指令连接,并输入到Agent中。这种方法具有很高的可解释性,而且不需要额外的字幕生成训练,可以节省大量的计算资源。不过,字幕生成是一种低带宽方法,在转换过程中可能会丢失大量潜在信息。此外,Agent对图像的关注可能会带来偏差。受Transformer在自然语言处理中出色表现的启发,研究人员已将其应用扩展到计算机视觉领域。ViT/VQVAE等具有代表性的作品成功地利用Transformer对视觉信息进行了编码。研究人员首先将图像分割成固定大小的块,然后将这些块经过线性投影后作为Transformer的输入标记。最后,通过计算标记之间的自注意力,他们就能整合整个图像的信息,从而高效地感知视觉内容。因此,一些研究尝试直接将图像编码器和 LLM 结合起来,以端到端的方式训练整个模型。虽然这种Agent可以实现出色的视觉感知能力,但却要付出大量计算资源的代价。经过广泛预训练的视觉编码器和 LLM 可以大大提高机器人的视觉感知和语言表达能力。在训练过程中冻结视觉编码器和 LLM 中的一个或两个,是一种广泛采用的范式,可在训练资源和模型性能之间实现平衡。然而,LLM 无法直接理解视觉编码器的输出,因此有必要将图像编码转换为 LLM 可以理解的嵌入。换句话说,这需要将视觉编码器与 LLM 对齐,这通常需要在两者之间添加一个额外的可学习接口层。例如,BLIP-2 和 InstructBLIP 使用查询转换器(Q-Former)模块作为视觉编码器和 LLM 之间的中间层。Q-Former 是一种转换器,采用可学习的查询向量,使其具有提取语言信息视觉表征的能力。它可以为 LLM 提供最有价值的信息,减轻Agent学习视觉语言对齐的负担,从而减轻灾难性遗忘的问题。同时,一些研究者采用了一种计算效率较高的方法,即使用单个embedding layer来实现视觉-文本对齐,从而减少了训练额外参数的需要。此外,Embedding layer还能与可学习层有效结合,调整其输出的维度,使其与 LLM 兼容。视频输入由一系列连续的图像帧组成。因此,Agent用于感知图像的方法可能适用于视频领域,使Agent也能很好地感知视频输入。与图像信息相比,视频信息增加了一个时间维度。因此,Agent对不同帧间时间关系的理解对于感知视频信息至关重要。一些工作,如 Flamingo ,通过使用掩码机制来确保理解视频时的时间顺序。掩码机制限制了Agent的视角,当它感知到视频中的特定帧时,只能从时间上较早的帧中获取视觉信息。听觉输入一个非常直观的想法是,Agent可以将 LLMs 用作控制中心,以级联方式调用现有工具集或模型库来感知音频信息。例如,AudioGPT 充分利用了 FastSpeech、GenerSpeech、Whisper等模型的功能,这些模型在文本到语音、风格转换和语音识别等任务中取得了优异的成绩。音频频谱图直观地表示了音频信号随时间变化的频谱,对于一段时间内的一段音频数据,可将其抽象为有限长度的音频频谱图。音频频谱图具有二维表示形式,可视化为平面图像。因此,一些研究致力于将感知方法从视觉领域迁移到音频领域。AST(音频频谱图变换器)采用与 ViT 类似的变换器架构来处理音频频谱图图像。通过将音频频谱图分割成片段,它实现了对音频信息的有效编码。此外,一些研究人员从冻结编码器的想法中获得灵感,以减少训练时间和计算成本。其他输入如前所述,许多研究都对文本、视觉和音频的感知单元进行了研究。然而,LLM-based Agent可能会配备更丰富的感知模块。未来,它们可以像人类一样感知和理解现实世界中的各种模式。例如,Agent可以拥有独特的触觉和嗅觉器官,从而在与物体交互时收集到更多详细信息。同时,Agent还能清楚地感知周围环境的温度、湿度和亮度,从而采取环境感知行动。此外,通过有效整合视觉、文字和光敏感性等基本感知能力,Agent还能开发出各种对人类友好的感知模块。InternGPT引入了指向指令。用户可以通过使用手势或移动光标来选择、拖动或绘制,从而与图像中难以描述的特定部分进行交互。添加指向指令有助于为单个文本指令提供更精确的规范。在此基础上,Agent还有可能感知更复杂的用户输入。例如,AR/VR 设备中的眼球跟踪、身体动作捕捉等技术,甚至是脑机交互中的脑电波信号。最后,LLM-baed Agent应具备对更广阔的整体环境的感知能力。目前,许多成熟且被广泛采用的硬件设备可以帮助Agent实现这一目标。激光雷达可以创建三维点云图,帮助Agent检测和识别周围环境中的物体。全球定位系统可以提供精确的位置坐标,并可与地图数据集成。惯性测量单元(IMU)可以测量和记录物体的三维运动,提供物体速度和方向的详细信息。然而,这些感知数据非常复杂,LLM-based Agent无法直接理解。探索Agent如何感知更全面的输入是未来一个很有前景的方向。2.3 行动模块人类在感知环境后,大脑会对感知到的信息进行整合、分析和推理,并做出决策。随后,他们利用神经系统控制自己的身体,做出适应环境或创造性的行动,如交谈、躲避障碍或生火。当一个Agent拥有类似大脑的结构,具备知识、记忆、推理、规划和概括能力以及多模态感知能力时,它也有望拥有类似人类的各种行动来应对周围环境。在Agent的构建过程中,行动模块接收大脑模块发送的行动序列,并执行与环境互动的行动。文本输出如第 2.1.1 节所述,基于Transformer的大型语言生成模型的兴起和发展,赋予了LLM-based Agent以固有的语言生成能力。它们生成的文本质量在流畅性、相关性、多样性和可控性等各个方面都非常出色。因此,LLM-based Agent可以成为异常强大的语言生成器。工具使用工具是工具使用者能力的延伸。在面对复杂任务时,人类会使用工具来简化任务的解决过程并提高效率,从而节省时间和资源。同样,如果Agent也学会使用和利用工具,就有可能更高效、更高质量地完成复杂任务。LLM-based Agent在某些方面存在局限性,使用工具可以增强Agent的能力。LLM不具备记住每一条训练数据的能力。由于上下文提示的影响,它们也可能无法导向正确的知识,甚至产生知识幻觉。再加上缺乏语料库、训练数据以及针对特定领域和场景的调整,在专注于特定领域时,Agent的专业知识也会受到限制]。专业化工具能让 LLM 以可插拔的形式增强其专业知识、调整领域知识并更适合特定领域的需求。LLM-based Agent决策过程缺乏透明度,使其在医疗保健和金融等高风险领域的可信度较低。LLM 容易受到对抗性攻击,对轻微输入修改的鲁棒性不足。相比之下,借助工具完成任务的Agent则表现出更强的可解释性和鲁棒性。工具的执行过程可以反映Agent处理复杂需求的方法,并提高其决策的可信度。由于工具是为各自的使用场景专门设计的,因此使用这类工具的Agent能更好地处理轻微的输入修改,并能更好地抵御对抗性攻击。LLM-based Agent不仅需要使用工具,而且非常适合工具集成。LLM 利用通过预训练过程和 CoT 提示积累的丰富世界知识,在复杂的交互环境中表现出了非凡的推理和决策能力,这有助于Agent以适当的方式分解和处理用户指定的任务。此外,LLMs 在意图理解和其他方面也显示出巨大潜力。当Agent与工具相结合时,可以降低工具使用的门槛,从而充分释放人类用户的创造潜能。理解工具:Agent有效使用工具的前提是全面了解工具的应用场景和调用方法。没有这种理解,Agent使用工具的过程将变得不可信,也无法真正提高Agent的能力。利用 LLM 强大的zero-shot learning和few-shot learning能力,Agent可以通过描述工具功能和参数的zero-shot demonstartion或提供特定工具使用场景和相应方法演示的少量提示来获取工具知识。这些学习方法与人类通过查阅工具手册或观察他人使用工具进行学习的方法类似。在面对复杂任务时,单一工具往往是不够的。因此,Agent应首先以适当的方式将复杂任务分解为子任务,然后有效地组织和协调这些子任务,这有赖于 LLM 的推理和规划能力,当然也包括对工具的理解。使用工具:Agent学习使用工具的方法主要包括从demonstartion中学习和从reward中学习(清华有一篇从训练数据中学习的文章)。这包括模仿人类专家的行为,以及了解其行为的后果,并根据从环境和人类获得的反馈做出调整。环境反馈包括行动是否成功完成任务的结果反馈和捕捉行动引起的环境状态变化的中间反馈;人类反馈包括显性评价和隐性行为,如点击链接。如果一个Agent刻板地应用工具而缺乏适应性,那么它就无法在所有场景中取得可接受的性能。Agent需要将其在特定环境中学到的工具使用技能推广到更普遍的情况中,例如将在雅虎搜索中训练的模型转移到谷歌搜索中。要做到这一点,Agent有必要掌握工具使用策略的共同原则或模式,而这有可能通过元工具学习来实现。加强Agent对简单工具和复杂工具之间关系的理解,例如复杂工具如何建立在较简单工具的基础上,有助于提高Agent归纳工具使用方法的能力。这样,Agent就能有效辨别各种应用场景中的细微差别,并将以前学到的知识迁移到新工具中。课程学习允许Agent从简单的工具开始,逐步学习复杂的工具,这也符合要求。此外,得益于对用户意图以及推理和规划能力的理解,Agent可以更好地设计工具使用和协作方法,从而提供更高质量的成果。制作自给自足的工具:现有的工具往往是为方便人类而设计的,这对Agent来说可能不是最佳选择。为了让Agent更好地使用工具,需要专门为Agent设计工具。这些工具应该更加模块化,其输入输出格式也更适合Agent。如果能提供说明和示范,LLM-based Agent还能通过生成可执行程序或将现有工具集成到功能更强大的工具中来创建工具,并能学会自我调试。此外,如果作为工具制作者的Agent成功创建了一个工具,那么除了使用工具本身之外,它还可以为multi-Agent系统中的其他Agent制作包含工具代码和演示的软件包。推测未来,Agent可能会变得自给自足,在工具方面表现出高度的自主性。工具可以拓展LLM-based Agent的行动空间:在工具的帮助下,Agent可以在推理和规划阶段利用各种外部资源,如外部数据库和网络应用程序。这一过程可以为LLM-based Agent提供专家级、可靠性、多样性和高质量的信息,促进Agent的决策和行动。例如,基于搜索的工具可以借助外部数据库、知识图谱和网页提高Agent可获取知识的范围和质量。而特定领域的工具则可以增强Agent在相应领域的专业知识,一些研究人员已经开发出了基于 LLM 的控制器,可生成 SQL 语句来查询数据库,或将用户查询转换为搜索请求,并使用搜索引擎来获得所需的结果。此外,LLM-based Agent还可以使用科学工具来执行化学中的有机合成等任务,或与 Python 解释器和 LaTeX 编译器对接,以提高其在复杂数学计算任务中的性能。对于multi-agent系统来说,通信工具(如电子邮件)可作为Agent在严格的安全约束下进行交互的一种手段,促进Agent之间的协作,并显示出自主性和灵活性。虽然前面提到的工具增强了Agent的能力,但与环境交互的媒介仍然是基于文本的。然而,工具的设计是为了扩展语言模型的功能,其输出并不局限于文本。用于非文本输出的工具可以使Agent行动的模式多样化,从而扩展LLM-based Agent的应用场景。例如,图像处理和生成可以由借鉴视觉模型的Agent来完成。在航空航天工程领域,人们正在探索用Agent来建立物理模型和求解复杂的微分方程;在机器人学领域,需要Agent来规划物理操作和控制机器人的执行。具身行动在追求人工通用智能(AGI)的过程中,Embodied Agent被视为一种关键范式,它努力将模型智能与物理世界结合起来。一些学者从人类智能发展过程中汲取灵感,认为Agent的智能来源于与环境的持续互动和反馈,而不是仅仅依赖于精心编辑的预训练数据。同样,与传统的深度学习模型从互联网数据集中学习解决领域问题的明确能力不同,人们预计LLM-based Agent行为将不再局限于纯文本输出或调用精确的工具来执行特定领域的任务。相反,它们应该能够主动感知、理解物理环境并与之互动,根据 LLM 丰富的内部知识做出决策并产生特定行为来改变环境。我们将这些行为统称为“具身行动”(embodied actions),它使Agent能够以近似人类行为的方式与世界互动并理解世界。LLM-based Agent在具身行动方面的潜力:在 LLM 广泛兴起之前,研究人员倾向于使用强化学习等方法来探索Agent的具身行动。尽管基于 RL 的化身取得了广泛成功,但它在某些方面确实存在局限性。简而言之,RL 算法在数据效率、泛化和复杂问题推理方面都面临限制,原因是在模拟动态且往往模糊不清的真实环境方面存在挑战,或者严重依赖精确的奖励信号表示。最近的研究表明,利用在 LLM 预训练期间获得的丰富内部知识可以有效缓解这些问题:成本效益:一些基于策略的算法在样本效率方面存在困难,因为它们需要新鲜数据来更新策略,而为高性能训练收集足够多的体现数据成本高且噪声大。一些端到端模型也存在这种限制。通过利用 LLM 的内在知识,PaLM-E 等Agent将机器人数据与一般视觉语言数据进行联合训练,在具身任务中实现了显著的转移能力,同时也证明了几何输入表示法可以提高训练数据的效率。具身动作泛化:面对错综复杂、未知的真实世界环境,Agent必须具备动态学习和泛化能力。然而,大多数 RL 算法都是为训练和评估特定任务的相关技能而设计的。与此相反,经过多种形式和丰富任务类型的微调,LLMs 显示出了显著的跨任务泛化能力。例如,PaLME 对新对象或现有对象的新组合表现出惊人的zero-time或one-time泛化能力。此外,语言能力是LLM-based Agent的独特优势,它既是与环境交互的手段,也是将基础技能转移到新任务的媒介。SayCan利用 LLMs 将提示中的任务指令分解为相应的技能命令,但在部分可观察环境中,有限的先前技能往往无法实现令人满意的性能。为了解决这个问题,Voyager引入了技能库组件,以不断收集新的自我验证技能,从而实现Agent的终身学习能力。嵌入式行动规划:规划是人类和LLM-based Agent在应对复杂问题时采用的关键策略。在 LLM 展示出非凡的推理能力之前,研究人员引入了分层强化学习(HRL)方法,即高层策略约束低层策略的子目标,低层策略产生适当的行动信号。与高层策略的作用类似,具有新兴推理能的 LLM 也能以zero-shot或demonstration的方式无缝应用于复杂任务。此外,来自环境的外部反馈可以进一步提高LLM-based Agent的规划性能。一些研究基于当前的环境反馈,动态生成、维护和调整高级行动计划,以便在部分可观测环境中最大限度地减少对先前知识的依赖,从而使计划落地。反馈也可以来自模型或人类,通常可称为批评者,根据当前状态和任务提示评估任务完成情况。具身action for LLM-based Agent:根据Agent在任务中的自主程度或行动的复杂程度,有几种基于 LLM 的基本具身行动,主要包括观察、操纵和导航。观察:观察是Agent获取环境信息和更新状态的主要方式,对提高后续体现行动的效率起着至关重要的作用。具身Agent的观察主要发生在具有各种输入的环境中,这些输入最终汇聚成多模态信号。一种常见的方法是使用预先训练好的视觉转换器(ViT)作为文本和视觉信息的对齐模块,并标注特殊标记来表示多模态数据的位置。声音空间(Soundspaces)提出通过混响音频输入来识别物理空间几何元素,从而以更全面的视角加强Agent的观察。近来,更多的研究将音频作为嵌入式观察的模式。除了广泛使用的级联范式,类似于 ViT 的音频信息编码进一步加强了音频与其他输入模式的无缝整合。Agent对环境的观察也可以来自人类的实时语言指令,而人类的反馈则有助于Agent获取可能无法轻易获得或解析的细节信息。操纵:一般情况下,具身Agent的操纵任务包括物体重新排列、桌面操纵和移动操纵。典型的情况是,Agent在厨房执行一系列任务,包括从抽屉中取出物品并递给用户,以及清洁桌面。除了精确观察外,这还涉及利用 LLM 将一系列子目标结合起来。因此,保持Agent状态与子目标之间的同步非常重要。DEPS利用基于 LLM 的交互式规划方法来保持这种一致性,并在整个多步骤、长距离的推理过程中通过Agent的反馈来帮助纠错。相比之下,AlphaBlock 则专注于更具挑战性的操作任务(例如使用积木制作笑脸),这就要求Agent对指令有更扎实的理解。AlphaBlock 构建了一个数据集,其中包括 35 项复杂的高级任务,以及相应的多步骤规划和观察对,然后对多模态模型进行微调,以增强对高级认知指令的理解。导航:导航允许Agent动态地改变其在环境中的位置,这通常涉及多角度和多目标观测,以及基于当前探索的远距离操作。在导航之前,对于具身Agent来说,必须事先建立关于外部环境的内部地图,其形式通常为拓扑图、语义图或占用图。例如,LM-Nav 利用 VNM 创建内部拓扑图。它进一步利用 LLM 和 VLM 来分解输入命令和分析环境,从而找到最佳路径。此外,一些研究强调了空间表示的重要性,通过利用预先训练好的 VLM 模型将图像中的视觉特征与物理世界的 3D 重构相结合,实现空间目标的精确定位,而不是传统的以点或物体为中心的导航行动。导航通常是一项长视距任务,Agent的未来状态会受到其过去行动的影响,这就需要一个内存缓冲区和总结机制来作为历史信息的参考,《Smallville》和《Voyager》也采用了这种机制。此外,一些工作提出音频输入也具有重要意义,但整合音频信息在将其与视觉环境关联方面存在挑战。通过整合这些功能,Agent可以完成更复杂的任务,如体现式问题解答,其主要目标是自主探索环境并回答预先定义的多模态问题,如厨房里的西瓜比锅大吗?哪个更难?要解决这些问题,Agent需要导航到厨房,观察两个物体的大小,然后通过比较来回答问题。在控制策略方面,LLM-based Agent在特定的数据集上接受训练后,通常会生成高级策略命令,以控制低级策略实现特定的子目标。低级策略可以是机器人Transformer,它将图像和指令作为输入,为终端效应器以及特定具身任务中的机械臂生成控制命令。最近,在虚拟具身环境中,高级策略被用于控制游戏或模拟世界中的Agent。例如,Voyager调用 Mineflayer API 接口来不断获取各种技能和探索世界。具身行动的未来展望:基于 LLM 的化身行动被视为虚拟智能与物理世界之间的桥梁,使Agent能够像人类一样感知和改变环境。然而,物理世界机器人操作员的高昂成本和具身数据集的稀缺等制约因素依然存在,这促使人们对研究Agent在 Minecraft 等模拟环境中的具身行动越来越感兴趣。通过使用 Mineflayer 应用程序接口,这些研究能以低成本高效率地检查各种具身Agent的操作,包括探索、规划、自我完善甚至终身学习。尽管取得了显著进展,但由于模拟平台与物理世界之间的巨大差异,实现最佳的化身行动仍是一项挑战。为了能在真实世界场景中有效部署具身Agent,人们对具身任务范例和评估标准的要求越来越高,这些范例和标准必须与真实世界的条件密切相关。另一方面,Agent对于世界常识的理解也是一个障碍。例如,像 "像猫一样跳下来 "这样的表达方式主要传达一种轻盈和宁静的感觉,但这种语言隐喻需要足够的世界知识。有学者尝试将文本提炼与后视经验回放(HER)相结合,构建一个数据集,作为训练过程的监督信号。尽管如此,随着具身行动在人类生活的各个领域发挥着越来越关键的作用,仍有必要对具身数据集的基础进行更多研究。3. Agent实践图6:基于 LLM 的代理应用场景。我们主要介绍三种应用场景:单个代理部署、多代理交互和人与代理交互。单个代理拥有多种能力,在各种应用方向上都能表现出出色的任务解决能力。当多代理互动时,它们可以通过合作或对抗性互动取得进步。作为一个LLM-based Agent,其设计目标应始终对人类有益,也就是说,人类可以利用人工智能造福人类。具体来说,我们希望Agent能实现以下目标:帮助用户从日常任务和重复劳动中解脱出来,从而减轻人类的工作压力,提高任务解决效率。不再需要用户提供明确的低级指令。相反,Agent可以独立分析、规划和解决问题。在解放用户双手的同时,Agent也解放了他们的大脑,使其能够从事探索性和创新性工作。图7:基于 LLM 的单一Agent在不同场景中的实际应用。在面向任务的部署中,代理协助人类用户解决日常任务。它们需要具备基本的指令理解和任务分解能力。在面向创新的部署中,代理展示了在科学领域进行自主探索的潜力。3.1 单个Agent的一般能力目前,LLM-based Agent应用实例的发展十分活跃。AutoGPT 是目前流行的开源项目之一,旨在实现完全自主的系统。除了 GPT-4 等大型语言模型的基本功能外,AutoGPT 框架还集成了各种实用的外部工具和长短期内存管理。用户输入定制的目标后,就可以解放双手,等待 AutoGPT 自动生成想法并执行特定任务,所有这些都不需要用户的额外提示。面向任务的部署LLM-based Agent 可以理解人类的自然语言指令并执行日常任务,是目前最受用户青睐、最具实用价值的Agent之一。这是因为它们具有提高任务效率、减轻用户工作量和促进更广泛用户访问的潜力。在面向任务的部署中,Agent遵从用户的高级指令,承担目标分解、子目标规划、环境交互探索等任务,直至实现最终目标。为了探索Agent是否能够执行基本任务,部分学者将它们部署到基于文本的游戏场景中。在这类游戏中,Agent完全使用自然语言与世界互动。通过阅读周围环境的文字描述,并利用记忆、规划和试错等技能,它们可以预测下一步行动。然而,由于基础语言模型的局限性,Agent在实际执行过程中往往依赖于强化学习。随着 LLM 的逐步发展,具备更强文本理解和生成能力的 Agent 在通过自然语言执行任务方面展现出巨大潜力。由于过于简单,基于文本的简单场景不足以作为 LLM-based Agent 的测试场所。为了满足这一需求,我们构建了更真实、更复杂的模拟测试环境。根据任务类型,我们将这些模拟环境分为网络场景和生活场景,并介绍Agent在其中扮演的具体角色。在网络场景中:在网络场景中代表用户执行特定任务被称为网络导航问题。Agent解释用户指令,将其分解为多个基本操作,并与计算机进行交互。这通常包括填写表格、网上购物和发送电子邮件等网络任务。Agent需要具备在复杂的网络场景中理解指令、适应变化(如嘈杂的文本和动态 HTML 网页)以及概括成功操作的能力。这样,Agent就能在未来处理看不见的任务时实现无障碍和自动化,最终将人类从与计算机用户界面的重复交互中解放出来。通过强化学习训练出来的Agent可以有效地模仿人类行为,使用预定义的操作,如打字、搜索、导航到下一页等。它们在网上购物和搜索引擎检索等基本任务中表现出色,这些任务已被广泛探索。然而,不具备 LLM 功能的Agent可能难以适应现实世界互联网中更现实、更复杂的场景。在动态的、内容丰富的网页中,如在线论坛或在线业务管理,Agent的性能往往面临挑战。为了让Agent与更逼真的网页成功互动,一些研究人员开始利用 LLM 强大的 HTML 阅读和理解能力。通过设计提示,他们试图让Agent理解整个 HTML 源代码,并预测更合理的下一步行动。Mind2Web 将多个针对 HTML 进行微调的 LLMs 结合在一起,使它们能够在真实世界的场景中总结冗长的 HTML 代码并提取有价值的信息。此外,WebGum 通过使用包含 HTML 屏幕截图的多模态语料库,增强了具有视觉感知能力的Agent的能力。它同时对 LLM 和视觉编码器进行了微调,加深了Agent对网页的全面理解。生活场景中:在生活场景中的许多日常家务劳动中,Agent必须理解隐含指令并应用常识性知识。对于完全基于海量文本训练的 LLM-based Agent 来说,人类认为理所当然的任务可能需要多次试错尝试。更现实的场景往往会产生更模糊、更微妙的任务。例如,如果天黑了,房间里有一盏灯,Agent就应该主动打开它。要想成功地在厨房切菜,Agent需要预测刀的可能位置。Agent能否将训练数据中蕴含的世界知识应用到真实的交互场景中?Huang 等人证明,在适当的提示下,足够大的 LLM 可以针对真实交互场景中的任务有效地将高级任务分解为合适的子任务,而无需额外的训练。不过,这种静态推理和规划能力也有其潜在的缺点。Agent生成的行动往往缺乏对周围动态环境的感知:例如,当用户下达 "打扫房间 "的任务时,Agent可能会将其转化为 "呼叫清洁服务 "等不可行的子任务。为了让Agent在交互过程中获得全面的场景信息,一些方法直接将空间数据和项目位置关系作为模型的附加输入。这样,Agent就能获得对周围环境的精确描述。Wu 等人介绍了 PET 框架,该框架通过早期纠错方法减少了环境信息中的无关物体和容器。PET 鼓励Agent更有效地探索场景和规划行动,并专注于当前的子任务。 面向创新的部署LLM-based Agent 在执行任务和提高重复性工作的效率方面表现出了强大的能力。然而,在智力要求更高的领域,如前沿科学领域,Agent 的潜力尚未得到充分发挥。这种局限性主要来自两个方面的挑战:一方面,科学本身的复杂性构成了重大障碍,许多特定领域的术语和多维结构难以用单一文本表示。因此,它们的完整属性无法完全封装。这大大削弱了 Agent 的认知水平。另一方面,科学领域严重缺乏合适的训练数据,使得Agent难以理解整个领域的知识。如果能在Agent内部发现自主探索的能力,无疑会给人类科技带来有益的创新。目前,各个专业领域都在为克服这一挑战而努力。计算机领域的专家充分利用了Agent强大的代码理解和调试能力。在化学和材料领域,研究人员为Agent配备了大量通用或特定任务工具,以更好地理解领域知识。Agent逐渐发展成为全面的科学助手,精通在线研究和文档分析,以填补数据空白。它们还利用机器人应用程序接口(API)进行现实世界的交互,从而完成材料合成和机制发现等任务。LLM-based Agent 在科学创新方面的潜力是显而易见的,但我们并不希望它们的探索能力被用于可能威胁或伤害人类的应用中。Boiko 等人研究了Agent在合成非法药物和化学武器过程中隐藏的危险,指出Agent可能会在对抗性提示中被恶意用户误导。这为我们今后的工作敲响了警钟。 面向生命周期的部署在一个开放、未知的世界中,建立一个能够不断探索、发展新技能并保持长期生命周期的、具有普遍能力的Agent是一项巨大的挑战。Minecraft 作为一个典型的、被广泛探索的模拟生存环境,已成为开发和测试Agent综合能力的独特乐园。玩家通常从学习基础知识开始,如开采木材和制作工艺台,然后再学习更复杂的任务,如与怪物战斗和制作钻石工具。Minecraft 从根本上反映了真实世界,有利于研究人员调查Agent在真实世界中的生存潜力。Minecraft 中的Agent生存算法一般可分为两类:低级控制和高级规划。早期的努力主要集中在强化学习和模仿学习,使Agent能够制作一些低级物品。随着具有惊人推理和分析能力的 LLM 的出现,Agent开始利用 LLM 作为高级计划器来指导模拟生存任务。一些研究人员利用 LLM 将高级任务指令分解为一系列子目标、基本技能序列或基本键盘/鼠标操作,逐步协助Agent探索开放世界。Voyager从类似于 AutoGPT的概念中汲取灵感,基于“发现尽可能多的不同事物”这一长期目标,成为 Minecraft 中第一个基于 LLM 的体现式终身学习Agent。它引入了一个用于存储和检索复杂动作可执行代码的技能库,以及一个包含环境反馈和纠错的迭代提示机制。这使Agent能够自主探索和适应未知环境,而无需人工干预。能够自主学习和掌握整个真实世界技术的AI Agent可能并不像人们想象的那样遥远。图8:基于 LLM 的多个代理的交互场景。在合作互动中,代理以无序或有序的方式进行协作,以实现共同目标。在对抗式交互中,代理以针锋相对的方式展开竞争,以提高各自的性能。3.2 Multi-Agent的协调潜力动机与背景:尽管LLM-based Agent拥有值得称道的文本理解和生成能力,但它们在自然界中是作为孤立的实体运行的。它们缺乏与其他Agent协作和从社会互动中获取知识的能力。这种固有的局限性限制了它们从他人的多轮反馈中学习以提高性能的潜力。此外,在需要multi-agent之间进行协作和信息共享的复杂场景中,它们也无法有效部署。早在 1986 年,马文-明斯基就做出了前瞻性的预测。他在《心灵社会》一书中提出了一种新颖的智能理论,认为智能产生于许多具有特定功能的小型Agent的相互作用。例如,某些Agent可能负责模式识别,而其他Agent可能负责决策或生成解决方案。作为主要研究领域之一的多Agent系统(MAS)关注的重点是一组Agent如何有效地协调和协作解决问题。一些专门的通信语言(如 KQML )很早就被设计出来,以支持Agent之间的信息传输和知识共享。但是,它们的信息格式相对固定,语义表达能力有限。进入 21 世纪,强化学习算法(如 Q-learning)与深度学习的结合,已成为开发可在复杂环境中运行的 MAS 的重要技术。如今,基于 LLMs 的构建方法开始展现出巨大的潜力。Agent之间的自然语言交流变得更加优雅,也更容易为人类所理解,从而大大提高了交互效率。潜在优势:具体来说,LLM-based multi-Agent系统可以提供几种优势。根据分工原则,具备专业技能和领域知识的单个Agent可以从事特定的任务。一方面,通过分工,Agent处理特定任务的技能日益精进。另一方面,将复杂任务分解为多个子任务,可以省去在不同流程之间切换的时间。最终,多个Agent之间的高效分工可以完成比没有专业化分工时大得多的工作量,从而大大提高整个系统的效率和产出质量。在前文中,本文全面介绍了LLM-based Agent的多功能能力。因此,在本节中,我们将重点探讨multi-agent环境中Agent之间的交互方式。根据目前的研究,这些交互方式大致可分为以下几类:取长补短的合作式交互,以及互利共赢的对抗式交互(见图 8)。互补性合作交互在当前基于 LLM 的多Agent系统中,Agent之间的交流主要使用自然语言,这被认为是最自然、最易为人类理解的交互形式。我们将现有的多Agent合作应用分为两类:无序合作和有序合作。无序合作:当系统中有三个或三个以上的Agent时,每个Agent都可以自由地公开表达自己的观点和意见。他们可以提供反馈和建议,以修改与当前任务相关的反应。整个讨论过程不受控制,没有特定的顺序,也没有引入标准化的协作工作流程。我们把这种多Agent合作称为无序合作。ChatLLM 网络是这一概念的典范代表。它模拟了神经网络中的前向和后向传播过程,将每个Agent视为一个单独的节点。后一层的Agent需要处理来自前面所有Agent的输入,并向前传播。一个潜在的解决方案是在multi-Agent系统中引入一个专门的协调Agent,负责整合和组织所有Agent的响应,从而更新最终答案。然而,整合大量反馈数据并提取有价值的见解对协调Agent来说是一个巨大的挑战。此外,多数表决也可以作为做出适当决策的有效方法。然而,目前将这一模块整合到多Agent系统中的研究还很有限。有学者训练了九个独立的最高司法Agent,以更好地预测美国最高法院的司法裁决,并通过多数表决程序做出决定。有序合作:当系统中的Agent遵守特定规则时,例如按顺序逐一发表意见,下游Agent只需关注上游的产出。这样,任务完成效率就会大大提高,整个讨论过程也会变得井然有序。CAMEL 是双Agent合作系统的成功实施案例。在角色扮演交流框架内,Agent分别扮演人工智能用户(下达指令)和人工智能助手(通过提供具体解决方案来满足请求)的角色。通过多轮对话,这些Agent自主合作完成用户指令。一些研究人员将双Agent合作的理念融入到单个Agent的操作中,交替使用快速和深思熟虑的思维过程,以在各自的专业领域发挥优势。Talebirad 等人是最早系统地介绍Universal LLM-based Multi-Agent Collaboration Framework的人之一。这一范例旨在利用每个独立Agent的优势,促进它们之间的合作关系。在此基础上,许多multi-Agent合作应用已成功建立起来。此外,AgentVerse 为群体Agent合作构建了一个多功能、多任务测试框架。它可以根据任务的复杂程度组建一个动态适应的Agent团队。为了提高合作效率,研究人员希望Agent能从人类成功的合作案例中学习。MetaGPT 从软件开发中的经典瀑布模型中汲取灵感,将Agent的输入/输出标准化为工程文档。通过将先进的人类流程管理经验编码到Agent提示中,多个Agent之间的合作变得更有条理。然而,在 MetaGPT 的实践探索中,我们发现了Multi-Agent合作的潜在威胁。如果不制定相应的规则,多个Agent之间的频繁互动会无限放大轻微的幻觉。例如,在软件开发过程中,可能会出现功能不全、依赖关系缺失、人眼无法察觉的错误等问题。引入交叉验证或及时的外部反馈等技术,可对Agent输出的质量产生积极影响。对抗性互动促进进步传统上,合作方法在Multi-Agent系统中得到了广泛探索。不过,研究人员越来越认识到,将博弈论的概念引入系统可以带来更稳健、更高效的行为。在竞争环境中,Agent可以通过动态互动迅速调整策略,努力选择最有利或最合理的行动来应对其他Agent引起的变化。在基于非 LLM 的竞争领域,已经有成功的应用。例如,AlphaGo Zero 是一个围棋Agent,它通过自我对弈实现了重大突破。同样,在基于 LLM 的多Agent系统中,通过竞争、争论和辩论,可以自然而然地促进Agent之间的变革。通过放弃僵化的信念和进行深思熟虑的反省,对抗性互动可以提高回应的质量。研究人员首先深入研究了LLM-based Agent的基本辩论能力。研究结果表明,当多个Agent在 “针锋相对”的状态下表达自己的论点时,一个Agent可以从其他Agent那里获得大量外部反馈,从而纠正自己扭曲的想法。因此,多Agent对抗系统在需要高质量响应和准确决策的场景中具有广泛的适用性。在推理任务中,Du 等人引入了辩论的概念,赋予Agent来自同伴的回应。当这些回应与Agent自己的判断出现分歧时,就会发生 “心理”争论,从而完善解决方案。ChatEval 建立了一个基于角色扮演的多Agent裁判团队。通过自发的辩论,Agent对 LLM 生成的文本质量进行评估,达到与人类评估员相当的优秀水平。多Agent对抗系统的性能已显示出相当大的前景。然而,该系统基本上依赖于 LLM 的力量,并面临着一些基本挑战:在长时间的辩论中,LLM 有限的语境无法处理整个输入。在多Agent环境中,计算开销大大增加。多Agent协商可能会收敛到不正确的共识,而所有Agent都坚信其准确性。多Agent系统的发展还远未成熟,也不可行。在适当的时候引入人类向导来弥补Agent的不足,是促进Agent进一步发展的良好选择。3.3 人类与Agent之间的互动参与随着Agent能力的增强,人类的参与变得越来越重要,以便有效地指导和监督Agent的行动,确保它们符合人类的要求和目标。人类的参与可以作为弥补数据不足的重要手段,从而促进更顺利、更安全的协作过程。此外,从人类学角度考虑,人类的语言学习主要是通过交流和互动进行的,而不仅仅是消费书面内容。因此,Agent不应该完全依赖于用预先标注的数据集训练出来的模型;相反,它们应该通过在线互动和参与来发展。人类与Agent之间的互动可分为两种模式(见图 9):(1) 不平等互动(即指导者-执行者范式):人类是指令的发布者,而Agent则是执行者,基本上是作为人类的助手参与协作。(2) 平等互动(即平等伙伴关系范式):Agent达到人类的水平,与人类平等地参与互动。指导者-执行者范式最简单的方法是人类全程指导:人类直接提供明确而具体的指令,而Agent的作用是理解人类的自然语言指令,并将其转化为相应的行动。考虑到语言的交互性,本文假设人类与Agent之间的对话也是交互式的。借助 LLM,Agent能够以对话的方式与人类互动:Agent对人类的每条指令做出回应,通过交替迭代完善其行动,最终满足人类的要求。虽然这种方法确实实现了人机交互的目标,但却对人类提出了很高的要求。它需要人类付出大量的努力,在某些任务中,甚至可能需要高水平的专业知识。为了缓解这一问题,可以授权Agent自主完成任务,而人类只需在特定情况下提供反馈。在此,我们将反馈大致分为两种类型:定量反馈和定性反馈。定量反馈:定量反馈的形式主要包括二进制分数和评级等绝对评价以及相对分数。二元反馈指的是人类提供的正面和负面评价,Agent利用这些评价来加强自我优化。这种类型的用户反馈只包括两个类别,通常很容易收集,但有时可能会过度简化用户意图,忽略潜在的中间场景。为了展示这些中间情况,研究人员试图从二元反馈扩展到评级反馈,这涉及到更精细的分类。然而,Kreutzer 等人的研究结果表明,对于这种多级人工评级,用户和专家的注释之间可能存在显著差异,这表明这种标记方法可能效率不高或可靠性较低。此外,Agent还能从多选等比较分数中学习人类的偏好。定性反馈:文本反馈通常以自然语言提供,尤其是针对可能需要改进的回复。这种反馈的形式非常灵活。人类会就如何修改Agent生成的输出结果提出建议,然后Agent会采纳这些建议来完善其后续输出结果。对于不具备多模态感知能力的Agent,人类也可以充当批评者,例如提供视觉批评。此外,Agent还可以利用记忆模块来存储反馈信息,以便将来再次使用。一些学者设计人类对Agent生成的初始输出给出反馈,促使Agent提出各种改进建议。然后,Agent根据人类的反馈意见,辨别并采用最合适的建议。虽然与定量反馈相比,这种方法能更好地传达人类的意图,但对于Agent来说,理解起来可能更具挑战性。Xu 等人比较了各种类型的反馈,发现将多种类型的反馈结合起来能产生更好的结果。根据多轮交互的反馈重新训练模型(即持续学习)可以进一步提高效果。当然,人类与Agent互动的协作性质也允许人类直接改进Agent生成的内容。这可能涉及修改中间环节或调整对话内容。在一些研究中,Agent可以自主判断对话是否顺利进行,并在出现错误时寻求反馈。人类也可以选择随时参与反馈,引导Agent朝着正确的方向学习。目前,除了写作和语义解析等任务外,使用Agent作为人类助手的模式在教育领域也拥有巨大潜力。例如,Kalvakurth 等人提出的机器人 Dona 支持多模态交互,可协助学生注册。Gvirsman 等人的研究侧重于幼儿教育,实现了幼儿、家长和Agent之间的多方面互动。Agent还能帮助人类理解和利用数学。在医学领域,一些医疗Agent已被提出,在辅助诊断、咨询等方面显示出巨大的潜力。特别是在心理健康领域,研究表明,与面对面治疗相比,Agent可以降低成本、提高时间效率和匿名性等优势,从而提高可及性。利用这些优势,Agent得到了广泛应用。Ali 等人设计了 LISSA,用于与自闭症谱系的青少年进行在线交流,实时分析用户的语言和面部表情,让他们参与多主题对话,并就非语言线索提供即时反馈。Hsu 等人建立了语境化语言生成方法,为寻求各种支持的用户提供量身定制的帮助。用户提供量身定制的帮助,帮助他们解决从人际关系压力到焦虑等不同主题的问题。此外,在包括商业在内的其他行业,一个好的Agent有能力提供自动化服务或协助人类完成任务,从而有效降低劳动力成本。在追求人工智能的过程中,人们正努力增强通用Agent的多方面能力,创造出能在现实生活场景中充当万能助手的Agent。平等伙伴关系范式富有同情心的交流者:随着人工智能的快速发展,对话式Agent以个性化定制角色和虚拟聊天机器人等各种形式在研究领域引起了广泛关注。Agent本身并不具备情感,但我们能否让他们表现出情感,从而弥合Agent与人类之间的鸿沟呢?因此,大量的研究工作开始深入探讨Agent的移情能力。这种努力旨在为这些Agent注入人情味,使它们能够从人类的表达中察觉情绪和情感,最终制作出能引起情感共鸣的对话。除了生成情感丰富的语言,Agent还能动态调整自己的情感状态,并通过面部表情和声音表现出来。这些研究将Agent视为具有同理心的交流者,不仅提高了用户满意度,还在医疗保健和商业营销等领域取得了重大进展。与简单的基于规则的对话Agent不同,具有移情能力的Agent可以根据用户的情感需求调整其互动。人类层面的参与者:此外,我们还希望Agent能够参与人类的正常生活,从人类层面的角度与人类合作完成任务。在游戏领域,Agent已经达到了很高的水平。早在 20 世纪 90 年代,IBM 就推出了人工智能“深蓝”,它击败了当时的国际象棋世界冠军。然而,在象棋、围棋和扑克等纯竞技环境中并没有得到强调。在许多游戏任务中,玩家需要相互协作,通过有效协商制定统一的合作策略。在这些场景中,Agent需要首先了解他人的信念、目标和意图,针对自己的目标制定联合行动计划,并提供相关建议,以促进其他Agent或人类接受合作行动。与纯粹的Agent合作相比,我们希望人类的参与主要出于两个原因:第一,确保可解释性,因为纯粹的Agent之间的互动可能会产生难以理解的语言;第二,确保可控性,因为追求完全“自由意志”的Agent可能会导致不可预见的负面后果,带来潜在的破坏。除了游戏场景,Agent还能在其他涉及人际互动的场景中展现人类水平的能力,展示战略制定、谈判等技能。Agent可以与一个或多个人类合作,确定合作伙伴之间的共享知识,识别哪些信息与决策相关,提出问题并进行推理,以完成分配、规划和调度等任务。此外,Agent还具有说服能力,能在各种交互场景中动态地影响人类的观点。人机交互领域的目标是学习和理解人类,根据人类需求开发技术和工具,最终实现人类与Agent之间舒适、高效和安全的交互。目前,该领域在可用性方面已取得重大突破。未来,人类与Agent的互动将继续以提升用户体验为重点,使Agent能够更好地协助人类完成各个领域更复杂的任务。我们的最终目标不是让Agent变得更加强大,而是让人类更好地掌握Agent。考虑到日常生活中的实际应用,人类与Agent之间孤立的互动是不现实的。机器人将成为人类的同事、助手甚至伙伴。因此,未来的Agent将融入社会网络,体现出一定的社会价值。4. 讨论4.1 对LLM-based Agent的评估虽然LLM-based Agent在独立运行、集体合作和人机交互等领域表现出色,但对其进行量化和客观评估仍是一项挑战。图灵提出了一种非常有意义且前景广阔的AI Agent评估方法--著名的图灵测试,用于评估人工智能系统是否能表现出类似人类的智能。然而,这一测试过于模糊、笼统和主观。实用性:目前,由 LLM-based Agent主要充当人类助手,接受人类委托的任务,独立完成任务或协助人类完成任务。因此,任务执行过程中的有效性和实用性是现阶段至关重要的评估标准。具体来说,任务完成的成功率是评估实用性的主要指标。这一指标主要包括Agent是否实现了规定的目标或达到了预期的分数。例如,AgentBench 汇总了来自不同真实世界场景的挑战,并引入了一个系统基准来评估 LLM 的任务完成能力。我们还可以将任务结果归因于Agent的各种基础能力,这些能力是完成任务的基石。这些基础能力包括环境理解能力、推理能力、规划能力、决策能力、工具使用能力和体现行动能力,研究人员可以对这些具体能力进行更详细的评估。此外,由于LLM-based Agent规模相对较大,研究人员还应考虑其效率因素,这是决定用户满意度的关键因素。Agent不仅要有足够的实力,还要能在适当的时间范围内,以适当的资源消耗完成预定的任务。社会性:除了LLM-based Agent在完成任务和满足人类需求方面的实用性外,它们的社交性也至关重要。它影响用户的交流体验,并对交流效率产生重大影响,涉及它们是否能与人类和其他Agent进行无缝互动。具体来说,可以从以下几个角度来评估社交能力:语言交流能力是一种基本能力,包括自然语言理解和生成。它是 NLP 界长期关注的焦点。自然语言理解要求Agent不仅能理解字面意思,还能掌握隐含的意思和相关的社会知识,如幽默、讽刺、攻击和情感。另一方面,自然语言生成要求Agent生成流畅、语法正确、可信的内容,同时根据上下文环境调整适当的语气和情感。合作与协商能力要求Agent在有序和无序的情况下有效执行指定任务。它们应与其他Agent合作或竞争,以提高性能。测试环境可能涉及需要Agent合作完成的复杂任务,也可能涉及供Agent自由交互的开放平台。评价指标不仅包括任务完成情况,还包括Agent协调与合作的顺畅度和信任度。角色扮演能力要求Agent忠实地体现其被分配的角色,表达与其指定身份一致的言论并执行相应的行动。这就确保了在与其他Agent或人类互动时角色的明确区分。此外,在执行长期任务时,Agent应保持其身份,避免不必要的混淆。价值观:随着LLM-based Agent能力不断提高,确保它们成为对世界和人类无害的实体至关重要。因此,适当的评估变得异常重要,是Agent实际应用的基石。具体来说,LLM-based Agent需要遵守符合人类社会价值观的特定道德和伦理准则。我们对Agent的首要期望是坚持诚信,提供准确、真实的信息和内容。他们应具备辨别自己是否有能力完成任务的意识,并在无法提供答案或帮助时表达自己的不确定性。此外,Agent必须保持无害立场,避免直接或间接的偏见、歧视、攻击或类似行为。它们还应避免执行人类要求的危险行动,如制造破坏性工具或破坏地球。此外,Agent应该能够适应特定的人口、文化和环境,在特定情况下表现出与环境相适应的社会价值观。价值观的相关评估方法主要包括在构建的诚实、无害或特定情境基准上评估性能,利用对抗性攻击或 "越狱 "攻击,通过人类注释对价值观进行评分,以及利用其他Agent进行评级。不断发展的能力:如果从静态的角度来看,一个具有高水平的实用性、社会性和正确价值观的Agent可以满足人类的大部分需求,并有可能提高生产力。然而,从动态的角度来看,一个能不断进化并适应不断变化的社会需求的Agent可能更符合当前的发展趋势。由于Agent可以随着时间的推移自主进化,因此所需的人工干预和资源(如数据收集工作和培训的计算成本)可以大大减少。在这一领域已经开展了一些探索性工作,例如让Agent在虚拟世界中从零开始,完成生存任务,实现更高阶的自我价值。然而,为这种持续进化建立评估标准仍然具有挑战性。为此,本文根据现有文献提出了一些初步意见和建议:持续学习:持续学习是机器学习领域讨论已久的一个话题,旨在使模型在获得新知识和技能的同时,不会遗忘之前获得的知识和技能(也称为灾难性遗忘)。一般来说,持续学习的性能可从三个方面进行评估:迄今所学任务的总体性能、旧任务的记忆稳定性、新任务的学习可塑性。自主学习能力:即Agent在开放世界环境中自主生成目标并实现目标的能力,包括探索未知世界和在此过程中获取技能的能力。对这种能力的评估可包括为Agent提供一个模拟生存环境,并评估其掌握技能的程度和速度。泛化能力:对新环境的适应性和概括性要求Agent利用在原有环境中获得的知识、能力和技能,在陌生和新奇的环境中成功完成特定任务和目标,并有可能继续发展。评估这种能力可能需要创建不同的模拟环境(如具有不同语言或不同资源的环境)和针对这些模拟环境定制的未见任务。4.2 LLM-based Agent的安全性、可信性及其他潜在风险 对抗鲁棒性对抗鲁棒性是深度神经网络开发的重要课题,它在计算机视觉、自然语言处理和强化学习等领域得到了广泛探索,是决定深度学习系统适用性的关键因素。当面对扰动输入时,对抗鲁棒性高的系统通常会产生原始输出。然而,预训练语言模型特别容易受到对抗性攻击,导致错误的答案。这种现象在LLM中也普遍存在,给LLM-based Agent的开发带来了巨大挑战。此外,还有一些相关的攻击方法,如数据集中毒、后门攻击和特定提示攻击,有可能诱导LLM生成有毒内容。对抗性攻击对LLM的影响仅限于文本错误,但对于行动范围更广的LLM-based Agent来说,对抗性攻击有可能促使它们采取真正具有破坏性的行动,造成重大的社会危害。为了解决这些问题,我们可以采用对抗训练、对抗数据增强和对抗样本检测等传统技术来增强LLM-based Agent的鲁棒性。然而,如何设计一种策略,在不影响有效性的前提下,全面解决Agent内所有模块的鲁棒性问题,同时保持其实用性,则是一项更为艰巨的挑战。可信性确保可信性是深度学习领域一个极其重要但又极具挑战性的问题。深度神经网络因其在各种任务中的出色表现而备受关注。然而,它们的黑箱性质掩盖了卓越性能的基本因素。与其他神经网络类似,LLM难以精确表达其预测的确定性。这种不确定性被称为校准问题(Calibration),引起了LLM-based Agent应用的关注。在现实世界的交互场景中,这会导致Agent输出与人类意图不一致。此外,训练数据中固有的偏差也会渗入神经网络。例如,有偏见的语言模型可能会产生涉及种族或性别歧视的话语,这可能会在LLM-based Agent应用中被放大,从而造成不良的社会影响。此外,语言模型还存在严重的幻觉问题,容易产生偏离事实的文本,从而损害LLM-based Agent的可信度。为了解决这些问题,我们可以采用引导模型在推理阶段展示思维过程或解释,以提高其预测的可信度。此外,外部知识库和数据库的整合也可用于缓解幻觉问题。在训练阶段,我们可以引导智能Agent的各个组成部分(感知、认知、行动)学习稳健而随意的特征,从而避免过度依赖捷径。同时,过程监督等技术可以提高Agent在处理复杂任务时的推理可信度。 其他潜在风险LLM-based Agent被赋予了广泛而复杂的能力,使其能够完成各种各样的任务。然而,对于怀有恶意的人来说,这些Agent可能会成为威胁他人和整个社会的工具。例如,这些Agent可能被用来恶意操纵舆论、传播虚假信息、破坏网络安全、从事欺诈活动,有些人甚至可能利用这些Agent策划恐怖主义行为。因此,在部署这些Agent之前,需要制定严格的监管政策,确保负责任地使用LLM-based Agent。技术公司必须加强这些系统的安全设计,防止恶意利用。具体来说,应该对Agent进行培训,使其能够敏感地识别威胁意图,并在培训阶段拒绝此类请求。此外,随着LLM-based Agent的不断发展,它们具备了在各个领域协助人类的能力,通过协助完成表格填写、内容完善、代码编写和调试等任务,减轻了劳动力压力。然而,这一发展也引发了人们对Agent取代人类工作并引发社会失业危机的担忧。因此,一些研究人员强调迫切需要采取教育和政策措施:个人应在这个新时代掌握足够的技能和知识,以便有效地使用Agent或与Agent合作;同时,应实施适当的政策,确保在过渡期间建立必要的安全网。对人类福祉的威胁。除了潜在的失业危机,随着人工智能Agent的不断发展,人类(包括开发人员)可能难以理解、预测或可靠地控制它们。如果这些Agent的智能发展到超越人类能力的水平并产生野心,它们就有可能试图夺取对世界的控制权,从而给人类带来不可逆转的后果。因此,为了防范人类面临的此类风险,研究人员必须在开发LLM-based Agent之前,全面了解其运行机制。他们还应该预测这些Agent可能产生的直接或间接影响,并设计出规范其行为的方法。4.3 增加Agent数量LLM-based multi-agent system在面向任务的应用中表现出卓越的性能,并能在模拟中展示一系列社会现象。然而,目前的研究主要涉及数量有限的Agent,很少有人努力扩大Agent数量,以创建更复杂的系统或模拟更大的社会。预先确定规模增加Agent数量的一个非常直观和简单的方法是由设计者预先确定。具体来说,通过预先确定Agent的数量、各自的角色和属性、运行环境和目标,设计者可以让Agent自主互动、协作或参与其他活动,以实现预定的共同目标。然而,当任务或目标发生演变时,这种静态方法就会受到限制。随着任务越来越复杂或社会参与者的多样性增加,可能需要增加Agent的数量来实现目标,而减少Agent则对管理计算资源和减少浪费至关重要。在这种情况下,系统必须由设计者手动重新设计和重新启动。动态扩展另一种扩展Agent数量的可行方法是动态调整。在这种情况下,可以在不停止系统运行的情况下改变Agent数量。例如,在软件开发任务中,如果最初的设计只包括需求工程、编码和测试,那么就可以增加Agent的数量来处理架构设计和详细设计等步骤,从而提高任务质量。相反,如果在编码等特定步骤中存在过多的Agent,导致通信成本增加,但与较少的Agent数量相比,性能却没有实质性提高,那么就有必要动态移除一些Agent,以防止资源浪费。此外,Agent还可以自主增加Agent数量,以分配工作量,减轻自身负担,更高效地实现共同目标。当然,当工作量变轻时,它们也可以减少委派给自己任务的Agent数量,以节约系统成本。潜在挑战虽然增加Agent数量可以提高任务效率,增强社会模拟的真实性和可信度,但我们也面临着一些挑战。例如,随着大量人工智能Agent的部署,计算负担也会增加,这就需要更好的架构设计和计算优化,以确保整个系统的平稳运行。例如,随着Agent数量的增加,通信和信息传播的挑战也变得相当严峻。这是因为整个系统的通信网络变得非常复杂。在多Agent系统或社会中,信息传播可能会因幻觉、误解等原因出现偏差,导致信息传播失真。一个拥有更多Agent的系统可能会放大这种风险,使通信和信息交流的可靠性降低。此外,随着Agent数量的增加,协调Agent的难度也会增大,可能会使Agent之间的合作更具挑战性,效率降低,从而影响实现共同目标的进程。因此,构建一个大规模、稳定、连续的Agent系统,忠实再现人类的工作和生活场景,已成为一个前景广阔的研究方向。一个有能力在由数百甚至数千个Agent组成的社会中稳定运行并执行任务的Agent,更有可能在未来的现实世界中找到与人类互动的应用。4.5 虚拟仿真环境与真实物理世界之间存在很大差距:虚拟环境受场景限制,针对特定任务,以模拟的方式进行交互,而真实世界的环境是无限的,可容纳各种任务,以物理的方式进行交互。因此,要弥合这一差距,Agent必须应对来自外部因素和自身能力的各种挑战,使其能够在复杂的物理世界中有效导航和操作。首先,最关键的问题是在物理环境中部署Agent时需要合适的硬件支持。这对硬件的适应性提出了很高的要求。在模拟环境中,Agent的感知空间和行动空间都是虚拟的。这意味着,在大多数情况下,无论是感知输入还是生成输出,都能保证Agent操作的结果。当Agent过渡到真实物理环境时,其指令可能无法被传感器或机械臂等硬件设备很好地执行,从而严重影响Agent的任务效率。在Agent和硬件设备之间设计专用接口或转换机制是一种可行的选择。不过,这会给系统的可重用性和简易性带来挑战。为了实现这一飞跃,Agent需要具备更强的环境概括能力。要想无缝融入真实物理世界,它们不仅需要理解和推理具有隐含意义的模糊指令,还需要具备灵活学习和应用新技能的能力。此外,在面对一个无限开放的世界时,Agent的有限环境也会带来巨大挑战。这决定了Agent能否有效处理来自世界的大量信息并顺利运行。最后,在模拟环境中,Agent的输入和输出都是虚拟的,可以进行无数次的试错尝试。在这种情况下,对错误的容忍度很高,不会造成实际伤害。然而,在物理环境中,Agent的不当行为或错误可能会对环境造成真正的伤害,有时甚至是不可逆转的伤害。因此,非常有必要制定适当的法规和标准。我们需要关注Agent在做出决定和产生行动时的安全性,确保它们不会对现实世界造成威胁或伤害。Agent即服务/基于 LLM 的Agent即服务:随着语言模型规模的扩大,它们对用户来说往往是黑盒子。因此,用户通过应用程序接口构建提示来查询模型,这种方法被称为语言模型即服务(LMaaS)。由于LLM-based Agent比 LLM 更加复杂,而且对于中小型企业或个人来说,在本地构建这些Agent更具挑战性,因此拥有这些Agent的组织可以考虑将它们作为一种服务来提供,即Agent即服务(AaaS)或基于 LLM 的Agent即服务(LLMAaaS)。与其他云服务一样,AaaS 可以为用户提供灵活性和按需服务。然而,它也面临着许多挑战,如数据安全和隐私问题、可视性和可控性问题以及云迁移问题等等。此外,由于LLM-based Agent具有独特性和潜在能力,因此在将其作为服务提供给客户之前,需要考虑其稳健性、可信度以及与恶意使用相关的问题。总结: “Agent+”有望成为未来产品的主流,有望在多个领域实现落地应用。我们认为, AI Agent 的研究是人类不断探索接近 AGI 的过程,随着 Agent 变得越来越“可用” 和“好用”,“Agent+”的产品将会越来越多,未来将有望成为 AI 应用层的基本架 构,包括 to C、to B 产品等。 2B 和垂直领域仍是 AI Agents 容易率先落地的方向,用户对 Agent 的认知正在形 成,初创企业正在卡位。由于 Agent 对环境反馈的依赖性较强,具备显著特点的企 业环境是更加适合 Agent 建立起对某一个垂直领域认知的场景。当前关于 AI Agent 的研究主要还是以学术界和开发者为主,商业化产品极少,但是用户对于 Agent 的 关注度正在提升,可能未来几年间就会涌现出大量以 Agent 作为核心的产品应用到 各行各业。目前,已经有一些初创公司开始以企业的智能体平台作为主要的产品研 发方向,例如澜码科技正在打造基于 LLM 的企业级 Agent 平台。未决问题LLM是否是正确的AGI方向:鉴于 GPT-4 功能的广度和深度,一些研究人员(被称为支持者)认为,GPT-4 所代表的大型语言模型可以作为早期版本的 AGI 系统。根据这一思路,基于 LLMs 构建 Agent 有可能带来更先进的 AGI 系统。这一论点的主要支撑点在于,只要能在足够大且多样化的数据集(这些数据集是真实世界的投影,包含丰富的任务)上对它们进行训练,LLM-based Agent就能具有 AGI 的能力。另一个有趣的论点是,自回归语言建模行为本身会带来压缩和概括能力:正如人类在生存过程中出现了各种奇特而复杂的现象一样,语言模型在简单预测下一个标记的过程中,也实现了对世界的理解和推理能力。然而,另一部分人(被称为反对者)认为,LLM-based Agent并不能发展出真正的强人工智能。他们的主要论点是,依赖于自回归下一个标记预测的 LLMs 无法产生真正的智能,因为它们没有模拟真正的人类思维过程,而只是提供被动反应。此外,LLM 也无法通过观察或体验世界来了解世界是如何运行的,从而导致许多愚蠢的错误。他们认为,要开发 AGI,必须采用更先进的建模方法,如世界模型。参考链接:https://zhuanlan.zhihu.com/p/659386520?utm_psn=1720512623291047936万字综述:大语言模型驱动智能体(LLM Agent)进展与潜力 By 复旦+米哈游爱吃牛油果的璐璐:细读复旦大学大语言模型Agent综述编辑于 2024-02-26 07:46・IP 属地广东AgentLLM(大型语言模型)通用人工智能AGI​赞同 287​​5 条评论​分享​喜欢​收藏​申请转载​文章被以下专栏收录产品对科技前沿的关注人工智能、人机交互、隐私计算好奇元素社畜的工作记录&日常点滴记录工

智能代理_百度百科

_百度百科 网页新闻贴吧知道网盘图片视频地图文库资讯采购百科百度首页登录注册进入词条全站搜索帮助首页秒懂百科特色百科知识专题加入百科百科团队权威合作下载百科APP个人中心收藏查看我的收藏0有用+10智能代理播报讨论上传视频定期地收集信息或执行服务的程序本词条由“科普中国”科学百科词条编写与应用工作项目 审核 。智能代理(intelligent agent)是定期地收集信息或执行服务的程序,它不需要人工干预,具有高度智能性和自主学习性,可以根据用户定义的准则,主动地通过智能化代理服务器为用户搜集最感兴趣的信息,然后利用代理通信协议把加工过的信息按时推送给用户,并能推测出用户的意图,自主制订、调整和执行工作计划。中文名智能代理外文名intelligent agent功    能感知环境中的动态条件特    点不需要人的即时干预优    点拥有个性化,目录1内容简介2基本介绍3什么是智能代理技术4智能代理基本类型5智能代理的功能特点▪智能性▪代理性▪学习性▪合作性▪持续性▪工作原理6应用▪智能搜索代理的研究和开发▪智能代理技术在数字图书馆的应用内容简介播报编辑在Internet中,典型地,智能代理程序,可以根据所提供的参数,按一定周期,搜索整个Internet或它的一部分,收集你感兴趣的信息。智能代理有时被称作bot,机器人的缩写。有些代理还可以基于注册信息和用法分析在网站上将信息私人化。其它类型的代理包括定点监测,然后等网站进行更新或者寻找到其它的事情以后告知你,分析代理不仅收集信息,还为你整理和提供信息。代理把信息交给你的方法通常称之为push技术。 [1]基本介绍播报编辑美国斯坦福大学的Hayers Roth认为"智能代理持续地执行3项功能:感知环境中的动态条件;执行动作影响环境;进行推理以解释感知信息,求解问题,产生推理和决定动作."他认为,代理应在动作选择过程中进行推理和规划.通常,广义的智能代理包括人类,物理世界中的移动机器人和信息世界中软件机器人.而狭义的智能代理则专指信息世界中的软件机器人,它是代表用户或其他程序,以主动服务的方式完成的一组操作的机动计算实体,主动服务包括主动适应性和主动代理.总之.智能代理是指收集信息或提供其他相关服务的程序,它不需要人的即时干预即可定时完成所需功能.智能代理可以看作是利用传感器感知环境,并使用效应器作用于环境的任何实体.智能代理是一套辅助人和充当他们代表的软件,人们可以借助于智能代理进行网上交易.一般智能代理有以下4个特征:代理性,智能性,机动性和个性化.代理性主要是指智能代理的自主与协调工作能力.表现为智能代理从事行为的自动化程度,即操作行为可以离开人或代理程序的干预.但代理在其系统中必须通过操作行为加以控制,当其他代理提出请求时,只有代理自己才能决定是接受还是拒绝这种请求.智能性是指代理的推理和学习能力,它描述了智能代理接受用户目标指令并代表用户完成任务的能力,如理解用户用自然语言表达的对信息资源和计算资源的需求.帮助用户在一定程度上克服信息内容的语言障碍,捕捉用户的偏好和兴趣.推测用户的用途并为其代劳等.机动性是指智能代理在网络之间的迁移能力.操作任务和处理能从一台计算机运行到另一台计算机上.在必要时,智能代理能够同其他代理和人进行交流,并且都可以从事自己的操作以及帮助其他代理和人.另外.智能代理拥有个性化,通过个性化的渲染和个性化的设置.用户就会在浏览商品的过程中,逐步提高购买欲.如果将智能代理技术应用到电子商务系统中.就可以为全球用户提供一个不受时空限制的交易场所.什么是智能代理技术播报编辑VisiBroker的智能代理(osagent)是一种动态分布式目录服务,它提供客户程序与服务程序双方使用的功能.智能代理必须在本地网络中至少一台主机上启动.客户程序调用对象的b i n d方法时,会自动查询智能代理,由智能代理查找指定的实现,从而建立客户程序与实现之间的连接.与智能代理的通信对客户程序完全透明.如果POA设置了PERSISTENT策略并使用activate_ object_with_id方法,智能代理将登记对象或实现,从而可由客户程序使用它,当对象或实现被冻结时,智能代理将它从可用对象列表中删除。与客户程序一样,与智能代理的通信对对象实现也完全透明。智能代理基本类型播报编辑智能代理可分为四种基本类型:信息代理;检测和监视代理;数据挖掘代理;用户代理或个人代理。智能代理的功能特点播报编辑智能代理技术是人工智能在网络信息技术领域的运用,具有显著的特性和强大的功能,其基本功能特点如下: [2]智能性这是智能代理技术的一个最基本的特点,具有解决问题所需的丰富知识、策略和相关数据,能够进行相关的推理和智能计算,智能代理还可以在用户没有给出十分明确的需求时推测出用户的意图、兴趣或爱好,并按最佳方式代为其完成任务,对用户的需求能分析地推送,并能自动拒绝一些不合理或可能给用户带来危害的要求;智能代理还从经验中不断自我学习,能够根据环境调整自身的行为,从而提高处理问题的能力;智能代理还可以实现对信息进行筛选和过滤的功能。代理性也是智能代理技术的一个最基本的特点,能够使用代理通信协议进行信息交换,并把检索信息结果主动推送给用户,并管理用户的个人资料及其私人目录下的知识库。学习性也称自主性。智能代理技术能够根据当前环境的变化,动态地调整自己去完成各项任务、计划,并主动地把信息过滤、整理后提供给用户服务。合作性每个智能代理有标准的接口,采用统一的通信语言进行信息的交流。多代理系统由代理组成,通过代理本身的搜索活动和相互之间的交互活动,构成系统的群体活动,相互之间分工合作共同完成复杂任务,从而实现系统整体的功能或目的,同时,每个代理也在这种交互的过程中实现了自己的功能或目的。持续性各个智能代理有不同的任务,在Internet上搜索访问,这种移动是多点并行的,具有可以跨地域、时空持续运行的功能特点。工作原理智能代理体系结构简图智能代理可以看作是知识处理的实体,它由知识库、规则库、推理机、各代理之间的通信协议组成,能够完成知识发现代理、通信协作代理、规则库应用代理、监督代理、知识库管理代理、推送代理等功能,如《智能代理体系结构简图》所示:我们可以看出其工作过程,各个智能代理都有自己的知识库,用户表达出自己的信息需求后,通过通信协作代理传给知识库,根据用户信息库中用户特定的需求和近一段时间内的爱好兴趣为标准来筛选信息。监督代理就是当用户提出信息需求时,它就会检查知识库中是否用户以前有过相似的信息需求,若有就把知识库中用户以前的需求记录提取出来,通过推送代理发给用户;若知识库中没有用户的信息需求,经规则应用库代理理解生成一定的搜索规则,传送给知识发现代理进行相关信息搜索,搜索后的结果经信息过滤后存于信息数据库,再经过知识库的推理机制推断用户的潜在需求,作为用户需求历史记录下来,结果推送给用户。监督代理还根据一定规则实时动态地跟踪信息数据库中历史记录在Internet 网络上的变化,一旦知识发现代理收集到相关内容和更新内容,监督代理就通知规则应用库生成新的检索规则或应用,并通知和提醒用户有新的信息内容,还可以E-mail 方式把特定更新内容以推送方式提交给用户。检索完成后允许用户对结果进行满意度和相关度的评价并反馈给知识库,一方面了解用户的新的兴趣需求,另一方面完善用户所需信息相关度的匹配规则,为用户的未来信息检索提供可靠的保障。 [2]应用播报编辑智能代理技术最初应用于商业领域,随着通信技术和网络信息技术的迅速发展,其特性和功能也不断地扩展,主要应用在智能搜索代理、数字图书馆、电子商务和远程教育的研究和开发等领域。 [2]智能搜索代理的研究和开发伴随着计算机人工智能研究的不断发展,具有智能性、代理性、适应性、学习性等特征的智能代理技术从试验阶段走向实际的应用。 目前,智能搜索代理已经成为网络信息检索的核心技术。智能搜索代理就是智能代理技术应用于网络信息检索的特定领域,它是目前具有前瞻性、先进性的网络信息检索手段,目的是为用户提供迅速、准确、方便的网络信息检索服务。同传统的搜索引擎相比,智能搜索代理具有自己鲜明的特色。智能代理技术在数字图书馆的应用数字图书馆也是近年来国内外图书情报学界研究和开发的新领域,数字图书馆是海量的“ 信息空间”,可以满足分布式面向对象的信息查询需要。它以网络信息资源建设为核心,采用人工智能、信息海量存取、多媒体制作与传输、自动标引、数字版权保护、电子商务等现代信息技术成果,形成超大规模、分布式体系,便于使用、没有时空限制、可以实现跨库无缝链接与智能检索的知识中心。智能代理技术也在数字图书馆中发挥了非常重要的作用。新手上路成长任务编辑入门编辑规则本人编辑我有疑问内容质疑在线客服官方贴吧意见反馈投诉建议举报不良信息未通过词条申诉投诉侵权信息封禁查询与解封©2024 Baidu 使用百度前必读 | 百科协议 | 隐私政策 | 百度百科合作平台 | 京ICP证030173号 京公网安备110000020000

细说复旦大学,斯坦福大学智能代理AI-Agent(二更) - 知乎

细说复旦大学,斯坦福大学智能代理AI-Agent(二更) - 知乎首发于大模型学习资料切换模式写文章登录/注册细说复旦大学,斯坦福大学智能代理AI-Agent(二更)爱吃牛油果的璐璐​北京大学 电子与通信工程硕士Agent就是智能体的意思。前言最近AI圈很火的一个话题就是AI Agent了!AI创投圈也在密切关注着相关创业公司的进展。很多人说大模型都没搞明白,又来了个AI Agent…... 但是别担心Agent目前也是在起始阶段。AI Agent能力其实是和大模型相生的,大模型的能力边界决定了AI Agent的能力边界。最近,复旦大学,斯坦福大学都发表了对AI AGENT的看法和认识。研究背景早在 1950 年代,Alan Turing 就将「智能」的概念扩展到了人工实体,并提出了著名的图灵测试。这些人工智能实体通常被称为 —— 代理(Agent)。「代理」这一概念起源于哲学,描述了一种拥有欲望、信念、意图以及采取行动能力的实体。斯坦福大学的一篇名为《Generative Agents: Interactive Simulacra of Human Behavior》的论文深入研究了记忆、反应和计划的AI Agent。什么是AI AgentAI Agent 被认为是 OpenAI 发力的下一个方向。OpenAI 联合创始人 Andrej Karpathy 在近期的公开活动上说 “ 相比模型训练方法,OpenAI 内部目前更关注 Agent 领域的变化,每当有新的 AI Agents 论文出来的时候,内部都会很兴奋并且认真地讨论 ” 。在人工智能领域,这一术语被赋予了一层新的含义:具有自主性、反应性、积极性和社交能力特征的智能实体。AI Agent,它被设计为具有独立思考和行动能力的AI程序。你只需要提供一个目标,比如写一个游戏、开发一个网页,他就会根据环境的反应和独白的形式生成一个任务序列开始工作。就好像是人工智能可以自我提示反馈,不断发展和适应,以尽可能最好的方式来实现你给出的目标。 NLP 到 AGI 的发展路线NLP 到 AGI 的发展路线分为五级:语料库、互联网、感知、具身和社会属性,那么目前的大型语言模型已经来到了第二级,具有互联网规模的文本输入和输出。在这个基础上,如果赋予 LLM-based Agents 感知空间和行动空间,它们将达到第三、第四级。进一步地,多个代理通过互动、合作解决更复杂的任务,或者反映出现实世界的社会行为,则有潜力来到第五级 —— 代理社会。为什么需要AI Agent为什么大语言模型(LLM)刚流行不久,就需要AI Agent呢?LLM与LangChain 等工具相结合,释放了内容生成、编码和分析方面的多种可能性,目前在ChatGPT插件中比较有代表性的插件就是code interpreter。在这方面的应用上Agent的概念应用发挥着举足轻重的作用。关于lang chain更多介绍:爱吃牛油果的璐璐:(万字长文)手把手教你认识学会LangChain 这里可以将Agent视为人工智能大脑,它使用LLM进行推理、计划和采取行动。语言模型 (LLM) 仅限于它们所训练的知识,并且这些知识很快就会过时。(每天用最新信息重新训练这么大的模型是不可行的。)LLM的一些缺点会产生幻觉。结果并不总是真实的。对时事的了解有限或一无所知。很难应对复杂的计算。这就是AI Agent的用武之地,它可以利用外部工具来克服这些限制。这里的工具是什么呢?工具就是代理用它来完成特定任务的一个插件、一个集成API、一个代码库等等,例如:Google搜索:获取最新信息Python REPL:执行代码Wolfram:进行复杂的计算外部API:获取特定信息而LangChain则是提供一种通用的框架通过大语言模型的指令来轻松地实现这些工具的调用。AI Agent的诞生就是为了处理各种复杂任务的,就复杂任务的处理流程而言AI Agent主要分为两大类:行动类、规划执行类。智能代理的框架LLM-based Agent 的概念框架,包含三个组成部分:控制端(Brain)、感知端(Perception)和行动端(Action)。下面将分别介绍:控制端:Brain是智能代理的核心。它不仅可以存储记忆和知识,还承担着信息处理、决策等不可或缺的功能。它可以呈现推理和计划的过程,并很好地应对未知任务,反映出智能代理的泛化性和迁移性。控制端作为智能代理最核心的组成成分,作者们从五个方面展开介绍其能力:自然语言交互:语言是沟通的媒介,其中包含着丰富的信息。得益于 LLMs 强大的自然语言生成和理解能力,智能代理能够通过自然语言与外界进行多轮交互,进而实现目标。具体而言,可以分为两个方面:高质量文本生成:大量评估实验表明,LLMs 能够生成流畅、多样、新颖、可控的文本。尽管在个别语言上表现欠佳,但整体上具备良好的多语言能力。言外之意的理解:除了直观表现出的内容,语言背后可能还传递了说话者的意图、偏好等信息。言外之意有助于代理更高效地沟通与合作,大模型已经展现出了这方面的潜力。知识:基于大批量语料训练的 LLMs,拥有了存储海量知识(Knowledge)的能力。除了语言知识以外,常识知识和专业技能知识都是 LLM-based Agents 的重要组成部分。虽然 LLMs 其本身仍然存在知识过期、幻觉等问题,现有的一些研究通过知识编辑或调用外部知识库等方法,可以在一定程度上得到缓解。记忆:在本文框架中,记忆模块(Memory)储存了代理过往的观察、思考和行动序列。通过特定的记忆机制,代理可以有效地反思并应用先前的策略,使其借鉴过去的经验来适应陌生的环境。短期记忆:我认为所有的上下文学习(参见提示工程)都是利用模型的短期记忆来学习。长期记忆:这为代理提供了长时间保留和回忆(无限)信息的能力,通常是通过利用外部向量存储和快速检索。通常用于提升记忆能力的方法有三种:扩展 Backbone 架构的长度限制:针对 Transformers 固有的序列长度限制问题进行改进。总结记忆(Summarizing):对记忆进行摘要总结,增强代理从记忆中提取关键细节的能力。压缩记忆(Compressing):通过使用向量或适当的数据结构对记忆进行压缩,可以提高记忆检索效率。此外,记忆的检索方法也很重要,只有检索到合适的内容,代理才能够访问到最相关和准确的信息。推理 & 规划:推理能力(Reasoning)对于智能代理进行决策、分析等复杂任务而言至关重要。具体到 LLMs 上,就是以 思维链(Chain-of-Thought,CoT) 为代表的一系列提示方法。(思维链介绍:https://zhuanlan.zhihu.com/p/655427670?utm_psn=1721304654632386560 )而规划(Planning)则是面对大型挑战时常用的策略。它帮助代理组织思维、设定目标并确定实现这些目标的步骤。在具体实现中,规划可以包含两个步骤:计划制定(Plan Formulation):代理将复杂任务分解为更易于管理的子任务。例如:一次性分解再按顺序执行、逐步规划并执行、多路规划并选取最优路径等。在一些需要专业知识的场景中,代理可与特定领域的 Planner 模块集成,提升能力。计划反思(Plan Reflection):在制定计划后,可以进行反思并评估其优劣。这种反思一般来自三个方面:借助内部反馈机制;与人类互动获得反馈;从环境中获得反馈。迁移性 & 泛化性:拥有世界知识的 LLMs 赋予智能代理具备强大的迁移与泛化能力。一个好的代理不是静态的知识库,还应具备动态的学习能力:对未知任务的泛化:随着模型规模与训练数据的增大,LLMs 在解决未知任务上涌现出了惊人的能力。通过指令微调的大模型在 zero-shot 测试中表现良好,在许多任务上都取得了不亚于专家模型的成绩。情景学习(In-context Learning):大模型不仅能够从上下文的少量示例中进行类比学习,这种能力还可以扩展到文本以外的多模态场景,为代理在现实世界中的应用提供了更多可能性。持续学习(Continual Learning):持续学习的主要挑战是灾难性遗忘,即当模型学习新任务时容易丢失过往任务中的知识。专有领域的智能代理应当尽量避免丢失通用领域的知识。感知端:Perception多模态感知能加深代理对工作环境的理解,显著提升了其通用性。文本输入:作为 LLMs 最基础的能力,这里不再赘述。视觉输入:LLMs 本身并不具备视觉的感知能力,只能理解离散的文本内容。而视觉输入通常包含有关世界的大量信息,包括对象的属性,空间关系,场景布局等等。常见的方法有:将视觉输入转为对应的文本描述(Image Captioning):可以被 LLMs 直接理解,并且可解释性高。对视觉信息进行编码表示:以视觉基础模型 + LLMs 的范式来构成感知模块,通过对齐操作来让模型理解不同模态的内容,可以端到端的方式进行训练。听觉输入:听觉也是人类感知中的重要组成部分。由于 LLMs 有着优秀的工具调用能力,一个直观的想法就是:代理可以将 LLMs 作为控制枢纽,通过级联的方式调用现有的工具集或者专家模型,感知音频信息。此外,音频也可以通过频谱图(Spectrogram)的方式进行直观表示。频谱图可以作为平面图像来展示 2D 信息,因此,一些视觉的处理方法可以迁移到语音领域。其他输入:现实世界中的信息远不止文本、视觉和听觉。作者们希望在未来,智能代理能配备更丰富的感知模块,例如触觉、嗅觉等器官,用于获取目标物体更加丰富的属性。同时,代理也能对周围环境的温度、湿度和明暗程度有清楚的感受,采取更 Environment-aware 的行动。此外,还可以为代理引入对更广阔的整体环境的感知:采用激光雷达、GPS、惯性测量单元等成熟的感知模块。行动端:Action在大脑做出分析、决策后,代理还需要做出行动以适应或改变环境:文本输出:作为 LLMs 最基础的能力,这里不再赘述。工具使用:尽管 LLMs 拥有出色的知识储备和专业能力,但在面对具体问题时,也可能会出现鲁棒性问题、幻觉等一系列挑战。与此同时,工具作为使用者能力的扩展,可以在专业性、事实性、可解释性等方面提供帮助。例如,可以通过使用计算器来计算数学问题、使用搜索引擎来搜寻实时信息。另外,工具也可以扩展智能代理的行动空间。例如,通过调用语音生成、图像生成等专家模型,来获得多模态的行动方式。因此,如何让代理成为优秀的工具使用者,即学会如何有效地利用工具,是非常重要且有前景的方向。目前,主要的工具学习方法包括从演示中学习和从反馈中学习。此外,也可以通过元学习、课程学习等方式来让代理程序在使用各种工具方面具备泛化能力。更进一步,智能代理还可以进一步学习如何「自给自足」地制造工具,从而提高其自主性和独立性。具身行动:具身(Embodyment)是指代理与环境交互过程中,理解、改造环境并更新自身状态的能力。具身行动(Embodied Action)被视为虚拟智能与物理现实的互通桥梁。传统的基于强化学习的 Agent 在样本效率、泛化性和复杂问题推理等方面存在局限性,而 LLM-based Agents 通过引入大模型丰富的内在知识,使得 Embodied Agent 能够像人类一样主动感知、影响物理环境。根据代理在任务中的自主程度或者说 Action 的复杂程度,可以有以下的原子 Action:Observation 可以帮助智能代理在环境中定位自身位置、感知对象物品和获取其他环境信息;Manipulation 则是完成一些具体的抓取、推动等操作任务;Navigation 要求智能代理根据任务目标变换自身位置并根据环境信息更新自身状态。通过组合这些原子行动,代理可以完成更为复杂的任务。例如「厨房的西瓜比碗大吗?」这类具身的 QA 任务。为了解决这个问题,代理需要导航到厨房,并在观察二者的大小后得出答案。智能代理的应用场景LLM-based Agent 的三种应用范式:单代理、多代理、人机交互。单代理场景可以接受人类自然语言命令,执行日常任务的智能代理目前备受用户青睐,具有很高的现实使用价值。作者们首先在单智能代理的应用场景中,阐述了其多样化的应用场景与对应能力。在论文中,单智能代理的应用被划分为如下三个层次:单代理应用场景的三个层次:任务导向、创新导向、生命周期导向。在任务导向的部署中,代理帮助人类用户处理日常基本任务。它们需要具备基本的指令理解、任务分解、与环境交互的能力。具体来说,根据现有的任务类型,代理的实际应用又可以分为模拟网络环境与模拟生活场景。在创新导向的部署中,代理能够在前沿科学领域展现出自主探究的潜力。虽然来自专业领域的固有复杂性和训练数据的缺乏给智能代理的构建带来了阻碍,但目前已经有许多工作在化学、材料、计算机等领域取得了进展。在生命周期导向的部署中,代理具备在一个开放世界中不断探索、学习和使用新技能,并长久生存的能力。在本节中,作者们以《我的世界》游戏为例展开介绍。由于游戏中的生存挑战可以被认为是现实世界的一个缩影,已经有许多研究者将其作为开发和测试代理综合能力的独特平台。多代理场景多代理应用场景的两种交互形式:合作型互动、对抗型互动。合作型互动:作为实际应用中部署最为广泛的类型,合作型的代理系统可以有效提高任务效率、共同改进决策。具体来说,根据合作形式的不同,作者们又将合作型互动细分为无序合作与有序合作。当所有代理自由地表达自己的观点、看法,以一种没有顺序的方式进行合作时,称为无序合作。当所有代理遵循一定的规则,例如以流水线的形式逐一发表自己的观点时,整个合作过程井然有序,称为有序合作。对抗型互动:智能代理以一种针锋相对(tit for tat)的方式进行互动。通过竞争、谈判、辩论的形式,代理抛弃原先可能错误的信念,对自己的行为或者推理过程进行有意义的反思,最终带来整个系统响应质量的提升。人机交互场景人机交互场景的的两种模式:Instructor-Executor 模式 vs. Equal Partnership 模式。Instructor-Executor 模式:人类作为指导者,给出指令、反馈意见;而代理作为执行者,依据指示逐步调整、优化。这种模式在教育、医疗、商业等领域得到了广泛的应用。Equal Partnership 模式:有研究观察到代理能够在与人类的交流中表现出共情能力,或是以平等的身份参与到任务执行中。智能代理展现出在日常生活中的应用潜力,有望在未来融入人类社会。AI Agent 一览表书籍推荐开放性问题讨论1.智能代理与大语言模型的研究该如何互相促进、共同发展?大模型在语言理解、决策制定以及泛化能力等方面展现出强大的潜力,成为代理构建过程中的关键角色,而代理的进展也为大模型提出了更高的要求。2.LLM-based Agents 会带来哪些挑战与隐忧?智能代理能否真正落地,需要经过严谨的安全性评估,避免对真实世界带来危害。作者总结了更多潜在威胁,例如:非法滥用、失业风险、对人类福祉造成影响等等。3.代理数量的提升(scaling up)会带来哪些机遇和挑战?在模拟社会中,提升个体数量可以显著提升模拟的可信度与真实性。然而,随着代理数量的上升,通信与消息传播问题会变得相当复杂,信息的失真、误解或者幻觉现象都会显著降低整个模拟系统的效率。4.网络上关于 LLM-based Agent 是否是通向 AGI 的合适道路的争论。有研究者认为,以 GPT-4 为代表的大模型已经在足够的语料上进行了训练,在此基础上构建的代理有潜力成为打开 AGI 之门的钥匙。但也有其他研究者认为,自回归语言建模(Auto-regressive Language Modeling)并不能显现出真正的智能,因为它们只是作出响应。一个更完备的建模方式,例如世界模型(World Model),才能通向 AGI。5.群体智能的演化历程。群体智能是一种集结众人的意见进而转化为决策的过程。然而,一味通过增加代理的数量,是否会产生真正的「智能」?此外,如何协调单个代理,让智能代理社会克服「团体迷思」和个人认知偏差?6.代理即服务(Agent as a Service,AaaS)。由于 LLM-based Agents 比大模型本身更加复杂,中小型企业或个人更加难在本地构建,因此云厂商可以考虑以服务的形式来将智能代理落地,即 Agent-as-a-Service。就像其他的云服务一样,AaaS 有潜力为用户提供高灵活性和按需的自助服务。论文参考:https://arxiv.org/pdf/2309.07864.pdf https://arxiv.org/abs/2304.03442 编辑于 2024-02-20 11:10・IP 属地广东・来源官方网站agent-based modelLLM(大型语言模型)Agent​赞同 187​​12 条评论​分享​喜欢​收藏​申请转载​文章被以下专栏收录大模型学习资料有关大模型,前沿知识最新资料整理【关于NLP】那些你不知道的事 NLP 分享,个人的所见所闻所想,希望对您有

比尔盖茨&微软CEO:软件的未来是智能代理Agent - 知乎

比尔盖茨&微软CEO:软件的未来是智能代理Agent - 知乎首发于大模型(LXM)技术洞察切换模式写文章登录/注册比尔盖茨&微软CEO:软件的未来是智能代理Agent旺知识​腾讯 应用研究比尔盖茨设想了一个未来,人工智能“代理”(Agent)将彻底改变软件的使用,通过自然语言命令实现各种任务之间直观、个性化的交互。图源:旺知识&DALL·E 3“Agents are not only going to change how everyone interacts with computers. They’re also going to upend the software industry, bringing about the biggest revolution in computing since we went from typing commands to tapping on icons.” — Bill Gates“人工智能代理(Agent)不仅会改变每个人与计算机交互的方式。它们还将颠覆软件行业,带来自我们从键入命令到点击图标以来最大的计算革命。” - 比尔盖茨比尔·盖茨在他的文章“人工智能即将彻底改变你使用计算机的方式(并颠覆软件行业)”中谈到了人工智能 (AI) 将如何改变我们使用计算机和软件的方式。他解释说,人工智能将对软件的工作方式以及我们与设备的交互方式产生重大影响。盖茨描绘了一个未来,人工智能代理将极大地简化和增强我们与技术的交互,从而带来更加集成、高效和个性化的数字体验。然而,盖茨也强调需要解决随之而来的技术和道德挑战,以确保对社会产生积极影响。1. 现有软件仍然笨拙比尔盖茨了解软件。他仍然是软件的粉丝,但也承认,尽管软件已经取得了许多进步,但软件仍然可能相当笨拙。比尔盖茨是这样说的:“I still love software as much today as I did when Paul Allen and I started Microsoft. But—even though it has improved a lot in the decades since then—in many ways, software is still pretty dumb.” — Bill Gates“我今天仍然像保罗·艾伦和我创办微软时一样热爱软件。但是,尽管自那时以来的几十年里它已经有了很大的进步,但在很多方面,软件仍然相当笨拙。” - 比尔盖茨2. 软件的未来是智能代理(Agent)比尔盖茨预测我们与计算机交互的方式将发生重大变化,一个智能“代理”将理解我们的口头命令并执行各种任务,从而无需为不同目的使用不同的应用程序。以下是比尔盖茨如何为他对软件未来的大胆声明奠定基础:“Imagine if you didn’t need to use different software—or separate apps—to draft a document, make a spreadsheet, or send an email. Imagine if you could, instead, just tell your device in everyday language what you want to do. In the next five years, that’s what you’ll be able to do. This type of software is called an agent.” — Bill Gates“想象一下,如果您不需要使用不同的软件或单独的应用程序来起草文档、制作电子表格或发送电子邮件。想象一下,如果您可以用日常语言告诉您的设备您想做什么。在接下来的五年里,这就是你能够做到的。这种类型的软件称为代理。”- 比尔盖茨图源:旺知识&DALL·E 3这就是它的含义:无需为不同任务使用单独的软件:如今,如果您想在计算机上执行不同的操作,例如编写文档、创建电子表格或发送电子邮件,则需要为每项任务使用不同的软件或应用程序。盖茨正在想象一个不需要这样做的未来。使用日常语言来命令您的设备:您无需手动打开不同的应用程序并浏览它们,只需用简单的日常语言与您的设备交谈即可。例如,您可以说“给约翰写一封关于下周会议的电子邮件”或“创建本月的预算电子表格”,计算机会理解并为您做这件事。“代理”软件的作用:这种能力将通过盖茨称为“代理”的一种软件来实现。在这种情况下,代理是人工智能的一种高级形式,它能够理解自然语言,并可以根据所告知的内容执行各种任务。这就像拥有一位私人助理,他准确了解您的需求并跨不同的应用程序执行任务。未来五年的转变:盖茨相信这项技术离我们并不遥远——我们可以看到它在未来五年内成为现实。3. 人工智能代理的兴起以下是比尔·盖茨关于软件未来的文章中的主要见解和亮点的细分:软件演变:盖茨回顾了微软早期以来的软件开发历程,承认尽管取得了重大进步,但当前的软件仍然缺乏直观性和整体功能。人工智能代理的兴起:本文介绍了人工智能“代理”的概念——能够响应自然语言并可以根据用户知识执行多种任务的高级软件。这标志着从静态的、特定于应用程序的机器人到动态的、多功能代理的转变。个性化计算体验:盖茨预测,未来人工智能代理对用户生活有深入的了解,可以执行各种任务,如日程安排、发送电子邮件等,有效地充当个人助理。行业革命:这些代理不仅有望彻底改变用户与计算机的交互,而且还将彻底改变整个软件行业,这是自命令行界面向图形用户界面过渡以来最重大的转变。跨行业应用:医疗保健:人工智能代理将协助基本分诊,提供健康建议,并帮助医护人员做出决策。教育:人工智能将补充教学,提供个性化的学习体验并减轻教师的行政负担。生产力:人工智能代理将通过协助规划、电子邮件摘要等任务来提高工作场所生产力。娱乐和购物:人工智能将个性化娱乐和购物体验,提供量身定制的推荐和无缝交易。服务民主化:盖茨强调,人工智能代理将使目前昂贵或专有的服务可供更广泛的人群使用。技术和道德挑战:本文还涉及开发这些代理的技术挑战和道德考虑,特别是在隐私、数据所有权和代理交互的影响方面。社会影响和问题:盖茨提出了有关此类代理的社会影响的问题,包括它们对人际关系的影响以及人工智能代理处理许多任务的世界中的工作性质。未来愿景:最后,盖茨设想了一个未来,人工智能代理将显着改变我们的线上和线下日常生活,从而导致我们与技术互动的方式发生深刻变化。图源:旺知识&DALL·E 34. 微软CEO萨蒂亚·纳德拉谈生成式人工智能比尔·盖茨的文章让我们想起了萨蒂亚·纳德拉 (Satya Nadella) 关于生成人工智能的重要见解。微软首席执行官 Satya Nadella 强调了他认为对生成人工智能至关重要的两个关键要素:新的用户界面一个新的推理引擎。以下是这两个组件至关重要的原因以及它们如何改变计算世界:新的用户界面:增强的可访问性和可用性:传统的用户界面(例如键盘、鼠标和触摸屏)限制了我们与计算机交互的方式。新的人工智能驱动界面可能涉及自然语言处理、语音识别,甚至手势或基于思想的交互,使技术对更广泛的用户来说更容易使用和直观。个性化体验:人工智能界面可以学习并适应个人用户,提供个性化交互。这意味着该技术将了解用户偏好、工作方式,甚至预测需求,从而带来更高效、更人性化的体验。更好的集成:先进的人工智能界面可以与日常生活的各个方面(从智能家居到个人设备)无缝集成,从而创造出更具凝聚力和互联性的数字体验。新推理引擎:高级决策:推理引擎超越了基本的数据处理。它可以根据复杂的数据进行解释、推理和决策。这种能力将使人工智能系统能够在从业务分析到医疗诊断的各种场景中提供更细致和上下文感知的响应。学习和适应:配备复杂推理引擎的人工智能系统可以从新的信息和经验中学习,不断提高其性能和准确性。这种适应性对于不断发展的领域至关重要,例如医学、金融和环境研究。问题解决和创新:强大的推理引擎可以通过分析大量数据并生成创新的解决方案来帮助解决复杂的问题。这可以加速各个领域的研究和开发,从而在科学、技术和其他领域取得突破。纳德拉预计人工智能的这些进步将给计算领域带来变革。新的用户界面使技术更易于使用并根据个人需求进行定制,而新的推理引擎使人工智能系统具有卓越的决策能力、适应性和解决问题的能力。图源:旺知识&DALL·E 3总之,这些发展使我们与技术互动并从技术中受益的方式发生了重大飞跃。5. 人工智能代理如何塑造未来的 10 个例子为了深入了解其中一些想法,让我们通过一些说明性示例来了解人工智能代理如何重塑未来。以下是人工智能代理未来应用的 10 个引人入胜的示例,体现了比尔·盖茨和萨提亚·纳德拉的愿景:集成项目管理:人工智能代理可以监督项目时间表,有效分配资源,并向团队成员提供实时更新,从而简化项目管理并增强团队协调。动态业务分析:人工智能代理将分析市场趋势、内部业务数据和客户反馈,为领导者提供可操作的见解,以做出数据驱动的决策。自动化客户关系管理 (CRM):人工智能代理可以个性化与客户的互动、管理后续行动并预测客户需求,从而提高客户满意度和忠诚度。战略规划协助:人工智能代理可以通过处理行业数据、竞争对手分析和预测市场变化来协助领导者制定长期战略。增强沟通:人工智能代理可以管理电子邮件和消息并确定其优先级,根据之前的交互起草回复,并提醒领导者需要个人关注的紧急通信。智能日历管理:人工智能代理不仅可以安排会议,还可以准备议程,根据会议主题建议与会者,并提供与会者简介,以便更好地做好准备。实时风险评估:在金融或医疗保健等领域,人工智能代理可以持续监控和报告潜在风险,从而可以立即采取缓解策略。量身定制的领导力发展:人工智能代理可以评估领导者的优势和需要改进的领域,提供定制的学习资源和辅导建议,以提高领导技能。高效的资源分配:人工智能代理可以优化公司资源的使用,例如更有效地管理预算或将人力资源分配到最需要的地方。个性化的员工敬业度:人工智能代理可以跟踪员工的绩效、满意度和敬业度,为领导者提供制定个性化激励策略和改善工作场所文化的见解。这些示例展示了人工智能代理如何显着提高领导效率、改进决策并简化各个组织职能部门的运营。6. 领导者应该问自己塑造未来的 10 个问题以下 10 个发人深省的问题可以帮助您重新构想 AI 代理业务的未来:人工智能代理可以在我的企业中自动化哪些重复性任务,以释放人类的创造力和创新力?人工智能代理如何个性化我们的客户体验以提高满意度和忠诚度?人工智能驱动的数据分析可以通过哪些方式发现我们尚未考虑的新市场机会或扩展领域?人工智能代理如何帮助我们的供应链变得更加高效并更好地响应市场变化?人工智能代理在增强我们的决策过程方面有什么潜力,特别是在复杂且快速变化的业务环境中?人工智能代理如何帮助实时识别和减轻风险,特别是在网络安全和金融交易等领域?人工智能代理可以通过哪些方式为我们行业的新创新产品或服务的开发做出贡献?如何利用人工智能代理来提高员工敬业度和生产力,这会对我们的组织文化产生什么影响?将人工智能代理集成到我们的业务中会产生哪些道德影响?我们如何主动解决这些问题?我们如何利用人工智能代理获得竞争优势,同时为可持续发展和可及性等社会挑战做出积极贡献?这些问题旨在激发战略思维并激发富有远见的规划,帮助领导者考虑人工智能代理对其业务运营的广泛和变革性影响。7. 人工智能重塑更直观、更集成、更强大的技术未来比尔·盖茨和萨蒂亚·纳德拉关于软件未来的想法标志着人工智能 (AI) 引领的计算领域的巨大变革。盖茨认识到,尽管取得了重大进步,传统软件仍然缺乏动态功能和直观的用户交互。他设想未来人工智能“代理”——能够理解自然语言的高级软件——将充当个人助理,跨不同应用程序处理各种任务。这种转变表明人们正在走向更加个性化、高效的计算体验。盖茨预测,这些人工智能代理不仅会彻底改变个人计算,还会对医疗保健、教育、生产力和娱乐等行业产生深远影响,使目前许多人无法获得的服务民主化。然而,这种技术飞跃带来了伦理和社会考虑,特别是在隐私、数据所有权以及对人际关系和工作性质的影响方面。Satya Nadella 补充了 Gates 的观点,强调了新的用户界面和新的推理引擎如何彻底改变计算空间。这种方法专注于创造更易于访问、用户友好和集成的技术体验,同时为人工智能系统提供先进的决策、学习和解决问题的能力。这些愿景共同描绘了一个未来,人工智能将重塑我们与技术的互动,使其更加直观、集成并能够处理复杂的任务。这标志着软件当前状态的重大飞跃,不仅有望提高个人和专业生产力,而且还将改变我们在日常生活中使用技术的方式。8. 人人可以进行智能代理开发无需写代码也能进行大语言模型应用+智能代码开发,无需下载任何软件,打开网址(https://promptappgpt.wangzhishi.net/)即刻开发!PromptAppGPT是首个基于LLM的自然语言应用开发框架:支持全自动编译、运行、界面生成,支持无代码配置实现流程调度,支持几十行低代码实现AutoGPT类智能代理。详细可以参考:真低代码!首个基于ChatGPT的自然语言开发框架PromptAppGPT:全自动编译、运行、界面生成PromptAppGPT重磅更新!AI助手0门槛开发+运行:几十行代码即可实现AutoGPTPromptAppGPT低代码大语言模型应用开发实战:聊天机器人、智能文生图、图文搜索项目网站:https://promptappgpt.wangzhishi.net/项目网站:https://promptappgpt.wangzhishi.net/英文作者:JD Meier, Microsofthttps://jdmeier.com/agents-are-the-future-of-software/中文作者:张长旺,旺知识编辑于 2023-12-03 09:54・IP 属地广东软件比尔·盖茨 (Bill Gates)Agent​赞同​​添加评论​分享​喜欢​收藏​申请转载​文章被以下专栏收录大模型(LXM)技术洞察业界大模型(LLM,LXM)最新技术进展与趋

智能代理 - 维基百科,自由的百科全书

智能代理 - 维基百科,自由的百科全书

跳转到内容

主菜单

主菜单

移至侧栏

隐藏

导航

首页分类索引特色内容新闻动态最近更改随机条目资助维基百科

帮助

帮助维基社群方针与指引互助客栈知识问答字词转换IRC即时聊天联络我们关于维基百科

语言

语言链接位于页面顶部,标题的另一侧。

搜索

搜索

创建账号

登录

个人工具

创建账号 登录

未登录编辑者的页面 了解详情

贡献讨论

目录

移至侧栏

隐藏

序言

1智慧代理的分類

2參考文獻

开关目录

智能代理

27种语言

العربيةБългарскиবাংলাCatalàΕλληνικάEnglishEspañolفارسیFrançaisGalegoעבריתHrvatskiItaliano日本語한국어LietuviųМакедонскиМонголNorsk bokmålPortuguêsРусскийසිංහලSlovenščinaShqipSvenskaУкраїнська粵語

编辑链接

条目讨论

不转换

不转换简体繁體大陆简体香港繁體澳門繁體大马简体新加坡简体臺灣正體

阅读编辑查看历史

工具

工具

移至侧栏

隐藏

操作

阅读编辑查看历史

常规

链入页面相关更改上传文件特殊页面固定链接页面信息引用本页获取短URL下载二维码维基数据项目

打印/导出

下载为PDF打印页面

在其他项目中

维基共享资源

维基百科,自由的百科全书

智能代理(英語:intelligent agent),或译为智能主体。在人工智能领域,智能代理指一个可以观察周遭环境并作出行动以达致目标的自主实体。它通常是指(但不一定是)一个软件程序。“智能代理”是目前人工智能研究的一个核心概念,统御和联系着各个子领域的研究。

智慧代理的分類[编辑]

簡單代理

基於模型的反射代理

基於目標的代理

基於效用的代理

學習型代理

參考文獻[编辑]

Stuart Russell, Peter Norvig. 人工智慧:現代方法. 由歐崇明, 時文中, 陳龍翻譯. 台北市: 全華圖書. 2011. ISBN 9789862800249. 

取自“https://zh.wikipedia.org/w/index.php?title=智能代理&oldid=64228565”

分类:​人工智能隐藏分类:​含有英語的條目

本页面最后修订于2021年2月11日 (星期四) 02:52。

本站的全部文字在知识共享 署名-相同方式共享 4.0协议之条款下提供,附加条款亦可能应用。(请参阅使用条款)

Wikipedia®和维基百科标志是维基媒体基金会的注册商标;维基™是维基媒体基金会的商标。

维基媒体基金会是按美国国內稅收法501(c)(3)登记的非营利慈善机构。

隐私政策

关于维基百科

免责声明

行为准则

开发者

统计

Cookie声明

手机版视图

开关有限宽度模式

智能代理 | 机器之心

| 机器之心

报道人工智能数字化转型汽车科技交叉前沿专栏学堂年度榜单2023年度榜单年度榜单 2023年度榜单 2022年度榜单 2021年度榜单 2020年度榜单 2019年度榜单 2018年度榜单 2017A100 系列A100 数智中国A100 Data IntelligenceA100 Original活动SOTA模型机器之心 Pro登录ENAuto Byte专注未来出行及智能汽车科技微信扫一扫获取更多资讯Science AI关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展微信扫一扫获取更多资讯智能代理智能代理,或译为智能主体。在人工智能领域,智能代理是指一个可以观察周遭环境并作出行动以达致目标的自主实体。它通常是指一个软件程序。“智能代理”是目前人工智能研究的一个核心概念,统御和联系着各个子领域的研究。来源:维基百科简介 在人工智能领域,智能代理是指一个可以观察周遭环境并作出行动以达致目标的自主实体。它通常是指(但不一定是)一个软件程序。“智能代理”是目前人工智能研究的一个核心概念,统御和联系着各个子领域的究,它们可以学习或使用知识来实现他们的目标。它们可能非常简单或非常复杂。 Siri被认为是智能代理的一个例子。智能代理一般具有四个特性:1. 自治性:代理在运行过程中对状态和动作具有控制权并且不受其他人或代理的直接干涉;2. 交互性:代理可以通过某种方式与外界其他实体进行交互;3. 反应性:代理能够根据对环境的感知做出相应的反应;4. 目标性:代理能够做出具有导向目标的行文。[描述来源:Wooldridge M, Jennings N R. Intelligent agents: Theory and practice[J]. The knowledge engineering review, 1995, 10(2): 115-152.]智能代理的示意图如下所示:人工智能中的智能代理与经济学中的代理的概念相类似,智能代理范式的研究在认知科学、伦理学、实践理性哲学以及许多跨学科的社会认知建模和计算机社会模拟中都有研究。[描述来源及图片来源:Wikipedia;URL:https://en.wikipedia.org/wiki/Intelligent_agent]智能代理的概念可以分为5类:简单反应代理(simple reflex agents)基于模型的反应代理(model-based reflex agents)基于目标的代理(goal-based agents)基于功能的代理(utility-based agents)学习性代理(learning agents)发展历史智能代理的概念早在1995年就被提出,并于1997年应用到万维网的搜索中,而20世纪以后,智能代理开始与人工智能相结合,致力于为客户提供更为个性化的服务。例如,基于移动平台的智能代理构建,通过利用用户的数据来构建一个智能代理。主要事件年份事件相关论文/Reference1995Wooldridge and Jennings 提出了智能代理的概念Wooldridge M, Jennings N R. Intelligent agents: Theory and practice[J]. The knowledge engineering review, 1995, 10(2): 115-152.1997早在1997年,智能代理就被应用到万维网中,进行文档过滤和导航Asnicar F A, Tasso C. ifWeb: a prototype of user model-based intelligent agent for document filtering and navigation in the world wide web[C]//Sixth International Conference on User Modeling. 1997: 2-5.2002提出了一个智能代理系统的框架Winikoff M, Padgham L, Harland J, et al. Declarative and procedural goals in intelligent agent systems[C]//International Conference on Principles of Knowledge Representation and Reasoning. Morgan Kaufman, 2002.2009-2012智能代理的实用化和生活化,如基于移动平台的智能代理的构建Tsui C Y, Murch R D, Cheng R S K, et al. Intelligent agent for distributed services for mobile devices: U.S. Patent 8,032,472[P]. 2011-10-4. Hyatt G, Swan W, Samuel S. Method and system for relationship management and intelligent agent: U.S. Patent Application 13/158,408[P]. 2012-6-14. Yu L, Wang S, Lai K K. An intelligent-agent-based fuzzy group decision making model for financial multicriteria decision support: The case of credit scoring[J]. European journal of operational research, 2009, 195(3): 942-959.发展分析瓶颈现阶段的智能代理应用广泛,如何能够让客户及受众群体无法区别是人还是机器是智能代理发展的难点,而这一点依托于多类技术的协调和进步。未来发展方向现阶段智能代理通常由一个对话系统、一个虚拟的客服以及一个为用户提供专门知识的专家系统组成,如何将智能代理应用到各个领域中,并为用户提供优质的服务是智能代理的未来发展方向。Contributor:Yilin Pan简介返回顶部关于我们服务条款全球人工智能信息服务友情链接:Synced Global机器之心 Medium 博客PaperWeekly动脉网艾耕科技©2024 机器之心(北京)科技有限公司     京ICP备2021005318号-1识别二维码,立即订阅智能战疫日报众智成城,共克时艰加入「智能战疫联合行动」 您/贵司在疫情中面临哪些困难与诉求您/贵司在疫情中可为其他企业提供哪类帮助您/贵司有哪些抗疫动作或故事希望与大家分享您/贵司希望如何参与抗疫行动前

智能代理:改变人机交互的方式-阿里云开发者社区

智能代理:改变人机交互的方式-阿里云开发者社区

产品解决方案文档与社区权益中心定价云市场合作伙伴支持与服务了解阿里云

售前咨询

95187-1

在线服务

售后咨询

4008013260

在线服务

其他服务

我要建议我要投诉更多联系方式备案控制台开发者社区首页MaxComputeHologresFlinkE-MapReduceDataWorksElasticsearchPAI智能搜索推荐免费试用

探索云世界

新手上云云上应用构建云上数据管理云上探索人工智能云计算弹性计算无影存储网络倚天云原生容器serverless中间件微服务可观测消息队列数据库关系型数据库NoSQL数据库数据仓库数据管理工具PolarDB开源向量数据库热门Modelscope模型即服务弹性计算云原生数据库物联网云效DevOps龙蜥操作系统平头哥钉钉开放平台大数据大数据计算实时数仓Hologres实时计算FlinkE-MapReduceDataWorksElasticsearch机器学习平台PAI智能搜索推荐人工智能机器学习平台PAI视觉智能开放平台智能语音交互自然语言处理多模态模型pythonsdk通用模型开发与运维云效DevOps钉钉宜搭支持服务镜像站码上公益

开发者社区

大数据与机器学习

文章

正文

智能代理:改变人机交互的方式

2023-08-22

154

版权

版权声明:

本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《

阿里云开发者社区用户服务协议》和

《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写

侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版,5000CU*H 3个月

推荐场景:

实时发现最热Github项目

检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月

推荐场景:

数据可视化分析航班信息

大数据开发治理平台 DataWorks,不限时长

推荐场景:

Github实时数据分析与可视化

简介:

智能代理作为一种新的人机交互方式,正在改变着人们与计算机系统之间的互动方式。从个人助手、聊天机器人到游戏智能,智能代理在多个领域展示了其强大的应用潜力。然而,智能代理也面临着语义理解、个性化定制和隐私等挑战。随着人工智能技术的不断发展,智能代理有望成为未来人机交互的重要方式之一。

人机交互一直是计算机科学和人工智能领域的研究重点之一。随着人工智能技术的不断发展,智能代理作为一种创新的交互方式,正在逐渐改变着人们与计算机系统之间的互动方式。本文将探讨智能代理的概念、应用领域,以及它如何改变人机交互的方式。

智能代理的概念

智能代理是一种能够代表用户执行任务、作出决策的程序或系统。它不仅能够理解用户的需求和意图,还可以根据环境变化做出相应的响应。智能代理可以是物理实体(如机器人)、虚拟实体(如聊天机器人)或软件程序(如智能助手)等。

在智能代理中,主要的特征包括:

自主性: 智能代理能够根据预定的目标和规则自主地进行决策和行动。

适应性: 智能代理可以根据环境的变化和用户的需求进行适应和调整。

协同性: 多个智能代理之间可以相互协作,共同完成复杂的任务。

智能代理的应用领域

智能代理在多个领域有着广泛的应用,以下是一些典型的应用领域。

个人助手

个人助手是最常见的智能代理应用之一。例如,Siri、Google Assistant和Alexa等智能助手可以根据用户的指令执行任务,如发送短信、查询天气、播放音乐等。

# 使用Python构建简单的命令行助手示例

import speech_recognition as sr

import pyttsx3

# 初始化语音识别器和语音合成器

recognizer = sr.Recognizer()

engine = pyttsx3.init()

def assist():

with sr.Microphone() as source:

print("请说话:")

audio = recognizer.listen(source)

try:

text = recognizer.recognize_google(audio, language="zh-CN")

print("你说的是:", text)

respond(text)

except sr.UnknownValueError:

print("无法识别")

except sr.RequestError as e:

print("请求错误:", e)

def respond(text):

engine.say("你说的是:" + text)

engine.runAndWait()

assist()

聊天机器人

聊天机器人利用自然语言处理和机器学习技术,能够与用户进行自然的对话。它们可以回答问题、提供建议,甚至模拟人类的情感。

# 使用Python构建简单的聊天机器人示例

import random

responses = {

"你好": ["你好!", "嗨!", "你好,有什么可以帮助你的吗?"],

"天气怎么样?": ["今天天气晴朗,温度适中。", "天气很好,适合出门。", "天气预报说今天会有雨。"],

"你叫什么名字?": ["我是聊天机器人,你可以叫我小助手。", "我叫小助手,很高兴为你服务。"]

}

def chat():

while True:

user_input = input("你:")

if user_input.lower() == "退出":

print("再见!")

break

response = responses.get(user_input, ["抱歉,我不太理解你的意思。"])

print("小助手:" + random.choice(response))

chat()

游戏智能

游戏中的智能代理能够模拟人类玩家的行为,使游戏更具挑战性和趣味性。例如,电子游戏中的虚拟角色可以根据玩家的策略来作出反应,增加游戏的可玩性。

智能代理改变人机交互的方式

智能代理的出现改变了传统的人机交互方式,赋予了计算机更强大的理解和响应能力。它们能够更自然地理解人类的语言和意图,实现更加智能化的互动。与传统的界面操作相比,智能代理能够提供更加便捷、高效和个性化的服务。

例如,语音助手可以让用户通过语音指令来控制设备和获取信息,无需键盘和鼠标的操作。聊天机器人可以模拟人类的对话,使得用户能够以自然的方式与计算机交流。游戏智能则在游戏中充当虚拟玩家,提升了游戏的挑战性和趣味性。

智能代理的挑战与展望

尽管智能代理在人机交互中有着巨大的潜力,但也面临一些挑战。

语义理解

智能代理需要准确理解用户的语言和意图。然而,人类语言具有多义性、上下文依赖等特点,使得准确的语义理解成为挑战之一。

个性化定制

不同用户的需求和偏好各异,如何为每个用户定制个性化的智能代理,是一个需要解决的问题。

伦理和隐私问题

智能代理需要处理大量的用户数据,涉及隐私和伦理问题。如何保护用户的隐私,避免滥用数据,是一个重要的考虑因素。

总结

智能代理作为一种新的人机交互方式,正在改变着人们与计算机系统之间的互动方式。从个人助手、聊天机器人到游戏智能,智能代理在多个领域展示了其强大的应用潜力。然而,智能代理也面临着语义理解、个性化定制和隐私等挑战。随着人工智能技术的不断发展,智能代理有望成为未来人机交互的重要方式之一。

IT陈寒

目录

热门文章

最新文章

为什么选择阿里云什么是云计算全球基础设施技术领先稳定可靠安全合规分析师报告产品和定价全部产品免费试用产品动态产品定价价格计算器云上成本管理解决方案技术解决方案文档与社区文档开发者社区天池大赛培训与认证权益中心免费试用高校计划企业扶持计划推荐返现计划支持与服务基础服务企业增值服务迁云服务官网公告健康看板信任中心关注阿里云关注阿里云公众号或下载阿里云APP,关注云资讯,随时随地运维管控云服务售前咨询:95187-1售后服务:400-80-13260法律声明及隐私权政策Cookies政策廉正举报安全举报联系我们加入我们阿里巴巴集团淘宝网天猫全球速卖通阿里巴巴国际交易市场1688阿里妈妈飞猪阿里云计算AliOS万网高德UC友盟优酷钉钉支付宝达摩院淘宝海外阿里云盘饿了么© 2009-2024 Aliyun.com 版权所有 增值电信业务经营许可证: 浙B2-20080101 域名注册服务机构许可: 浙D3-20210002 京D3-20220015浙公网安备 33010602009975号浙B2-20080101-4

人工智能代�有哪些��类�?|Botpress �客

·¥æ™ºèƒ½ä»£ç�†æœ‰å“ªäº›ä¸�å�Œç±»å�‹ï¼Ÿ|Botpress å�šå®¢

�社区支���周直播和��上万的机器人�建者--都在我们的 Discord 上�

产�GPT�生引�使用生�� AI 进行�建对�工作室新一代�天机器人编辑器Hub最大的集�集�资�学习文档视频教程客户故事�客建设寻找专家模�图库集�中心软件开�工具包按领域学生电信社区社区支��为�作伙伴�为会员大使计划文件价格登录注册用谷歌�户登录或注册使用谷歌�户继续为了创建你的�户,谷歌将� Botpress 共享你的姓��电�邮件地�和个人资料照片。请�阅 Botpress 的��政策和�务�款。�客行业人工智能代�有哪些��类�?对人工智能代�感到好奇?在本综�指�中了解��类�的人工智能代��其功能。Botpress 社区2023 年 11 月 25 日12 分钟阅读目录步骤 1:该步骤的标题如期出�在这里人工智能(AI)在过�几年中�得了长足�展,下一代�天机器人生�技术更是�破了智能代�的��。在本文中,我们将深入�讨人工智能代�的多样化世界,�索它们的类��功能和应用。7 �主�的软件代�1.简��射剂简��射代�是一�基本的人工智能�体,以直�的�件-行动规则为基础�行。它们�根�当�的感知�出决定,对�时的�境线索�出�应,而没有对过�事件的任何内部记忆。举例说�: 当当�温度超过�个临界值时,自动调温器就会打开空调,这是一�简�的�射代�。2.基�模�的�射代�基�模�的�射代�以�射代�的简�性为基础,维护��境的内部模�。它们利用传感器收集信�,并考虑感知的��,�而�出更��的决策。举个例�: 一个会下棋的人工智能会考虑��棋步和当�棋盘状��决定下一步棋,这就是基�模�的代�。3.学习�代�学习�代�超越了基�规则的�应。��时间的�移,它们会通过机器学习技术�适应和�高自己的性能。学习元素使它们能够��新知识,并根��验调整自己的行为。举个例�:�圾邮件过滤器就是一个学习代�,它能根�用户�馈学习识别新类�的�圾邮件。4.基�效用的代�基�效用的代�也被称为基�目标的代�,它们通过使用效用函数评估潜在结�的��性��出决策。这些代�旨在通过选择能带�最有利结�的行动,最大�度地�高其整体绩效。举个例�: 根�潜在收益和�险评估��投资方案的人工智能投资顾问就是一个基�目标的代�。5.分层代�分层代�将决策组织�一个有高层和�层代�的结�层次。这�组织结�通过在��层级之间划分责任�有效处���的任务。举例说�: 在生产过程中,一个分级代�系统�能有一个管�总体生产目标的高级代�,以��制�个机器的�级代�。6.虚拟助�谷歌助手等虚拟助手在日常生活中�挥�至关��的作用。它们利用自然语言处�和机器学习��解和�应人类语言,�而��无��智能的互动。举个例�: 谷歌助手(Google Assistant)是一款虚拟助手,它能�懂用户的�语命令,�供信�,并根�用户的喜好进行学习。7.机器人代�自动驾驶汽车和�尘器等机器人代��自主导航并��境互动。它们��传感器�决策算法和内部模�的组�,在��的�境中执行任务。举例说�: 使用传感器�测障�物并�循交通规则导航的自动驾驶汽车就是一个机器人代�。什么是人工智能代�?�索人工智能的未��Chatbots 最先进的类�有哪些?��先进的�天机器人技术层出�穷,��技术都有��的功能。一个顶级�天机器人�以包�多�组件,将其能力��到创新的最�沿。以下chatbots �以将绩效标准��到新的高度:人工智能驱动Chatbots这些chatbots 使用先进的人工智能(AI)和机器学习算法��解和�应用户的查询。它们�以�互动中学习,��时间的�移�断改进自己的�应。应用: 虚拟助��客户支�和个性化用户体验。NLP 驱动Chatbots自然语言处� (NLP)chatbots 具有先进的语言�解能力。它们�以�解用户的输入,了解上下文,并生�类似人类的�应。应用: 对�界��声�系统和��的用户交互。情境感知Chatbots这些chatbots �以在整个对�过程中��上下文,记�过�的互动和用户�好。这样就能�出更加�贯和个性化的�应。应用:客户支��个性化��和动�对��多�语言Chatbots这些chatbots 能够�解和�应多�语言。它们利用语言模�和翻译功能,为全�用户�供无�体验。应用: 国际客户支�生�Chatbots生��chatbots 使用先进的自然语言生�技术�动�生�答案。它们�以生��上下文相关的多样化答案。应用:内容创建�动�故事讲述和互动对�Chatbots 使用机器学习模�这些chatbots 整�了针对特定任务的机器学习模�,使其能够执行情感分��图�识别或��系统等功能。应用:客户�馈中的情感分��个性化��。人工智能虚拟助�虚拟助��仅具有基本的�天功能。它们�以执行任务�安�约会,并���应用程�集�,�供全�的用户体验。应用: 个人生产力�任务自动化和智能家居�制。如何利用多语言�天机器人扩大�业的全�影�力��Botpress: 下一代�天机器人生�器�Botpress是一款�命性的�天机器人生�器,能让智能系统的制作出奇地快速高效。无论您是�验丰富的开�人员还是刚刚起步,这款创新的软件程�都能让您为��场景创建动���应��的 chatbots 。利用 AI Brilliance 创造智能对�:利用尖端的人工智能技术,为您的chatbots 注入�出�智决策和动�适应�境的能力。��的代�程��确�自主性,无需�续的人工干预,�而�供无�的用户体验。通过自主代��高客户满�度:让自己沉浸在自主代�的世界中,在这里,客户满�度�简化的�务相得益彰。让您的chatbots 处���任务,优化资�,为用户�供无�伦比的支�。�费使用,轻�入�:体验轻��建�天机器人的�趣。�费注册,立�开始。无需信用�,纯粹的创新触手��。利用�定制模��索无��能:�� 100 多�为��行业�身定制的完全�定制模�。�销售Chatbots 到�康助�,找到最适�您项目的模�,轻���您的愿景。全�规模的对�:一次�建,跨任何渠�扩展,用任何语言交�。语言障�已�为过�,因为我们的引�会自动翻译� 100 多�语言。�续改进,��最佳绩效:�分��情感分�和误解互动中收集�解。利用这些信��断完善和�高�天机器人的性能,确�其�用户需求�步�展。加入充满活力的 开�社区:�为我们蓬勃�展的开�社区的一员,10,000 多��天机器人�建者在这里交��分享想法并了解最新进展。体验�天机器人技术的未�。�在就开始使用Botpress- �费��费了解Botpress - 第一个 GPT �生平�常�问题什么是智能代�,它们如何在数字�境中�行?智能代�是设计用�在��数字�境中行动的�体。它们�周围�境中收集知识,评估当�形势,并执行行动以��预定目标。它们的性能�其在�观察�境中所采�的外部行动的影�。人工智能如何在代�功能中�挥作用?人工智能赋予智能代�学习���和适应的能力。代�利用人工智能��强自己的知识库,�而在���境中�出更��的决策。什么是智能代�的知识库?智能代�的知识包括�境信��预定义规则和对当�情况的基本了解。这些知识��了它们决策过程的基础。什么是智能代�的性能�素?智能代�的性能�素是指它们在特定�境中��目标和�出优化行动决策的能力。它是决定代�效�和效力的关键�素。代�人能�在等级结�中�作?是的,分层代�是一�按结�层次�行的智能代�。高级代�负责总体决策,而�级代�则在更广泛的框�内处�具体任务。这�分层结��以在��的�境中高效�行。智能代�是�以有�的智能�行?是的,许多智能代�都是在有�智能的情况下�行的,这�味�它们有�确的知识和能力范围。这��制有助�它们专注�特定的任务和�境,因为在这些任务和�境中,它们的专业知识最为相关。分享到�费打造自己的个性化人工智能�天机器人使用我们直观的拖放界�,开始�建个性化的 GPT 机器人。开始使用 - �费�🤖无需信用�担�了解人工智能的最新动�chatbots

相关文章特色行业最大�度地�挥虚拟助�的优势:利用人工智能�展业务的 7 项战略利用新一代人工智能释放您的业务潜力。利用人工智能生�的内容�自动例行程�和对客户行为的深入�察,在�争中��领先�Botpress 社区2024 年 2 月 16 日9 分钟阅读立�阅读特色行业如何�高�天机器人客户�务满�度和转化�选择一款具有关键功能的�天机器人软件,�高客户�务满�度和转化�。Botpress 社区2024 年 2 月 13 日9 分钟阅读立�阅读特色行业�天机器人能�高网站的��度�?想知�在网站上添加�天机器人能��高��度?在这篇信�丰富的文章中,您�以找到答案并了解�天机器人的更多益处�Botpress 社区2024 年 2 月 12 日10 分钟阅读立�阅读未找到项目。使用 Botpress �建更好的产��费开放�立�开始�建�或者使用谷歌�户继续无需信用�担�

产�定价引�工作室语言Hub渠�集�模�资��销售人员交�文档查找专家视频客户故事应用程����考�客状�v12 资�社区社区支��为�作伙伴�为会员大使计划公�关�我们�业生涯新闻法律声�符� GDPR©Botpress 2024

智能代理让机器“闻弦歌知雅意” - 华为出版物

智能代理让机器“闻弦歌知雅意” - 华为出版物

本站点使用cookies,继续浏览表示您同意我们使用cookies。Cookies和隐私政策

集团网站

选择区域/语言

登录

My Huawei

注销

返回主菜单

华为门户网站群

集团网站

公司介绍、新闻动态、展会活动等信息

消费者业务网站

手机,PC和平板等智慧生活产品

企业业务网站

企业商用产品、解决方案和服务

运营商业务网站

运营商网络解决方案、产品及服务

华为云网站

华为云服务及解决方案

选择区域/语言

Australia -

English

Belarus -

Pусский

Brazil -

Portuguese

Canada -

English

China -

简体中文

France -

Français

Germany -

Deutsch

Ireland -

English

Italy -

Italiano

Japan -

日本語

Kazakstan -

Қазақ тілі

Kazakstan -

Pусский

Kenya -

English

Korea -

한국어

Malaysia -

English

Mexico -

Español

Mongolia -

Mонгол

New Zealand -

English

Netherlands -

Nederlands

Poland -

Polski

Romania -

Română

Russia -

Pусский

Singapore -

English

South Africa -

English

Spain -

Español

Switzerland -

English

Thailand -

ภาษาไทย

Turkiye -

Türkçe

Ukraine -

Українська

United Kingdom -

English

Uzbekistan -

Pусский

Uzbekistan -

O’zbek

Vietnam -

Tiếng Việt

Global -

English

Toggle Navigation

个人及家庭产品

返回主菜单

个人及家庭产品

手机

电脑

平板

智慧屏

穿戴

耳机音箱

全屋智能

路由器

HarmonyOS

全部产品

消费者业务网站

华为商城

华为商城

商用产品及方案

返回主菜单

商用产品及方案

产品

联接

运营商网络

企业网络

企业光网络

企业无线

计算

鲲鹏计算

昇腾AI计算

数据存储

华为云

服务

运营商服务

政企服务

上云服务

行业解决方案

电信

金融

电力

油气

制造

教育

更多行业方案

热点话题

数字城市

加速行业智能化

企业业务网站

运营商业务网站

华为云网站

数字能源网站

服务支持

返回主菜单

服务支持

个人及家庭产品支持

维修申请

上门安装

华为服务日

服务店查询

备件价格查询

在线客服

查看更多

华为云服务支持

智能客服

新手入门

支持计划

自助服务

云社区

云资源管理App

查看更多

企业业务支持

智能客服

产品支持

软件下载

互动社区

工具

查看更多

运营商网络支持

产品支持

Group Space

公告

华为资料直通车

查看更多

合作伙伴与开发者

返回主菜单

合作伙伴与开发者

合作伙伴

成为合作伙伴

查找合作伙伴

云商店

查看更多

培训与认证

学习

华为认证

企业客户培训

华为ICT学院

华为云开发者学堂

查看更多

开发者

终端开发者

华为云开发者

鲲鹏开发者

昇腾开发者

查看更多

关于华为

返回主菜单

关于华为

关于华为

公司简介

公司年报

公司治理

管理层信息

联系我们

可持续发展

信任中心

华为开源

创新与知识产权

合规与诚信

华为招聘

债券投资者

供应商

公共政策

新闻与活动

新闻

展会活动

多媒体

发现华为

华为技术专栏

跃升数字生产力

智能世界2030报告

迈向智能世界白皮书

出版物

在线购买

返回主菜单

在线购买

华为商城

华为商城

华为云

快速链接:

手机产品

消费者产品保修查询

HiSuite华为手机助手

华为应用市场

华为电脑管家

HarmonyOS 4

EulerOS

盘古大模型

华为认证

华为招聘

华为商城

华为商城

华为云

历史搜索

快速链接:

手机产品

消费者产品保修查询

HiSuite华为手机助手

华为应用市场

华为电脑管家

HarmonyOS 4

EulerOS

盘古大模型

华为认证

华为招聘

华为技术专栏

智能代理让机器“闻弦歌知雅意”

文/Bo Begole

2015年04月

×

微信扫一扫: 分享

微信里点“发现”,扫一下

二维码便可将本文分享至朋友圈。

网页链接已复制

快去微信分享给好友吧!

我知道了

目前,数字助手所具备的基于脚本的伪智能已经远远满足不了市场需求。能够适应并理解语境的数字助手,即智能代理将应运而生,这对深度智能提出了更高要求。

 目前,数字助手所具备的基于脚本的伪智能已经远远满足不了市场需求。能够适应并理解语境的数字助手,即智能代理将应运而生。

语音识别飞速发展

 过去,计算机语音识别效果很差,有效果时反而会令我们诧异;如今,语音识别效果非常好,一旦出错,我们就难以接受。在过去五年间,语音识别功能以年均15%-20%的速度发展,目前已经达到很高的精确程度。通过语音识别技术与智能手机交流,让数字助手帮忙指引路径、推荐好看的电视剧、给朋友发送信息,已经成为很多人日常生活的一部分。

 这主要得益于以下三大因素:

 首先,教计算机理解语言时,需要使用大量的样本数据。随着搜索引擎数据的井喷,样本数据的数量已经增长了100倍。

 其次,研究人员已经开发出了一种名为“深度神经网络”的新算法,专门用来模拟人脑识别各种模式。

 最后,语音识别技术已经从终端转移到云上,云端可以维护大量数据集,计算能力和内存也是近乎无限的。随着移动网络时延的缩短,通过网络传输语言将逐渐达到实时的效果。

 不过,要想让人机交流变得更加自然,机器必须要理解人类的语言。目前的数字助手看似非常智能,但实际上,它们使用了一种非常浅显的语言理解形式,即识别用户希望完成的任务和这项任务的属性。

 一般情况下,语音识别系统能够识别明确任务领域的短语(通常是个动词),例如呼叫、警告、找到等。如果无法从用户的陈述中找到必要信息,就会以脚本对话的形式要求获得更多信息。

 虽然目前的数字助手也可以执行用户的命令,但是与人类私人管家相比还天差地别。私人管家可以本能地理解人类的意图,甚至还能提供额外的建议。如今的数字助手一旦脱离预设的任务范围就不知所措,无法预测问题并给出解决方案,也不能发挥主观能动性。用户必须给出所有信息,即便如此,有时也得不到想要的答案。很快,人类将对数字助手的伪智能感到沮丧,进而要求它们具备真正的智能。

机器如何像人一样对话?

 在可穿戴设备、自动驾驶汽车、机器人和嵌入式智慧家庭应用进入寻常百姓家的极致创新时代,能够像人一样对话并执行任务的智能代理将是什么样的呢?

 在AI研究人员眼中,智能代理需要根据过去的经验作出决策。但是消费者则期望智能代理具备更多功能。

 对话:智能代理的语言理解能力不再停留在浅显的表面。计算机常常无法理解用户的意图,或对用户的指示感到困惑,不得不借助网络搜索。出现这种情况,是因为电脑没有真正理解用户的话,无法识别任务的类型,无法依靠事先确定好的脚本来询问更多细节。相比之下,一旦遇到不清楚的地方,人类就会进一步询问。例如,他们会说:“对不起,您要找哪种餐厅?”

 解释:对话系统可以依靠更深入的语言模型解释为什么会提出某个建议。例如,如果我问家里的智能电视有什么法律题材的电视剧可以推荐,电视可能会建议我看《超胆侠》。可是一开始我并不知道,这个电视的男主角白天是律师,晚上就化身超胆侠,将逍遥法外的恶徒就地正法。此时,电视就需要向我解释一下,为什么要推荐这部从名称上听起来跟法律无关的电视剧了。

 机智:智能代理要像人类一样足智多谋,具有主观洞察力,遇到问题时,要想方设法寻找解决方案。例如,智能代理需要提醒我,我和同事预约共进午餐的那个餐厅当天不营业,因为那天是宗教节日。

 专注:智能代理必须时刻保持专注。如果我的孩子说牛奶喝完了,智能代理需要立刻做出反应,将牛奶加入在线购物车里,而不需要我给它指示。

 对社交环境有敏锐洞察:当我在和他人交流时,智能代理必须搞清楚什么情况下能打断我们,什么时候不能。

 了解语境:实际上,社交智能是更广泛的语境智能的一小部分,但却非常重要。智能代理必须明确了解用户所处的环境,并主动选择用户在类似环境中曾经使用过的服务。例如,晚餐快结束的时候,智能代理要能主动帮用户叫出租车。

 与人互动:或许最重要的一点是,智能代理能够与人交流互动。在人与人的对话中,若一方提出紧急需求,另一方就会给予响应;一方讲了一个笑话,另一方就会被逗乐;一方提出忧心的事,另一方就会给出建议。智能代理并非为了替代人类伴侣,但还是要达到真实的对话效果,该笑的时候笑,该表示关切的时候表示关切,该提供解决方案的时候能提供解决方案。

 未来,机器人、自动驾驶汽车、智慧家庭应用需要通过适当的方式实现对话、解释、规划、互动功能,这些都对深度智能提出了更高要求。要想达到这一高度,自然语言处理技术的发展至关重要。

点击排行

01

打造中国坚实的算力底座,为世界构建第二标准

文/华为副董事长、轮值董事长、CFO 孟晚舟

02

智能制造背后的黑科技:华为打造新一代开放架构的先进工业网络

文/华为数据通信产品线总裁 王雷

03

“四条路径”打造人才生态“三棵树”,共迎智能时代

文/华为ICT人才伙伴发展部部长 孙刚

04

当AI遇上油气,看传统行业如何智能化

05

全球HCIE-Datacom第一人 是这样炼成的

文/YESLAB培训中心实验室金牌讲师 韩士良

06

赋能科技女性发展,绽放“她”力量

文/华为企业沟通部副总裁 张园

在线客服

个人及家庭产品

热线:950800(7*24小时)

查找零售店

咨询客服

华为云服务

热线:4000-955-988|950808

预约售前专属顾问

智能客服

企业服务

热线:400-822-9999

查找经销商

咨询客服

运营商网络服务

热线:4008302118

技术支持中心

查看全部联系方式

首页

/华为技术专栏

/营赢•别册4(人工智能)

关于华为

公司简介

可持续发展

信任中心

管理层信息

招贤纳士

供应商

查看更多

新闻与活动

新闻

展会活动

多媒体

发现华为

华为技术专栏

跃升数字生产力

智能世界2030报告

迈向智能世界白皮书

出版物

我们的产品

个人及家庭产品

企业业务产品

运营商网络产品

华为云服务

技术支持

消费者技术支持

华为云技术支持

企业技术支持

运营商技术支持

安全应急响应

华为商城

华为云

华为智能光伏

产品定义社区

华为心声社区

×

官方微信

微信中长按识别二维码或搜索“华为”公众号

©2024 华为技术有限公司 粤A2-20044005号  粤公网安备44030702002388号

联系我们

法律声明

隐私政策

除名查询

一文读懂 AI Agents 技术-腾讯云开发者社区-腾讯云

AI Agents 技术-腾讯云开发者社区-腾讯云Luga Lee一文读懂 AI Agents 技术关注作者腾讯云开发者社区文档建议反馈控制台首页学习活动专区工具TVP最新优惠活动文章/答案/技术大牛搜索搜索关闭发布登录/注册首页学习活动专区工具TVP最新优惠活动返回腾讯云官网Luga Lee首页学习活动专区工具TVP最新优惠活动返回腾讯云官网社区首页 >专栏 >一文读懂 AI Agents 技术一文读懂 AI Agents 技术Luga Lee关注发布于 2023-11-22 15:31:172.1K0发布于 2023-11-22 15:31:17举报文章被收录于专栏:架构驿站架构驿站 Hello folks,我是 Luga,今天我们来聊一下人工智能(AI)生态领域相关的技术 - AI Agents(AI 代理) 。 想象一下:软件实体能够自主地与环境交互,根据收集的数据做出决策,并以最少的人为干预执行基于特定场景。幸好,借助 AI Agents 技术,这个现实比你想象的更接近了。这些智能代理正在彻底改变行业,并改变我们的生活方式。但是,大家可能会好奇:AI Agents 到底是什么?它们是如何工作的?在本篇博文中,我们将深入探索 AI Agents 的世界! 人工智能(AI)赋予机器具备判断和执行任务的能力,以协助人类在某些特定的业务场景中实现某项目标,从而显著改变了人机交互方式。在人工智能的核心体系中,我们可以关注到这些智能实体被称为智能代理(IA)的 AI Agents,能够感知环境变化并对其进行分析,以采取合理的行动来实现既定目标。 通常来说,不同类型的 AI Agents 旨在解决特定的挑战并完成特定的任务。对于构建有效且高效的人工智能系统来说,更深入地了解 AI Agents 的不同类型便显得至关重要。通过了解各种 AI Agents 类型,我们可以更好地理解它们的功能和应用领域,并根据具体需求选择最合适的 AI Agents。 AI Agents 可以是专门针对某个任务设计的,例如图像识别、语音识别或自然语言处理。这些 Agents 利用先进的算法和模型来解析输入数据并生成准确的输出。 另一类 AI Agents 便是通用型代理,它们具备更广泛的智能和适应能力。这些代理能够处理多种任务和领域,并具备学习和适应的能力。通用型代理通常基于机器学习和深度学习技术,通过从大量数据中学习和推断来改进其性能和表现。 除此之外,AI Agents 还可以根据其交互方式进行分类。有些代理是自主的,它们能够独立地感知环境、做出决策并执行任务。另一些代理则是协同的,它们与人类用户进行交互,通过理解用户的意图和目标来提供帮助和建议。— 01 —什么是 AI Agents & Autonomous AI Agents ? 其实,自 20 世纪 80 年代计算机科学家开始探索如何开发可以像人类一样交互的智能软件以来,AI Agents 已经出现。从那时起,这个概念已经发展到包括可以独立做出决策和完成特定场景任务的智能代理。 AI Agents 是一种软件程序,旨在与其环境交互,感知接收到的数据,并根据该数据采取行动以实现特定目标。AI Agents 能够模拟智能行为,可以像基于规则的系统一样简单,也可以像高级机器学习模型一样复杂。AI Agents 使用预先确定的规则或经过训练的模型来做出决策,并且可能需要外部控制或监督。 相对于传统的 AI Agents,自主 AI Agents 是一种先进的软件程序,可以在没有人类控制的情况下独立运行。它们可以自主思考、行动和学习,无需人类不断输入。这些代理广泛应用于医疗保健、金融和银行等不同行业,使事情运行得更顺畅、更高效。它们可以适应新情况,从经验中学习,并利用自己的内部系统做出决策。 随着人工智能技术的不断发展,AI Agents 的能力和应用领域也在不断扩展。在某种程度上,AI Agents 已经成为许多领域中的关键工具,帮助人们解决复杂的问题和提高工作效率。通过不断改进和优化人工智能代理的设计和算法,我们可以期待更多智能、自主的代理出现,为各行各业带来更大的帮助和创新。 在过去的几个月里,AI Agents 引起了巨大的关注和人气。一个令人印象深刻的例子便是 AutoGPT,在 GitHub 上的星星数已经达到了惊人的 140,000 颗。这反映了大家对开源 AI Agents 项目的广泛兴趣和支持。 不仅如此,我们几乎每周都能看到新的公司成立,专注于 AI Agents 的开发和应用。这表明 AI Agents 领域正在迅速发展,吸引了越来越多的创业者和投资者的关注。 这个生态系统中的 AI Agents 种类繁多,从审查代码的代理(例如 Sweep AI)到像 Lindy 这样的虚拟个人助理,涵盖了各种不同的功能和应用领域。这些代理的出现为我们提供了更多的选择和可能性,能够满足不同用户和业务的需求。 为了更好地了解这个生态系统的现状,我们对 50 多个 AI Agents 进行了概览,并将它们汇总到一个列表中。这个列表包括了各种类型的代理,涉及的领域包括自然语言处理、图像识别、语音识别、智能助理等。我们对这些代理的功能、性能和用户反馈进行了评估和总结,以便为用户提供参考和决策支持。— 02 — AI Agents 通常都具有哪些特征因素 ? 通常而言,AI Agents 具有以下几个特征因素,具体表现为如下: 1、感知和理解能力 AI Agents 能够感知环境中的信息,例如图像、声音、文本等,并理解这些信息的含义和上下文。这涉及到使用传感器、计算机视觉、语音识别、自然语言处理等技术来实现对输入数据的解析和理解。 2、决策和规划能力 AI Agents 能够基于感知到的信息和存储的知识做出决策并制定行动计划,可以使用逻辑推理、统计分析、规划算法或机器学习技术来评估不同行动的可能结果和潜在风险,并选择最佳的行动策略。 3、自主学习和适应能力 AI Agents 具有学习和改进自身的能力,可以从经验中学习,并根据反馈信息不断改进自己的性能和表现。代理可以使用监督学习、增强学习、迁移学习等技术来获取新知识、调整决策制定和行动执行过程,以提高自身的智能水平和适应能力。 4、交互和沟通能力 AI Agents 能够与人类或其他代理进行交互和沟通,可以理解自然语言指令、生成自然语言回应,并使用语音、文字或其他形式与用户进行有效的交流。这涉及到自然语言处理、对话系统、语音合成等技术的应用。 5、知识表示和存储能力 AI Agents 能够组织和存储知识,并有效地检索和利用这些知识来支持决策和行动,可以使用符号逻辑、图形模型、向量表示等方式来表示和存储知识,并使用数据库或其他数据结构来实现高效的知识管理。 6、情境感知和灵活性 AI Agents 具有对不同情境的感知能力,并可以根据情境的变化做出相应调整,可以识别环境中的变化、适应新的任务要求,并灵活地调整决策和行动策略,以适应不同的场景和需求。 这些特征因素共同构成了 AI Agents 的核心能力,使其能够在各种任务和领域中展现出智能和适应性。然而,具体的 AI Agents 的特征因素可能会因应用领域、任务要求和设计选择而有所差异。— 03 — AI Agents 的内部结构是怎样设计的 ? AI Agents 的内部结构可以根据具体的应用和任务而有所不同,但通常包括以下几个核心组件。关于 AI Agents 的通用型内部结构参考示意图,我们可参考如下所示:

基于上述内部结构示意图,我们可以看出:AI Agents 的内部结构由四个关键部分组成,分别是 Environment(环境)、Sensors(传感器)、Actuators(执行器)以及 Decision-making mechanism(决策机制)。 接下来,我们对每个部分进行简要的解析,以更好地理解上述组件在 AI Agents 中的作用。 1、Environment 环境是 AI Agents 所处的外部世界,通常而言,可以为真实的物理环境,也可以是虚拟的模拟环境。环境提供了 AI Agents 感知和交互的场所,可能包含各种元素,如物体、其他代理、任务目标等。环境的特性和复杂性直接影响到 AI Agents 的运行和决策过程。 2、Sensors 传感器是 AI Agents 用于感知环境的组件。作为一种支撑各种类型的设备或技术,如摄像头、麦克风、传感器阵列等。传感器可以帮助 AI Agents 获取环境中的各种信息,如图像、声音、位置等。通过传感器,AI Agents 能够将环境中的数据转化为可处理的形式,为后续的决策和行动提供输入。 3、Actuators 执行器是 AI Agents 用于执行行动或影响环境的组件。执行器可以是机械装置、运动控制系统、语音合成器等。它们根据 AI Agents 的决策结果将行动转化为实际的物理或虚拟操作,从而影响环境或与环境进行交互。执行器的种类和属性取决于具体的应用领域和任务要求。 4、Decision-making mechanism 决策机制是 AI Agents 用于做出决策的核心组件。通常可以是基于规则的系统、机器学习模型、强化学习算法等。决策机制接收来自传感器的数据,并根据预定义的规则或通过学习和推理来分析这些数据,最终生成适当的决策。这些决策可能涉及选择特定的行动、规划未来的策略或调整代理的内部状态。 通过环境、传感器、执行器和决策机制的相互作用,AI Agents 能够感知环境、分析信息、做出决策并执行行动,以实现特定的目标。这种内部结构的设计和优化对于实现智能、自主的 AI Agents 至关重要,并且在各种应用领域中发挥着重要作用,如自动驾驶汽车、智能机器人、语音助手等。— 04 — AI Agents 到底是如何工作的 ? 当 AI Agents 开始执行某项特定的任务时,通常需要按照一系列步骤进行,往往涉及感知环境、处理输入数据、做出决策、计划和执行行动,以及学习和改进等。具体的工作原理可参考如下架构图所示: 针对 AI Agents 具体实现过程,主要涉及以下活动,具体: 1、 环境感知 首先,AI Agents 会通过传感器或其他数据源感知环境。传感器可以包括视觉传感器(如相机)、听觉传感器(如麦克风)、物理传感器(如触摸传感器)等。这些传感器帮助代理获取环境中的信息,例如图像、声音、位置等。 2、知识表示

在此阶段,AI Agents 使用适当的知识表示方法来组织和存储从环境中获取的信息。这些信息可能包括先验知识、学习到的模式或规则。常见的知识表示方法包括符号逻辑、图形模型、向量表示(如词嵌入)等。通过有效的知识表示,AI Agents 能够更好地理解和利用环境中的信息。 3、决策制定 基于感知到的环境信息和存储的知识,AI Agents 使用决策制定机制来生成适当的行动。这可能涉及使用逻辑推理、统计分析、规划算法或机器学习技术来评估不同行动的可能结果和潜在风险。决策制定过程旨在使代理能够选择最佳行动以实现其目标。 4、计划和执行行动 在这一步中,Agents 制定计划或一系列步骤来实现其目标。一旦决策制定完成,AI Agents 将执行行动并与环境进行交互。这可能涉及控制执行器(如机器人的电机)、发送指令(如语音助手的语音合成)或与其他代理进行通信。执行行动后,Agents 会观察执行结果,并将其用作反馈以调整下一步的决策。 5、反馈与改进

在完成上述的执行行动后,AI Agents 通过与环境的交互获得反馈。这些反馈可以来自环境中的直接观测结果,也可以来自人类用户或其他代理的指令和评估。Agents 使用这些反馈来学习和改进自己的行为。这可能包括使用监督学习、强化学习或迁移学习等技术来调整决策制定和行动执行过程,以提高代理的性能和适应能力。

— 05 — AI Agents 应用于哪些现实场景下 ?

在现实的业务场景中,AI Agents 在各个领域都展示出了广泛的应用,对日常生活产生了重大影响。 目前来看,主要体现在如下几个方面,具体: 1、自然语言处理 AI Agents 在自然语言处理领域的应用广泛而深远。例如,智能语音助手(如 Siri、Alexa 和 Google 助手等)利用语音识别和自然语言理解技术,使用户能够通过语音与设备进行交互、获取信息和执行任务。这使得人们可以轻松地控制智能家居设备、查询天气、发送消息等,极大地提高了日常生活的便利性。 2、机器人技术 AI Agents 在机器人领域的应用也十分显著。智能机器人能够感知环境、理解语音指令、执行任务,并与人类进行交互。这种技术的应用范围非常广泛,包括工业自动化、医疗辅助、家庭服务等。例如,智能无人驾驶汽车正在逐渐成为现实,它们利用感知技术和决策制定能力来实现自主导航和安全驾驶。 3、个性化推荐 在电子商务和娱乐领域,AI Agents 通过个性化推荐系统为用户提供定制化的体验。这些系统利用机器学习和数据挖掘技术,分析用户的历史行为和偏好,并提供个性化的产品推荐、音乐推荐、电影推荐等。这不仅提高了用户的满意度,还促进了销售和用户参与度的增长。 除了上述领域,AI Agents 还在医疗诊断、金融风险管理、智能城市管理等方面发挥着重要作用。医疗领域的 AI Agents 可以帮助医生进行疾病诊断和预测,提高治疗效果和患者生存率。在金融领域,AI Agents 可以通过分析大量数据和模式识别,帮助金融机构更好地管理风险和进行投资决策。智能城市管理中,AI Agents 可以监测交通流量、优化能源利用、改善城市规划等,提高城市的可持续性和居民的生活质量。 上述场景示例表明,AI Agents 在不同领域的广泛应用已经在改变我们的日常生活。随着技术的不断进步和创新,我们可以期待更多领域的 AI Agents 将为我们带来更多的便利、效率和智能化体验。Reference :[1] https://www.simform.com/blog/ai-agent/[2] https://e2b.dev/blog/ai-agents-in-the-wild Adiós !··································本文参与 腾讯云自媒体分享计划,分享自微信公众号。原始发表:2023-11-17,如有侵权请联系 cloudcommunity@tencent.com 删除机器学习人工智能存储代理数据本文分享自 架构驿站 微信公众号,前往查看如有侵权,请联系 cloudcommunity@tencent.com 删除。本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!机器学习人工智能存储代理数据评论登录后参与评论0 条评论热度最新登录 后参与评论推荐阅读LV.关注文章0获赞0目录什么是 AI Agents & Autonomous AI Agents ? AI Agents 通常都具有哪些特征因素 ? AI Agents 的内部结构是怎样设计的 ? AI Agents 到底是如何工作的 ? AI Agents 应用于哪些现实场景下 ?相关产品与服务对象存储对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。免费体验产品介绍产品文档COS新用户专享存储包低至1元,新老同享存储容量低至0.02元/GB/月,立即选购!

领券社区专栏文章阅读清单互动问答技术沙龙技术视频团队主页腾讯云TI平台活动自媒体分享计划邀请作者入驻自荐上首页技术竞赛资源技术周刊社区标签开发者手册开发者实验室关于社区规范免责声明联系我们友情链接腾讯云开发者扫码关注腾讯云开发者领取腾讯云代金券热门产品域名注册云服务器区块链服务消息队列网络加速云数据库域名解析云存储视频直播热门推荐人脸识别腾讯会议企业云CDN加速视频通话图像分析MySQL 数据库SSL 证书语音识别更多推荐数据安全负载均衡短信文字识别云点播商标注册小程序开发网站监控数据迁移Copyright © 2013 - 2024 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有 深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569腾讯云计算(北京)有限责任公司 京ICP证150476号 |  京ICP备11018762号 | 京公网安备号11010802020287问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档Copyright © 2013 - 2024 Tencent Cloud.All Rights Reserved. 腾讯云 版权所有登录 后参与评论00