近期爆火的 AI Agent，运行原理全解析-低调大师

近期爆火的 AI Agent，运行原理全解析

2025-01-22 355

“Android、iOS 和 Windows 都是平台，AI Agent 将成为下一个平台”，比尔·盖茨在他的博客文章中这样说到。

那让比尔·盖茨都为之倾倒的 AI Agent，究竟是什么呢？

随着 AI 技术的日益普及，未来五年内我们将不再使用不同的应用程序来完成不同的任务，相反只需用日常用语告诉你的手机或电脑想要做什么，它们就能够处理你的请求。在不远的将来，任何上网的人都将能够拥有一个由人工智能驱动的个人助理，也就是所谓的“AI Agent”。

1、AI Agent 的概念

AI Agent 是一种应用了大模型（LLM）能力的 Agent，也被称为智能体。它由 LLM、 Planning（规划）、 Memory（记忆）和 Tools（工具）等几部分组成。其中，LLM 是核心大脑，Memory、Planning Skills 以及 Tool Use 等则是 Agents 系统实现的三个关键组件。

与大型语言模型（LLM）在像 ChatGPT 这样的工具中“通常”的使用方式不同，Agent 拥有复杂的工作流程，模型本质上可以自我对话，而无需人类驱动每一部分的交互。

AI Agent 具有自主决策和行动能力，可以理解并适应复杂环境，根据目标，自主思考、制定计划并执行相应任务。相较于 Copilot 的工具型辅助能力，Agent 更注重对环境的实时感知和判断，更像人类一样形成独立的决策和行动方案。

IDC 调研显示，Agent 被普遍认为是 AI 应用发展的趋势性方向，50%的企业已经在某项工作中进行了 AI Agent 的试点，另有 34%的企业正在制定 AI Agent 的应用计划，主要应用于智能终端、智能座舱、汽车自动驾驶、工业机器人和人形机器人等领域。

2、AI Agent 的潜力与优势

比尔·盖茨认为 AI Agent 将成为下一个平台，未来五年内人们将通过日常用语与 AI Agent 交流，完成各种任务。Meta 创始人扎克伯格也曾表示，看到了“以有用、且有意义的方式，向数十亿人介绍 AI Agents 的机会”。

AI Agent 是一种人工智能技术，它具有巨大的潜力和优势，可以帮助人们解决各种问题和任务。以下是 AI Agent 的一些主要优势和潜在应用：

自动化

AI Agent 可以自动执行各种任务，从而节省时间和提高效率。它可以处理重复性的任务，如数据输入、客户服务和订单处理等，从而释放人力资源，使人们能够专注于更有价值的工作。

智能决策

AI Agent 可以使用数据和算法来做出更明智的决策。它可以分析市场趋势、客户行为和竞争对手，从而帮助企业制定更有效的战略和决策。

个性化服务

AI Agent 可以根据客户的偏好和行为来提供个性化的服务。它可以通过分析客户数据来了解客户的需求和喜好，从而提供更符合客户需求的产品和服务。

高用户满意度

AI Agent 可以提供 24/7 的客户服务，从而提高客户满意度。它可以快速响应客户的问题和请求，并提供准确的信息和解决方案。

创新

AI Agent 可以帮助企业探索新的业务模式和创新解决方案。它可以分析市场趋势和技术发展，从而帮助企业发现新的机会和创新点。

3、AI Agent 的基本框架

OpenAI 将 AI Agent 定义为：以大语言模型为大脑驱动，具有自主理解感知、规划、记忆和使用工具的能力，能自动化执行完成复杂任务的系统。

AI Agent 基本框架如下图：

它包括以下几个核心模块：

记忆（Memory）

记忆模块负责存储信息，包括过去的交互、学习到的知识，甚至是临时的任务信息。对于一个智能体来说，有效的记忆机制能够保障它在面对新的或复杂的情况时，调用以往的经验和知识。

例如，一个具备记忆功能的聊天机器人可以记住用户的偏好或先前的对话内容，从而提供更个性化和连贯的交流体验。

它分为短期记忆和长期记忆：

a. 短期记忆，所有的上下文学习都是利用短期记忆来学习；

b. 长期记忆，这为智能体提供了长时间保留和回忆。

规划（Planning）

规划模块具有事前规划和事后反思两个阶段。

a. 在事前规划阶段，这里涉及对未来行动的预测和决策制定，如执行复杂任务时，智能体将大目标分解为更小的、可管理的子目标，从而能够高效地规划一系列步骤或行动，以达到预期结果。

b. 在事后反思阶段，智能体具有检查和改进制定计划中不足之处的能力，反思错误不足并吸取经验教训进行完善，形成和加入长期记忆，帮助智能体之后规避错误、更新其对世界的认知。

使用工具（Tool use）

工具使用模块指的是智能体能够利用外部资源或工具来执行任务。如学习调用外部 API 来获取模型权重中缺失的额外信息，包括当前信息、代码执行能力、对专有信息源的访问等，以此来补足 LLM 自身弱项。

例如 LLM 的训练数据不是实时更新的，这时可以使用工具访问互联网来获取最新信息，或者使用特定软件来分析大量数据。

现在市场上已经存在大量数字化、智能化的工具，智能体使用工具比人类更为顺手和高效，通过调用不同的 API 或工具，完成复杂任务和输出高质量结果，这种使用工具的方式也代表了智能体的一个重要特点和优势。

行动（Action）

行动模块是智能体实际执行决定或响应的部分。面对不同的任务，智能体系统有一个完整的行动策略集，在决策时可以选择需要执行的行动，比如广为熟知的记忆检索、推理、学习、编程等。

除了以上四个核心模块之外，一个 AI Agent 的良好运行离不开LLM、提示词（Prompt）以及知识库（Knowledge）。

LLM

AI Agent 的核心计算引擎是一个大语言模型。LLM 在海量数据集上进行训练，以理解文本数据并从中推理。

提示词（Prompt）

提示词是向大语言模型（LLM）提供关于 Agent 的目标、行为与计划的信息阐述。建议从角色、技能、插件、知识库等层面，分层次进行描述，这样能让提示词（Prompt）更完善。

它分为通用提示词和特定提示词：

a. 通用提示词（General prompt）：对 Agent 的角色与行为予以说明。

b. 特定提示词（Specific prompt）：将特定任务的目标传达给 Agent。

知识库（Knowledge）

没有该领域的知识，代理就无法解决甚至理解任务。因此，要么必须对 LLM 进行微调以获得知识，要么我们可以创建一个工具来从数据库中提取知识。

总的来说，以上各个模块相互配合使 Agent 能够在更广泛的情境中采取行动和作出决策，以更智能、更高效的方式执行复杂任务。

4、应用示例

示例 Agent 使用 Langchain 框架创建，“wikipedia”工具用于从互联网中提取知识，“llm-math”用于数值计算。

# Large language modelllm = AzureChatOpenAI()
# Tool integrationtools = load_tools(['wikipedia', 'llm-math'], llm=llm)
# Initialization of the agentagent = initialize_agent(tools, llm, agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION,                          verbose=True, handle_parsing_errors=True)                         # Run the agent with a promptresult = agent.run('What is the average age of a dog? Multiply the age by 3')

执行及结果：

5、一些常见的 AI Agent 构建平台

AI Agent 是一种能够自主执行任务并与环境进行交互的智能体。以下是一些常见的 AI Agent 构建平台：

Coze

是一个新一代的一站式 AI Bot 开发平台，适用于构建基于 AI 模型的各类问答 Bot。它集成了丰富的插件工具，可以极大地拓展 Bot 的能力边界。

Microsoft 的 Copilot Studio

这个平台的主要功能包括外挂数据、定义流程、调用 API 和操作，以及将 Copilot 部署到各种渠道。

文心智能体

是百度推出的基于文心大模型的智能体（Agent）平台，支持开发者根据自身需求打造大模型时代的产品能力。

钉钉 AI 超级助理

依托于钉钉强大的场景和数据优势，提供更深入的环境感知和记忆功能。这使得它在处理高频工作场景如销售、客服、行程安排等方面表现更加出色。

以及阿里通义、智谱清言、豆包等等

Finally，最后

总的来说，AI Agent 是一种非常有前途的技术，它可以帮助企业提高效率、降低成本、提高客户满意度和实现创新。

然而，要真正扩展 AI Agent 的开发和管理，灵活、直观的无代码到低代码解决方案将是变革性的。

END

相关阅读：

专注架构技术研究，一起跨越职业瓶颈！

关注公众号，免费领学习资料

如果您觉得还不错，欢迎关注和转发~

本文分享自微信公众号 - 架构精进之路（jiagou_jingjin）。
如有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一起分享。

微信关注我们

原文链接：https://my.oschina.net/jiagoujingjin/blog/17505662

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

AI的三岔路口：专业模型和个人模型

最近，开源中国 OSCHINA、Gitee 与 Gitee AI联合发布了《2024 中国开源开发者报告》。报告聚焦 AI 大模型领域，对过去一年的技术演进动态、技术趋势、以及开源开发者生态数据进行多方位的总结和梳理。查看完整报告：2024 中国开源开发者报告.pdf 在第二章《TOP 101-2024 大模型观点》中，AI 创业者、前华为计算机网络与协议实验室助理科学家、首届“天才少年”李博杰提出，大模型开始往专业（Professional）模型和个人（Personal）模型两个方向分化。专业模型是通向AGI的必经之路。但AGI能否实现，最大的不确定性在于技术和资金。未来，个人模型将百花齐放，AI公司很难单靠模型本身建立护城河，产品的重要性将高于模型能力。全文如下。 AI的三岔路口：专业模型和个人模型文/李博杰 2024年大模型真正开始落地，大多数科技工作者在工作中至少使用一款大模型提升效率，很多国民级应用和手机厂商也接入了大模型。大模型开始往专业（Professional）模型和个人（Personal）模型两个方向分化。专业模型是旨在提升生产力的模型，例如AI辅助编程、写作、设...

2025-02-06

310

摘要：本文整理自Flink Forward Asia 2024大会中阿里云 DataWorks 数据集成团队陈吉通的分享，主要分享Flink CDC 在阿里云 DataWorks数据集成入湖场景的应用实践。内容分为以下四个部分： 1.阿里云 DataWorks 数据集成介绍 2.DataWorks 数据集成入湖解决方案的架构和原理 3.DataWorks 数据集成入湖场景的产品化案例分享 4.未来规划一、阿里云 DataWorks 数据集成介绍 DataWorks 数据集成在阿里云具有悠久的历史 2011 年，阿里云数据平台事业部宣告成立，同年 DataX 1.0 与 2.0 版本相继发布；2014 年，阿里云DataWorks数据集成正式对外提供服务，同年 DataX 3.0 版本发布；2019 年， DataWorks数据集成在公有云上实现了商业化，推出了独享资源组服务，并提供了按量付费和包年包月两种灵活的计费方式；2020 年， DataWorks数据集成正式推出了实时同步服务，其中包括了全方位、一体化的数据集成解决方案，以及资源组网络连通性诊断工具；2023 年， Data...

2025-02-07

306

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。