AgentFly —— 基于记忆增强的在线强化学习框架-低调大师

AgentFly —— 基于记忆增强的在线强化学习框架

2025-09-11 111

AgentFly是基于记忆增强的在线强化学习框架，通过记忆库存储经验轨迹并利用神经案例选择策略实现LLM代理的持续适应能力，无需对底层LLM参数进行微调。

该方法将决策过程建模为记忆增强的马尔可夫决策过程（M-MDP），通过非参数或参数化记忆模块存储过往经验，并基于软Q学习优化案例检索策略。

实验表明，该方法通过记忆库的持续更新实现高效在线学习，在复杂工具调用和多轮推理任务中展现出显著优势，为构建具备持续学习能力的通用型LLM代理提供了新范式。

微信关注我们

原文链接：https://www.oschina.net/p/agentfly

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

小米 Kaldi 团队开源零样本语音合成模型模型 ZipVoice

近日，小米集团新一代 Kaldi 团队发布了基于 Flow Matching 架构的ZipVoice系列语音合成（TTS）模型——ZipVoice（零样本单说话人语音合成模型）与ZipVoice-Dialog（零样本对话语音合成模型）。作为 zipformer 在语音生成任务上的应用和探索，ZipVoice解决了现有零样本语音合成模型的参数量大、合成速度慢的痛点，在轻量化建模和推理加速上取得了重要突破。ZipVoice-Dialog 则解决了现有对话语音合成模型在稳定性和推理速度上的瓶颈，实现了又快又稳又自然的语音对话合成。 ZipVoice系列的模型文件、训练代码和推理代码以及6.8k小时的语音对话数据集OpenDialog已全部开源：https://github.com/k2-fsa/ZipVoice Zipvoice 论文：https://arxiv.org/pdf/2506.13053 样例体验请访问：https://zipvoice.github.io

2025-09-11

99

9月11日，宇树科技创始人兼CEO王兴兴出席了2025外滩大会，这也是宇树官宣IPO计划后王兴兴首次公开发声。他认为AI时代的组织管理是一门新课题。王兴兴表示，宇树科技是一家以硬件为主要产品的公司，随着业务快速发展，人员规模更大之后，可能会带来协作效率的降低，需要花时间探索更高效的组织管理方式。尽管存在挑战，但王兴兴对未来依旧十分乐观，他认为，现在创新创业的门槛已经大幅降低，年轻创新者迎来了好时代。真正可以用AI工具去实现新创意，并且在AI时代，小组织的爆发力会越来越强。王兴兴还提到：“顶尖的AI人才肯定是缺的，我相信这是每个大公司共同的渴求。”

2025-09-11

111

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。