DeepEval —— 开源 LLM 评估框架
DeepEval 是一个简单易用的开源 LLM 评估框架,用于评估和测试大型语言模型系统。它与 Pytest 类似,但专门用于对 LLM 输出进行单元测试。DeepEval 结合了最新研究成果,基于 G-Eval、幻觉、答案相关性、RAGAS 等指标来评估 LLM 输出,它使用 LLM 和其他各种在本地运行的 NLP 模型进行评估。
无论你的 LLM 应用程序是 RAG pipelines、聊天机器人、AI 代理,还是通过 LangChain 或 LlamaIndex 实现,DeepEval 都能满足你的需求。借助它,你可以轻松确定最佳模型、提示和架构,以改进你的 RAG 管道和代理工作流,防止 prompt drifting,甚至可以自信地从 OpenAI 过渡到托管你自己的 Deepseek R1。
- 以类似于 Pytest 的方式轻松地“单元测试” LLM 输出。
- 即插即用 30 多个 LLM 评估指标,其中大多数都有研究支持。
- 支持端到端和组件级评估。
- 对 RAG、代理、聊天机器人以及几乎任何用例的评估。
- 使用最先进的进化技术生成合成数据集。
- 指标易于定制并涵盖所有用例。
- 红队,安全扫描 LLM 应用程序是否存在安全漏洞。
此外,DeepEval 还有一个云平台Confident AI,允许团队使用 DeepEval在云端进行评估、回归测试、红队和监控LLM 应用程序。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
设计协作平台 Figma 递交首次公开募股(IPO)申请
Figma 昨日正式提交了首次公开募股(IPO)申请,计划在美国纽约证券交易所(NYSE)上市,股票代码为“FIG”。 Figma 成立于 2016 年,主要在网络上提供界面设计协作服务,同时也推出了 macOS / Windows 平台桌面客户端。该公司的产品线除了最早推出的设计工具 Figma Design 外,还包括在线协作白板 FigJam、演示文稿协作工具 Figma Slides、绘图工具 Figma Draw、设计自动化软件 Dev Mode、网站设计工具 Figma Sites,以及用于构建社交平台的 Figma Buzz 等。 Figma 公司曾计划在 2022 年以 200 亿美元出售给 Adobe,但由于欧盟和英国监管机构担心该交易会影响市场竞争,相应计划最终被叫停,迫使 Adobe 在当年底向 Figma 支付了 10 亿美元的解约费用。 参考 Figma 提交的 S-1 申请文件,今年第一季度,公司拥有 1300 万月活跃用户(其中三分之二用户并非专业设计师),公司已获得了 95% 的《财富》500 强企业和 78% 的《福布斯》全球 2000 强企业的青睐...
- 下一篇
字节跳动开源 4D 视频生成框架 EX-4D
字节跳动旗下PICO-MR团队正式开源了 EX-4D,一款突破性的4D视频生成框架;能够从单一视角(单目)视频生成高质量、多视角的4D视频序列(3D空间+时间维度)。 传统视频生成技术在多视角生成方面面临两大挑战:一是需要昂贵的多视角相机和数据集进行训练;二是难以处理遮挡区域,导致生成的视频在极端视角下出现物体穿帮或细节失真。EX-4D通过创新的深度密闭网格(DW-Mesh)表示和轻量级适配架构,成功解决了这些问题。 DW-Mesh是EX-4D的核心技术,它通过构建全密闭网格结构,记录场景中的可见和隐形面片,无需多视角监督即可统一处理复杂场景拓扑。结合预训练深度预测模型,EX-4D将单帧像素投影到3D空间,形成网格顶点,并根据几何关系精准标记遮挡区域。这种方法确保了生成视频在极端视角(如±90°)下仍能保持物理一致性和细节完整性。 此外,EX-4D引入了两种模拟mask生成策略——渲染 mask 和跟踪mask,通过模拟视角移动和帧间一致性,破解了多视角训练数据的稀缺难题。这些策略使EX-4D仅凭单目视频即可“脑补”全视角数据,极大降低了数据采集成本。 性能测试结果表明,EX-4D在 ...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- CentOS8安装Docker,最新的服务器搭配容器使用
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7,8上快速安装Gitea,搭建Git服务器
- 设置Eclipse缩进为4个空格,增强代码规范
- SpringBoot2全家桶,快速入门学习开发网站教程
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Red5直播服务器,属于Java语言的直播服务器
- Docker安装Oracle12C,快速搭建Oracle学习环境