ChainForge —— 开源可视化编程环境
ChainForge 是一个数据流提示工程环境,用于分析和评估 LLM 响应。它旨在对提示、聊天响应和响应质量进行早期、快速而直接的探索,而不仅仅是与个别 LLM 的临时聊天。使用 ChainForge,你可以:
- 一次查询多个 LLM,快速有效地测试提示的想法和变化。
- 比较不同提示排列、不同模型和不同模型设置的响应质量,以选择最适合你的用例的提示和模型。
- 设置评估指标(评分函数)并立即可视化提示、提示参数、模型和模型设置的结果。
- 跨模板参数和聊天模型同时进行多个对话。模板不仅仅是提示,还包括后续聊天消息,并在每次聊天对话时检查和评估输出。
ChainForge 附带了许多示例评估流程,让你了解可能性,其中包括根据 OpenAI 评估中的基准生成的 188 个示例流程。
ChainForge 的一个关键目标是促进提示和模型的比较和评估。基本特点是:
- 提示排列:设置提示模板并向其提供输入变量的变体。ChainForge 将提示所有选定的 LLM 以及输入提示的所有可能排列,以便你可以更好地感受到提示质量。你还可以以任意深度链接提示模板(例如,比较模板)。
- 聊天轮流:超越提示和模板后续聊天消息,就像提示一样。你可以测试用户查询的措辞如何改变 LLM 的输出,或者比较多个聊天模型(或具有不同设置的相同聊天模型!)的后续响应的质量。
- 模型设置:更改支持的模型的设置,并比较不同的设置。例如,你可以通过添加多个 ChatGPT 模型、更改单个设置以及给每个模型起昵称来衡量系统消息对 ChatGPT 的影响。ChainForge 将向模型的每个版本发送查询。
- 评估节点:探测链中的 LLM 响应并(经典地)测试它们的某些所需行为。从根本上讲,这是基于 Python 脚本的。计划在不久的将来为常见用例添加预设评估器节点(例如,名称实体识别)。注意,你还可以将 LLM 响应链接到提示模板中,以帮助在更广泛的评估方法之前以较低的成本评估输出。
- 可视化节点:在分组盒须图(对于 numeric metrics)和直方图(对于 boolean metrics)等图上可视化评估结果。目前仅支持 numeric 和 boolean metrics。目标是在未来为用户提供更多的绘图控制和选项。
总而言之,这些功能可让你轻松:
- 比较提示和提示参数:选择能够最大化你的评估目标指标(例如,最低代码错误率)的最佳提示集。或者,了解更改提示模板中的参数如何影响响应的质量。
- 跨模型比较:跨模型和不同模型设置比较每个提示的响应。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
每日一博 | 理解 Mysql 索引原理及特性
作为开发人员,碰到了执行时间较长的sql时,基本上大家都会说”加个索引吧”。但是索引是什么东西,索引有哪些特性,下面和大家简单讨论一下。 1 索引如何工作,是如何加快查询速度 索引就好比书本的目录,提高数据库表数据访问速度的数据库对象。当我们的请求打过来之后,如果有目录,就会快速的定位到章节,再从章节里找到数据。如果没有目录,如大海捞针一般,难度可见一斑。这就是我们经常碰到的罪魁祸首,全表扫描。 一条索引记录中包含的基本信息包括:键值(即你定义索引时指定的所有字段的值)+逻辑指针(指向数据页或者另一索引页)。通常状况下,由于索引记录仅包含索引字段值(以及4-9字节的指针),索引实体比真实的数据行要小许多,索引页相较数据页来说要密集许多。一个索引页可以存储数量更多的索引记录,这意味着在索引中查找时在I/O上占很大的优势,理解这一点有助于从本质上了解使用索引的优势,也是大部分性能优化所需要切入的点。 1)没有索引的情况下访问数据: 2)使用平衡二叉树结构索引的情况下访问数据: 第一张图没有使用索引我们会进行顺序查找,依照数据顺序逐个进行匹配,进行了5次寻址才查询出所需数据,第二张图用了一个...
- 下一篇
Google Groups 停止支持 Usenet
谷歌宣布从2024 年 2 月 22 日开始,用户无法再使用 Google Groups(网址为 groups.google.com)向 Usenet 群组发布内容、订阅 Usenet 群组,或查看新的 Usenet 内容。但可以继续查看和搜索 2024 年 2 月 22 日之前在 Google Groups 上发布的历史 Usenet 内容。 来源:https://support.google.com/groups/answer/11036538?hl=en 谷歌表示,在过去几年里,基于文本的 Usenet 群组中的合规活跃已显著下降,因为用户已转向更现代的技术和格式,例如社交媒体和基于 Web 的论坛。目前通过 Usenet 传播的大部分内容都是二进制(非文本)文件共享(Google Groups 不支持该项功能),以及垃圾邮件。 Usenet(/ˈjuːznɛt/)是一种在计算机上可用的全球分布式讨论系统。它是从通用的 Unix 到 Unix 复制(UUCP) 拨号网络架构中发展出来的。 杜克大学研究生汤姆·特拉斯科特与吉姆·埃利斯在 1979 年设计了 Usenet,并于 19...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Linux系统CentOS6、CentOS7手动修改IP地址
- 2048小游戏-低调大师作品
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS8编译安装MySQL8.0.19
- CentOS6,CentOS7官方镜像安装Oracle11G
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2更换Tomcat为Jetty,小型站点的福音