企业场景排行榜简介:现实世界用例排行榜
今天,Patronus 团队很高兴向社区发布我们与 Hugging Face 合作完成的、基于 Hugging Face 排行榜模板构建的、新的企业场景排行榜。 本排行榜旨在评估语言模型在企业现实用例中的性能。目前已支持 6 类任务,涵盖: 金融、法律保密、创意写作、客服对话、毒性以及企业 PII。 我们从准确度、吸引度、毒性、相关性以及企业 PII 等各个不同方面来衡量模型的性能。 Gradio: PatronusAI/leaderboard 为什么需要一个针对现实用例的排行榜? 当前,大多数 LLM 基准使用的是学术任务及学术数据集,这些任务和数据集已被证明在比较模型在受限环境中的性能方面非常有用。然而,我们也看到,企业用例跟学术用例通常有较大的区别。因此,我们相信,设计一个专注于现实世界、企业用例 (如财务问题问答或客服互动等) 的 LLM 排行榜也十分有必要。于是,我们通过总结与不同垂域的 LLM 公司的交流,选择了一组与企业级业务相关的任务和数据集,设计了本排行榜。我们希望如果有用户想要尝试了解在自己的实际应用中如何进行模型选择,本排行榜能够成为 TA 的起点。 最近还存在...






