您现在的位置是：首页 > 文章详情

大模型生成内容的相关性及模型性能的评估方式探讨

日期：2025-06-04点击：85收藏

为什么要评估测试(Evaluation Testing)

随着大模型技术的推进，评测其性能和能力的需求也日益增长，这不仅仅是技术层面的需求，更关系到商业决策和公众认知。为什么需要大模型评估测试？主要原因如下；

模型好坏的统一判断标准：如果不构建一个客观公正和定量的模型评测体系，则无法判断众多大模型之间的能力高低，用户无法了解模型的真实能力和实际效果。
模型迭代优化的依据：对于开发者而言，如果不能定量评估模型的能力，则无法跟踪模型能力的变化，无法知道模型的优势和劣势，从而无法有针对的指定模型提升策略，影响模型的迭代升级。
监管安全的要求考虑：对于法律、医疗等关乎社会安全的领域，需要对大模型进行系统的评测，以确认大模型适合在该领域进行使用，而不会造成安全事故。
领域基础模型的选择依据：在不同的领域下，大模型的能力表现各有优劣，需要引入评测体系对大模型在各个领域下的能力进行统一测试，选择出最适合该特定领域的大模型作为基座，从而更好的产业落地。

大模型的评估标准是什么

大模型的评估需要一套标准，所有按照一套标准进行评估，比较才会有公平性，就以 SuperCLUE 为例。

SuperCLUE是一个综合性大模型评测基准，评测主要聚焦于大模型的四个能力象限，包括语言理解与生成、专业技能与知识、Agent智能体和安全性，进而细化为12项基础能力。

评估基准

多维度的评测方案

根据评测我们可以从大范围内选择适合我们的模型，在此基础上我们可能对模型进行微调等，在微调后我们就需要对微调的模型，使用一些测试数据，对模型进行评估测试。

Spring AI 框架如何支持评估测试

Spring AI 主要测试 AI 应用程序需要评估生成的内容，以确保 AI 模型没有产生幻觉反应。

第一种方式：使用AI自身评估

用于评估响应的 Spring AI 接口定义为 Evaluator ：

@FunctionalInterface public interface Evaluator { EvaluationResponse evaluate(EvaluationRequest evaluationRequest) }

评估的输入 EvaluationRequest 定义为

public class EvaluationRequest { private final String userText; private final List<Content> dataList; private final String responseContent; public EvaluationRequest(String userText, List<Content> dataList, String responseContent) { this.userText = userText; this.dataList = dataList; this.responseContent = responseContent; } ... }

userText: 用户的输入文本
dataList: 附加到原始输入的上下文数据
reponseContent: AI 模型的响应内容

第二种方式：RelevancyEvaluator

它使用 AI 模型进行评估。未来版本中将提供更多实现。 RelevancyEvaluator 使用输入（ userText ）和 AI 模型的输出（ chatResponse ）来提出问题：

Your task is to evaluate if the response for the query is in line with the context information provided.\n You have two options to answer. Either YES/ NO.\n Answer - YES, if the response for the query is in line with context information otherwise NO.\n Query: \n {query}\n Response: \n {response}\n Context: \n {context}\n Answer: "

例如：该测试对加载到 Vector Store 中的 PDF 文档执行 RAG 查询，然后评估响应是否与用户文本相关。

@Test void testEvaluation() { dataController.delete(); dataController.load(); // 用户的提问 String userText = "What is the purpose of Carina?"; // 大模型影响 String responseContent = ChatClient.builder(chatModel) .build().prompt() .advisors(new QuestionAnswerAdvisor(vectorStore, SearchRequest.defaults())) .user(userText) .call() .content(); // 定义一个相关性评估器 var relevancyEvaluator = new RelevancyEvaluator(ChatClient.builder(chatModel)); // 将 用户提问 + 模型的响应，一并发给大模型进行评估 EvaluationRequest evaluationRequest = new EvaluationRequest(userText, (List<Content>) response.getMetadata().get(QuestionAnswerAdvisor.RETRIEVED_DOCUMENTS), responseContent); // 返回评估结果 EvaluationResponse evaluationResponse = relevancyEvaluator.evaluate(evaluationRequest); // 断言是否大模型是否满足性能需求 assertTrue(evaluationResponse.isPass(), "Response is not relevant to the question"); }