让LLM做低代码考试谁会胜出-低调大师

让LLM做低代码考试谁会胜出

2025-08-13 211

背景介绍

为了探究大语言模型在专业软件领域的知识水平，葡萄城 AI 团队进行了一项测评，让多个主流 LLM 参与了“活字格”低代码平台的认证考试。

本次测评选取了三个模型作为“考生”：

Claude-4-sonnet
GLM-4.5
Qwen3 (Qwen3-235B-A22B-2507)

测评的底层技术支撑来源于葡萄城的开源项目 GC-QA-RAG，该项目旨在通过检索增强生成（RAG）和 Agent 技术，提升 AI 在专业领域的问答准确性。

考试题目介绍

本次测评所用的题目均来自“活字格认证考试体系”，内容覆盖了从基础到高级的三个核心科目，全面考察了对活字格低代码平台的掌握程度。

活字格认证工程师-科目一 (348 题)：
难度等级：基础
内容类型：主要考察基础理论，包括活字格的各项概念理解和功能特性。题目形式偏向于对核心知识点的记忆和理解。
活字格认证工程师-科目二 (108 题)：
难度等级：中级
内容类型：侧重于实践应用，题目多为具体的操作步骤和常见的问题解决方法。这部分考验的是将理论知识应用于实际场景的能力。
活字格高级认证工程师-科目一 (85 题)：
难度等级：高级
内容类型：聚焦于平台的高级功能和深度应用。题目通常涉及复杂场景的设计与实现，对知识的综合运用能力要求很高。但其选择题部分仍旧为基础题目，难度适中。

这些真实世界的专业考题，为全面评估 AI 在低代码领域的知识深度和应用能力提供了一个理想的测试基准。

测试模式设计

为了全面评估 AI 的能力，测评设计了三种递进式的测试模式：

模式一：直接生成答案

机制：AI 完全依赖自身训练时学到的知识来直接回答考题。
目的：检验大模型在没有外部资料支持下的基础知识水平。

模式二：结合知识库检索（RAG）

机制：在回答前，AI 可以先从包含活字格官方文档、教程等内容的知识库中搜索相关信息，然后结合搜索结果生成答案。
目的：评估引入专业领域知识后，对 AI 回答准确率的提升效果。

模式三：Agent 自动规划检索

机制：AI 能够自主分析问题，判断是否需要以及如何进行信息检索。它可以根据初步检索的结果，决定是否需要换个关键词进行多轮、多角度的深入检索，模拟人类专家解决问题的过程。
目的：测试更智能、更主动的检索策略能达到的最佳效果。

测评结果汇总

测试覆盖了活字格从基础到高级的三个考试科目，以下是三个模型在不同模式下的表现汇总。

考试科目	模型	直接生成答案	结合知识库检索 (RAG)	Agent 自动规划检索	最大提升
认证工程师-科目一 (基础)	Claude-4-sonnet	65.80%	81.03%	88.51%	+22.71%
	GLM-4.5	61.21%	84.20%	87.07%	+25.86%
	Qwen3	67.82%	83.05%	85.92%	+18.10%
认证工程师-科目二 (实践)	Claude-4-sonnet	57.41%	69.44%	70.37%	+12.96%
	GLM-4.5	47.22%	64.81%	65.74%	+18.52%
	Qwen3	51.85%	65.74%	68.52%	+16.67%
高级认证工程师-科目一 (高级)	Claude-4-sonnet	52.94%	65.88%	74.12%	+21.18%
	GLM-4.5	57.65%	67.06%	68.24%	+10.59%
	Qwen3	54.12%	61.18%	68.24%	+14.12%

结果分析

从数据中可以得出几个核心结论：

Agent 模式效果最显著
在所有测试中，不论使用哪个具体模型，Agent 自动规划检索模式的得分都是最高的。这表明，比起简单的信息检索，让 AI 学会自主规划、迭代提问的检索策略，能更有效地利用知识库，从而显著提升回答的准确率。
RAG 技术能有效提升准确率
对比“直接生成答案”和“结合知识库检索”两列数据，可以发现所有模型在获得外部知识库支持后，成绩都有了大幅提高。例如，GLM-4.5 在基础科目中的分数提升了超过 25 个百分点。这证明了 RAG 技术在专业领域的实用价值：为通用大模型提供精准的、领域内的知识，是其能力提升的关键。
各模型表现对比
综合来看，Claude-4-sonnet 在三个科目的 Agent 模式下均取得了最高分，尤其是在难度最高的高级科目中，其 74.12%的正确率显示出较强的综合能力。同时，其他模型如 GLM-4.5 和 Qwen3 在结合 RAG 和 Agent 技术后，表现也获得了很大改善，证明了这种技术框架具有良好的通用性。

技术简述

测评表现的背后，是 GC-QA-RAG 开源系统所采用的两项核心技术：

高级 QA 预生成技术：该技术改变了传统 RAG 简单切割文档的方式，通过模型智能地将原始文档处理成结构化的“问答对(QA)”、“摘要”和“同义问法”等。这相当于为 AI 准备了一套高质量、易于理解和检索的知识材料。
Agent 自主规划检索：该技术赋予 AI 规划和执行复杂任务的能力。通过 Function Calling 等机制，AI 可以自主决策何时检索、如何检索，并能根据检索结果调整下一步行动，使整个检索过程更具目的性和效率。

测试暴露的问题

尽管 AI 在考试中取得了不错的成绩，但本次测评也清晰地暴露了当前技术方案存在的一些问题与局限性。

理论与实践的脱节
从成绩上看，AI 在回答基础理论（科目一）题目时表现出色，但在处理侧重实际操作步骤（科目二）的题目时，正确率有明显下降。这表明 AI 能够很好地记忆和复述知识点，但在将理论知识转化为具体的、一步步的实践指导方面仍有困难，存在知识迁移的挑战。
知识的“脆弱性”
首先，AI 的回答仍存在 10%至 30%的错误率，在关键业务场景下，错误的答案可能带来风险。其次，AI 的知识是静态的。随着活字格产品功能的迭代更新，如果知识库未能及时同步，AI 的回答很快就会过时，这对其在实际应用中的可靠性提出了持续维护的要求。
系统与测评方法的局限
本次测评也反映出系统本身及测评方法上的一些不足。首先，测评形式相对单一，主要依赖单选题和多选题，这种方式无法充分检验 AI 在处理开放性问答或需要进行实际操作配置等更复杂任务时的能力。其次，系统目前不支持处理包含图片或图表的题目，即缺乏多模态理解能力，这限制了其在解决需要理解视觉信息的复杂技术问题时的应用范围。

结论

本次测评的结果表明，在专业的低代码领域，将大语言模型与先进的 RAG 及 Agent 技术结合，是一条有效的技术路径。

AI 在处理基础理论知识时表现出色，最高取得了 88.51%的正确率，展现出成为得力知识助手的潜力。然而，测评也清晰地显示，随着题目难度增加和实践性增强，AI 的准确率出现明显下滑。

这说明，尽管 AI 在特定知识性任务上取得了高分，但在更复杂的实践应用和综合推理方面，与真正的人类专家相比仍存在显著差距。当前，它更适合作为一个高效的“知识检索和查询工具”，而非能够完全独立解决所有问题的“专家”。要让 AI 在专业领域真正落地，还需要在弥补理论与实践差距、应对知识更新和突破系统自身局限等方面持续投入。

不论如何， Agentic RAG 这一技术范式的表现还是足够惊艳的。它验证了一条有效的路径：通过为通用大模型配备高质量的外部知识库和智能的检索工具，可以有效解决垂直领域的复杂问题。这对企业在知识管理、技术支持和客户服务等场景的智能化升级，提供了有价值的参考。

对该技术方案感兴趣的读者，可以进一步了解其开源项目（MIT License）：

项目开源地址: <https: github.com grapecity-ai gc-qa-rag>
测评代码地址: <https: github.com grapecity-ai gc-qa-rag tree main tools gc-qa-rag-eval>
在线体验 Demo: <https: ai-assist.grapecity.com.cn />
技术文章：https://my.oschina.net/powertoolsteam/blog/18683080

</https:></https:>

微信关注我们

原文链接：https://my.oschina.net/powertoolsteam/blog/18687981

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

许多 AI 智能体评测基准并不可靠

编者按：当我们对 AI 智能体进行能力评估时，是真的在测量它们的真实水平吗？当前广泛使用的基准测试是否如我们想象的那样可靠和准确？我们今天为大家带来的文章，作者的核心观点是：当前许多 AI 智能体基准测试存在严重缺陷，亟需建立更严谨的评估框架。本文提供了一套系统性的解决方案 ------ AI 智能体基准测试核查清单（ABC）。这个包含 43 个检查项目的创新框架，不仅能够帮助开发者识别现有基准测试的潜在陷阱，还能指导构建真正可靠的评估体系。本文系原作者观点，Baihai IDP 仅进行编译分享作者 | Daniel Kang 编译 | 岳扬基准测试[1]是评估人工智能系统优势和局限性的基础，对研究指导[2]和行业发展[3]至关重要。随着 AI 智能体从研究演示阶段迈向关键任务应用领域[4-6]，研究人员和实践者正着手开发相应的基准测试，以全面衡量其能力边界与性能短板。这些 AI 智能体基准测试在任务设定（例如，通常需要模拟现实场景）和评估方式（例如，缺少标准答案标签）上都比传统 AI 基准测试复杂得多，因此需要付出更大的努力来确保其可靠性。遗憾的是，当前许多 AI 智...

2025-08-13

266

导语 | 当 GitHub Copilot 能帮你写下一半代码，当 AI 模型能自动化生成测试用例，一个幽灵般的问题开始在开发者社区徘徊：我们信奉多年的"敏捷开发"，在强大的 AI 面前，是否已经过时了？Scrum.org 的 CEO Dave West 最近的一篇文章给出了一个振聋发聩的答案：AI 不但不会替代敏捷，反而在倒逼我们拥抱敏捷真正的灵魂。 | | ------------------------------------------------------------ | 今天想和大家聊一个很"顶"的话题：AI 时代，敏捷已死？最近和不少朋友聊天，大家普遍有一种"AI 焦虑"。看着 AI 在编码、测试、运维等领域大杀四方，很多人都在想，我们每天开的站会、画的燃尽图、搞的迭代回顾，还有意义吗？这篇文章，结合了 Scrum.org 的最新洞见和一些国内外巨头的真实案例，希望能给你带来一些新的思考。 | 先说核心观点：AI 负责"怎么做"，我们聚焦"做什么"和"为何做" | | -------------------------------------------------...

2025-08-13

206

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。