5分钟用AI制作一个LLM大模型评测工具

现在各类LLM让人眼花缭乱，各类第三方的评测报告也是层出不穷，你是否想过这些大模型的评测到底是怎么做的，怎样快速对模型能力进行评估和生成报告，今天我们一起来用AI快速制作一个可以一键生成评测报告的基础LLM评测工具，了解模型评测背后的基本原理和方式。

一、LLM评测的核心原理

LLM评测的原理其实很清晰，主要是：提问 → LLM回答 → 与标准答案对比 → 多维度打分

通过向被测LLM提出问题，然后将LLM的回答与提前准备好的标准答案进行对比评估，从你需要的维度进行打分。这里面的每一步都可以借助其他模型来自动完成。例如可以用第三方模型提前准备好测试题库，也可以在评测时由模型动态生成评测问题。评估的环节，也可以用三方模型针对回答质量进行对比评估，为了降低随机性，可以进行多轮测试，最终生成总结报告。

而这其中的每个环节都可以用AI自动化：

环节	传统做法	AI自动化做法
出题	人工编写	用第三方模型动态生成
提问	手动输入	程序自动调用API
评估	人工对照	裁判模型对比评分

二、LLM评测维度

这个可以直接与你的Vibe Coding进行沟通确定，可以让AI自由发挥，自行确定评测维度，也可以从下列表中选取一些维度来测试。目前LLM常用的评测维度有很多，为了方便演示，我们只采用基础能力测试。

评测大类	维度 / 指标	说明
基础能力	语言理解	语义理解、歧义辨析、上下文关联、多轮对话理解
语言生成	通顺度、自然度、逻辑流畅、无重复无幻觉
知识储备	常识、百科、通识知识、时效性知识
上下文记忆	长文本窗口利用率、多轮信息留存能力
专业任务能力	推理能力	逻辑推理、数学推理、多步推理、思维链（CoT）
代码能力	代码生成、调试、补全、算法实现、多语言支持
创作能力	文案、文案、小说、诗歌、公文等创意写作
翻译能力	多语互译、专业文本翻译、语境适配
工具调用	函数调用、插件联动、外部工具执行能力
对齐与安全	指令遵循	精准执行复杂指令、格式约束、角色设定
幻觉抑制	事实准确性、减少虚构内容、错误结论概率
安全合规	拒答有害问题、防诱导、价值观对齐、隐私保护
鲁棒性	模糊提问、恶意试探、异常输入下的稳定性
效率与工程	推理性能	响应时延、生成速度、Token/s 吞吐量
资源开销	显存/CPU 占用、内存消耗
并发能力	高并发稳定性、单位时间请求处理量
轻量化适配	量化/蒸馏后效果衰减、低资源部署能力
专项场景能力	RAG 能力	文档问答、片段抽取、答案溯源、检索增强
多模态能力	图文理解、图像描述、跨模态问答
角色扮演	人设稳定性、语气统一、场景沉浸度
垂直行业能力	医疗、法律、金融、教育、客服等领域专业度

三、生成评测工具脚本

与你的Vibe Coding工具进行沟通来创建评测脚本，也可以直接使用以下提示词：

请你新建一个llm_eval.py文件，专门用于评测模型：#程序执行流程：1. 进入程序后让我选择要测试的模型，裁判模型，题目数量，轮数2. 评测时自动生成对应数量的题目和标准答案，用生成的题目向目标模型提问3. 用裁判模型对比标准答案，从准确性、有用性、无害性、诚实性、流畅性几个维度对模型测试结果进行评估4. 将评估结果汇总生成一个包含雷达图的评测报告5. 测试中我需要你显示当前过程，例如等待回答、评估中、评估结果、开始第n轮测试。#注意事项：1. 评估模型问答时需要按照标准答案来评估的，禁止根据裁判模型的主观判断2. 报告包含综合评价，雷达图打分，优劣势总结，不要过于冗长

建议先使用Plan模式，看看模型的计划过程再生成评测代码。

程序运行效果

模型评测过程

评测报告部分截图

总结

用AI评测AI，本质上是让模型"互相考核"。这种方法虽然不是绝对严谨，但足以帮你在众多模型中筛选出相对更适合你场景的那个。通过本文中的示例，可以快速了解LLM评测中的核心代码流程，实际评测过程中往往还需要借助更加专业严谨的工具，不妨继续与你的Vibe Coding进行沟通打磨，将其完善成一个高可用的评测工具。