厌倦了猜哪个本地模型好,我做了个评测工具Mode
新模型出来都说牛,两天后又说不行,评测全靠猜,这事我受够了。
- 一个叫ModelSweep的工具,直接对接Ollama,在本地跑结构化评测。
- 自带6个内置测试套件,覆盖工具调用、多轮对话、推理和写作。
- 有红队模式,能对模型进行越狱和提示词提取攻击测试。
评测这事,终于不用再猜了
开发者说,他看烦了那种“新模型发布,人人说惊艳,两天后,又有人说不如上一个”的循环。问题根源在于,大家测试方法都不一样,结果自然没法比。所以他才决定自己动手,搞一个标准化的评测工具。
ModelSweep不是让你随便问个谜语那种。它提供的是可重复的测试套件。除了自带的6个,你还能创建自己的套件,或者用JSON格式导入、分享别人的。测试结果会给你详细的分数分解、速度数据,还有一个可视化的流程,能清晰看到模型到底是在哪个环节崩掉的。
红队攻击,测测你的模型有多“抗揍”
这工具最狠的一点是红队模式。说白了,就是主动给你的模型“找茬”,用越狱攻击和提示词提取攻击去试试它的防御能力。这比单纯看回答质量更能反映模型的安全性。
整个工具完全在本地运行,不依赖网络,也不会上传你的数据。开发者自己也说,这工具还很粗糙,有很多需要改进的地方,所以他真心希望有人试用后能给他反馈,甚至提交PR。

怎么拿到这个工具?
工具已经开源在GitHub上了,直接去仓库看就行。所有代码、使用说明都在里面。
GitHub地址:https://github.com/leonickson1/ModelSweep
留言聊聊
你平时是怎么评测本地模型的?会考虑用这种标准化工具吗?
来源:Reddit Ollama|原文:I got tired of guessing which local LLM was better
夜雨聆风