厌倦了猜哪个本地模型好,我做了个评测工具Mode-夜雨聆风

厌倦了猜哪个本地模型好,我做了个评测工具Mode

新模型出来都说牛，两天后又说不行，评测全靠猜，这事我受够了。

评测这事，终于不用再猜了

开发者说，他看烦了那种“新模型发布，人人说惊艳，两天后，又有人说不如上一个”的循环。问题根源在于，大家测试方法都不一样，结果自然没法比。所以他才决定自己动手，搞一个标准化的评测工具。

ModelSweep不是让你随便问个谜语那种。它提供的是可重复的测试套件。除了自带的6个，你还能创建自己的套件，或者用JSON格式导入、分享别人的。测试结果会给你详细的分数分解、速度数据，还有一个可视化的流程，能清晰看到模型到底是在哪个环节崩掉的。

这工具最狠的一点是红队模式。说白了，就是主动给你的模型“找茬”，用越狱攻击和提示词提取攻击去试试它的防御能力。这比单纯看回答质量更能反映模型的安全性。

整个工具完全在本地运行，不依赖网络，也不会上传你的数据。开发者自己也说，这工具还很粗糙，有很多需要改进的地方，所以他真心希望有人试用后能给他反馈，甚至提交PR。

工具已经开源在GitHub上了，直接去仓库看就行。所有代码、使用说明都在里面。

GitHub地址：https://github.com/leonickson1/ModelSweep

留言聊聊
你平时是怎么评测本地模型的？会考虑用这种标准化工具吗？

来源：Reddit Ollama｜原文：I got tired of guessing which local LLM was better