一猫之下 1Cat-vLLM 1.0.0 实测来了:本地部署 Qwen3.6-27B-AWQ,四张 V100 同时跑起来,整机 GPU 功耗约 600W,实测生成速度达到 124–130 tokens/s。
同样提示词对比阿里云百炼官网速度,本地部署已经跑出非常接近甚至不输官网的体验。现场还让模型写代码、写贪吃蛇,看 1Cat-vLLM 在老 V100 平台上的推理表现到底能不能“飞起来”。
同样提示词对比阿里云百炼官网速度,本地部署已经跑出非常接近甚至不输官网的体验。现场还让模型写代码、写贪吃蛇,看 1Cat-vLLM 在老 V100 平台上的推理表现到底能不能“飞起来”。
夜雨聆风