AutoGLM被吹上天？扒个源码：别信神话-夜雨聆风

本文最后更新于2025-12-13，某些文章具有时效性，若有错误或已失效，请在下方留言或联系老夜。

AutoGLM被吹上天？扒个源码：别信神话

最近关注从豆包手机爆火到12月9日发布的AutoGLM自动控制框架，于是今天浅析一下open-AutoGLM源码，便有了这篇文章#AutoGLM #大模型 #视觉模型 #RPA #agent

# AutoGLM被吹上天？扒个源码后：能力有限，别信神话

## 前言

首先我是带着敬畏来写这个文章的，任何技术诞生都不一定完美，但是它能够解决或接近解决某些用户的痛点，这就已经足够。能够有人迈出第一步，已经是难能可贵的事情。对于商业活动而言，一定会被某些人无限放大它的作用。写这个文章，一是从源码角度分析找到改进的地方，二也是让那些炒作概念的人冷静一下头脑。

## 概述

open-AutoGLM 作为基于视觉语言模型的手机自动化框架，虽然在很多场景下表现出色，但仍然存在诸多**架构性**和**技术性**的局限。本文从源码层面深入分析这些限制。

## 1. 视觉理解局限

### 图像信息丢失

**原理**

在对话上下文记忆区每次处理后把最后一条图像数据移走。

**影响分析**:
– **历史盲区**: 模型无法访问历史页面的视觉信息
– **上下文断裂**: 长任务中后期决策缺乏视觉上下文
– **空间权衡**: 为节省 token 牺牲了历史视觉记忆

### 视觉模型本身的限制

**原理**

根据ADB Keyboard的键盘特征，判断已经是否激活

**核心问题**:

– **依赖三方输入法**: 必须让用户安装ADB Keyboard
– **必须手动配置**: 新输入法必须得激活，对于很多手机小白，基本重未装过三方输入法，也没用过在哪里去激活

## 2. 手动交互依赖

### Take_over 机制的限制

## 3. 操作指令范围限制

### 原子操作的局限性

#### 1. 手势操作缺失

#### 2. 应用操作限制

## 总结

AutoGLM 的局限性主要来源于**模型处理模式依赖**、**部分依赖人工交互**和**应用及操作原子覆盖不足**三个核心约束。这些局限在当前技术水平下是合理的，但也为适用场景及未来的改进指明了方向。

## 思考

这里智谱的视觉模型针对常用的电商和社交场景，以及部分游戏场景进行了适配。相当于是让模型“记忆”了特定APP的操作方式进行规划，但是如果希望良好的支持任意APP，是否可以针对性的训练规划用的模型或prompt上下文呢。既然第一步要启动APP。那么是否可以根据APP自动切换规划模型或规划引导上下文，从“大而全”向“专而精”方面改进呢？

AutoGLM被吹上天？扒个源码：别信神话

wang

猜你喜欢