乐于分享
好东西不私藏

AutoGLM被吹上天?扒个源码:别信神话

AutoGLM被吹上天?扒个源码:别信神话

AutoGLM被吹上天?扒个源码:别信神话

AutoGLM被吹上天?扒个源码:别信神话

AutoGLM被吹上天?扒个源码:别信神话

AutoGLM被吹上天?扒个源码:别信神话

AutoGLM被吹上天?扒个源码:别信神话

AutoGLM被吹上天?扒个源码:别信神话

AutoGLM被吹上天?扒个源码:别信神话

AutoGLM被吹上天?扒个源码:别信神话

AutoGLM被吹上天?扒个源码:别信神话

AutoGLM被吹上天?扒个源码:别信神话

最近关注从豆包手机爆火到12月9日发布的AutoGLM自动控制框架,于是今天浅析一下open-AutoGLM源码,便有了这篇文章#AutoGLM #大模型 #视觉模型 #RPA #agent

# AutoGLM被吹上天?扒个源码后:能力有限,别信神话

## 前言

首先我是带着敬畏来写这个文章的,任何技术诞生都不一定完美,但是它能够解决或接近解决某些用户的痛点,这就已经足够。能够有人迈出第一步,已经是难能可贵的事情。对于商业活动而言,一定会被某些人无限放大它的作用。写这个文章,一是从源码角度分析找到改进的地方,二也是让那些炒作概念的人冷静一下头脑。

## 概述

open-AutoGLM 作为基于视觉语言模型的手机自动化框架,虽然在很多场景下表现出色,但仍然存在诸多**架构性**和**技术性**的局限。本文从源码层面深入分析这些限制。

## 1. 视觉理解局限

### 图像信息丢失

**原理**

在对话上下文记忆区每次处理后把最后一条图像数据移走。

**影响分析**:
– **历史盲区**: 模型无法访问历史页面的视觉信息
– **上下文断裂**: 长任务中后期决策缺乏视觉上下文
– **空间权衡**: 为节省 token 牺牲了历史视觉记忆

### 视觉模型本身的限制

**原理**

根据ADB Keyboard的键盘特征,判断已经是否激活

**核心问题**:

– **依赖三方输入法**: 必须让用户安装ADB Keyboard
– **必须手动配置**: 新输入法必须得激活,对于很多手机小白,基本重未装过三方输入法,也没用过在哪里去激活

## 2. 手动交互依赖

### Take_over 机制的限制

## 3. 操作指令范围限制

### 原子操作的局限性

#### 1. 手势操作缺失

#### 2. 应用操作限制

## 总结

AutoGLM 的局限性主要来源于**模型处理模式依赖**、**部分依赖人工交互**和**应用及操作原子覆盖不足**三个核心约束。这些局限在当前技术水平下是合理的,但也为适用场景及未来的改进指明了方向。

## 思考

这里智谱的视觉模型针对常用的电商和社交场景,以及部分游戏场景进行了适配。相当于是让模型“记忆”了特定APP的操作方式进行规划,但是如果希望良好的支持任意APP,是否可以针对性的训练规划用的模型或prompt上下文呢。既然第一步要启动APP。那么是否可以根据APP自动切换规划模型或规划引导上下文,从“大而全”向“专而精”方面改进呢?

本站文章均为手工撰写未经允许谢绝转载:夜雨聆风 » AutoGLM被吹上天?扒个源码:别信神话
×
订阅图标按钮