当前时间: 1970-01-01 08:00:00
分类:办公文件
评论(0)
AI是怎么学会看图说话的?AI真的看懂了图片吗?
很多人第一次用多模态AI的时候,都会产生一种错觉。
AI看到的不是世界,而是模式
这个人大概率在巴黎旅游,而且心情不错。
对于模型来说,一张图片首先会被拆解成大量视觉Token。这些视觉Token经过神经网络编码后,进入模型内部的语义空间。
为什么AI会一本正经地看错东西
桌子旁边放着一部手机。
于是当视觉信息不够明确时,它会倾向于选择最符合经验的答案。
但现代AI已经不只是猜测
AI不过是在猜。
因为今天的多模态模型已经能够完成很多远超简单识别的任务。AI既在利用统计规律,也在形成越来越复杂的抽象表征。
图像并不是被翻译成文字
图片 → 视觉Token → 统一语义空间 → 推理
真正困难的其实是视频
AI真正缺少的,可能是世界模型
它很可能会掉下去。
所以AI到底看懂图片了吗?
它更像一个从数万亿张图片、视频和文本中成长起来的观察者。
最后留一个问题。
基本
文件
流程
错误
SQL
调试
- 请求信息 : 2026-05-31 17:17:21 HTTP/1.1 GET : https://www.yeyulingfeng.com/a/688661.html
- 运行时间 : 0.143041s [ 吞吐率:6.99req/s ] 内存消耗:4,680.40kb 文件加载:145
- 缓存信息 : 0 reads,0 writes
- 会话信息 : SESSION_ID=5ec3fb5561633a13a1ee75e674074a2e
- CONNECT:[ UseTime:0.000629s ] mysql:host=127.0.0.1;port=3306;dbname=wenku;charset=utf8mb4
- SHOW FULL COLUMNS FROM `fenlei` [ RunTime:0.000845s ]
- SELECT * FROM `fenlei` WHERE `fid` = 0 [ RunTime:0.000310s ]
- SELECT * FROM `fenlei` WHERE `fid` = 63 [ RunTime:0.000300s ]
- SHOW FULL COLUMNS FROM `set` [ RunTime:0.000487s ]
- SELECT * FROM `set` [ RunTime:0.000214s ]
- SHOW FULL COLUMNS FROM `article` [ RunTime:0.000683s ]
- SELECT * FROM `article` WHERE `id` = 688661 LIMIT 1 [ RunTime:0.000450s ]
- UPDATE `article` SET `lasttime` = 1780219041 WHERE `id` = 688661 [ RunTime:0.004557s ]
- SELECT * FROM `fenlei` WHERE `id` = 64 LIMIT 1 [ RunTime:0.000270s ]
- SELECT * FROM `article` WHERE `id` < 688661 ORDER BY `id` DESC LIMIT 1 [ RunTime:0.000476s ]
- SELECT * FROM `article` WHERE `id` > 688661 ORDER BY `id` ASC LIMIT 1 [ RunTime:0.004314s ]
- SELECT * FROM `article` WHERE `id` < 688661 ORDER BY `id` DESC LIMIT 10 [ RunTime:0.001250s ]
- SELECT * FROM `article` WHERE `id` < 688661 ORDER BY `id` DESC LIMIT 10,10 [ RunTime:0.001012s ]
- SELECT * FROM `article` WHERE `id` < 688661 ORDER BY `id` DESC LIMIT 20,10 [ RunTime:0.001146s ]
0.144828s