
有一个变化正在悄悄发生,但很多做内容的人还没反应过来。
Google的AI Overview已经不只是在读文字了。它在看图片,在处理视频内容,在理解一张截图里的信息,在从一段教程视频的字幕里提取关键步骤。搜索正在从"文字匹配"变成"多模态理解",而大多数人的GEO优化策略还停留在纯文字层面。
我去年做了一个实验:同样的内容,纯文字版本和配合结构化图片、视频字幕优化的版本,在AI Overview里的引用频率有明显差异。这个差异在某些查询类型上大得让我有些意外。
今天把这件事系统梳理一遍。
先理解多模态AI搜索在做什么
要优化,先要搞清楚优化的对象是什么。
多模态AI搜索,简单说就是AI不再只处理文字,而是同时理解文字、图片、音频、视频多种形式的内容,并且能在这几种形式之间建立关联。
Google在这个方向上的推进速度比很多人预期的快。Google Lens已经能做到拍一张图片直接搜索相关内容;AI Overview在回答某些问题时开始引用视频片段;Gemini模型本身就是多模态设计,文字和图像在同一个理解框架里处理。
这对内容创作者意味着什么?
意味着你的图片和视频,现在也是可以被AI"读取"并引用的内容资产,而不只是页面上的装饰或者用来提升用户体验的辅助元素。
但这里有一个关键问题:AI是怎么"读"图片和视频的?
对于图片,AI主要依赖几个信号:图片的alt text、图片周围的文字上下文、图片的文件名、页面的整体主题、以及图片本身的视觉内容(通过计算机视觉模型分析)。
对于视频,AI主要依赖:视频字幕(transcript)、视频标题和描述、视频周围的文字说明、以及视频平台上的元数据。
这几个信号,就是GEO优化在多模态层面的切入点。
图片的GEO优化:让AI真正"读懂"你的图片
先说图片,因为这是大多数文章都有的元素,但绝大多数人在这个维度上的优化几乎为零。
Alt Text不是写给搜索引擎的,是写给AI理解上下文的
很多人对alt text的理解还停留在"放关键词"这个层面,要么完全不写,要么写一个关键词堆砌的短语。这两种做法在多模态AI时代都是低效的。
Alt text的正确写法是:用一句完整的话,描述这张图片在当前语境下的含义。
举个例子。如果你的文章在讲"如何设置Google Search Console",文章中有一张截图显示了GSC的添加资产页面。
差的alt text:Google Search Console设置
好的alt text:Google Search Console添加资产页面,显示域名属性和URL前缀两种验证方式的选择界面
区别在哪里?好的alt text告诉AI这张图片传达的具体信息是什么,不只是"这是关于什么的图片",而是"这张图片在告诉用户什么"。当AI在组织回答的时候,它能从这个描述里提取有用的信息,而不只是一个标签。
图片要承载独立信息,而不只是装饰
这一点更根本。如果你的图片去掉之后,文章信息量没有任何损失,那这张图片对GEO几乎没有贡献。
对AI真正有价值的图片是那些承载了文字没有表达的信息的图片:
数据可视化图表(把复杂数据关系直观呈现) 操作流程的截图(展示具体的操作步骤) 对比图(两种方案的视觉对比) 实物或产品的细节展示(文字很难精确描述的视觉信息)
这类图片,AI在理解页面内容时会把它当作有效信息节点,而不是忽略掉的噪音。
图片周围的文字是关键上下文
AI理解一张图片,不只是看图片本身,还会看图片前后的文字。图片下方的说明文字(caption)是被严重低估的优化点。
一张图片如果没有说明文字,AI只能依赖alt text和周围的段落来判断这张图片的含义。但如果有一句清晰的说明文字,比如"上图展示了启用自动广告之后,广告位分布的典型样式",AI对这张图片的理解准确度会大幅提升。
养成给每张有实质内容的图片写说明文字的习惯,不需要很长,一句话足够。
视频的GEO优化:字幕是核心资产
视频的情况比图片更复杂一点,因为视频本身是时序内容,AI处理视频的方式和处理图片不同。
目前阶段,AI处理视频内容最主要的方式是通过字幕(transcript)提取文字信息。这意味着:你的视频有没有高质量的字幕,直接决定了这个视频能不能被AI有效理解和引用。
字幕质量是第一优先级
YouTube的自动字幕功能已经相当准确,但对于专业内容来说,自动字幕会有两个问题:专业术语错误、以及没有标点符号导致可读性差。
手动上传字幕文件(SRT格式)是目前最有效的做法。这不只是对AI友好,对用户体验和YouTube的搜索排名本身也有帮助。如果你在YouTube上有内容,把核心视频的字幕做好,这是投入产出比很高的优化动作。
对于嵌入在网站里的视频,在视频下方提供完整的文字版(transcript)是另一个有效策略。AI在处理页面内容时,能从这段文字里提取和视频相关的信息。这段文字同时也对普通SEO有帮助——它增加了页面的文字内容,而且是和视频高度相关的结构化内容。
视频结构要便于AI提取关键信息
AI在处理长视频的时候,并不是平均权重地看每一秒。它会特别关注几个位置:开头的内容概述、章节标题(如果有)、以及明确说出结论或关键信息的段落。
这对视频内容的创作有一个实际的指导意义:在视频开头用30秒到1分钟,清楚说明这个视频要解决什么问题、会讲哪些关键点。这段内容被AI提取到的概率最高。
YouTube现在支持在视频描述里添加章节时间戳,这不只是帮助用户导航,也帮助AI理解视频的结构和每个章节的主题。如果你的视频超过5分钟,加章节时间戳是标配动作。
视频和文章的内容要形成互补,而不是重复
一个常见的做法是:把视频里讲的所有内容,原封不动地写成一篇文章。这在用户体验上没有大问题,但在GEO优化上是低效的。
更好的做法是让视频和文章形成分工:文章提供可以快速扫描的结构化信息、可以复制的代码或命令、详细的数据和引用来源;视频提供操作演示、真实使用场景、更有温度的解释。这样两种内容都有独立的价值,AI在引用的时候也能区分出哪种形式更适合回答哪类问题。
GEO优化的多模态思维框架
把上面的内容整合成一个实际可用的框架。
在创作任何一篇内容之前,先问自己三个问题:
这篇内容里,哪些信息用图片表达比文字更高效? 流程、对比、数据、截图演示——这些优先考虑用图片呈现,并且确保每张图片都有清晰的alt text和说明文字。
这篇内容有没有适合做成视频的部分? 操作演示、需要展示动态过程的内容、需要语气和表情辅助理解的内容——这些适合视频。如果做了视频,确保字幕质量、添加章节、在文章里嵌入并附上transcript。
文字、图片、视频三种形式的内容,有没有形成互补? 检查是否有重复,更重要的是检查是否有信息真空——有些信息既没有在文字里说清楚,图片和视频里也没有覆盖到。
这个框架不复杂,但执行层面需要在内容创作的时候就考虑进去,而不是发布之后再来打补丁。
一个诚实的提醒
多模态GEO优化现在还处于早期阶段,很多信号的权重和具体机制并不完全透明。我在这里分享的,是基于现有公开信息和实际测试得出的判断,不是百分之百确定的结论。
但有一件事是确定的:搜索正在变得越来越多模态,内容的形式多样性迟早会成为影响可见度的重要因素。现在开始建立这个习惯,比等到这件事完全清晰再行动,要早至少一到两年。
在技术变化的早期阶段,方向对比执行完美更重要。
写在最后
文字依然是内容的骨架,但骨架上的血肉正在变得更丰富。
图片不只是让文章好看,视频不只是增加停留时间。在多模态AI搜索的框架下,它们是独立的信息载体,是可以被AI理解、引用、呈现给用户的内容资产。
把这件事想清楚,内容创作的思路会打开一些。
夜雨聆风