多模态AI搜索来了:图片、视频如何融入GEO优化策略?

这是三木公众号的第325篇原创文章

有一个变化正在悄悄发生，但很多做内容的人还没反应过来。

Google的AI Overview已经不只是在读文字了。它在看图片，在处理视频内容，在理解一张截图里的信息，在从一段教程视频的字幕里提取关键步骤。搜索正在从"文字匹配"变成"多模态理解"，而大多数人的GEO优化策略还停留在纯文字层面。

我去年做了一个实验：同样的内容，纯文字版本和配合结构化图片、视频字幕优化的版本，在AI Overview里的引用频率有明显差异。这个差异在某些查询类型上大得让我有些意外。

今天把这件事系统梳理一遍。

先理解多模态AI搜索在做什么

要优化，先要搞清楚优化的对象是什么。

多模态AI搜索，简单说就是AI不再只处理文字，而是同时理解文字、图片、音频、视频多种形式的内容，并且能在这几种形式之间建立关联。

Google在这个方向上的推进速度比很多人预期的快。Google Lens已经能做到拍一张图片直接搜索相关内容；AI Overview在回答某些问题时开始引用视频片段；Gemini模型本身就是多模态设计，文字和图像在同一个理解框架里处理。

这对内容创作者意味着什么？

意味着你的图片和视频，现在也是可以被AI"读取"并引用的内容资产，而不只是页面上的装饰或者用来提升用户体验的辅助元素。

但这里有一个关键问题：AI是怎么"读"图片和视频的？

对于图片，AI主要依赖几个信号：图片的alt text、图片周围的文字上下文、图片的文件名、页面的整体主题、以及图片本身的视觉内容（通过计算机视觉模型分析）。

对于视频，AI主要依赖：视频字幕（transcript）、视频标题和描述、视频周围的文字说明、以及视频平台上的元数据。

这几个信号，就是GEO优化在多模态层面的切入点。

图片的GEO优化：让AI真正"读懂"你的图片

先说图片，因为这是大多数文章都有的元素，但绝大多数人在这个维度上的优化几乎为零。

Alt Text不是写给搜索引擎的，是写给AI理解上下文的

很多人对alt text的理解还停留在"放关键词"这个层面，要么完全不写，要么写一个关键词堆砌的短语。这两种做法在多模态AI时代都是低效的。

Alt text的正确写法是：用一句完整的话，描述这张图片在当前语境下的含义。

举个例子。如果你的文章在讲"如何设置Google Search Console"，文章中有一张截图显示了GSC的添加资产页面。

差的alt text：Google Search Console设置

好的alt text：Google Search Console添加资产页面，显示域名属性和URL前缀两种验证方式的选择界面

区别在哪里？好的alt text告诉AI这张图片传达的具体信息是什么，不只是"这是关于什么的图片"，而是"这张图片在告诉用户什么"。当AI在组织回答的时候，它能从这个描述里提取有用的信息，而不只是一个标签。

图片要承载独立信息，而不只是装饰

这一点更根本。如果你的图片去掉之后，文章信息量没有任何损失，那这张图片对GEO几乎没有贡献。

对AI真正有价值的图片是那些承载了文字没有表达的信息的图片：

数据可视化图表（把复杂数据关系直观呈现）
操作流程的截图（展示具体的操作步骤）
对比图（两种方案的视觉对比）
实物或产品的细节展示（文字很难精确描述的视觉信息）

这类图片，AI在理解页面内容时会把它当作有效信息节点，而不是忽略掉的噪音。

图片周围的文字是关键上下文

AI理解一张图片，不只是看图片本身，还会看图片前后的文字。图片下方的说明文字（caption）是被严重低估的优化点。

一张图片如果没有说明文字，AI只能依赖alt text和周围的段落来判断这张图片的含义。但如果有一句清晰的说明文字，比如"上图展示了启用自动广告之后，广告位分布的典型样式"，AI对这张图片的理解准确度会大幅提升。

养成给每张有实质内容的图片写说明文字的习惯，不需要很长，一句话足够。

视频的GEO优化：字幕是核心资产

视频的情况比图片更复杂一点，因为视频本身是时序内容，AI处理视频的方式和处理图片不同。

目前阶段，AI处理视频内容最主要的方式是通过字幕（transcript）提取文字信息。这意味着：你的视频有没有高质量的字幕，直接决定了这个视频能不能被AI有效理解和引用。

字幕质量是第一优先级

YouTube的自动字幕功能已经相当准确，但对于专业内容来说，自动字幕会有两个问题：专业术语错误、以及没有标点符号导致可读性差。

手动上传字幕文件（SRT格式）是目前最有效的做法。这不只是对AI友好，对用户体验和YouTube的搜索排名本身也有帮助。如果你在YouTube上有内容，把核心视频的字幕做好，这是投入产出比很高的优化动作。

对于嵌入在网站里的视频，在视频下方提供完整的文字版（transcript）是另一个有效策略。AI在处理页面内容时，能从这段文字里提取和视频相关的信息。这段文字同时也对普通SEO有帮助——它增加了页面的文字内容，而且是和视频高度相关的结构化内容。

视频结构要便于AI提取关键信息

AI在处理长视频的时候，并不是平均权重地看每一秒。它会特别关注几个位置：开头的内容概述、章节标题（如果有）、以及明确说出结论或关键信息的段落。

这对视频内容的创作有一个实际的指导意义：在视频开头用30秒到1分钟，清楚说明这个视频要解决什么问题、会讲哪些关键点。这段内容被AI提取到的概率最高。

YouTube现在支持在视频描述里添加章节时间戳，这不只是帮助用户导航，也帮助AI理解视频的结构和每个章节的主题。如果你的视频超过5分钟，加章节时间戳是标配动作。

视频和文章的内容要形成互补，而不是重复

一个常见的做法是：把视频里讲的所有内容，原封不动地写成一篇文章。这在用户体验上没有大问题，但在GEO优化上是低效的。

更好的做法是让视频和文章形成分工：文章提供可以快速扫描的结构化信息、可以复制的代码或命令、详细的数据和引用来源；视频提供操作演示、真实使用场景、更有温度的解释。这样两种内容都有独立的价值，AI在引用的时候也能区分出哪种形式更适合回答哪类问题。

GEO优化的多模态思维框架

把上面的内容整合成一个实际可用的框架。

在创作任何一篇内容之前，先问自己三个问题：

这篇内容里，哪些信息用图片表达比文字更高效？ 流程、对比、数据、截图演示——这些优先考虑用图片呈现，并且确保每张图片都有清晰的alt text和说明文字。

这篇内容有没有适合做成视频的部分？ 操作演示、需要展示动态过程的内容、需要语气和表情辅助理解的内容——这些适合视频。如果做了视频，确保字幕质量、添加章节、在文章里嵌入并附上transcript。

文字、图片、视频三种形式的内容，有没有形成互补？ 检查是否有重复，更重要的是检查是否有信息真空——有些信息既没有在文字里说清楚，图片和视频里也没有覆盖到。

这个框架不复杂，但执行层面需要在内容创作的时候就考虑进去，而不是发布之后再来打补丁。

一个诚实的提醒

多模态GEO优化现在还处于早期阶段，很多信号的权重和具体机制并不完全透明。我在这里分享的，是基于现有公开信息和实际测试得出的判断，不是百分之百确定的结论。

但有一件事是确定的：搜索正在变得越来越多模态，内容的形式多样性迟早会成为影响可见度的重要因素。现在开始建立这个习惯，比等到这件事完全清晰再行动，要早至少一到两年。

在技术变化的早期阶段，方向对比执行完美更重要。

写在最后

文字依然是内容的骨架，但骨架上的血肉正在变得更丰富。

图片不只是让文章好看，视频不只是增加停留时间。在多模态AI搜索的框架下，它们是独立的信息载体，是可以被AI理解、引用、呈现给用户的内容资产。

把这件事想清楚，内容创作的思路会打开一些。

推荐阅读

Google官方推荐了我写的Adsense文章

年营收过亿的出海企业主动找我做SEO

GEO优化：2026年最完整的新手入门实战手册

Google SEO：2026年零基础全流程实战手册

本地SEO优化：深度解析关键词策略的完整闭环

站群SEO策略：如何避免Google的关联惩罚

SEO优化：这些新手法让我网站流量起飞

YouTube SEO：与网站流量联动的视频营销

JavaScript渲染SEO：2026技术选型最佳实践

AI自动化站群：一人管30个站，2026破局之道

关注三木，每天收获一点成长👇