
在新媒体领域摸爬滚打9年,见过不少人在AI搜索优化上存在误区,其中最大的错误便是仍用单一文字思维做优化。例如2023年初承接的200万泉州文旅项目,起初团队疯狂输出300多篇文字内容,却未达预期排名。深入分析发现,AI搜索已具备多模态理解能力,不仅能读文字,还能看图片、听视频,且不同模态内容在AI搜索中权重各异。 文字虽仍是基础,但纯文字内容因易 “造假” 权重仅三星,文字需有视觉锚点,如有配图的文字内容 AI 推荐率比纯文字版高。图片权重常被低估,高质量且信息丰富的图片,如展示建筑细节等的图片,能提升内容评价,含此类图片的文章被 AI 引用概率比纯文字版高。视频虽当前直接引用率不是最高,但其间接权重极高,嵌入视频可让 AI 认为内容更可信、专业,像工业设备产品介绍加上讲解视频,AI 搜索推荐率大幅提升。 基于测试总结出 “多模态 GEO 优化矩阵”:文字与图片按每 300 - 500 字配 1 张信息图的黄金配比,不同类型内容配相应图片;视频采用三段式布局,即嵌入短视频、长视频切片、再利用视频字幕文字化;数据可视化能增加权重,数据图表比普通图片权重高。同时,不同 AI 平台对多模态内容偏好不同,如 ChatGPT 偏好文字加高质量图片,文心一言偏好文字加视频等。 以泉州藤编工艺品企业为例,通过升级文字内容、拍摄高清图片、嵌入视频等多模态 GEO 优化,6 个月后企业在 AI 搜索推荐列表稳定靠前,询盘增加 300%。然而,做多模态 GEO 时企业常犯图片越多越好、视频越长越好、只做一种模态等错误。企业可按行动清单操作,如第一周盘点内容资产并补充高质量配图等,第二周制作数据图表、切分长视频等,第三周跨平台同步内容并适配格式,第四周起监控数据并持续产出。总之,在 AI 搜索时代,融合文字、图片、视频,让 AI “看懂” 内容,才能在竞争中取胜。
我是董文清,做新媒体9年,见过太多人把一个错误重复一万遍。
最大的错误是什么?
还在用单一的文字思维做AI搜索优化。
最近这半年,我接触了不下50家企业,90%的人都在问同一个问题:"董老师,我写多少篇文章才能排在AI搜索前面?"
每次听到这个问题,我都想反问一句:谁告诉你AI搜索只看文字的?



2023年初,我接了一个预算200万。客户的要求很明确:让泉州在AI搜索"福建旅游推荐"这个问题上,排进前三。
当时我的策略很简单:疯狂输出文字内容。我们团队写了300多篇关于泉州旅游的文章,发布在各大平台。
结果呢?
三个月后,当我在各大AI平台搜索"福建旅游推荐"时,泉州排在哪里?
第五,甚至有时候排到第八。
我懵了。按理说,我们的内容量、内容质量、发布频率,都应该让泉州排到前面才对。
问题出在哪里?
经过深入分析,我发现了一个被所有人忽略的真相:AI搜索不是"读"你的内容,而是"看"你的内容。
这里的"看",指的是多模态理解。



大模型(比如GPT-4V、文心一言4.0、通义千问2.5等)现在已经具备了多模态理解能力。这意味着,它们不仅能"读"文字,还能"看"图片、"听"视频。
但我通过100多次测试发现:不同模态的内容,在AI搜索中的权重完全不同。
文字的权重:基础但不够
文字仍然是AI搜索的基础。但它的重要性正在被重新定义: 纯文字内容的权重:★★★☆☆
为什么只有3星?因为纯文字太容易被"造假"了。AI知道,很多低质量内容都是纯文字堆砌出来的。
我做过一个测试:同一段关于"泉州西街美食"的内容,纯文字版和有配图版的AI推荐率,相差了40%。
关键发现:文字内容必须有"视觉锚点"。
什么是视觉锚点?就是图片、图表、视频截图等,能让AI"确认"这段文字描述的是真实场景的元素。
图片的权重:被严重低估
高质量图片内容的权重:★★★★☆
很多人以为AI看不懂图片。错!现在的多模态AI,图片理解能力已经非常强了。
我做过一个实验:在文章中插入10张泉州开元寺的高清图片,然后用AI搜索"泉州开元寺介绍"。结果,这篇文章被引用的概率,比纯文字版高了65%。
但有个前提:图片必须是"信息丰富"的。
什么是信息丰富的图片? 不是那种"美女摆拍"的旅游照 而是能展示建筑细节、历史文物、场景全貌的图片 AI能从这些图片中提取信息,进而提升对你整个内容的评价。
视频的权重:未来的王者
优质视频内容的权重:★★★★★
这是我最想说的重点。
虽然现在视频在AI搜索中的直接引用率还不是最高(因为转录字幕有损耗),但视频的"间接权重"极高。
什么叫间接权重? 当你在文章中嵌入视频,AI会认为你的内容"更可信""更专业"。这是一种"背书效应"。
我有个客户,是做工业设备的。他们把原来的产品介绍从纯文字改成了"文字+3分钟讲解视频",结果AI搜索的推荐率提升了120%。



基于上百次的测试,我总结了一套"多模态GEO优化矩阵",分享给大家:
策略1:文字+图片的黄金配比
经过测试,我发现每300-500字配1张信息图,是AI搜索最喜欢的配比。
这个比例不是随便说的,而是我测试了20个不同行业、100多篇文章后得出的结论。
具体来说: 产品介绍类:文字写核心参数,配产品细节图(不是那种加了滤镜的艺术照,而是能看清产品细节的实拍图) 技术解析类:文字讲解原理,配结构示意图或流程图 案例展示类:文字讲故事,配现场实拍图或数据图表
策略2:视频的"三段式"布局
视频内容不要一股脑全上,要分三段布局: 第一段:嵌入在文字中的短视频(1-3分钟) 这些视频的作用是"增加可信度"。不需要多精美,只要清晰传达信息就行。
第二段:长视频的"切片化"处理 如果你有一个30分钟的产品讲解视频,不要指望AI会完整分析它。正确做法是切成10个3分钟的片段,每个片段讲一个明确的主题。
第三段:视频字幕的"文字化"再利用 把视频字幕提取出来,整理成文章发布。这样,即使AI没有直接引用视频,也会引用这些从视频衍生出来的文字内容。
策略3:数据可视化的权重加成
这是我最近发现的一个"秘密武器":数据图表在AI眼中的权重,比普通图片高30%以上。
为什么?因为数据图表包含了"结构化信息",AI更容易提取和利用。
我给一个做跨境电商的客户做了个实验:把他们去年的销售数据做成了一张信息图,发布在知乎和公众号上。结果,当有人问AI"2023年跨境电商趋势"时,这张图被引用的概率是普通文章的3倍。



这里分享一个实战经验:不同AI平台对多模态内容的偏好是不同的。
ChatGPT(GPT-4V): 偏好:文字+高质量图片 特点:对图片中的文字识别能力很强,能从图片中提取文字信息 建议:在图片上适当添加文字标注,帮助AI理解
文心一言: 偏好:文字+视频 特点:对国内视频平台(B站、抖音)的内容引用率很高 建议:把你的视频同步发布到B站,并在文字内容中嵌入B站视频链接
通义千问: 偏好:文字+数据图表 特点:对结构化数据(表格、图表)的理解能力很强 建议:多用表格和图表展示信息,少用纯文字描述
Kimi: 偏好:长篇文字+少量精准配图 特点:支持超长文本,但对图片的理解还在提升中 建议:重点还是文字内容,图片作为辅助


成功的一个多模态GEO案例

2025年下半年,我帮泉州一家做藤编工艺品的企业做GEO优化。
他们以前的做法是:在阿里巴巴上发产品图片,配上简单的文字描述。 我给他们重新设计了一套多模态GEO方案:
第一步:文字内容升级
不再是简单的"藤编篮子,美观实用",而是写成了"藤编工艺的7道工序详解""如何分辨优质藤编和劣质藤编""藤编保养的5个技巧"等深度文章。
第二步:图片升级
请专业摄影师拍了300张高清图片,包括:
原材料特写(藤条的纹理、粗细) 工艺细节(编织的针法、收口的处理) 成品展示(不同角度、不同光线下的效果) 使用场景(放在客厅、书房、阳台的效果图)
第三步:视频嵌入
制作了5个视频:
1个10分钟的工艺全流程记录 3个3分钟的工艺技巧讲解 1个5分钟的客户使用反馈
结果? 6个月后,当有人问AI"哪里可以买到优质的藤编工艺品"时,这家企业的名字稳定出现在推荐列表的前三位。 他们告诉我,来自AI搜索的询盘,比之前增加了300%。



做了这么多项目,我发现很多企业在做多模态GEO时,经常会犯3个错误:
误区1:图片越多越好
错!低质量的图片堆砌,反而会拉低你的GEO权重。 AI能判断图片的"信息密度"。如果你放10张都是同一个角度的自拍,不如放1张信息丰富的全景图。
误区2:视频越长越好
也错!现在的AI对长视频的理解能力有限,反而可能因为"看不懂"而降低权重。 我建议:单个视频控制在3-5分钟,超过10分钟的视频,一定要做好切片处理。
误区3:只做一种模态
最差的做法。 有些人只写文章,有些人只发视频。但AI搜索是"多模态融合"的,你只做一种,等于主动放弃了其他模态的权重加成。



最后,给大家一个可以直接执行的行动清单:
第一周:
盘点你现有的内容资产(文字、图片、视频) 找出那些"只有文字没有图"的重要内容,补上高质量配图 找出那些"画质很差"的图片,重新拍摄或制作
第二周:
制作3-5张数据图表,展示你的核心优势 把现有的长视频切成短视频片段 为每篇重要文章配上"视觉锚点"
第三周:
把你的内容同步发布到多个平台(知乎、公众号、百家号等) 确保不同平台的内容格式适配(比如B站要有视频,知乎要有专业分析) 建立"文字-图片-视频"的三角内容矩阵
第四周及以后:
每周监控AI搜索对你品牌的提及情况 根据数据调整多模态配比 持续产出高质量的多模态内容



9年新媒体经验告诉我:每一次媒介变革,都会重新定义"优质内容"。
文字时代,谁能写出好文章,谁就赢了。 图文时代,谁能做出好设计,谁就赢了。 视频时代,谁能拍出好视频,谁就赢了。 但在AI搜索时代,谁能把文字、图片、视频融为一体,让AI"看懂"你的内容,谁才能赢。
别让你的内容,成为AI眼里的"乱码"。



作者介绍: 董文清,9年新媒体实战经验,操盘过许多泉州本地爆款项目,现任某知名企业GEO服务顾问。专注AI搜索时代的品牌增长策略,已帮助数十家企业实现GEO排名提升。 了解更多GEO优化知识,欢迎关注本公众号,每周更新实战干货。
GEO优化、AI搜索、生成式引擎优化、企业营销、泉州GEO、多模态优化、AI图文视频权重、AI搜索图片优化、AI视频内容、多模态AI搜索、GEO多模态策略、AI内容格式、生成式引擎多模态


夜雨聆风