
在当前企业服务多元化的背景下,商户的资质审核正面临审核复杂度提升等多重问题。一方面,商户入驻申请量持续攀升,亟需高效、可扩展的自动化审核能力支撑规模化运营;另一方面,监管合规与风控要求日益严格,仅依赖营业执照等基础证照已难以全面、真实地反映企业的实际经营状况。
基于此,商户入驻不仅需提交营业执照等基础资质文件,还需提供多类经营性佐证材料(如门头照片、操作间实拍、设备设施图、经营数据)等以验证其真实经营能力。这些非结构化图像信息,虽能有效验证企业真实经营能力,但其内容多样、格式不一,传统规则引擎或单一OCR技术难以准确解析与理解。
为此,需构建一个自动化的经营性信息识别与核验流程。中信百信银行通过大模型实现对非结构化图像的智能解析与风险控制,提升审核效率。
具体应用方案如下:
-经营性图片智能提取:从"看图说话"到"理解业务"
正常进件审核人员需人工比对上传的经营场所图片、设备设施图、卫生许可证明等材料,效率低且主观性强。如今借助多模态大模型,系统可自动分析不同类型的经营性图片:
·经营场所实景照片:通过视觉识别门头标识、内部布局、操作区域,判断是否具备真实营业条件。
·设备设施照片:识别关键生产设备型号、数量及状态,辅助验证企业产能与业务匹配度。
·经营数据:自动解析营收数据、客户评价、店铺等级等,提取结构化经营指标,形成对企业运营健康度的评估。
通过构建以大模型为核心的智能审核基础能力,融合多模态理解与结构化信息抽取能力,实现对经营性图片的自动语义解析与风险识别。
(一)系统时序

(二)核心业务流程

(三)关键功能
1. 多模态平台设计
·多模态平台支持根据适配场景配置该场景下提示词,并在新增/修改/删除提示词后进行训练和测试验证。
提示词示例:作为一个图片标注员,请告诉我上述图片中的信息。我需要的信息和要求如下:
✅店铺名称
✅店铺状态
✅商家资质,可能是企业名称或者统一社会信用代码
✅所属平台:例如抖音、快手、视频号、天猫
✅店铺ID:可能是抖音号,视频号,店铺ID
✅销量:可能是累计销量
✅店铺经营时长。
请根据要求提取图片中的数据,如果图片中不包含该数据,则返回空;请以markdown的JSON形式输出结果且只返回JSON。
·提供查询申请和查询结果接口:根据查询订单号查询该查询申请的返回结果,返回结果状态和提示词。
2.经营性文件识别与提取
·支持识别客户上传的压缩包(.zip/.rar)中是否包含经营性图片。
·自动解压并提取其中图像文件。
·支持识别命名规范文件(如ok文件)作为有效文件标识。
3.AI模型识别能力
·图片自动上传至影像平台并保存URL,供后续调用。
·支持对多种经营性图片进行智能识别:
✅门头/内部布局:识别店铺名称、地址、营业状态。
✅设备设施:识别设备型号、数量、使用状态。
✅卫生/安全证明:提取有效期、发证单位、编号。
✅数据图表:解析营收趋势图、饼图、增长曲线等,提取关键数值。
·输出结构化识别结果,支持后续审核判断。
4. 审核决策辅助
·对关键经营信息设置“强制验证”策略,未通过则阻断进件。
·识别结果展示于后台系统,辅助人工复核。
-AI实践项目价值
通过多模态融合对图像内容的理解与上下文关联分析,不仅可显著提升审核自动化率,降低人工干预成本,更能将碎片化的佐证材料转化为结构化的企业经营数据,为后续商户精细化管理等服务提供数据基础。该应用可将原需人工介入的60%的工作量实现自动处理。按日均550笔进件、15%转人工比例计算,每日可减少约82笔人工审核,节约450分钟(7.5小时)人力成本,企业平均入驻时效缩短60%。审核能力的增强为平台承接更大规模商户入驻奠定了技术基础。
-思考:应用尚存局限性
多模态融合在企业审核场景中虽展现出强大潜力,但其实际落地仍面临若干关键局限性,尤其在高合规、高准确率要求的对公业务审核中,需谨慎评估与应对。以下是主要的局限性:
·模型在真实场景中表现不稳定,误判率高,反而增加人工复核负担。
·表面信息看似匹配,实则存在实质性造假风险,AI难以识别“合理但虚假”的材料组合。
·在强监管环境下,平台可能因“过度依赖AI”而承担合规风险,反而不敢全面自动化。
因此,多模态融合并非审核场景的“银弹”,其价值应聚焦于人机协同而非完全替代。具体而言:
·定位为人工辅助工具:以提升审核效率与一致性为目标,而非追求端到端自动化。
·优先部署于高价值子任务:如标准化程度高、风险可控的环节(例如门头文字识别、票据类型判断、图表结构解析等)。
·构建闭环优化机制:建立“AI初筛→人工复核→反馈标注→模型迭代”的持续学习闭环,逐步提升系统可靠性与业务适配性。
通过理性定位技术边界、强化人机协同流程,方能在合规前提下释放多模态融合的真实效能。
夜雨聆风