妙言小智AI图片翻译为什么要做底层技术?

我是Neil，妙言小智（PicTech.cc）的创始人。

我们现在做的妙言小智，是一个面向跨境电商的 AI 图片翻译工具。很多用户对它的直观理解是：上传一张中文商品图，一键翻译成英文、日语、俄语、西班牙语等语言，然后下载结果图。

但在内部，我们从一开始就没有把它当成一个简单的“图片翻译工具”来做。

我们真正想解决的问题是：如何让一张商品图翻译后，仍然是一张专业的电商图。

这也是为什么我们坚持做底层技术。

一、图片翻译不是 OCR + 翻译那么简单

很多人第一次接触图片翻译，会觉得流程无非是：

识别图片里的文字
把文字翻译成目标语言
把译文贴回原图

如果只是做一个demo，这个流程确实能跑通。

但跨境电商商品图不是普通截图。它里面有标题、副标题、卖点标签、按钮、参数表、背景框、图标、产品主体、Logo、包装文字，还有各种渐变、纹理、阴影和装饰元素。

翻译一张商品图，实际要同时解决很多问题：

原文擦除后背景能不能自然修复？
译文变长后会不会撑爆标签？
标题是否还保持原来的视觉层级？
商品主体上的Logo、型号和装饰图案会不会被误翻译？
德语、俄语、法语这种长词语言怎么排？
品牌词和型号怎么保护？
翻译后的图能不能继续在线精修？
批量处理几百张、几千张图片时是否稳定？

所以图片翻译真正难的，不只是“文字有没有翻译出来”，而是翻译后的图能不能真正用于上架、投放和展示。

这就是妙言小智和很多普通图片翻译工具的差别。

二、为什么不能只调用第三方 API？

今天市面上有不少图片翻译工具，用户看起来都能完成“上传图片 -> 翻译图片 -> 下载图片”的流程。

但如果深入看，会发现很多产品更像是对通用图片翻译 API 的封装。这样的方式上手快，前期研发成本低，也能覆盖一些简单场景。

但我们没有选择这条路。

原因很简单：跨境电商图片翻译太垂直了。通用图片翻译 API 往往能解决“把文字翻出来”，但不一定能解决“翻译后仍然是专业商品图”。

举个例子。

一张宠物修毛器商品图，手柄上有蓝色箭头装饰。普通图片翻译系统可能会把这些箭头误识别成文字，甚至在产品主体上生成不该有的英文残影。对商品图来说，这是很严重的问题，因为产品本体被破坏了。

再比如，一个中文橙色标签里只有六个字，翻译成英文后可能变成很长一句。如果系统不理解标签边界、字号、换行和电商文案压缩，结果就会挤在一起，甚至溢出边框。

这些问题无法只靠翻译 API 解决。它需要视觉理解、文本检测、图像擦除、背景修复、排版算法、字体选择、文案压缩和在线编辑共同工作。

所以我们决定做自己的底层技术。

三、我们到底自研了什么？

妙言小智背后有一套自研的 VOKNOV AI 视觉引擎。

这里面包括几类核心能力。

第一是排版分析模型。它需要理解图片中哪些是标题，哪些是卖点标签，哪些是正文说明，哪些区域属于商品主体，哪些文字应该翻译，哪些文字应该保护。

第二是智能排版算法。翻译后的文字长度和原文往往不一样。系统要重新计算字号、换行、对齐方式、行距、边距和视觉层级，让结果尽可能接近原图设计。

第三是智能擦除与背景修复模型。图片翻译不是简单盖一块白底。很多电商图有渐变、纹理、实物背景和复杂光影，擦除原文后必须尽量自然修复背景。

第四是面向电商场景的 OCR 和翻译模型。普通 OCR 对电商图里的小字、弯曲文字、装饰字体、标签文字不一定稳定。普通翻译模型也经常把卖点翻成很生硬的直译。我们针对电商图片场景做了OCR和文字翻译方向的定制与优化。

第五是在线精修编辑器。AI 一次成图很重要，但正式上架前，很多用户仍然需要改品牌词、改卖点、局部恢复产品文字、擦除残留内容。我们希望用户不需要打开 Photoshop，也能完成最后 5% 的人工精修。

四、为什么我们特别重视“一次成图率”？

很多跨境卖家每天要处理的不只是一张图，而是几十张、几百张，甚至几千张商品图。

如果每张图翻译后都要人工大修，这个工具就没有真正提高效率。

所以我们内部一直很看重一个指标：一次成图率。

所谓一次成图率，不是说 AI 生成的每张图都完美，而是说用户上传图片后，系统生成的第一版结果是否已经足够接近可用状态。

用户不需要大量修图，只需要做少量复核或微调，就能用于上架、详情页、多语言店铺或广告素材。

过去一段时间，很多用户给客服反馈，说妙言小智的排版更自然，图更好看，大多数图基本不用修，直接可以用。也有用户拿我们的结果和其他图片翻译工具对比，发现妙言小智在复杂商品图、卖点标签、长句排版、产品主体保护方面更稳定。

这些反馈对我们非常重要。因为它说明底层技术投入真的转化成了用户可感知的价值。

五、团队为什么能做这件事？

妙言小智不是一个纯运营型团队。

我们的核心团队来自百度、网易、阿里等公司，既有 AI 和工程系统经验，也有电商和商业化经验。

我自己之前在百度和网易做过多年技术管理和商业化系统，长期在人工智能、广告系统、推荐系统和深度学习方向工作。我们的其中一位联合创始人负责过阿里考拉海购的产品研发，经历过从早期到成长为中国第一跨境电商平台的全过程，对跨境电商卖家业务有很深理解。还有一位联合创始人之前是网易算法工程负责人，做过AI基础设施相关工作，对算法工程化和系统稳定性非常熟悉。

所以我们团队有一个特点：既懂 AI 技术，也懂电商业务，还懂如何把技术做成可用的产品。

这也是为什么我们不只是做一个简单图片工具，而是一直在往底层能力和工程系统上投入。

六、底层技术不是为了炫技，而是为了让用户少修图

我一直觉得，创业公司做底层技术要非常谨慎。

不是所有事情都值得自研。能用成熟第三方能力解决的问题，就不应该为了“自研”而自研。

但图片翻译这个场景，我们判断它值得做底层技术，原因是用户最终要的不是一个“流程完成”的结果，而是一张真正能用的图。

如果用户每次还要花大量时间修图，那工具本身的价值就会打折。

所以我们做底层技术不是为了写在 PPT 上，而是为了让用户看到：

商品图翻译后排版更自然
页面元素忠于原图设计意图
产品主体不容易被误伤
长句不会随便溢出
翻译结果更符合电商表达
大批量图片处理更稳定
出图后还能继续精修

这些才是用户真正关心的。

七、为什么我们还要做开源？

最近我们也开始把部分底层模块开源出来，比如 VOKNOV Font Match。

这是一个用于跨语言字体风格匹配的开源项目。它解决的问题是：当中文字体不支持英文、德文、法文等目标语言时，如何找到一个视觉风格接近的替代字体。

这个问题看起来很小，但对图片翻译和图片编辑都很重要。

我们开源这类模块，是希望把妙言小智背后的一些技术积累开放给社区，也希望和更多做图片翻译、自动化设计、多语言排版的开发者交流。

国内真正深入做电商图片翻译底层技术的团队并不多，我们希望 VOKNOV 能逐步成为这个方向里一个有辨识度的技术品牌。

八、未来我们会继续做什么？

接下来，妙言小智会继续围绕跨境电商图片翻译这件事做深。

我们不会把目标停留在“能把图片里的文字翻译出来”，而是会持续关注用户真正关心的结果：翻译后的商品图是否专业、是否美观、是否能直接用于上架、投放和多语言店铺运营。

对跨境卖家来说，好的图片翻译工具不应该增加新的修图负担，而应该减少重复劳动，让团队把时间花在选品、运营、投放和增长上。

所以未来我们会继续提升产品的稳定性、易用性和成图质量，也会围绕批量处理、团队协作和企业级工作流，提供更适合真实业务场景的能力。

虽然名字叫“图片翻译”，但我们希望妙言小智代表的是：更适合跨境电商的 AI 图片翻译，更高的一次成图率，更专业的商品图视觉效果，以及更省心的图片本地化流程。

这也是我们坚持做底层技术的原因。

关于作者：蒋能学 Neil

妙言小智AI创始人，VOKNOV Neural Engine 首席架构师。
17年互联网技术老兵，曾任网易云音乐高级技术总监、百度国际广告平台负责人。
深度学习框架 PineNut 作者，主导40余项技术发明专利。
毕业于美国马里兰大学。比起流量的喧嚣，更相信底层逻辑的力量。