我是Neil,妙言小智(PicTech.cc)的创始人。
我们现在做的妙言小智,是一个面向跨境电商的 AI 图片翻译工具。很多用户对它的直观理解是:上传一张中文商品图,一键翻译成英文、日语、俄语、西班牙语等语言,然后下载结果图。
但在内部,我们从一开始就没有把它当成一个简单的“图片翻译工具”来做。
我们真正想解决的问题是:如何让一张商品图翻译后,仍然是一张专业的电商图。
这也是为什么我们坚持做底层技术。
一、图片翻译不是 OCR + 翻译那么简单
很多人第一次接触图片翻译,会觉得流程无非是:
识别图片里的文字
把文字翻译成目标语言
把译文贴回原图
如果只是做一个demo,这个流程确实能跑通。
但跨境电商商品图不是普通截图。它里面有标题、副标题、卖点标签、按钮、参数表、背景框、图标、产品主体、Logo、包装文字,还有各种渐变、纹理、阴影和装饰元素。
翻译一张商品图,实际要同时解决很多问题:
原文擦除后背景能不能自然修复?
译文变长后会不会撑爆标签?
标题是否还保持原来的视觉层级?
商品主体上的Logo、型号和装饰图案会不会被误翻译?
德语、俄语、法语这种长词语言怎么排?
品牌词和型号怎么保护?
翻译后的图能不能继续在线精修?
批量处理几百张、几千张图片时是否稳定?
所以图片翻译真正难的,不只是“文字有没有翻译出来”,而是翻译后的图能不能真正用于上架、投放和展示。
这就是妙言小智和很多普通图片翻译工具的差别。
二、为什么不能只调用第三方 API?
今天市面上有不少图片翻译工具,用户看起来都能完成“上传图片 -> 翻译图片 -> 下载图片”的流程。
但如果深入看,会发现很多产品更像是对通用图片翻译 API 的封装。这样的方式上手快,前期研发成本低,也能覆盖一些简单场景。
但我们没有选择这条路。
原因很简单:跨境电商图片翻译太垂直了。通用图片翻译 API 往往能解决“把文字翻出来”,但不一定能解决“翻译后仍然是专业商品图”。
举个例子。
一张宠物修毛器商品图,手柄上有蓝色箭头装饰。普通图片翻译系统可能会把这些箭头误识别成文字,甚至在产品主体上生成不该有的英文残影。对商品图来说,这是很严重的问题,因为产品本体被破坏了。
再比如,一个中文橙色标签里只有六个字,翻译成英文后可能变成很长一句。如果系统不理解标签边界、字号、换行和电商文案压缩,结果就会挤在一起,甚至溢出边框。
这些问题无法只靠翻译 API 解决。它需要视觉理解、文本检测、图像擦除、背景修复、排版算法、字体选择、文案压缩和在线编辑共同工作。
所以我们决定做自己的底层技术。
三、我们到底自研了什么?
妙言小智背后有一套自研的 VOKNOV AI 视觉引擎。
这里面包括几类核心能力。
第一是排版分析模型。它需要理解图片中哪些是标题,哪些是卖点标签,哪些是正文说明,哪些区域属于商品主体,哪些文字应该翻译,哪些文字应该保护。
第二是智能排版算法。翻译后的文字长度和原文往往不一样。系统要重新计算字号、换行、对齐方式、行距、边距和视觉层级,让结果尽可能接近原图设计。
第三是智能擦除与背景修复模型。图片翻译不是简单盖一块白底。很多电商图有渐变、纹理、实物背景和复杂光影,擦除原文后必须尽量自然修复背景。
第四是面向电商场景的 OCR 和翻译模型。普通 OCR 对电商图里的小字、弯曲文字、装饰字体、标签文字不一定稳定。普通翻译模型也经常把卖点翻成很生硬的直译。我们针对电商图片场景做了OCR和文字翻译方向的定制与优化。
第五是在线精修编辑器。AI 一次成图很重要,但正式上架前,很多用户仍然需要改品牌词、改卖点、局部恢复产品文字、擦除残留内容。我们希望用户不需要打开 Photoshop,也能完成最后 5% 的人工精修。
四、为什么我们特别重视“一次成图率”?
很多跨境卖家每天要处理的不只是一张图,而是几十张、几百张,甚至几千张商品图。
如果每张图翻译后都要人工大修,这个工具就没有真正提高效率。
所以我们内部一直很看重一个指标:一次成图率。
所谓一次成图率,不是说 AI 生成的每张图都完美,而是说用户上传图片后,系统生成的第一版结果是否已经足够接近可用状态。
用户不需要大量修图,只需要做少量复核或微调,就能用于上架、详情页、多语言店铺或广告素材。
过去一段时间,很多用户给客服反馈,说妙言小智的排版更自然,图更好看,大多数图基本不用修,直接可以用。也有用户拿我们的结果和其他图片翻译工具对比,发现妙言小智在复杂商品图、卖点标签、长句排版、产品主体保护方面更稳定。
这些反馈对我们非常重要。因为它说明底层技术投入真的转化成了用户可感知的价值。
五、团队为什么能做这件事?
妙言小智不是一个纯运营型团队。
我们的核心团队来自百度、网易、阿里等公司,既有 AI 和工程系统经验,也有电商和商业化经验。
我自己之前在百度和网易做过多年技术管理和商业化系统,长期在人工智能、广告系统、推荐系统和深度学习方向工作。我们的其中一位联合创始人负责过阿里考拉海购的产品研发,经历过从早期到成长为中国第一跨境电商平台的全过程,对跨境电商卖家业务有很深理解。还有一位联合创始人之前是网易算法工程负责人,做过AI基础设施相关工作,对算法工程化和系统稳定性非常熟悉。
所以我们团队有一个特点:既懂 AI 技术,也懂电商业务,还懂如何把技术做成可用的产品。
这也是为什么我们不只是做一个简单图片工具,而是一直在往底层能力和工程系统上投入。
六、底层技术不是为了炫技,而是为了让用户少修图
我一直觉得,创业公司做底层技术要非常谨慎。
不是所有事情都值得自研。能用成熟第三方能力解决的问题,就不应该为了“自研”而自研。
但图片翻译这个场景,我们判断它值得做底层技术,原因是用户最终要的不是一个“流程完成”的结果,而是一张真正能用的图。
如果用户每次还要花大量时间修图,那工具本身的价值就会打折。
所以我们做底层技术不是为了写在 PPT 上,而是为了让用户看到:
商品图翻译后排版更自然
页面元素忠于原图设计意图
产品主体不容易被误伤
长句不会随便溢出
翻译结果更符合电商表达
大批量图片处理更稳定
出图后还能继续精修
这些才是用户真正关心的。
七、为什么我们还要做开源?
最近我们也开始把部分底层模块开源出来,比如 VOKNOV Font Match。
这是一个用于跨语言字体风格匹配的开源项目。它解决的问题是:当中文字体不支持英文、德文、法文等目标语言时,如何找到一个视觉风格接近的替代字体。
这个问题看起来很小,但对图片翻译和图片编辑都很重要。
我们开源这类模块,是希望把妙言小智背后的一些技术积累开放给社区,也希望和更多做图片翻译、自动化设计、多语言排版的开发者交流。
国内真正深入做电商图片翻译底层技术的团队并不多,我们希望 VOKNOV 能逐步成为这个方向里一个有辨识度的技术品牌。
八、未来我们会继续做什么?
接下来,妙言小智会继续围绕跨境电商图片翻译这件事做深。
我们不会把目标停留在“能把图片里的文字翻译出来”,而是会持续关注用户真正关心的结果:翻译后的商品图是否专业、是否美观、是否能直接用于上架、投放和多语言店铺运营。
对跨境卖家来说,好的图片翻译工具不应该增加新的修图负担,而应该减少重复劳动,让团队把时间花在选品、运营、投放和增长上。
所以未来我们会继续提升产品的稳定性、易用性和成图质量,也会围绕批量处理、团队协作和企业级工作流,提供更适合真实业务场景的能力。
虽然名字叫“图片翻译”,但我们希望妙言小智代表的是:更适合跨境电商的 AI 图片翻译,更高的一次成图率,更专业的商品图视觉效果,以及更省心的图片本地化流程。
这也是我们坚持做底层技术的原因。
关于作者:蒋能学 Neil
妙言小智AI创始人,VOKNOV Neural Engine 首席架构师。
17年互联网技术老兵,曾任网易云音乐高级技术总监、百度国际广告平台负责人。
深度学习框架 PineNut 作者,主导40余项技术发明专利。
毕业于美国马里兰大学。比起流量的喧嚣,更相信底层逻辑的力量。
夜雨聆风