乐于分享
好东西不私藏

博查:藏在AI回答背后的搜索引擎

博查:藏在AI回答背后的搜索引擎

这是我的第 270 篇原创文章

作者|柏导 

博查这家公司,可以从一个普通用户每天都会遇到的问题说起。现在很多人用大模型,不再只问“写一段话”或“改一封邮件”,变成了问今天发生了什么、某家公司最近怎样、某个政策有没有变化、某个产品现在多少钱。这类问题不能只靠模型训练时记住的内容。模型训练完成以后,世界还在变化。新的新闻、新的网页、新的公告、新的视频、新的帖子都会出现。大模型要回答这些问题,就需要到外部世界再查一次。博查做的,就是把这件事变成一套给 AI 应用调用的搜索服务。
它和百度、谷歌、必应这类传统搜索引擎不完全一样。传统搜索引擎主要服务人。人输入几个关键词,搜索引擎给出一页链接,人自己点进去看。博查主要服务 AI。AI 应用把用户的问题发给博查,博查返回网页、摘要、发布时间、网站名称,有时还返回结构化信息。之后,大模型再根据这些材料生成回答。博查官网把自己称为“给 AI 用的世界知识搜索引擎”,开放平台说明它的搜索源来自近百亿网页和生态内容源,范围包括新闻、图片、视频、百科、机酒、学术等内容。它还强调多模态混合搜索和语义排序技术,目标是让 AI 应用拿到更干净、更准确、更适合生成回答的搜索结果。
这件事看起来像是在搜索引擎外面套了一个 API,但实际难点不小。普通人搜索时,会自己判断哪个网页靠谱、哪个标题像广告、哪个结果只是营销文。AI 没有这种人类经验,它会把拿到的材料送进模型,再由模型生成文字。如果搜索结果本身质量不好,后面的回答就容易出错。21 世纪经济报道采访博查时,刘勋和翁柔莹都谈到,AI 幻觉不只是模型自己的问题,也和信息来源有关。互联网上本来就有错误信息、二手内容、营销内容和 AI 生成内容。搜索系统如果把这些内容排在前面,模型就会更容易引用它们。博查的做法,是在网页进入索引库前做可信度判断,再用人工和模型结合的方式过滤一部分明显不可靠内容,并在结果排序时参考专业性、经验、权威性、可信度等维度。
博查的创始团队公开信息不算多,但能看到几个关键人物。BOSS 直聘页面显示,杭州博查搜索科技有限公司旗下品牌为博查搜索,公司规模为 0 到 20 人,法定代表人为刘勋,注册资本 100 万元,成立日期为 2025 年 1 月 8 日,注册地址在杭州临平区。页面还列出刘勋为 CEO 和创始人。 公开报道中,刘勋主要负责公司经营和产品方向,翁柔莹是 CTO,更多对外解释技术路线和 AI 搜索问题。每日经济新闻的采访中,翁柔莹提到团队在 2022 年底就看到了大模型需要实时知识的机会,后来决定从阿里出来创业。这个说法说明,博查的项目启动时间早于当前工商主体的成立时间。也就是说,先有项目和产品探索,后有现在这个公司主体,是比较合理的理解。
从公开资料看,博查的路线没有先做一个给普通人使用的搜索 App,而是更早把重点放在 ToB 和 API 上。它要卖的不是一个搜索框,是一种能力:让别人的 AI 产品可以联网查资料。普通用户未必知道背后是谁提供搜索,但只要 AI 产品需要实时信息,就要有一家搜索能力供应商接在后面。36 氪的报道提到,在 DeepSeek 爆火前,博查已经为 2000 家企业提供实时联网搜索能力;报道还说,春节期间 DeepSeek 流量上升后,最终选择博查提供高并发 AI 搜索服务。 21 世纪经济报道则写到,博查为 DeepSeek、字节跳动、腾讯等头部 AI 产品提供搜索服务,并称 2025 年 3 月博查搜索 API 日均调用量已经突破 3000 万次。
技术上,博查的一个核心判断是,AI 搜索不能只按关键词匹配。人用传统搜索时,常常输入几个短词,比如“杭州 天气”“某公司 财报”。但人问 AI 时,往往会输入一个完整句子,比如“帮我查一下这家公司最近有没有融资,它的创始团队是什么背景”。这种问题很长,里面有意图、有条件、有隐含要求。传统关键词搜索未必能准确理解。博查公开资料和采访都提到,它使用多模态混合搜索加语义排序。简单说,就是先从大量网页和内容源里找出候选结果,再判断这些内容和用户问题在意思上是否接近,最后把更可能回答问题的材料排在前面。每日经济新闻采访中,翁柔莹说,博查的排序是根据用户问题和搜索得到的答案之间的语义相关性。
博查开放平台还展示了 Semantic Reranker,也就是语义重排能力。这个能力并不直接负责“搜到多少内容”,主要负责“把哪些内容排到前面”。对 AI 应用来说,这一步很关键。因为大模型一次能读的内容有限,不可能把全网结果都读一遍。搜索系统如果返回 30 条到 50 条材料,模型最终可能只会引用其中几条。排在前面的材料质量越高,最终回答越可靠。博查官网说,它支持关键词加向量的混合搜索,并用 bocha-semantic-reranker 做二次排序,以提升搜索结果和问题的相关性。
博查另一个特点是把搜索结果做成更适合 AI 使用的格式。它的 GitHub MCP 项目说明,Bocha Web Search 会返回网页标题、链接、摘要、网站名称、发布时间等信息;Bocha AI Search 则会在网页搜索基础上,额外返回天气卡、日历卡、百科卡等垂直领域的结构化模态卡。 这意味着它是把一部分常见信息提前整理好的。对大模型来说,结构清楚的材料更容易引用,也更容易减少误读。
它的商业价值,来自 AI 应用对实时知识的依赖。过去,搜索主要是人的入口。现在,AI 也开始变成搜索的使用者。一个普通用户问一句话,背后可能触发多次检索。一个智能体如果要完成复杂任务,可能要连续搜索、比较、引用、再搜索。博查 CEO 在采访中谈到,未来 AI 的搜索调用量可能会比人类搜索更大。人搜索时会停下来读网页,AI 搜索时可能在几秒内完成多轮查询。只要智能体应用继续发展,搜索 API 的调用次数就会随之上升。
但博查也有明显的不确定性。第一是不透明。它的融资、收入、毛利、股权结构和期权安排,目前没有看到完整公开披露。BOSS 直聘页面显示公司“不需要融资”,但这不能替代财务信息。第二是客户结构。公开案例集中在 DeepSeek、字节、腾讯、华为、阿里等大厂和头部 AI 产品。如果这些客户未来自建搜索能力,或改用其他供应商,博查的增长会受到影响。第三是质量压力。AI 搜索的结果必须快,也必须准。21 世纪经济报道的采访提到,网页抓取后还要经过内容提取、合规识别、清洗、结构化处理,最快数据处理时长大约为半小时。 对新闻和热点事件来说,半小时已经不慢,但用户对“实时”的期待可能更高。
还有一个长期问题,是互联网上的内容正在被 AI 改变。以前搜索引擎主要面对人写的网页。现在大量网页可能由 AI 生成,有些内容看上去完整,实际夹带错误细节。21 世纪经济报道采访中,翁柔莹提到,博查正在识别并拦截 AI 生成内容,尤其是“投毒型”AI 生成内容。 这会变成搜索公司的长期工作。因为当 AI 开始引用 AI 写的网页,错误可能在系统里循环。搜索公司要做的,不只是把内容找出来,还要尽量判断内容是不是值得被引用。
从竞争角度看,博查面对的是一个正在变化的市场。过去很多企业会接入必应搜索 API。21 世纪经济报道采访中提到,一些客户过去通常接入微软必应搜索 API,但必应存在数据出海和价格高的问题,博查因此被一些客户视为更安全可控的国产替代方案。 这给博查提供了机会。中国的 AI 应用需要中文内容、国内数据源、本地合规和稳定供应。博查如果能在这些方面做得足够好,就可能成为国内 AI 应用的基础组件。
不过,它还不能简单等同于一个新的百度,也不能简单等同于一个中国版 Perplexity。百度、谷歌、Perplexity 更靠近用户入口,用户知道自己在用它们。博查更像后端服务商,用户未必看见它,但它影响 AI 回答的材料来源。它的价值来自被多少 AI 应用接入、每天被调用多少次、搜索结果是否稳定、内容源是否足够广、能不能在高并发下不掉链子。
博查是 AI 时代的一种基础设施。大模型像一个会读材料、会组织语言的系统,但它需要外部材料。博查做的是把外部材料找出来、筛一遍、排好序,再交给模型。它解决不了所有幻觉问题,也不能保证每次回答都正确,但它能影响 AI 获取信息的第一步。这个第一步做得好,后面的回答就有更好的基础;这个第一步做得差,模型再强也可能引用错材料。
所以,博查的故事是 AI 应用背后那层信息供应链的故事。它的机会在于,AI 对实时知识的需求会越来越多;它的风险在于,搜索质量、数据合规、客户稳定性和商业透明度都还需要继续验证。现在能确定的是,博查已经在国内 AI 搜索 API 市场中占到一个重要位置。至于它以后会成为一家稳定的基础设施公司,还是被大厂自建能力挤压,关键要看它能不能持续提供高质量、低成本、合规、稳定的搜索服务。