博查:藏在AI回答背后的搜索引擎

这是我的第 270 篇原创文章

作者｜柏导

博查这家公司，可以从一个普通用户每天都会遇到的问题说起。现在很多人用大模型，不再只问“写一段话”或“改一封邮件”，变成了问今天发生了什么、某家公司最近怎样、某个政策有没有变化、某个产品现在多少钱。这类问题不能只靠模型训练时记住的内容。模型训练完成以后，世界还在变化。新的新闻、新的网页、新的公告、新的视频、新的帖子都会出现。大模型要回答这些问题，就需要到外部世界再查一次。博查做的，就是把这件事变成一套给 AI 应用调用的搜索服务。

它和百度、谷歌、必应这类传统搜索引擎不完全一样。传统搜索引擎主要服务人。人输入几个关键词，搜索引擎给出一页链接，人自己点进去看。博查主要服务 AI。AI 应用把用户的问题发给博查，博查返回网页、摘要、发布时间、网站名称，有时还返回结构化信息。之后，大模型再根据这些材料生成回答。博查官网把自己称为“给 AI 用的世界知识搜索引擎”，开放平台说明它的搜索源来自近百亿网页和生态内容源，范围包括新闻、图片、视频、百科、机酒、学术等内容。它还强调多模态混合搜索和语义排序技术，目标是让 AI 应用拿到更干净、更准确、更适合生成回答的搜索结果。

这件事看起来像是在搜索引擎外面套了一个 API，但实际难点不小。普通人搜索时，会自己判断哪个网页靠谱、哪个标题像广告、哪个结果只是营销文。AI 没有这种人类经验，它会把拿到的材料送进模型，再由模型生成文字。如果搜索结果本身质量不好，后面的回答就容易出错。21 世纪经济报道采访博查时，刘勋和翁柔莹都谈到，AI 幻觉不只是模型自己的问题，也和信息来源有关。互联网上本来就有错误信息、二手内容、营销内容和 AI 生成内容。搜索系统如果把这些内容排在前面，模型就会更容易引用它们。博查的做法，是在网页进入索引库前做可信度判断，再用人工和模型结合的方式过滤一部分明显不可靠内容，并在结果排序时参考专业性、经验、权威性、可信度等维度。

博查的创始团队公开信息不算多，但能看到几个关键人物。BOSS 直聘页面显示，杭州博查搜索科技有限公司旗下品牌为博查搜索，公司规模为 0 到 20 人，法定代表人为刘勋，注册资本 100 万元，成立日期为 2025 年 1 月 8 日，注册地址在杭州临平区。页面还列出刘勋为 CEO 和创始人。公开报道中，刘勋主要负责公司经营和产品方向，翁柔莹是 CTO，更多对外解释技术路线和 AI 搜索问题。每日经济新闻的采访中，翁柔莹提到团队在 2022 年底就看到了大模型需要实时知识的机会，后来决定从阿里出来创业。这个说法说明，博查的项目启动时间早于当前工商主体的成立时间。也就是说，先有项目和产品探索，后有现在这个公司主体，是比较合理的理解。

从公开资料看，博查的路线没有先做一个给普通人使用的搜索 App，而是更早把重点放在 ToB 和 API 上。它要卖的不是一个搜索框，是一种能力：让别人的 AI 产品可以联网查资料。普通用户未必知道背后是谁提供搜索，但只要 AI 产品需要实时信息，就要有一家搜索能力供应商接在后面。36 氪的报道提到，在 DeepSeek 爆火前，博查已经为 2000 家企业提供实时联网搜索能力；报道还说，春节期间 DeepSeek 流量上升后，最终选择博查提供高并发 AI 搜索服务。 21 世纪经济报道则写到，博查为 DeepSeek、字节跳动、腾讯等头部 AI 产品提供搜索服务，并称 2025 年 3 月博查搜索 API 日均调用量已经突破 3000 万次。

技术上，博查的一个核心判断是，AI 搜索不能只按关键词匹配。人用传统搜索时，常常输入几个短词，比如“杭州天气”“某公司财报”。但人问 AI 时，往往会输入一个完整句子，比如“帮我查一下这家公司最近有没有融资，它的创始团队是什么背景”。这种问题很长，里面有意图、有条件、有隐含要求。传统关键词搜索未必能准确理解。博查公开资料和采访都提到，它使用多模态混合搜索加语义排序。简单说，就是先从大量网页和内容源里找出候选结果，再判断这些内容和用户问题在意思上是否接近，最后把更可能回答问题的材料排在前面。每日经济新闻采访中，翁柔莹说，博查的排序是根据用户问题和搜索得到的答案之间的语义相关性。

博查开放平台还展示了 Semantic Reranker，也就是语义重排能力。这个能力并不直接负责“搜到多少内容”，主要负责“把哪些内容排到前面”。对 AI 应用来说，这一步很关键。因为大模型一次能读的内容有限，不可能把全网结果都读一遍。搜索系统如果返回 30 条到 50 条材料，模型最终可能只会引用其中几条。排在前面的材料质量越高，最终回答越可靠。博查官网说，它支持关键词加向量的混合搜索，并用 bocha-semantic-reranker 做二次排序，以提升搜索结果和问题的相关性。

博查另一个特点是把搜索结果做成更适合 AI 使用的格式。它的 GitHub MCP 项目说明，Bocha Web Search 会返回网页标题、链接、摘要、网站名称、发布时间等信息；Bocha AI Search 则会在网页搜索基础上，额外返回天气卡、日历卡、百科卡等垂直领域的结构化模态卡。这意味着它是把一部分常见信息提前整理好的。对大模型来说，结构清楚的材料更容易引用，也更容易减少误读。

它的商业价值，来自 AI 应用对实时知识的依赖。过去，搜索主要是人的入口。现在，AI 也开始变成搜索的使用者。一个普通用户问一句话，背后可能触发多次检索。一个智能体如果要完成复杂任务，可能要连续搜索、比较、引用、再搜索。博查 CEO 在采访中谈到，未来 AI 的搜索调用量可能会比人类搜索更大。人搜索时会停下来读网页，AI 搜索时可能在几秒内完成多轮查询。只要智能体应用继续发展，搜索 API 的调用次数就会随之上升。

但博查也有明显的不确定性。第一是不透明。它的融资、收入、毛利、股权结构和期权安排，目前没有看到完整公开披露。BOSS 直聘页面显示公司“不需要融资”，但这不能替代财务信息。第二是客户结构。公开案例集中在 DeepSeek、字节、腾讯、华为、阿里等大厂和头部 AI 产品。如果这些客户未来自建搜索能力，或改用其他供应商，博查的增长会受到影响。第三是质量压力。AI 搜索的结果必须快，也必须准。21 世纪经济报道的采访提到，网页抓取后还要经过内容提取、合规识别、清洗、结构化处理，最快数据处理时长大约为半小时。对新闻和热点事件来说，半小时已经不慢，但用户对“实时”的期待可能更高。

还有一个长期问题，是互联网上的内容正在被 AI 改变。以前搜索引擎主要面对人写的网页。现在大量网页可能由 AI 生成，有些内容看上去完整，实际夹带错误细节。21 世纪经济报道采访中，翁柔莹提到，博查正在识别并拦截 AI 生成内容，尤其是“投毒型”AI 生成内容。这会变成搜索公司的长期工作。因为当 AI 开始引用 AI 写的网页，错误可能在系统里循环。搜索公司要做的，不只是把内容找出来，还要尽量判断内容是不是值得被引用。

从竞争角度看，博查面对的是一个正在变化的市场。过去很多企业会接入必应搜索 API。21 世纪经济报道采访中提到，一些客户过去通常接入微软必应搜索 API，但必应存在数据出海和价格高的问题，博查因此被一些客户视为更安全可控的国产替代方案。这给博查提供了机会。中国的 AI 应用需要中文内容、国内数据源、本地合规和稳定供应。博查如果能在这些方面做得足够好，就可能成为国内 AI 应用的基础组件。

不过，它还不能简单等同于一个新的百度，也不能简单等同于一个中国版 Perplexity。百度、谷歌、Perplexity 更靠近用户入口，用户知道自己在用它们。博查更像后端服务商，用户未必看见它，但它影响 AI 回答的材料来源。它的价值来自被多少 AI 应用接入、每天被调用多少次、搜索结果是否稳定、内容源是否足够广、能不能在高并发下不掉链子。

博查是 AI 时代的一种基础设施。大模型像一个会读材料、会组织语言的系统，但它需要外部材料。博查做的是把外部材料找出来、筛一遍、排好序，再交给模型。它解决不了所有幻觉问题，也不能保证每次回答都正确，但它能影响 AI 获取信息的第一步。这个第一步做得好，后面的回答就有更好的基础；这个第一步做得差，模型再强也可能引用错材料。

所以，博查的故事是 AI 应用背后那层信息供应链的故事。它的机会在于，AI 对实时知识的需求会越来越多；它的风险在于，搜索质量、数据合规、客户稳定性和商业透明度都还需要继续验证。现在能确定的是，博查已经在国内 AI 搜索 API 市场中占到一个重要位置。至于它以后会成为一家稳定的基础设施公司，还是被大厂自建能力挤压，关键要看它能不能持续提供高质量、低成本、合规、稳定的搜索服务。