产业动态 | AI芯片设计,越来越难

在设计用于实现高速、高效性能的AI处理器时,芯片架构师必须应对多种因素,其中最重要的挑战之一是快速演进的AI模型。
《Semiconductor Engineering》邀请了多位业内专家参与讨论,包括:来自Arm的边缘AI产品管理总监Ronan Naughton;来自Cadence的Tensilica DSP产品管理集团总监Amol Borkar与AI IP产品营销总监Jason Lawley;来自Expedera的首席科学家兼联合创始人Sharad Chole;来自Mixel的市场总监Justin Endo;来自Quadric的首席营销官Steve Roddy;来自Rambus的院士兼杰出发明家Dr. Steven Woo;来自Siemens EDA的IC验证与EDA AI产品负责人Sathishkumar Balasubramanian;以及来自Synopsys的首席产品经理Gordon Cooper。以下为讨论摘录。
Q1:目前在边缘端使用的 Agent(智能体)有哪些不同类型?
Woo: 如今大多数边缘智能体可以归类为感知、推理,以及在机器人案例中的规划与行动。这些任务通常在同一设备上共同运行,关键不仅在于推理,还在于系统观察、决策和响应的速度。这迫使设计者重新思考内存层级、互连和安全边界。智能体实际上是整个系统的协同工作,而不仅仅是框图上的一个神经网络。
Chole: 让我们定义一下为什么 Agentic AI(智能体 AI)与生成式 AI 不同。首先也是最重要的,是自主权的概念。生成式 AI 是由提示词触发,然后生成响应。Agentic AI 在高级任务中具有更多的自主权。你给它们高级任务,它们负责编排、规划并想出如何执行。其次,它们可以访问某种形式的内存。并非所有智能体都有内存访问权,但通常可以访问提供用户指令的内存——或者类似于 CLAUDE.md 文件,它们拥有工具调用权限。所以它们不是被动的。这不像给你一个提示词,然后你只能做这么多。它们是主动的。这意味着它们可以查询系统中的当前日期、天气,以及你最近是否点击了某张照片。它们可以访问你为其启用的 API 调用或工具调用。我并不是说它们有权访问你的根文件系统,但它们确实可以访问很多我们作为人类在笔记本电脑或自己系统上会做的事情。这对于任何与编码相关的实践都非常有用,因为它们可以编译、运行测试等等。这一切都源于工具调用。之后,它们是思考机器,而不只是生成某些东西。它们在端到端地规划、思考和运行,或者在进行迭代。当工具调用发生时,它们会获得反馈,并根据反馈再次思考需要执行的计划。这使智能体区别于生成式 AI,你可以将其视为一种多轮交互,但这些轮次是通过工具实现的,而不是通过人工干预。基本上,由于这个原因,整体处理会变得复杂。它不再局限于“嘿,我给你这张图片,你需要据此生成一张不同的图片”。如果我这样限定问题,我的输入和输出 Token(标记)是受限的。但智能体的情况并非总是如此,它们不一定是受限的。虽然会有最大 Token 限制,但不一定总是固定为某个常数。这带来了一些挑战,尤其是你能给它什么任务?你可以将元素更改为更小的尺寸,可以限制任务或工具使用者的复杂性。但即便如此,任务的复杂性仍将决定完成任务所需的处理量。
Naughton:关于私有智能体,我们看到的情况是,我个人托管的 LLM(大语言模型)可以访问我的私有媒体,还有我的日历。因此,例如,我可以让我的私有 LLM 运行计划内或自动化的任务,本质上作为我的行政助理并为我完成一些工作。但我们也看到边缘设备上编码智能体的兴起,我可以向边缘编码智能体并行部署多个任务,它可以自主工作并在随后向我反馈结果。这是两种常见的个人边缘侧智能体用例。在移动端,我们也看到新工具出现,可以进行快速的应用导航。我可能给它一个指令,它可能会打开两三个应用来完成该指令。
Q2:当模型变化不可避免时,架构师如何开始项目并做出决策?
Woo:性能和功耗效率日益受到存储系统设计和数据移动的支配。架构师需要了解目标用例,并对占用硅片面积的功能进行严格筛选,因为每个额外的功能都会消耗 PPA(性能、功耗、面积)并增加复杂性,你最终都要为此付出代价。芯片设计者需要优先考虑数据移动进行设计,因为这是决定性能和功耗效率胜负的关键。额外的复杂性还来自于整合正确的 RAS(可靠性、可用性、可服务性)解决方案,以实现高可靠性和可用性,确保操作可预测且值得信赖。
Roddy:鉴于不知道未来的嵌入式智能体会采取什么形式,以及它在计算或通信方面可能需要什么样的马力,这要求架构师在系统中投入尽可能多的通用性和灵活性。以你下一辆车可能配备的功能为例,比如嵌入式车辆健康智能体。我什么时候该去保养车?现在,你通过人类的观察来判断,思考你的驾驶习惯。如果你和配偶或孩子共用一辆车,谁在什么时候、什么地方开车?如果智能体足够聪明,知道谁开得最多呢?它执行所有的预测性维护,监控所有系统,了解时令,了解天气,了解即将到来的周末。Stephen 和他的家人喜欢每个周末去滑雪。轮胎磨秃了,雪天路况会很差,也许我们该去换新轮胎。智能体可以了解各种上下文信息。同样的一辆车,如果停在车库里,老奶奶只在周日开车去教堂,由于驾驶方式不同,其需求也会大不相同。这种东西未来会出现吗?它会适应周围的情况,并与车主或驾驶员沟通,从驾驶员的交互中学习吗?它开始监控不同的事物,或推荐不同的事物,测试未来可能发生的不同情况。处理这类事情需要在计算架构中具备什么样的通用性?
Lawley:对我来说,这些智能体回归到了多模态 AI。正如 Steve 所说,你的车里有智能体在做这些事,但你的智能体真的能拿起电话打给某人(人类参与其中)并与之交谈吗?所以现在它正在使用音频技术进行噪声抑制,正在进行语言识别,正在使用语言模型为你预约。然后它回来告诉你:“嘿,你的车已经约好了。”我预见到智能体的整个世界将从根本上改变我们与计算交互的方式,尤其是边缘计算。
Roddy:接着你的话,你因为参加活动从湾区开车到了南加州,现在车出了问题。现在它必须在当地找一个服务部门。它能查出你因为买了延长保修期而拥有服务合同吗?你的经销商在哪?或者,根据你喜欢用 Yelp 且偏好五星级评价的习惯,它会推荐哪些独立维修店?它将足够聪明,弄清楚如何指引你并节省这类事情的时间。这是目前的车辆做不到的。目前的车辆只会在仪表盘上亮起一个灯,显示油压低。仅此而已,它不会为你解决那个状况。
Lawley:从架构师的角度来看,我们知道的一点是,模型的灵活性非常重要。未来会有不同的浮点表示。这些智能体可能需要依赖许多不同的模型,因此让你的计算能力和构建的系统具有足够的灵活性来处理各种不同的模型类型,对架构师来说至关重要。
Cooper:我同意。你提到了多模态的需求。对于我们这些定义下一代 NPU 的人来说,我们正在加速那些你与系统中的主机处理器相结合的东西。从 NPU 的角度来看,这里存在系统级的问题。问题在于你能多灵活地处理这些不断涌现的多模态模型——无论是 VLA(视觉-语言-行动)、VLM(视觉-语言模型),还是其他模型。对于我们这些制造 NPU 的人来说,这是边缘端的挑战。
Chole:我想从部署的角度来回答这个问题。当我们运行智能体工作负载时,它们是长期运行的,这就要求它们需要在后台运行。这成为了优先级。它们必须在后台运行。当事物在后台运行时,我们要确保它尽可能优化。因此,对 MoE(混合专家模型)的支持变得非常重要,因为我们没有批处理(batching)。MoE 模型变得至关重要。这些不一定是大型模型。即使对于小型模型,MoE 也很关键,因为边缘端没有批处理。对 KV(键值)缓存量化技术(如 turbo content)的支持也变得必不可少,因为我们不想一直浪费带宽去加载巨大的 KV 缓存,即便使用稀疏注意机制,这些智能体最终也会产生巨大的 KV 缓存。这也会很有趣,是一种节省 2 到 3 倍带宽的方法。此外,运行时部署需要支持像前缀缓存(prefix caching)这样的内存技术。你还需要能够进行工具调用。所以我们基本上是将服务器级的技术——即当前数据中心推理提供商所支持的功能——引入边缘,并试图让智能体在最小的占用空间下发挥最强大的功能。这是我从部署角度的看法。如果你问我模型将如何演进——我希望是零演进。如果你问我在边缘运行的智能体在任何意义上是否比在数据中心运行更好,我仍然不完全清楚。遗憾的是,如果你拥有联网设备,除了隐私原因外,我仍然不推荐在边缘运行。
Q3:你目前在边缘 AI 或智能体边缘 AI 领域看到的最有趣的驱动应用是什么?
Woo:一些最引人注目的应用存在于有时间限制的系统中,如工业自动化、机器人和汽车感测。这些系统使用智能体行为实时适应不断变化的输入,而不不仅仅是分类它们所看到的东西。从硬件角度看,挑战在于处理持续数据流的同时保持低延迟。这种结合正迫使存储带宽、功耗效率和系统级集成进行创新。
Lawley:它无处不在。每个人都在把模型用于天底下的任何事情,所以很难指明某一个特定的东西。它是你在边缘能想到的一切,而且人们可能会在那些我们从未想过的领域提出新点子。
Roddy:我们看到很多制造商和系统公司在思考 LLM(尤其是 SLM,小语言模型)如何改变人机界面,无论是你与汽车的交互方式,还是技术人员与工厂设备的交互方式,或者是你与厨房微波炉的交互方式。如果微波炉没有按钮,你只需对着它说话,这能降低成本吗?因为你不需要触摸面板,不需要那些会损坏的东西,所以它能降低微波炉的成本吗?工厂设备上的麦克风、扬声器和显示面板是否意味着你不再需要塞在大型设备侧板里的 600 页手册了。想想节省的手册打印成本,或者手册丢失的问题。现在你买车时,不再会得到一本写满所有错误代码的 600 页的书。现在不需要了。你只需和车辆交谈,它就会告诉你发生了什么。因此,物理构建方式的变化可以降低成本并提高用户满意度,而这很大程度上是因为你可以在边缘放置一个 300 亿参数的模型。它不一定非要是智能体,但它确实是一种截然不同的交互方式。
Balasubramanian:在智能体端,我看到不少个人健康助手出现,它们会采取行动,而不仅仅是感测。随着我们的谈话,还有更多应用正在构建中。西门子所做的一件事是与 Meta 在 Ray-Ban 上合作,我们正在为工厂车间配备 Ray-Ban Meta 眼镜。这是人类配合边缘 AI 处理的完美案例。你基本上让人们在工厂车间走动,随着你走到某个特定区域,眼镜中会出现一个仪表盘,显示每台机器的状态:一切正常、出错了,或者需要维护。对于这个案例,我不清楚处理发生的具体细节。它仍然连接到中央枢纽吗?极有可能是这样,或者也可能在边缘。这些是我们看到的工业案例,你在其中推理、感测并获取信息。当你问“我该如何行动?”时,那将是下一个大趋势。这是一个有趣的时代,有很多有趣的应用正在发生。我体验过很多笔记记录器,其挑战在于电源供应。随着你做得更多,功耗效率变得更加重要。
Cooper:我们拥有这种感知 AI,人们现在真正开始意识到,“噢,我有一个真实的用例,”或者,“我有一个例子,我可以把生成式 AI 加入其中。”在汽车领域,它可能在座舱内,理论上你能够指着窗外问:“那是哪栋建筑?”通过多模态,它可以回答:“我看到你指的地方了,我能看到外面,我知道我的地理位置,我理解你的提示词。”所有这些多模态能力都在向前推进。还有关于具身 AI(Physical AI)和机器人的整套构想——汽车、无人机和人形机器人。英伟达对此非常看好。我不认为每个人都接受家里有一个人形机器人帮我们叠衣服,但他们非常有信心。看到机器人技术将走向何方,这确实是一个有趣的应用。
Q4:我们以前见过像现在 AI 这样的变化速度吗?
Balasubramanian:不,在我的经验中没见过。我有 25 年以上的经验,但在过去的 20 年里,我从未见过如此巨大的变化。每周都有新客户冒出来,新的设计项目针对新应用启动,我们正在努力跟上他们的步伐。
Lawley:如果你看历史,英特尔带着 x86 上线,还有与仙童(Fairchild)的竞赛。那是一个非常有创造力的时代。但这比半导体竞赛要广泛得多。每个人都知道它。我的孩子知道,我的妻子知道,我的父母也知道。
Chole:机器人技术和自主性将极大地推高边界。我们将看到 PetaOPS(每秒千万亿次运算)引擎。我们以世界模型(world models)开始了这段对话。这非常有趣,因为这些模型必须在这些自主平台上运行,而且它们在视觉和 Token 方面都有巨大的处理需求。所以,这也许就是一年后我们将讨论的话题。
Woo:AI 的变化速度与我们在现代半导体设计中看到的任何情况都不同。AI 正在压缩整个技术栈的时间表,硬件立即感受到了这种压力。随着新功能的上市,需求不断被改写,模型演进如此之快,以至于仅仅一年前的假设可能已不再成立。这正迫使系统设计采用整体方法,从一开始就将计算、存储、安全和 I/O 与软件需求统筹规划。这是我们思考未来芯片构建方式的根本性转变。
Naughton:这是呈指数级的。现在的不同之处在于,这不再仅仅是炒作。我们看到了显著的生产力提升工具、个人生活方式提升工具,以及 AI 领域的创新和发现。也许这有点偏离了边缘 AI 的范畴,但当然,我首先提到的那些确实在改善人们的生活。但随之而来的是风险,我们都必须意识到这些风险,并采取慎重的步骤,以确保我们实现的这些生产力增强和生活方式扩展是与相关潜在风险相权衡的。
参考链接
https://semiengineering.com/designing-chips-in-the-context-of-rapidly-evolving-ai/

关注我们 | 获取更多优质课程
“云光讲堂”是中国光学工程学会着力打造的线上新媒体平台,成立于2019年,旨在为光电领域的广大科技工作者提供一个高水平的线上交流平台,通过线上学术论坛、项目路演、培训课程、对接会等模式,展示创新技术和工程应用的最新进展,促进青年人才的培养和交流,推进光学与各交叉学科的融合发展。



















扫码入会

如有其他合作需求
请联系光博士
夜雨聆风