
「机构眼·调研内参」机构投研资源平台
加入社群·微信:Buddha_Research

发言人 问:目前整个模型的agent使用需求快速增加,这对CPU的拉动情况如何?
发言人 答:目前,随着多agent系统的出现和应用场景的承载,对CPU资源的占用与需求显著上升。在云端数据中心、企业私有部署以及边缘场景中,CPU扮演着中枢和调度的核心控制功能,并且在并发数量和访问规模上随着agent数量的增长而不断攀升。
发言人 问:如何量化CPU需求的增长?
发言人 答:我们通常通过GPU与CPU的配比作为宏观衡量指标。在传统的训练系统中,GPU与CPU的搭配是根据训练场景需求设计的,例如在英伟达系统上,一颗CPU可能负责与两颗GPU配合,主要负责数据前处理、后处理、数据搬运、卸载、网络通讯以及算子结构化调用等任务,更多是任务控制而非直接计算。
发言人 问:在推理系统中,CPU的需求状况如何?
发言人 答:在推理系统中,如果沿用传统的GPU与CPU配比,在agent驱动的复杂推理负载情况下,CPU的需求开始增长,并呈现出一种趋势,即CPU用量可能会超过GPU。这是因为复杂的推理任务涉及到沙箱、任务分配、信息检索、在线编程等多种由CPU完成的操作,当发起一个推理任务时,会生成多个agent,每个agent都需要CPU进行计算和任务调度。
发言人 问:CPU需求增长的具体体现是什么?
发言人 答:CPU需求增长体现在推理全过程的时间片上,许多复杂的推理任务需要大量CPU完成。由于现有服务器CPU数量限制,导致能承载的agent实例相对较少,进而使得GPU的实际存储效率被压制在一个非正常水平。因此,随着agent对CPU用量的实际抬升,CPU与GPU的配比开始失衡,接近一比一的比例可能已不足以满足需求。
发言人 问:当前CPU与GPU配比是否足够支持agent的发展?
发言人 答:根据一些数据和分析,目前CPU与GPU的配比可能不够,尤其是在支持大量并发agent执行时。以某机型为例,其GPU支持线程数与其所需CPU数量之间存在一定的对应关系,而当前CPU的数量往往达不到这个要求,所以需要提升CPU与GPU的整体配比才能更好地支持agent的工作负载和token消耗量的增长。
发言人 问:现在一个agent是否对应一个县城,还是可以在一个县城中管理多个H?
发言人 答:现在所说的线程是真实线程,一个县城可以理解为一个推理任务的实际推动者。一个物理线程理论上至少能承担2到4个A任务,而一个县城在一个月大概能执行176个任务。虽然CPU的核数和线程数在增长,但随着AI任务复杂度的提升,agent的数量也在增长,两者的变化趋势需要关注。
发言人 问:如何看待CPU迭代能否支撑更多agent,还是agent的复杂化导致单线程数量减少?
发言人 答:这是一个涉及硬件资源能力和agent调用复杂度两个维度的问题。一方面,CPU的物理资源能力确实在提升,比如Vera CPU相比老款显著提升了线程处理能力;另一方面,随着agent任务复杂度增加,对线程调用的需求也在线性增长。因此,在某些情况下,虽然硬件资源能力提高,但agent数量可能因为复杂度增加而使得单线程承载能力下降。
发言人 问:在agent快速增长时,叉八六CPU和英伟达等其他CPU哪种拉动更快?
发言人 答:叉八六CPU在全球数据中心中占据主导地位,而ARM CPU虽然市场份额较小,但在AI处理上展现出一定的优势。展望未来,AI将使数据中心CPU算力出现质的跃升,这种跃升会转化为CPU线程的供给能力。然而,在当前技术条件下,基于ARM架构的CPU要增加更多线程,需要在指令系统规范和核心定义方面进行增强,这显示出叉86在IPC(每周期指令数)和控制能力上具有天然优势。
发言人 问:在并行处理和多模态多轮交互场景下,ARM和x86在任务调度和通信封装等方面的优势分别是什么?
发言人 答:ARM的CPU在相对计算和轻量级控制方面具有优势,适合处理并行处理日益涌现的自制agent和工具链调用场景中的任务调度、任务分配以及通信封装和数据搬运。而x86由于其强大的分支预测和推测执行能力,尤其在复杂的分支和现场执行能力上比ARM更强,因此对于企业级综合负载,尤其是高效率多线程自主调度的任务,x86会更有优势。
发言人 问:未来ARM和x86在CPU演进上的发展趋势是什么?
发言人 答:未来ARM和x86可能会实现一种趋同演化,即它们都将具备一定的高线程数和面向AI的强大控制与调度能力。但最终的竞争焦点将转向软件生态、成本、功耗、交付能力和产能等因素。
发言人 问:对于数据中心软件业务场景,ARM和x86的架构定位有何不同?
发言人 答:在数据中心软件业务场景中,x86对于软件生态、能效和高效通讯等方面具有优势;而ARM则以能效见长,拥有高效的控制和通讯能力,但在单线程性能上更强,并能承担更复杂的综合负载。然而,ARM在一些特定企业级应用上,如谷歌在线文档系统等,目前尚未完全占据主导地位。
发言人 问:在大模型推理支持端,目前主要采用ARM还是x86架构来解决CPU角色问题?
发言人 答:判断方法是根据各家AI基础设施的绑定关系。例如,GPU厂商英伟达和亚马逊AWS等云服务商,其基础设施往往与特定CPU厂商(如ARM或x86)紧密绑定,因此在任务调度分发和网络通信控制等方面,ARM在云服务部署上具有一定优势。但在实际的任务执行中,涉及复杂的企业级应用如数据库、文档处理等场景时,叉86仍将是主流选择,负责应用程序的具体执行。同时,也存在ARM负责任务调度和部分通讯计算,而叉86负责复杂应用执行的现象。
发言人 问:英伟达计划推出的AI专用CPU是否会替代叉86的角色,以及其存在的意义是什么?
发言人 答:英伟达若单独推出AI专用CPU,可能是在解决如何更有效地调动GPU资源的问题。虽然这种单独成规的方式可能在一定程度上替代叉86的部分功能,但目前市场上高级别x86芯片供不应求,这表明AI专用CPU并不能完全替代叉86。其存在的意义在于针对特定场景优化,提升GPU资源调度效率,但真正执行复杂应用程序的底层硬件,叉86依然不可或缺。
发言人 问:在移动互联网时代,特别是在手机应用程序执行更多个人任务时,互联网业务是如何快速发展的?
发言人 答:在移动互联网时代,随着手机上的应用程序能够与服务器进行及时通讯和请求,互联网业务得到了快速发展。例如订票系统、在线购物系统等每秒响应能力达到了亿级甚至百亿级请求,这要求服务器具有高效的响应能力。ARM CPU由于功耗低、指令系统精简,在轻量级控制任务上执行效能较高,因此在许多互联网公司的接口服务器或高并发响应接口前端已广泛应用ARM CPU。
发言人 问:当前全球AI模型接口每秒请求数量的情况如何?未来发展趋势是什么?
发言人 答:目前,诸如anthropic和OpenAI的云端系统中,每秒请求数量可能在百万或千万级别,但随着技术进步,预计很快会达到10亿级或百亿级请求。这些场景最终会与当前互联网系统的高并发需求相似,即通过集中式机柜先挡住并分配后台任务,部分任务由ARM或x86等不同类型的CPU来处理。
发言人 问:CPU厂商是否会在性能线程数上趋于一致,并且在能力建设上有哪些共同点和差异?
发言人 答:在未来两年内,CPU厂商可能会趋向实现类似的能力,例如增加线程数量以提升单线程性能。ARM将在今年年底更新V9.2版本,带来新的指令集能力,而英特尔和AMD也在改进指令系统以适应AI发展。尽管各自有各自的优点,但总体上是殊途同归,形成平衡状态。
发言人 问:英伟达推出Vera基金店单独成柜的核心目的是什么?是否会促使英特尔等传统公司也推出类似CPU机柜?
发言人 答:英伟达推出Vera基金店独立成柜主要是为了应对高并发、高响应的需求,通过在前端使用高密度ARM CPU阵列解决这一问题。而真正的高并发前台CPU集群需要的是CPU密度较大的特殊支架系统。目前,叉86因其单线程能力和核心能力较强,在高密度机型上表现优于ARM,但随着软件生态的发展和市场需求的变化,未来可能会出现更多形态的产品。
发言人 问:当多线程强核心处理agent的需求增加时,CPU旁边的硬件配套需要增加哪些环节?
发言人 答:对于CPU系统而言,其依赖于输入输出和存储系统,线程数越多意味着对存储带宽、通道数和总容量的要求越高。为了保证系统的平衡,当CPU线程数量增加时,存储系统的带宽、延迟及可用容量必须相应提升,以避免成为瓶颈,确保每个线程都能得到有效执行。
发言人 问:MRD的出现主要为了解决什么问题?
发言人 答:MRD的出现主要是为了解决DDR通道数增加带来的数据传输需求,通过提供更高带宽的方式来确保现成性能的提升,避免仅依赖CPU线程数的提高而无法有效利用资源。
发言人 问:LPDDR在手机系统中的特点是什么?MRDM技术的主要作用是什么?
发言人 答:LPDDR为手机低功耗系统提供服务,其特点是带宽较高,但通道数相对较低,因为它是针对非服务器级CPU结构设计的。MRDM技术(可能指代多通道内存技术)现在普及,主要是为了在x86系统结构下保证足够的系统总带宽和突发带宽访问能力。
发言人 问:除了内存外,在硬件方面还有哪些重要因素需要考虑?
发言人 答:通讯也是一个关键因素,因为CPU之间并非孤立,它们需要进行数据交互和任务协同,因此CPU间的互联结构需要更健壮和高效,可能涉及使用更高速度的PCIE总线或支持重构、多机计算的特殊总线协议。
发言人 问:玻璃基板技术对CPU的影响如何?
发言人 答:玻璃基板技术是英特尔在后道制程中采用的一种提高radical size(面板尺寸)的有效技术方式,目前领先台积电,能提供接近九倍的分装能力。这一技术对CPU当前不是必需的,但未来多核化、多线程化的发展趋势可能会对面板尺寸提出更高要求。
发言人 问:对于内存访问速率以及CPU之间的快速通讯,它们在决定CPU整体处理能力方面的优先级会更高吗?
发言人 答:是的,增加线程数只是表象,并非唯一手段。存储和通讯能力的提升对于提高CPU整体处理能力具有决定性的优先级,必须进行系统工程设计以适应性和提升天花板。
发言人 问:CPU是否会像GPU那样随着性能需求增长而采用先进封装技术?
发言人 答:CPU未来可能会通过先进的封装技术来满足性能指标的增长需求。例如,通过类似英特尔EMIB的方式或更大面板尺寸的cos技术集成更多的计算资源、内存片上存储资源以及外部IO资源,从而支持更多的处理器核心和线程数量。
发言人 问:科沃斯技术中,如何通过改变retile size来放置更多的HBM?
发言人 答:在科沃斯技术中,retile size的数量用于衡量一个较大C的interpos'd中介层上能放置的独立硅片的数量。随着retile size增大,理论上可以在封装内放置更多的HBM,例如当尺寸达到3倍时可放置两个HBM,9倍时则能放置四个HBM。
发言人 问:对于代赛提升过程中对再版技术的压力问题,您怎么看?
发言人 答:这是一个非常关键的问题。目前,先进封装中的后道工序——科沃斯技术是提高芯片集成密度的有效手段,尽管存在3D集成的可能性,但2D平面扩展仍是主流方式。为了集成更多计算带和存储,关键在于radial size的倍数。
发言人 问:radial size倍数上升后带来的新问题是什么?
发言人 答:随着radial size倍数上升,硅中介层的载板会因温度不均匀导致翘曲问题,尤其是在达到一定倍数时,硅中介层容易发生翘曲和开焊等可靠性问题。
发言人 问:面对硅中介层的局限性,有哪些解决方案?
发言人 答:解决方案主要有两个方向:一是采用有机面板,因其柔性可扩大面积,但存在高速信号传输差损的问题;二是使用英特尔的嵌入式硅桥或台积电的Kovos L技术,通过小尺寸硅片减少对硅中介层的依赖,但仍面临固定、供电和抗机械形变等方面的挑战。
发言人 问:玻璃基板在解决Kovos封装问题中的作用是什么?
发言人 答:玻璃基板被证明是一种有效的解决方案,它能够帮助解决有机载板中的多层互联问题,实现有效供电并解决信号传输问题,从而使得芯片Kovos封装的面板尺寸能够进一步放大。
发言人 问:目前台积电在Kovos技术路线上的竞争地位如何?
发言人 答:目前台积电尚未完全将玻璃基板作为唯一的路线,仍在探索包括有机基板在内的其他方案。而英特尔已突破国际机版技术,能够提供九倍以上的retile size能力,因此在这一技术路径上,台积电暂时落后。
发言人 问:接下来天风电子团队对于AI产业及硬件配套有哪些展望?
发言人 答:天风电子团队看好整体AI产业需求以及相关硬件配套,特别是CPU在量价关系上有明确抬升趋势,同时内存、通讯等领域也有明显的增量需求。未来将持续推出电话会议和线下路演,与市场进行密集交流和产业跟踪。
夜雨聆风