过去十多年,云基础设施通过“抽象化”实现扩展,借助标准化服务器、虚拟化资源及软件层,有效弥合了硬件层面的差异。这种模式之所以行之有效,是因为部分工作负载能够容忍一定程度的低效。然而,人工智能(AI) 工作负载无法容忍低效,也因此暴露出了传统架构在供电、散热、算力密度、内存带宽及系统整体性能方面的短板。本质上,AI 重新定义了“优秀”基础设施的标准。相应地,平台设计的重心也从注重单一的芯片或服务器,转向了打造机架级、可扩展的系统,在功耗和预算有限的前提下,实现高效扩展。而这一转变背后的原因在于,推理与智能体 AI 工作负载持续增长且不间断运行,对高密度、全天候在线的算力需求正快速提升。
Futurum 在《Arm处于 AI 和数据中心变革的中心》报告中,把这一转变称为迈向“系统级协同”。设计的关键不再是堆多少算力,而是平台能不能有效地把加速器、CPU、内存、网络和软件协同起来。
正因如此,业界正加速迈向定制化机架级系统设计:即围绕 AI 负载特性、功耗波动和持续利用率来进行端到端设计的平台。越来越多的架构师开始重新思考计算底层设计,选择基于 Arm 架构来解决现代 AI 平台面临的多重约束。
AI 促使行业重构:转向定制化机架级系统
这一转变的核心原因,并非通用型标准化基础设施无法承载 AI,而是碎片化的系统设计,在 AI 规模化部署时,终将转化为真实可感的成本代价。
AI 工作负载在计算、内存、网络、存储及软件各环节紧密耦合。CPU 拖后腿,昂贵的加速器就会空等;功耗和散热波动,利用率就会下滑;数据管道、调度、编排未能针对平台调优,吞吐量就不可预测。峰值性能依然重要,但稳定性、每瓦性能和系统整体平衡性更关键。
Futurum 指出,超大规模云服务提供商正进行结构性调整,旨在实现算力的指数级增长,同时避免能耗的同步激增。Futurum 引用 Arm 的数据指出,到 2025 年末,出货到头部超大规模云服务提供商的算力中,有近 50% 是基于 Arm 架构。
架构师现在不再只看纸面跑分,而是更关心 AI 平台在实际应用中能否长期可靠地运行智能体 AI 和连续推理工作负载,比如:
长时间高负载下,系统表现如何?
在实际环境中,功耗限制和散热条件如何影响性能曲线?
在机架级系统中,计算层如何确保加速器能持续获得稳定的数据供给,而非仅停留在纸面参数上?
当能效、可扩展性与系统平衡性成为首要原则时,重新审视 CPU 底层架构就成了必然。也正因为此,Arm 凭借领先的架构和完善的生态,正是这场行业变革的核心所在。
在数据中心领域,Arm Neoverse 平台是推动这一转型的核心引擎。亚马逊云科技、Google、微软、NVIDIA 等头部超大规模云服务提供商与 AI 领军企业,都在基于 Arm 架构或采用 Arm 计算平台进行产品研发。Arm 的模式既能支持定制化系统设计,又能保持跨平台、跨生态、跨软件的一致性。对于想要构建高集成度平台、又不愿被单一技术路径绑定的团队而言,这种灵活性至关重要。
智能体 AI 与持续推理,
重塑规模化算力的经济逻辑
随着 AI 与通用计算工作负载的融合,AI 工作负载正在发生变化,基础设施也需随之调整,以支持多样化的工作负载特性。
行业重心正在转向智能体 AI,而智能体 AI 本质上就是一个连续推理系统。智能体并不是简单地给出一个答案, 而是会规划、调用工具、检索数据、验证结果,如此循环往复。由此便形成了连续推理模式:稳定不间断的词元 (token) 生成任务,请求类型趋于多元化,围绕加速器的编排和数据迁移任务变得更繁重。
在智能体 AI 里,CPU 不再是配角, 而是整个 AI 系统的控制中枢。CPU 负责协调控制、调度任务、管理 IO、处理网络与存储服务、执行安全策略,并在模型、上下文及工具链不断演进的过程中,维持整个系统的平衡。
以承载大语言模型 (LLM) 的服务为例,它可能同时处理成百上千的并发请求。就算加速器负责核心计算,CPU 也要承担请求权限控制、分词和预处理、批处理和队列调度、数据迁移编排,以及针对模型权重与 KV 缓存的数据路径协调等。到了智能体工作流,CPU 的工作负担进一步扩展,还要承担工具调用、检索流程、结构化输出验证、多步调度等持续运行的任务。
这一切都表明,CPU的重要性远超许多团队的预期。如果 CPU 跟不上编排节奏,数据迁移、处理流程和加速器都会被“卡住”,面临结构性的闲置风险。
融合型 AI 数据中心的建设,彰显了 Arm 架构的强劲势头
Arm 的发展势头正在加快。在业内领先的集成式 AI 系统中,基于 Neoverse 平台的 CPU 被广泛用于智能体推理密集型系统的编排层,尤其适合追求高能效、可预测扩展能力和大规模部署的应用场景。
独立测试也印证了现代 CPU 基础平台在“AI 相关”工作负载中的价值。Futurum 旗下 Signal65 的独立基准测试对比了基于 Arm Neoverse 平台的 Amazon Graviton4 与同级的 AMD和 IntelEC2 实例,结果显示:在生成式 AI (Llama-3.1-8B)、数据库 (Redis)、机器学习(XGBoost)、网络 (Nginx) 等测试的各种工作负载中,基于 Neoverse 平台的 Graviton4 在性能和性价比方面大幅领先。
测试结果直接反映了智能体 AI 数据中心的现状:LLM、检索层、缓存、Web/API、传统机器学习等全都处于智能体系统的关键路径上,只有当 CPU 兼具速度与能效时,整体才能更好地扩展。
最新的机架级 AI 系统在架构设计上,均采用定制化加速器层以及基于 Arm 架构的 CPU 层的组合,由后者承担调度编排、数据迁移与智能体推理预处理等关键任务。NVIDIA Grace Hopper、Grace Blackwell 等系列产品,将 NVIDIA GPU与基于 Neoverse 架构的 Grace CPU 深度融合。而其最新机架级平台 Vera Rubin NVL72,更是在系统内集成 72 颗 Rubin GPU 与 36 颗基于 Arm 架构的 Vera CPU,专为交互式、深度推理型智能体 AI 优化,显著降低推理成本。
亚马逊云科技也在走同样的系统级路线:Amazon Trainium3 UltraServer 把 Trainium3 加速器芯片与 Graviton CPU 结合,强化了“融合型”设计理念:将加速器与定制的高性能、高能效 CPU 相匹配,以实现高效扩展。
“提供更优选择”不再是偏好,而是硬性要求
AI 系统迭代太快,固定架构已无法适配其发展节奏,因此为客户提供更优选择已成为风险管理的必要举措。
系统架构师想要的是:
平台能适应不同代的硬件、多样的工作负载配置及各异的部署环境;
软件可移植,以降低系统变更成本。
与此同时,系统架构师希望避免因过度依赖单一厂商,而导致在模型组合变化、业务规模扩张或新需求出现时陷入被动。在智能体时代尤其如此:推理形态不断变化,上下文更长、工具调用更多、多模态输入更频繁、全天候工作负载更普遍,效率和平衡远比峰值跑分重要。
Arm 架构在提升系统性能的同时,保持跨平台一致性。Arm 架构不仅引入了现代 AI 基础设施所需的关键特性,而且拥有强大的软件生态支持。Arm 计算子系统 (CSS) 提供经过验证的基础设施级模块,既加速了芯片开发,又保留了合作伙伴间的差异化与选择权。对于所有基于 Arm 架构的平台,一致性贯穿始终,云工作负载迁移至 Arm 平台也极为便捷。同时,在软件层面,Arm 生态助力团队在不同环境与平台间拥有一致连贯的基础,从而加速开发进程,无需重写所有代码。
智能体 AI 经济重塑 CPU 选择格局,Arm Neoverse 平台成头部厂商首选
系统架构师之所以倾向于 Arm 平台,因为它精准匹配定制AI 系统的核心需求:能效、可扩展性及每瓦性能。能效重要,因为功耗和预算是硬上限;系统平衡和 CPU 性能重要,因为加速器闲置成本极高;一致性重要,因为 AI 基础设施变化快、跨环境部署日益增多。
在融合型智能体 AI 数据中心里,面对持续推理的应用需求,上述优先事项变成了上线即需满足的硬性指标。智能体系统不只需要能生成词元的加速器,更需要以 CPU 为核心的编排能力,在网络、存储、调度、安全层面,持续、高效、大规模地把资源利用起来。
Arm 如今的强劲增长正源于此:Neoverse 正成为智能体时代的 CPU 基础平台,作为计算头节点,是让 AI 系统保持高效、一致并面向未来的核心控制中枢。
" alt="为何AI数据中心的系统架构师首选Arm平台" style="width:113px;height:80px;">
在上期中,我们探讨了一种基于 TAS5431-Q1 的音频放大器RTD 系统设计方案。本期,为大家带来的是《在功能安全应用中使用电压监控器监控电压轨》,介绍了一种基于电压监控器与内置自检机制的汽车摄像头功能安全设计方法,以解决电压轨故障导致的潜在失效、未被及时发现并转化为危险的系统性问题。
引言
“功能安全”概念要求任何与安全相关的系统以可预测的安全方式正确运行或进入失效模式。这是一个宽泛的主题,相关的一些标准主要涉及汽车应用(国际标准化组织 26262)和工业应用(国际电工委员会 61508)中的电子产品。
自动驾驶汽车或协作机器人对先进电子系统的需求不断增长,引发了人们对功能安全的担忧,这促使工程师想要深入了解各种失效模式以及如何设计失效防护系统。
本文重点讨论汽车摄像头系统的电压轨监控。与其他分立式解决方案相比,电压监控器在功率、尺寸和时基故障 (FIT) 率方面具有优势,并且可帮助工程师在设计中达到更高的安全等级。汽车摄像头系统或域控制器通常需要对整个电源架构进行重要的电压轨监控。
电压轨系统故障
电压轨监控功能是每个电子系统的一部分,可确保关键元件在建议的工作电压范围内正常工作。发生电压轨故障的原因有很多,包括电源内部故障导致电压调节不正确、被动失效导致短路或开路故障,甚至是意外的负载电流导致电源轨电压骤降。电压监控器可监控电压轨是否有电压错误,并允许它们提供由安全系统用于诊断用途的响应输出。
负载点故障的一个常见示例是微控制器 (MCU) 的欠压问题。为 MCU 供电的电压轨低于预期电压时便会发生“欠压”,这一问题会导致 MCU 处于不明状态。解决MCU 欠压问题的一种常见方法是监控进入 MCU 的电压轨是否存在欠压情况,并向 MCU 提供复位输出。复位输出会将 MCU 关闭,直到欠压问题得到解决。
图 1 是汽车摄像头系统的基本电源架构示例,其中采用了TPS37043-Q1 电压监控器,这是一款符合功能安全标准的器件,可满足 ISO26262 要求和汽车安全完整性等级。在此电源架构中,监控器的作用是识别系统中的潜在故障,并防止图像传感器或摄像头系统出现任何运行错误。没有任何保障措施的电压轨故障会降低故障指标等级,从而降低整体系统安全性,而电压轨监控功能则有助于提高电源架构的故障指标等级。此功能为系统提供了更多信息,从而支持受控的决策过程,并避免可能导致危险情况的安全违规行为。

图 1 具有监控功能的汽车摄像头电源架构
在图 1 中,安全运行意味着使用中的汽车摄像头始终可靠工作,时刻确保用户不会面临严重受伤的风险。可能发生的故障类型有两种:系统性故障和随机故障。开发用于电源架构的部件时,遵守正确的设计规则有助于消除系统性故障;然而,按照定义,随机故障是随机的。没有人知道它们是否以及何时会发生。
现在来看一个采用了备用摄像头的故障示例。如果电源架构的任何部件发生随机故障并且驾驶员的显示屏出现黑屏,该事件会被认定为可察觉的故障;驾驶员仍可通过后视镜安全倒车。然而,该摄像头用于车道保持辅助功能或障碍物检测系统时,用户不会意识到故障的发生,这种情况会导致危险。触发该故障的因素可能是通向图像传感器的其中一个电压轨低于图像传感器的绝对最大值或最小值,从而导致其进入挂起状态。在这种情况下,电压监控器的任务是在出现挂起状态时使图像传感器复位,以便系统重新启动。
一个明显的问题是,重启所花费的时间本身是否会被视为安全隐患?这种情况下容错时间间隔 (FTTI)将发挥作用。这是指系统必须在不使驾驶员或其他人处于危险之中的情况下进行更正的时间。监控器的复位延时时间将是根据 FTTI 选择的设计参数。在系统复位期间,安全的做法是在故障触发时立即向驾驶员发出视觉和听觉警报。该警报将使驾驶员警觉,并避免出现可能导致危险的不可察觉的故障。
下一个问题是如何保证电压监控器始终可靠工作?这就是可能出现故障的环节。例如,假设会触发直接运行错误的临界电压轨是 1.2V,如果负责监控 1.2V 电压轨的TPS3704 的比较器(SENSE3) 不能正常工作,会发生什么情况呢?故障检测功能失效有四种可能的原因(这称为失效模式分布):
过压阈值太高。
欠压阈值太低。
比较器完全无法工作。
比较器可以工作,但复位线卡在高电平,因此无法传达故障。
如果比较器进入这些失效模式之一,则系统中不会有任何指示,直到监控器作出反应。这种未被检测到的监控器故障会导致运行错误,如果未在 FTTI 内发现,驾驶员可能会受伤。因此,比较器的故障是潜在的并且处于休眠状态,直到监控器作出反应。
运用一种称为内置自检 (BIST)的机制可防止监控器故障情况。理想情况下,BIST 应该是自动的,并且在每次给监控器供电(点火开关接通)时运行。图 2 所示为欠压故障的手动自检,而图 3 为过压和欠压跳闸点的手动检查。

图 2 针对欠压故障的手动自检

图 3 针对过压和欠压跳闸点的手动检查
在图 2 中,SENSE4 过压 (VIT+) 设置为 5.5V,欠压(VIT–) 设置为 2V。VIT+是设置的过压跳闸点,VIT–是设置的欠压跳闸点。能够设计启动机制,以便每次打开点火开关时,都会触发手动欠压,从而将 SENSE4 拉低至其欠压跳闸点以下,并将 RESET2 置为低电平。此过程将确认欠压比较器和 RESET 逻辑工作正常。这是一种低覆盖率的自检方案,因为它只检查一个 SENSE 通道并作为其他通道的伪表示。
图 3 显示的方案用于检查高于或低于阈值的过压和欠压跳闸点,并在 SENSE 通道上实施检查(此处对于汽车摄像头的运行至关重要)。在该方案中,LM10011 与电压识别 (VID) 接口结合使用。VID 接口的不同逻辑组合在三个值(标称值、过压测试值和欠压测试值)之间改变 LM10011 的内部 DAC输出电流 (IDAC_OUT)。公式 1、2 和 3 说明了如何使用 LM10011 来触发过压和欠压故障。

公式 1.
其中 VSENSEx为感应电压,1.2V 为监控的电压。
根据公式 1,对于要检查的标称输出电压,选择 R1 和 R2 可以在 SENSEx 引脚上获得 0.8V 电压。
应设置公式 2 的值,以便在设置用于过压测试的 IDAC_OUT时越过 1.2V 电压轨的选定过压跳闸点。

公式 2.
应设置公式 3 的值,以便在设置用于欠压测试的 IDAC_OUT时越过 1.2V 电压轨的选定欠压跳闸点:

公式 3.
其中,IDAC(ovtest)>IDAC(nom)>IDAC(uvtest)。
现在考虑图 3 所示实施的 BIST 方案直接影响的功能安全指标。在计算功能安全指标时,有两个关键方面会很重要:单点故障诊断覆盖率和潜在故障诊断覆盖率。使用了窗口监控器来提高单点故障诊断覆盖率的成绩,因此通过实施 BIST 方案,潜在故障诊断覆盖率从 0% 跃升至 60%。这有助于降低潜在时基故障率。
各种自检方法都可提高潜在故障指标,以确保监控器始终有效。为了将自检作为一种安全机制,需要在每次接通点火开关时或在一个行驶周期中或者在激活摄像头系统功能的任何时候进行一次测试。图 4 所示的流程图展示了该方案。目标是在系统进入活动状态或任务工作模式之前执行自检方案。图 4 中的着色区域显示了自检方案的附加模块,这些模块可提高潜在故障指标。

图 4 显示自检方案实施情况的流程图
结论
根据应用选择合适的监控器很重要,一旦选定,就可使用简单的机制来改善潜在故障指标并避免电源轨故障转化成危险。
" alt="一种基于电压监控器与内置自检机制的汽车摄像头功能安全设计方法" style="width:113px;height:80px;">

3月12日,在上海AWE展会期间,砺算科技正式发布了首款消费级显卡LX 7G100,该产品基于砺算自研的LX 7G106芯片,配备12GB GDDR6显存与PCIe 4.0接口,可用于游戏娱乐、AIPC与内容创作等场景。LX 7G100将于今年6月18日在京东开售。该芯片基于完全自主知识产权的TrueGPU“天图”架构,从指令集、计算核心到软件栈均为自主研发,不依赖任何外部IP授权,从源头上杜绝了“断供”风险。此外,砺算还发布3款专业卡,覆盖工作站、服务器等产品线。

砺算科技CEO宣以方表示,新款显卡LX 7G100可以适配上百个游戏,快速地跑起来,是因为我们有一群努力的工程师,把硬件和软件的适配做起来。
砺算AWE展上发布专业卡,覆盖云端和图形处理多个场景
宣以方回顾了砺算科技的发展历程,历经4年的努力和验证,砺算科技首款芯片于2025年5月24日芯片点亮,7月26日砺算7G100系列GPU发布,外界称7G106超越了英伟达RTX4060,Benchmark跑分更高(FP32算力达到24 TFLOPs,这与RTX 4060(约15-18 TFLOPs,在纸面参数上看似更高),9月开始量产,晶圆厂和封装厂都支持励算,截止到2026年2月,芯片量产回来。


宣以方称,砺算LX7G106 MAX版本是搭载12GB GDDR6显存产品,LX7G106 PRO是搭载24GB GDDR6的显存产品,采用轴流风扇,可以跑更大的模型,做更加专业领域的应用。LX7G106 ULTRA搭载24GB GDDR6,采用涡轮风扇,可以应用到云端领域,搭载在服务器上。据悉,励算专业卡适配了10家的CPU、10多种操作系统,还有50+专业应用和10多家数字孪生应用。
现场,砺算专业卡支持Intel、AMD、中科海光、飞腾、龙芯、此芯科技、兆芯等CPU,支持Windows、麒麟软件、UOS、Ubuntu、OpenGL、Vukan等主流操作系统、API和图形引擎,同时支持目前主流大模型。
砺算专业卡LX 7106可以适配工业软件Solidworks、中望软件、3DS MAX的图形显示,宣以方指出,砺算科技的专业显卡LX 7106适配10多家图像视频和编辑软件。3月17日开始接受客户预定。
砺算推出消费卡LX 7G100,支持主流3D游戏和图形引擎
砺算CEO宣以方指出,公司希望给行业和图形、影视制作者提供价值,不是提供低价格,当下正好赶上AI时代,AI PC可以给用户很大的创作空间。

据悉,砺算推出的消费卡LX 7G100支持OpenGL、OpenGLES、Vulkan、WHQL、Unity、UNREAL等主流API和图形引擎。励算LX7G100 在60帧跑游戏的时候非常流畅,并且首次公开确认《黑神话:悟空》《赛博朋克2077》《生化危机4重制版》等主流大作,都可以流畅地跑起来。
“游戏不是我们的强项,英伟达图形显卡已经20个迭代,我们才第一代产品。”宣以方表示。“我们的消费类显卡可以支持数十款最火的Steam游戏”。
3月12日,在上海举办的中国家电及消费电子博览会(AWE2026)上,京东与国产GPU领军企业砺算科技正式签署全面战略合作协议。双方将围绕消费级与企业级市场,在供应链整合、全渠道营销、场景化应用等维度深度协同,共同加速国产GPU芯片的规模化落地与生态建设。
" alt="国产显卡里程碑!砺算科技AWE重磅发布四款GPU,打通消费与专业市场" style="width:113px;height:80px;">