2025年被视为AI Agent爆发之元年,AI Agent在标准化和短周期任务中展现出令人惊叹的应用能力,市场中爆发多款备受瞩目的AI Agent 产品。面向未来,AI Agent对于长周期、复杂化任务领域也有望取得飞速进展,这无疑将彻底重塑众多行业的业务、流程和组织。
“为什么不?”--当亚马逊云科技CEO Matt Garman在AWS re:Invent2025大会上喊出这一口号时,设想未来数十亿AI Agent协同工作的壮观场景,现场观众无不欢呼。
作为云计算领域的顶级盛会,AWS re:Invent大会一向是云计算、人工智能等前沿技术应用与探索的风向标。对于AI Agent带来的变革性影响,亚马逊云科技也在今年re:Invent大会上带来全新的思考与洞察。
正如亚马逊云科技 CEO Matt Garman所言,AI Agent就行云计算一样具有变革性,而Agentic AI时代正加速到来。为此,亚马逊云科技发布一系列新服务,将从AI基础设施、推理平台、数据和Agents 工具等方面推动Agent在行业中的深度应用。
亚马逊云科技 CEO Matt Garman
AI工厂:将AI部署在本地
在AI 基础设施方面,今年大会一项重要服务的发布无疑是:AWS AI Factory。亚马逊云科技希望通过AWS AI Factory,将专用的全栈AI 基础设施直接部署到客户现有的数据中心内。
Matt Garman介绍,AWS AI Factory结合了NIVIDIA GPU、AWS Trainium 芯片、高速低延迟网络以及Amazon Bedrock 和 Amazon SageMaker等核心AI 服务。
不同于过去Outposts等机架设备,AWS AI Factory是一个完整的全栈技术方案,包含了从芯片、基础设施、AI模型、AI平台等一系列产品。借助此服务,用户可以利用自身的设施、电力和网络连接,AWS 则负责部署、运维和生命周期管理,类似获得私有AWS Region。
亚马逊云科技此举意义重大。AWS AI Factory的好处在于提供了一个经过验证、产品成熟的全栈AI方案,更可以持续迭代,与亚马逊云科技基础设施保持同样的水准。
众所周知,有不少行业积极看重安全与合格性,又渴望能够快速部署和应用AI。但大部分行业用户并不缺乏基础设施,却唯独缺少切实可行、可用于生产环境的大规模人工智能部署路径 。例如,数据质量、模型部署、安全治理等方面挑战极大,绝非简单将众多产品与工具拼凑就能够解决的,而AWS AI Factory全栈方案的到来,意味着用户可以屏蔽AI基础设施等方面的复杂性,大幅缩短部署周期和降低运维管理的难度,借助AWS丰富的经验实现AI在本地的部署与应用。
Trainium3 UltraServers,专为AI应用而来
随着AI的火爆,AI芯片也成为当前市场最为热门的话题。除了NVIDIA、Google之外,亚马逊云科技也是AI芯片领域重要的玩家。其Trainium芯片经过多年的打磨迭代更新,正逐步展现出极其强大的能力。
在本次大会上,亚马逊云科技正式发布了 Amazon EC2 Trn3 UltraServer,该超级服务器采用3nm Trainium3 AI 芯片。Trn3 系统可在单个 UltraServer 中最多扩展多达 144 个 Trainium3 芯片;与 Trainium2 相比,可提供高达 4.4 倍计算性能、4 倍能源效率和近 4 倍内存带宽。

在大会上,亚马逊云科技也展示了Trainium3 UltraServer在开源权重模型 GPT-OSS等系列测试的成绩,无论是推理响应速度、单芯片吞吐,还是训练与成本等均取得了业界领先的成绩。
根据Matt Garman介绍,Trainium3 UltraServer专门为AI、混合专家模型和大规模强化学习等工作负载设计,并且针对训练和企业在生产环境中日益繁重的推理负载都进行优化。
