张贴在 2026

  • Ingress2Gateway 1.0 正式发布:通往 Gateway API 的途径

    借由 Beka Modebadze (Google), Steven Jin (Microsoft) | 2026.03.20 在 博客

    随着 Ingress-NGINX 计划于 2026 年 3 月正式退役,Kubernetes 网络图景正处于一个转折点。 对于大多数组织而言,问题不在于是否迁移到 Gateway API,而在于如何安全地完成迁移。 从 Ingress 迁移到 Gateway API 是 API 设计的根本性转变。 Gateway API 提供了一个模块化、可扩展的 API,并对 Kubernetes 原生的基于角色的访问控制(RBAC)提供了强大的支持。 相反,Ingress API 较为简单, …

    更多

  • 在 Kubernetes 上使用 Agent Sandbox 运行智能体

    借由 Janet Kuo Justin Santa Barbara | 2026.03.20 在 博客

    人工智能领域正经历着一场巨大的架构变革。 在生成式人工智能的早期,与模型交互通常被视为一个瞬态的、无状态的函数调用:一个启动、执行可能仅 50 毫秒便终止的请求。 如今,人工智能 2.0 正在取代人工智能 1.0。 人工智能生态系统正从短暂、孤立的任务转向部署多个持续运行的、协同工作的 AI 智能体。 这些自主智能体需要维护上下文信息、使用外部工具、编写和执行代码,并在较长时间内相互通信。 当平台工程团队寻找合适的架构来托管这些新型 AI 工作负载时, Kubernetes 脱颖而出,成为自然 …

    更多

  • 宣布成立 AI 网关工作组

    借由 Keith Mattix, Nir Rozenbaum, Morgan Foster, Flynn | 2026.03.09 在 博客

    Kubernetes 社区包含多个特别兴趣小组(SIG)和工作组(WG), 旨在促进相关贡献者之间就重要议题展开讨论。 今天,我们很高兴地宣布成立 AI 网关工作组, 这是一项专注于为 Kubernetes 环境中支持 AI 工作负载的网络基础设施制定标准和最佳实践的新举措。 什么是 AI 网关? 在 Kubernetes 环境中,AI 网关指的是网络网关基础设施(包括代理服务器、负载均衡器等), 它通常实现 Gateway API 规范,并针对 AI 工作负载提供增强功能。 AI 网关并非定 …

    更多

  • 节点就绪控制器简介

    借由 Ajay Sundar Karuppasamy (Google) | 2026.02.03 在 博客

    在标准的 Kubernetes 模型中,节点是否适合运行工作负载取决于一个简单的“就绪”状态。 然而,在现代 Kubernetes 环境中,节点需要复杂的底层架构依赖项 (例如网络代理、存储驱动程序、GPU 固件或自定义健康检查)才能完全运行,从而可靠地托管 Pod。 今天,我代表 Kubernetes 项目宣布推出节点就绪控制器。 该项目引入了一个声明式系统来管理节点污点,从而在节点启动过程中扩展了就绪保护机制,使其超越了标准条件。 通过基于自定义健康信号动态管理污点,该控制器确保工作负载仅 …

    更多

  • Headlamp 2025 年度项目亮点

    借由 Evangelos Skopelitis (Microsoft) | 2026.01.22 在 博客

    本公告是对最初在 Headlamp 博客上发布的帖子的回顾。 Headlamp 在 2025 年取得了长足的发展。该项目持续成长,覆盖了更多平台和团队; 通过插件机制支持了新的工作流和集成方式;同时也看到了来自更广泛社区的协作不断增强。 我们想借此机会分享一些最新进展,并重点介绍 Headlamp 在过去一年中的演进与变化。 更新 加入 Kubernetes SIG UI 今年标志着该项目的一个重要里程碑:Headlamp 现已成为 Kubernetes SIG UI 的正式组成部分。此举使路 …

    更多

  • Kubernetes v1.35:扩展容忍度运算符以支持数值比较(Alpha)

    借由 Heba Elayoty (Microsoft) | 2026.01.05 在 博客

    许多生产级 Kubernetes 集群会混合使用按需(on-demand,高 SLA)节点与 spot/可抢占(preemptible,低 SLA)节点, 以在保证关键工作负载可靠性的同时优化成本。平台团队需要一个“安全默认值”,让大多数工作负载远离风险容量, 同时又允许特定工作负载用明确阈值显式选择接受(opt-in),例如“我可以容忍失败概率最高 5% 的节点”。 目前,Kubernetes 的污点与容忍度(taints and tolerations)可以匹配精确值或检查键是否存在, 但 …

    更多

  • Kubernetes v1.35: 通过就地重启 Pod 实现更高的效率

    借由 Yuan Wang Giuseppe Tinti Tomio Sergey Kanzhelev | 2026.01.05 在 博客

    Kubernetes 1.35 版本引入了一项强大的新特性,满足了用户对 Pod 就地重启的迫切需求。 这项名为“重启所有容器”(Restart All Containers,1.35 版本为 Alpha 版)的特性, 相比于资源用量较高的删除并重建整个 Pod 的方式,能够更高效地重置 Pod 的状态。 该特性对于 AI/ML 工作负载尤为实用,使应用程序开发人员能够专注于核心训练逻辑, 同时将复杂的故障处理和恢复机制交给边车容器和声明式 Kubernetes 配置来处理。 …

    更多

张贴在 2025

  • Kubernetes 1.35:版本化 z-pages API 带来更强大的调试能力

    借由 Richa Banker, Han Kang | 2025.12.31 在 博客

    调试 Kubernetes 控制平面组件可能很具挑战性, 尤其是在需要快速理解组件运行时状态或验证配置时。 在 Kubernetes 1.35 中,我们为 z-pages 调试端点带来结构化、可被机器解析的响应, 让构建工具和自动化排障流程变得更加轻松。 什么是 z-pages? z-pages 是 Kubernetes 控制平面组件所公开的特殊调试端点。 它们在 Kubernetes 1.32 中以 Alpha 特性引入, …

    更多

  • Kubernetes v1.35:云控制器管理器中的基于监视的路由协调

    借由 Lukas Metzner (Hetzner) | 2025.12.30 在 博客

    在 Kubernetes v1.34 及更早版本中,使用 k8s.io/cloud-provider 库构建的云控制器管理器(CCM)实现中的路由控制器会以固定的时间间隔进行路由协调。 这会导致在路由没有变化的情况下,向云提供商发出不必要的 API 请求。 其他使用同一库实现的控制器已经使用基于监听的机制, 利用 informer 来避免不必要的 API 调用。 v1.35 版本引入了一个新的特性门控,允许更改路由控制器的行为, 使其使用基于监听的 informer。 新特性 SIG …

    更多

  • Kubernetes v1.35:Job Managed By 特性正式发布(GA)

    借由 Dejan Zele Pejchev (G-Research), Michał Woźniak (Google) | 2025.12.18 在 博客

    在 Kubernetes v1.35 中,通过 .spec.managedBy 指定外部 Job 控制器的能力升级为正式可用(GA)。 该特性允许外部控制器对 Job 的调谐(reconciliation)承担完全责任,从而解锁更强大的调度模式, 例如借助 MultiKueue 进行跨多集群派发。 为何要委派 Job 调谐? 该特性的主要动机是支持多集群批处理调度架构,例如 MultiKueue。 MultiKueue 架构区分“管理集群(Management Cluster)”与一组“工作集 …

    更多