/images/avatar.png

我对 OpenAI Kubernetes 集群故障的追问与疑惑

2024 年 12 月 11 号,OpenAIKubernetes 集群发生故障,APIChatGPTSora 等服务都受到了影响,且时间长达 4 小时 22 分钟。

关于这次故障,官方有公开复盘,也有很多媒体博主追踪报导。然而,我对此并不满意,本文我将会提出自己的疑惑与追问

系统组件优化的思考框架

我之前的文章里有分享过自己总结的做技术选型的思考框架,本文将会分享一下我总结的做系统组件调优/优化的思考框架。

组件优化的思考框架

常见的互联网架构基本离不开数据库、缓存、消息队列、搜索、数据处理等等各种组件,虽然组件的形态不一、功能不同,但是我仍然把对他们的优化总结归纳为了以下几点:

Kubernetes:CPU 配置、Linux CFS、编程语言的性能问题

Kubernetes CPU 配置 -> Linux CFS

在使用 Kubernetes 时,可以通过 resources.requestsresources.limits 配置资源的请求和限额,例如:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
apiVersion: v1
kind: Pod
metadata:
  name: nginx
spec:
  containers:
  - name: app
    image: nginx
    resources:
      requests:
        cpu: "250m"
      limits:
        cpu: "500m"

对容器的资源配置会通过 CRI 组件(如 containerdcri-o 交由更底层的 runckata-container)去设置 Linux 的 cgroup。