Kubernetes Extended Resource 扩展资源使用简介
Kubernetes 除了提供基于 CPU 和内存的传统计算资源调度外,还支持自定义的 Extended Resource
扩展资源,以便调度和管理其它各种类型的资源。
Extended Resource
Extended Resource
扩展资源的创建和使用过程如下图所示:
Kubernetes 除了提供基于 CPU 和内存的传统计算资源调度外,还支持自定义的 Extended Resource
扩展资源,以便调度和管理其它各种类型的资源。
Extended Resource
扩展资源的创建和使用过程如下图所示:
Node
节点是 Kubernetes 的核心组件之一,其生命周期可以简要概括为:注册、运行、下线。本文将简要介绍 Node
生命周期中发生的关键事件。
每个 node
节点都需要运行 kubelet
,kubelet
启动后会向 kube-apiserver
发起节点的注册请求,即创建一个新的 node
资源对象。
本文将详细介绍 Kubernetes 如何管理节点上的镜像。
Kubelet
通过 gRPC 协议与 CRI
组件(如 containerd
、cri-o
)进行交互。在创建新 Pod 时,kubelet
调用 gRPC 的 ImageService.PullImage
方法,由 CRI
组件将镜像下载到节点上。镜像在磁盘上的组织和管理由 CRI
组件负责,不同的 CRI 组件存在差异。
ChatGPT 是一个基于 LLM
的对话系统。本文将介绍如何构建一个类似 ChatGPT 的系统,包括从模型、推理引擎到整体架构的构建过程。
让我们关注最核心的对话部分。
在现在的 AI
领域,Fine-Tuning
(微调)是一种常见且有效的方法,通过对已经训练好的模型进行特定任务的微调,可以使模型在特定场景下表现得更加出色和符合需求。在这篇文章中,我将以 Kubernetes
文档的英译中为背景,分享我进行 Fine-Tuning
的探索过程。
随着人工智能(AI
)和机器学习(ML
)的快速发展,GPU
已成为 Kubernetes 中不可或缺的资源。然而,Kubernetes 最初设计的调度机制主要针对 CPU 和内存等常规资源,未对异构硬件(如 GPU)提供原生支持。
之前我用 Ollama
在本地跑大语言模型(可以参考《AI LLM 利器 Ollama 架构和对话处理流程解析》
)。这次想再捣鼓点进阶操作,比如 fine-tuning
。
我的想法是:既然有现成的大模型,为什么不自己整理些特定领域的数据集,给模型“加点料”呢?这样最后就能得到一个针对特定领域优化过的模型了。
Ollama
是一个快速运行 LLM
(Large Language Models,大语言模型)的简便工具。通过 Ollama
,用户无需复杂的环境配置,即可轻松与大语言模型对话互动。
在云原生环境中,为确保容器化应用的安全运行,Kubernetes 利用了 Linux 内核的三大安全机制:Seccomp
、AppArmor
和 SELinux
,并引入了 Pod 安全性标准与准入控制来增强 Pod 的安全性。
在 Kubernetes 中,kube-proxy
和 CNI
插件协同工作,确保集群内 Pod 之间的互联互通。
如上图所示,假设我们有一个类型为 ClusterIP
的 Service
,它对应两个位于不同节点的 Pod。