以非 root 用户身份运行 Kubernetes 节点组件

功能状态： Kubernetes v1.22 [alpha]

本文档介绍如何使用用户命名空间，在没有 root 权限的情况下运行 Kubernetes Node 组件，例如 kubelet、CRI、OCI 和 CNI。

此技术也称为无根模式。

注意

本文档介绍如何以非 root 用户身份运行 Kubernetes 节点组件（以及 Pod）。

如果您只是想了解如何以非 root 用户身份运行 Pod，请参阅SecurityContext。

开始之前

你的 Kubernetes 服务器必须是 1.22 或更高版本。要检查版本，请输入 kubectl version。

启用 Cgroup v2
启用带有用户会话的 systemd
根据主机 Linux 发行版配置几个 sysctl 值
确保你的非特权用户在 /etc/subuid 和 /etc/subgid 中列出
启用 KubeletInUserNamespace 功能门控

在无根 Docker/Podman 中运行 Kubernetes

kind

kind 支持在无根 Docker 或无根 Podman 中运行 Kubernetes。

请参阅使用无根 Docker 运行 kind。

minikube

minikube 也支持在无根 Docker 或无根 Podman 中运行 Kubernetes。

请参阅 Minikube 文档

在非特权容器中运行 Kubernetes

注意： 此部分链接到第三方项目，这些项目提供 Kubernetes 所需的功能。 Kubernetes 项目的作者不负责这些项目，这些项目按字母顺序列出。要向此列表添加项目，请在提交更改之前阅读内容指南。更多信息。

sysbox

Sysbox 是一个开源容器运行时（类似于“runc”），支持在 Linux 用户命名空间隔离的非特权容器中运行系统级工作负载，例如 Docker 和 Kubernetes。

有关更多信息，请参阅Sysbox 快速入门指南：Docker 中的 Kubernetes。

Sysbox 支持在非特权容器中运行 Kubernetes，而无需 Cgroup v2 和 KubeletInUserNamespace 功能门控。它通过在容器内暴露专门制作的 /proc 和 /sys 文件系统以及其他几种高级操作系统虚拟化技术来实现这一点。

直接在主机上运行无根 Kubernetes

K3s

K3s 实验性地支持无根模式。

有关用法，请参阅以无根模式运行 K3s。

Usernetes

Usernetes 是 Kubernetes 的一个参考发行版，可以在没有 root 权限的情况下安装在 $HOME 目录下。

Usernetes 支持 containerd 和 CRI-O 作为 CRI 运行时。 Usernetes 支持使用 Flannel (VXLAN) 的多节点集群。

有关用法，请参阅Usernetes 仓库。

手动部署在用户命名空间中运行 kubelet 的节点

本节提供有关手动在用户命名空间中运行 Kubernetes 的提示。

注意

本节旨在供 Kubernetes 发行版的开发人员阅读，而不是最终用户。

创建用户命名空间

第一步是创建用户命名空间。

如果您尝试在用户命名空间容器（如无根 Docker/Podman 或 LXC/LXD）中运行 Kubernetes，那么您已经准备就绪，可以转到下一小节。

否则，您必须通过调用带有 CLONE_NEWUSER 的 unshare(2) 来自行创建用户命名空间。

也可以使用命令行工具（例如）来取消共享用户命名空间

取消共享用户命名空间后，您还需要取消共享其他命名空间，例如挂载命名空间。

您在取消共享挂载命名空间后不需要调用 chroot() 或 pivot_root()，但是，您必须在命名空间内的几个目录上挂载可写文件系统。

至少，以下目录需要在命名空间内（而不是命名空间外）可写

/etc
/run
/var/logs
/var/lib/kubelet
/var/lib/cni
/var/lib/containerd（用于 containerd）
/var/lib/containers（用于 CRI-O）

创建委派的 cgroup 树

除了用户命名空间之外，您还需要一个具有 cgroup v2 的可写 cgroup 树。

注意

Kubernetes 对在用户命名空间中运行节点组件的支持需要 cgroup v2。不支持 Cgroup v1。

如果您尝试在基于 systemd 的主机上的无根 Docker/Podman 或 LXC/LXD 中运行 Kubernetes，那么您已经准备就绪。

否则，您必须创建一个具有 Delegate=yes 属性的 systemd 单元来委派具有可写权限的 cgroup 树。

在您的节点上，systemd 必须已经配置为允许委托；有关更多详细信息，请参阅无根容器文档中的 cgroup v2。

配置网络

节点组件的网络命名空间必须具有一个非环回接口，例如，可以使用 slirp4netns、VPNKit 或 lxc-user-nic(1) 进行配置。

可以使用常规 CNI 插件配置 Pod 的网络命名空间。对于多节点网络，已知 Flannel (VXLAN, 8472/UDP) 可以工作。

必须使用外部端口转发器（例如 RootlessKit、slirp4netns 或 socat(1)），将 kubelet 端口 (10250/TCP) 和 NodePort 服务端口等端口从节点网络命名空间暴露给主机。

您可以使用 K3s 的端口转发器。有关更多详细信息，请参阅在无根模式下运行 K3s。该实现可以在 k3s 的 pkg/rootlessports 包中找到。

配置 CRI

kubelet 依赖于容器运行时。您应该部署一个容器运行时（例如 containerd 或 CRI-O），并确保它在 kubelet 启动之前在用户命名空间内运行。

containerd
CRI-O

自从 containerd 1.4 以来，支持在用户命名空间中运行 containerd 的 CRI 插件。

在用户命名空间中运行 containerd 需要以下配置。

version = 2

[plugins."io.containerd.grpc.v1.cri"]
# Disable AppArmor
  disable_apparmor = true
# Ignore an error during setting oom_score_adj
  restrict_oom_score_adj = true
# Disable hugetlb cgroup v2 controller (because systemd does not support delegating hugetlb controller)
  disable_hugetlb_controller = true

[plugins."io.containerd.grpc.v1.cri".containerd]
# Using non-fuse overlayfs is also possible for kernel >= 5.11, but requires SELinux to be disabled
  snapshotter = "fuse-overlayfs"

[plugins."io.containerd.grpc.v1.cri".containerd.runtimes.runc.options]
# We use cgroupfs that is delegated by systemd, so we do not use SystemdCgroup driver
# (unless you run another systemd in the namespace)
  SystemdCgroup = false

配置文件的默认路径是 /etc/containerd/config.toml。该路径可以使用 containerd -c /path/to/containerd/config.toml 来指定。

自从 CRI-O 1.22 以来，支持在用户命名空间中运行 CRI-O。

CRI-O 需要设置一个环境变量 _CRIO_ROOTLESS=1。

还建议进行以下配置

[crio]
  storage_driver = "overlay"
# Using non-fuse overlayfs is also possible for kernel >= 5.11, but requires SELinux to be disabled
  storage_option = ["overlay.mount_program=/usr/local/bin/fuse-overlayfs"]

[crio.runtime]
# We use cgroupfs that is delegated by systemd, so we do not use "systemd" driver
# (unless you run another systemd in the namespace)
  cgroup_manager = "cgroupfs"

配置文件的默认路径是 /etc/crio/crio.conf。该路径可以使用 crio --config /path/to/crio/crio.conf 来指定。

配置 kubelet

在用户命名空间中运行 kubelet 需要以下配置

apiVersion: kubelet.config.k8s.io/v1beta1
kind: KubeletConfiguration
featureGates:
  KubeletInUserNamespace: true
# We use cgroupfs that is delegated by systemd, so we do not use "systemd" driver
# (unless you run another systemd in the namespace)
cgroupDriver: "cgroupfs"

启用 KubeletInUserNamespace 功能门控后，kubelet 会忽略在节点上设置以下 sysctl 值期间可能发生的错误。

vm.overcommit_memory
vm.panic_on_oom
kernel.panic
kernel.panic_on_oops
kernel.keys.root_maxkeys
kernel.keys.root_maxbytes.

在用户命名空间中，kubelet 还会忽略尝试打开 /dev/kmsg 时引发的任何错误。此特性门控还允许 kube-proxy 在设置 RLIMIT_NOFILE 时忽略错误。

KubeletInUserNamespace 特性门控在 Kubernetes v1.22 中引入，状态为“alpha”。

在不使用此特性门控的情况下，通过挂载特别制作的 proc 文件系统（如 Sysbox 所做的那样）也可以在用户命名空间中运行 kubelet，但官方不支持。

配置 kube-proxy

在用户命名空间中运行 kube-proxy 需要以下配置

apiVersion: kubeproxy.config.k8s.io/v1alpha1
kind: KubeProxyConfiguration
mode: "iptables" # or "userspace"
conntrack:
# Skip setting sysctl value "net.netfilter.nf_conntrack_max"
  maxPerCore: 0
# Skip setting "net.netfilter.nf_conntrack_tcp_timeout_established"
  tcpEstablishedTimeout: 0s
# Skip setting "net.netfilter.nf_conntrack_tcp_timeout_close"
  tcpCloseWaitTimeout: 0s

注意事项

大多数“非本地”卷驱动程序（如 nfs 和 iscsi）无法工作。已知本地卷（如 local、hostPath、emptyDir、configMap、secret 和 downwardAPI）可以工作。
某些 CNI 插件可能无法工作。已知 Flannel (VXLAN) 可以工作。

有关更多信息，请参阅 rootlesscontaine.rs 网站上的注意事项和未来工作页面。

另请参阅

此页面上的项目引用了第三方产品或项目，这些产品或项目提供了 Kubernetes 所需的功能。Kubernetes 项目的作者不负责这些第三方产品或项目。有关更多详细信息，请参阅 CNCF 网站指南。

在提出添加额外第三方链接的更改之前，您应该阅读内容指南。

上次修改时间：2023 年 1 月 11 日上午 11:12 PST：更新 /tasks/administer-cluster 部分中的页面权重 (b1202c78ff)

以非 root 用户身份运行 Kubernetes 节点组件

注意

开始之前

在无根 Docker/Podman 中运行 Kubernetes

kind

minikube

在非特权容器中运行 Kubernetes

sysbox

直接在主机上运行无根 Kubernetes

K3s

Usernetes

手动部署在用户命名空间中运行 kubelet 的节点

注意

创建用户命名空间

创建委派的 cgroup 树

注意

配置网络

配置 CRI

配置 kubelet

配置 kube-proxy

注意事项

另请参阅

反馈