Technology

[译]什么是 eBPF?

2022-3-23

eBPF 程序是事件驱动的, 能在内核或应用程序执行到一个特定的 hook 点时执行. 预定义的 hooks 包含系统调用, 函数出/入口, 内核追踪点, 网络事件等等. 如果预定义 hook 不能满足需求, 也可以创建内核探针(kprobe)或者用户探针(uprobe), 在内核/用户应用程序的任何位置, 把探针附加到 eBPF 程序上.

比较冷门但有用的 kubectl 命令

2022-3-22

Technology

Kubectl, Kubernetes

以下冷门命令能实现某种具体的功能, 都是在实际工作中摸索总结的经验, 获取到相关的资源名称之后, 就可以配合常用的 kubectl 命令获取其他详细信息.

[解决] FailedScheduling pod/<pod-name> pod is <uid> in the cache so can't be assumed

2022-3-21

Technology

Kubernetes

pod is in the cache, so can’t be assumed, 这是调度器 scheduler 缓存失效导致的异常事件, 大致原因是 pod 已经调度, 并绑定到指定节点, 由于该节点异常导致启动失败, 重新启动 prometheus statefulset, 让集群重新调度, 其实就是将现有到 prometheus pod 副本数将至 0, 再恢复正常即可.

[解决] Warning pod/calico-node-<hash> Readiness probe failed

2022-3-21

Technology

Kubelet, Kubernetes

calico-node-4fpgp Readiness probe failed, orphaned pod found, but volume paths are still present on disk : There were a total of N errors similar to this. Turn up verbosity to see them.

bcc 之 opensnoop 工具的使用

2022-3-16

Technology

Bcc, Ebpf

这篇文档主要演示了 opensnoop(Linux eBPF/bcc) 工具的使用. opensnoop 在系统范围内跟踪 open() 系统调用，并打印各种详细信息.

bcc 之 tcplife 工具的使用

2022-3-16

Technology

Bcc, Ebpf

这篇文档主要演示了 tcplife(Linux eBPF/bcc) 工具的使用. tcplife 总结了在跟踪期间打开和关闭的 TCP 会话. 比如

Linux 常见错误码

2022-3-15

Technology

Linux

下表是 Linux 操作系统一些常见的错误代码和对应的错误描述 1 EPERM Operation not permitted 2 ENOENT No such file or directory

load average 过高, mount nfs 问题处理

2022-3-14

Technology

Nfs, Kubernetes

周末, 有一台服务器告警: 系统负载过高, 最高的时候都已经到 100 +, 以下是排查&处理的具体过程.

发现的问题/现象 #

`uptime` 显示 load average 都在70+ #

因为服务器是40核心, 原则上负载40是满负荷, 现在明显存在大量等待的任务. 继续往下分析进程, 看具体那个进程一直在堵塞.

`ps -ef` 执行到某一个进程就卡住了 #

命令执行如下:

...

容器化部署 openldap

2022-3-3

Technology

Ldap, Golang

使用容器化安装非常便捷, 参考 osixia/openldap仓库使用说明安装即可, 如下:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
docker stop openldap && docker rm openldap && \
docker run --name openldap --detach \
    -p 389:389 \
    -p 636:636 \
    --env LDAP_ORGANISATION="Rutron Net" \
    --env LDAP_DOMAIN="rutron.net" \
    --env LDAP_ADMIN_PASSWORD="your-password" \
    --env LDAP_READONLY_USER=true \
    --env LDAP_TLS_VERIFY_CLIENT=try \
    --volume /data/openldap/data:/var/lib/ldap \
    --volume /data/openldap/slapd.d:/etc/ldap/slapd.d \
    --hostname ldap.rutron.net \
    osixia/openldap:1.5.0

好了, 现在该服务同时支持 ldap 和 ldaps 协议, 有一个初始化的账号 readonly/readonly, 可以使用了~

...

解决 kubelet cannot allocate memory 错误

2022-2-27

Technology

Kubelet, Kubernetes

问题描述 #

查看 pod 相关 events 如下：

1
2
3
4
5
Events:
  Type     Reason                    Age                   From               Message
  ----     ------                    ----                  ----               -------
  Normal   Scheduled                 18m                   default-scheduler  Successfully assigned container-186002196200947712/itms-5f6d7798-wrpjj to 10.206.65.144
  Warning  FailedCreatePodContainer  3m31s (x71 over 18m)  kubelet            unable to ensure pod container exists: failed to create container for [kubepods burstable pod31f4c93c-c3a1-49ad-b091-0802c5f1d396] : mkdir /sys/fs/cgroup/memory/kubepods/burstable/pod31f4c93c-c3a1-49ad-b091-0802c5f1d396: cannot allocate memory

这是内核bug，建议升级内核

...

发现的问题/现象 #

uptime 显示 load average 都在70+ #

ps -ef 执行到某一个进程就卡住了 #

问题描述 #

`uptime` 显示 load average 都在70+ #

`ps -ef` 执行到某一个进程就卡住了 #