乐于分享
好东西不私藏

创建节点失败基础排查指导文档

创建节点失败基础排查指导文档

第一步:初步日志判断。

方案一:如果能在cce页面上看被创建的集群,可以查看下操作记录。

如图:点开操作记录后,展开创建失败的的节点,然后鼠标放在如图 3第一个失败上,根据报错信息判断问题所在。

方案二:如果无法登录到cce页面,可以在cfe-mgr节点上查日志。

1、登录到serverOM上找到cfe-mgr节点,登录上去。

2、到创建的目录下先查询下,找到创建节点对应的时间点,如红色框住的部分,找到对应的data对应的值进行搜索,然后根据日志进行判断。

      cd /var/paas/sys/log/cluster-manager/

      grep -i “begin to create node” cluster-mgr.log

grep “session:102916” cluster-mgr.log

第二步:进入node节点查询日志。

如果如上第一步无法判断为什么创建节点失败了,那么需要将节点锁住后登录到节点排查日志。

1、登录到serverOM上点主机,找到控制主机或者任意一台主机,并登录上去。

登录上去后注意要导入环境变量,  source set_env   ·····

2、待到目标node节点出现后,拿到ID地址并锁住节点。

    拿ID是在serverOM上,如图绿色框住的就是目前创建的node节点(节点名称或ip地址判断)的虚拟机ID

锁住的方法 nova lock 虚拟机ID

顺便说明下解锁方法(没有找到节点创建失败的问题原因的情况下,可先不执行的)  nova unlock 虚拟机ID

3、待锁住节点后可以登录到cfe-mgr节点尝试登录到node节点,也或者你可以直接vnc的方式登录到node节点上去

4、基本的排查日志。如果没有看到cce-agent-install.log日志,或这个日志里面的内容只有一行,可以直接看下面第三步

cd /var/log

vim cce-agent-install.log   根据日志里面的信息进行排查下。(如果看不懂可以把日志里面的报错发群里由维护人员看下)

5、查下域名是否可以正常解析了。

cd /opt/cloud/cce/kubernetes/cce-agent/

找到域名并ping下是否通{如图}

第三步:查看下要安装的软件包是否下载完成

1、如图 cd /opt/cloud/cce/package  如果这个目录都步存在,那么说明初始化都没问题可以找cloud-init的同事看下

这些包都是通过cloud-init初始化进行下载的。

2、可以看下是否能够正常的进行域名解析即  cat /etc/resolv.conf 如果这里面的dns修改过一般是发不出来节点的

    本文由云里来云里去原创发布于社区,未经作者许可,禁止转载。

        点击下方小程序卡片查看社区更多内容
        推荐阅读

        【运维实践】Kafka踩坑记:当IntegerDeserializer遇上JSON数据

        OpenClaw(小龙虾) 本地部署指南

        【贵东的技术深耕集】影响OSPF邻居建立的因素

        上线1年时间,小程序累计服务300+家公司,这20家公司访问上榜,看看有你的公司吗?

        精选用户侧内容合集点击查看