背景

近期,公司网络要迁移到新的网段,所以原来在服务器上面搭建的docker swarm需要重新构建。。。

拿到新的服务器地址看了一下,“10.xxx.xxx.xxx" 。。。 纳尼,这IP赶脚是子网的地址段呀,居然用到了服务器上面!唉,算了吧,当时也没多想,可能是自己少见多怪吧。。。于是就把几台服务启动swarm搭建好,配置好了manager和work节点,然后创建了Overlay网络,在上面用2个busybox的container做了个小测试,container之间可以连接,于是把之前停止的container都启动,完事后这样高高兴兴的下班啦!!(不加班的生活真美好)

 

第二天一到公司,还没坐稳呢,旁边的哥们就急急忙忙的过来找我,“我们的app无法连接到数据库,报错啦!!”(PS: 我们的app和数据库分别跑在了不同宿主机的container上面,彼此通过docker的子网进行通信)。 奇怪吖,我昨天还试了试可以通信呀,怎么今天就不行了呢??

 

分析问题

我们总共有3台机器挂在swarm下,有一台机器是manager(我们简单起见,命名为M),另外两台作为worker(W1+W2)加入到swarm集群中。简单的拓扑结构如下图:

docker容器使用hostnet docker host network_子网

 

昨天,我做测试的时候是用的M与W1,当时没出现问题;今天出现问题的是M与W2,containers 之间无法通信; 之后,我又尝试在W1与W2上面运行containers,也无法通信。。。。

 

没办法,尝试着重新创建swarm集群,然后再创建跨节点的overlay网络,然而,得到了令人惊奇的结果,这次所有container都无法通信!!

 

于是,先从swarm集群入手排错,swarm运行正常,没有任何发现。。。再从overlay网络层面进行分析,运行指令:

 



#docker network inspect myOverlayNet



 

 

 

发现docker默认创建的子网是 10.0.0.0

docker容器使用hostnet docker host network_docker容器使用hostnet_02

 

会不会是由于docker 子网与 host 机器的网络 同在一个网段(10.xxx.xxx.xxx)而导致的冲突呢???

 

解决

重新建立子网, 这次指定好subnet的网段,为了和host机器区分开来,使用了192.~的网段,命令如下



#docker network create -d overlay --subnet=192.168.0.0/24 --attachable myOverlay



在不同的hosts(M, W1 与 W2)上面新建立containers,(busybox1, busybox2 和 busybox3)



## run busybox1 on manage node
# docker run -itd --name=busybox1 --network=myOverlay busybox /bin/sh

## run busybox2 on worker node 1
# docker run -itd --name=busybox2 --network=myOverlay busybox /bin/sh

## run busybox3 on worker node 2
# docker run -itd --name=busybox3 --network=myOverlay busybox /bin/sh



 

进入container,测试连接



##在 busybox1 里测试连接到 busybox2 and busybox3

# nslookup busybox2

--output--
Name: busybox2
Address: 192.168.0.2 busybox2.myOverlay




# nslookup busybox3

--output--
Name: busybox3
Address: 192.168.0.3 busybox3.myOverlay



 

OK,这次通信没有问题啦,看来真的是docker 的默认子网(10.0.0.0)与服务器(宿主机)上的IP段(10.xxx.xxx.xxx)冲突导致的问题。

所以我们的解决方案就是: 在创建 docker 子网的时候指定IP段