近期在阿里云上部署OCP需要用到NAS,其中遇到NAS无法扩容的问题,在此简单笔记。

1、部署NAS

参照github.com\kubernetes-sigs\alibaba-cloud-csi-driver\docs\nas.md部署说明,需要执行以下步骤:

Step 1: Create RBAC resource

# kubectl create -f ./deploy/rbac.yaml

Step 2: Create CSI Plugin

# kubectl create -f ./deploy/nas/nas-plugin.yaml

Step 3: Create CSI Plugin

# kubectl create -f ./deploy/nas/nas-provisioner.yaml

执行完以上步骤,会在kube-system下面部署一个daemonset csi-plugin和一个deployment csi-provisioner。

这时还缺少SC,在github.com\kubernetes-sigs\alibaba-cloud-csi-driver\examples\nas\dynamic目录可以找到所需的SC文件,按需修改直接部署即可。

到此,通过创建PVC实现NAS申请已能够实现。

2 NAS扩容

在修改PVC进行扩容时却发现提示不支持,问题主要有两点,但阿里云官方文档当前未见详细说明。

(1)SC缺少allowVolumeExpansion: true字段,会提示“only dynamically provisioned pvc can be resized”,SC中加上即可。

(2)SC加上允许扩容后,PVC是可以被更新了,但等了很久发现实际容量并未被更新。排查如下:

检查源码github.com\kubernetes-sigs\alibaba-cloud-csi-driver\pkg\nas\controllerserver.go,发现是有扩容方法的。

func (cs *controllerServer) ControllerExpandVolume(ctx context.Context, req *csi.ControllerExpandVolumeRequest,
) (*csi.ControllerExpandVolumeResponse, error) {
	log.Infof("ControllerExpandVolume: starting to expand nas volume with %v", req)
	volSizeBytes := int64(req.GetCapacityRange().GetRequiredBytes())
	pvObj, err := getPvObj(req.VolumeId)
	if err != nil {
		return nil, fmt.Errorf("ControllerExpandVolume: nas volume(%s) expand error: %s", req.VolumeId, err.Error())
	}
	if _, ok := pvObj.Spec.CSI.VolumeAttributes["volumeCapacity"]; ok {
		err = setNasVolumeCapacityWithID(pvObj, cs.crdClient, volSizeBytes)
		if err != nil {
			log.Errorf("ControllerExpandVolume: nas volume(%s) expand error: %s", req.VolumeId, err.Error())
			return nil, fmt.Errorf("ControllerExpandVolume: nas volume(%s) expand error: %s", req.VolumeId, err.Error())
		}
		log.Infof("ControllerExpandVolume: Successful expand nas quota volume(%s) to size %d", req.VolumeId, volSizeBytes)
	} else if mountType, ok := pvObj.Spec.CSI.VolumeAttributes["mountType"]; ok && mountType == "losetup" {
		log.Infof("ControllerExpandVolume: Successful expand nas losetup volume(%s) to size %d", req.VolumeId, volSizeBytes)
	} else {
		return nil, fmt.Errorf("ControllerExpandVolume: nas volume(%s) not support expand", req.VolumeId)
	}
	return &csi.ControllerExpandVolumeResponse{CapacityBytes: volSizeBytes, NodeExpansionRequired: true}, nil
}


检查Deployment日志,发现扩容逻辑未被触发(找不到任何日志)。


后来在alibaba-cloud-csi-driver\deploy\ack\upgrade\upgrade.md找到以下内容:

插件说明:

CSI-Plugin、CSI-Provisioner两个插件的阿里云发布镜像都是:acs/csi-plugin:{version},部署模板中的其他镜像说明如下:

acs/csi-node-driver-registrar:负责csi-plugin插件注册的sidecar容器;Refer

acs/csi-provisioner:数据卷动态创建的sidecar,负责调用CreateVolume等接口;Refer

acs/csi-attacher:数据卷挂载的sidecar,负责调用ControllerPublishVolume接口;Refer

acs/csi-resizer:数据卷扩容的sidecar,负责调用ControllerExpandVolume接口;Refer

acs/csi-snapshotter:数据卷快照sidecar,负责创建volumeSnapshotContent对象;Refer

acs/snapshot-controller:数据卷快照sidecar,负责调用CreateSnapshot接口;Refer


才发现想要调用ControllerExpandVolume接口是需要额外部署插件的,只是。。。(为何要隐藏的如此之深,一个NAS的扩容放到ACK的目录下),于是按图索骥,找到最新的镜像地址。


nas存储 java案例 nas存储部署_云计算

 接下来呢,还需要找到部署的yaml,同样藏在ACK下面,alibaba-cloud-csi-driver\deploy\ack\csi-provisioner.yaml中间有一段。

- name: external-nas-resizer
          image: registry.cn-hangzhou.aliyuncs.com/acs/csi-resizer:v1.1.0-7b30758-aliyun
          args:
            - "--v=5"
            - "--csi-address=\$(ADDRESS)"
            - "--leader-election"
          env:
            - name: ADDRESS
              value: /var/lib/kubelet/csi-provisioner/nasplugin.csi.alibabacloud.com/csi.sock
          imagePullPolicy: "Always"
          volumeMounts:
            - name: nas-provisioner-dir
              mountPath: /var/lib/kubelet/csi-provisioner/nasplugin.csi.alibabacloud.com

更新了deployment中的yaml后部署会得到三个container,external-nas-provisioner、
external-nas-resizer、csi-provisioner。

至此,差不多是可以实现NAS扩容了,但也不是没有问题了,因为更新PVC后会发现并不是立即就能扩容成功,二是会看到一个message:

waiting for user to (re-)start a pod to finish file system resize of volume on mode

关于这一点,在文档里也能找到踪迹alibaba-cloud-csi-driver\docs\disk-resizer.md

4. Expand FileSystem with restart pod:

// phase2: restart Pod, expand filesystem;
# kubectl delete pod dynamic-create-6d5dc9bb7d-lvhgz
pod "dynamic-create-6d5dc9bb7d-lvhgz" deleted

# kubectl get pvc
NAME           STATUS   VOLUME                                     CAPACITY   ACCESS MODES   STORAGECLASS           AGE
pvc-disk-new   Bound    pvc-8db30f1a-ad23-11e9-ae51-00163e105050   30Gi       RWO            alicloud-disk-expand   6m13s
# kubectl exec -ti dynamic-create-6d5dc9bb7d-5gzq2 df | grep data
/dev/vdd        30832548    45036  30771128   1% /data

意思是只有这个PVC被挂载到pod,且重启pod才会生效扩容操作。

至此,关于阿里云上部署NAS搞定了。