小编最近在谷歌云盘上传文件时,发现trainImage文件夹下和trainMask文件下的文件数量不一致,便猜测可能因为网络不稳定的原因,上传了重复的文件。
a=glob(r'/content/drive/MyDrive/trainImage/*') b=glob(r'/content/drive/MyDrive/trainMask/*') I=[re.findall(r"/.*/.*/.*/.*/(.*)", b) for b in a] M=[re.findall(r"/.*/.*/.*/.*/(.*)", x) for x in b] c=[x for x in I if x in M] d=[y for y in (I+M) if y not in c]print(d)
采用os.remove进行删除:
import osfor x in d: path=r'/content/drive/MyDrive/trainImage/'+x[0] os.remove(path)
再次运行上述代码:
重复文件已删除。