有时候服务器访问不了外网,可以现在可以访问外网的机器上先把数据集给下好,然后传到对应服务器进行加载。

 

1. 首先下载并存储数据:

import datasets
dataset = datasets.load_dataset("dataset_name")
dataset.save_to_disk('your_path')

 

2. 然后把数据集上传到指定服务器地址,并进行本地加载:

import datasets
dataset = load_from_disk("your_path")

 

注意:保存数据集所用机器上的datasets版本和使用本地数据集的datasets的版本要一致才行,不然可能会出现数据集加载错误的情况。

黄世宇/Shiyu Huang's Personal Page:​​https://huangshiyu13.github.io/​