内容分为两个部分:1. Colab 是什么,2. Colab 如何使用(文件操作、GPU的使用、数据集的使用)。
Colab 是什么
Colaboratory (Colab) 是 Google Research 团队开发的一款产品。在 Colab 中,任何人都可以通过浏览器编写和执行任意 Python 代码。它尤其适合机器学习、数据分析和人工智能。从技术上来说,Colab 是一种托管式 Jupyter 笔记本服务。用户无需设置,就可以直接使用,同时还能获得 GPU 等计算资源的免费使用权限。
Colab 如何使用
打开网址
你需要能打开此网址(这一步至关重要):
https://colab.research.google.com/
打开网址之后如图中显示,无需安装环境,就可在浏览器中编写和执行 Python 代码。
文件操作
文件的操作很多,常见是文件新建(.ipynb的格式),打开 云端的和Github里的文件,上传文件(支持.ipynb的格式)。
使用Colab打开文件
对于 Colab 笔记本,您可以将可执行代码、富文本以及图像、HTML、LaTeX 等内容合入 1 个文档中。当您创建自己的 Colab 笔记本时,系统会将这些笔记本存储在您的 Google 云端硬盘账号名下。您可以轻松地将 Colab 笔记本共享给同事或好友,允许他们评论甚至修改笔记本。
GPU使用
从【代码执行程序】进入点击【更改运行时内容】在【硬件加速器】有三个选项:None/GPU /TPU,按需选择,GPU 连续使用时间是12个小时,如果闲置时间超过90分钟,Colab 会把 GPU 环境收回。
Colab_GPU使用
检查 Colab 中 GPU 的详细信息:
!/opt/bin/nvidia-smi
CUDA Version: 11.2 Tesla T4
数据集使用
a. 通过网址下载
b. 从 Kaggle 上传数据
来自 Kaggle 的数据可以直接上传到 Colab,不过这需要 Kaggle 的 【API Token】 才能完成数据导入,步骤如下:
准备阶段
- 打开 Kaggle
- 转至【我的账户】
- 向下滚动到【API】部分
如果需要,先单击【Expire API Token】以删除先前的 token
点击【Create New API Token】,生成一个新的 token 并下载一个名为【kaggle.json】的 JSON 文件
【kaggle.json】文件包含用户名和密钥,如下图所示:
处理 Kaggle 包
# 安装包
!pip install -q kaggle
# 导入包
from google.colab import files
# 上传本地文件 kaggle.json
files.upload()
设置 kaggle.json 文件的路径
# 设置路径
!pwd
!mkdir -p ~/.kaggle
!cp /content/kaggle.json ~/.kaggle/
!chmod 600 ~/.kaggle/kaggle.json
# 检查 Colab notebook 是否与 Kaggle 正确连接
!kaggle datasets list
从 Kaggle 下载任意比赛数据:
数据集的地址可以通过网页地址找到,比如这个网页里复制 kaggle.com 后面的部分:https://www.kaggle.com/vaillant/rsna-str-pe-detection-jpeg-256。
!kaggle datasets download -d vaillant/rsna-str-pe-detection-jpeg-256
c. Kaggle 数据将在 Colab 中上传和下载
d. 从 Google Drive 中读取文件
from google.colab import drive
drive.mount('/content/drive')
挂载 Google Drive,此时有可能要求填写 Google Drive 的授权码。
参考文献:
- Colab官网 https://colab.research.google.com
- Colab问答 https://research.google.com/colaboratory/faq.html