Anaconda软件安装
- 下载Anaconda安装包
- 安装Anaconda
- 安装软件
- 配置国内镜像
- 创建虚拟环境
- 配置环境变量
下载Anaconda安装包
通过官方网站https://www.anaconda.com/products/distribution#Downloads下载安装程序,选择适合的系统。
或者直接通过下载链接https://repo.anaconda.com/archive/Anaconda3-2021.11-Linux-x86_64.sh进行下载。
将下载好的安装程序放置到softs目录下。
安装Anaconda
安装软件
直接执行命令进行安装。
sh softs/Anaconda3-2021.11-Linux-x86_64.sh
按照安装步骤执行,并在适当的时候输入适当的值。
Welcome to Anaconda3 2021.11
In order to continue the installation process, please review the license
agreement.
# 这里要求查看用户协议,查看即可
Please, press ENTER to continue
>>>
# 这里看完了用户协议,需要同意才能继续
Do you accept the license terms? [yes|no]
[no] >>> yes
# 这里根据我们自己的环境规划,指定Anaconda的安装目录/home/hadoop/apps/anaconda3
Anaconda3 will now be installed into this location:
/home/hadoop/anaconda3
- Press ENTER to confirm the location
- Press CTRL-C to abort the installation
- Or specify a different location below
[/home/hadoop/anaconda3] >>> /home/hadoop/apps/anaconda3
PREFIX=/home/hadoop/apps/anaconda3
Unpacking payload ...
安装完成以后,会有如下提示,告诉我们已经安装完成并询问我们是否需要初始化。
installation finished.
Do you wish the installer to initialize Anaconda3
by running conda init? [yes|no]
[no] >>>
这里我们先停一下,不明白是否要进行初始化的话,可以先看看官方文档https://docs.anaconda.com/anaconda/install/linux/。
官网介绍,如果选择“no”不进行初始化,则不会修改我们的shell脚本,并且后续可以通过执行conda init
来完成初始化。我们不难猜测,这个初始化应该是为我们添加环境变量、环境配置。并且官方建议选择“yes”。
先来看看当前的环境配置文件。
cat .bashrc
cat .bash_profile
在安装界面输入yes并继续。
installation finished.
Do you wish the installer to initialize Anaconda3
by running conda init? [yes|no]
[no] >>> yes
可以看到,安装程序告诉我们:
- 安装成功了
- 为我们修改了 /home/hadoop/.bashrc
- 如果不想在一启动就激活base环境,可以用
conda config --set auto_activate_base false
命令禁用
我们看看/home/hadoop/.bashrc发生了什么改变。
可以看到配置文件中多出了一段初始化配置。
当我们退出并重新登录到系统,会自动激活base环境。
配置国内镜像
Anaconda虽然集成了很多Python库,但是我们有时候还是需要自己安装一些库,为了加快下载速度,可以配置国内镜像加速。
编辑文件~/.condarc
channels:
- defaults
show_channel_urls: true
default_channels:
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
custom_channels:
conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
pytorch-lts: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
配置完成后,可以用以下命令来查看是否生效。
conda info
创建虚拟环境
Anaconda安装完成以后,我们单独创建一个虚拟环境,用来跟其他环境隔离。
conda create -n pyspark python=3.9
并且激活新创建的虚拟环境。
conda activate pyspark
安装依赖的库。
pip install pyspark pyhive pymysql jieba -i https://pypi.tuna.tsinghua.edu.cn/simple
配置环境变量
在 .bashrc
文件中配置环境变量 PYSPARK_PYTHON
,指向可执行的Python环境。
因为在 pyspark 命令中,存在代码
if [[ -z “$PYSPARK_PYTHON” ]]; then
PYSPARK_PYTHON=python3
fi如果不配置这个变量PYSPARK_PYTHON,就会默认使用python3作为执行命令,恰好如果系统中没有安装Python3,则会出现报错的情况。
export JAVA_HOME=/home/hadoop/apps/java
export HADOOP_HOME=/home/hadoop/apps/hadoop
export HADOOP_CONF_DIR=/home/hadoop/apps/hadoop/etc/hadoop
export YARN_CONF_DIR=/home/hadoop/apps/hadoop/etc/hadoop
export SPARK_HOME=/home/hadoop/apps/spark
export PYSPARK_PYTHON=/home/hadoop/apps/anaconda3/envs/pyspark/bin/python3
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH