注意:这里用flask和fastapi开发部署效果是一样的。
用过 Flask
框架的朋友都知道,Flask
自带的 wsgi
性能低下,不支持高并发。
只适合你开发调试的时候用,所以在线上一般都使用 Nginx + gunicorn
才能获得更强的性能和更高的安全性!
gunicorn
是一个 python Wsgi http server
,只支持在 Unix
系统上运行,下面我们来熟悉一下以 gunicorn
的配置与使用。
1.gunicorn 的安装
注意 gunicorn 不能在 windows
环境下使用
pip install gunicorn
比如有以下一个 app 的 py 文件
from flask import Flask
app = Flask(__name__)
@app.route('/')
def index():
return 'hello world!'
if __name__ == '__main__':
app.run()
那么我们在 flask 的项目的目录下如何使用 gunicorn
来启动呢?
命令如下:
gunicorn -w 4 -b 0.0.0.0:8000 app:app
其中:
第一个 app
指的是 app.py
文件;
第二个指的是第三行代码 flask
应用的名字。
2.gunicorn 的参数详解
通过 gunicorn -h
我们可以看到 gunicorn 有非常多的配置项,我将他们的参数配置项都列出来了,供大家参考:
-c CONFIG : CONFIG,配置文件的路径,通过配置文件启动;生产环境使用;
-b ADDRESS : ADDRESS,ip加端口,绑定运行的主机;
-w INT, --workers INT:用于处理工作进程的数量,为正整数,默认为1;
-k STRTING, --worker-class STRTING:要使用的工作模式,默认为sync异步,可以下载eventlet和gevent并指定
--threads INT:处理请求的工作线程数,使用指定数量的线程运行每个worker。为正整数,默认为1。
--worker-connections INT:最大客户端并发数量,默认情况下这个值为1000。
--backlog int:未决连接的最大数量,即等待服务的客户的数量。默认2048个,一般不修改;
-p FILE, --pid FILE:设置pid文件的文件名,如果不设置将不会创建pid文件
--access-logfile FILE : 要写入的访问日志目录
--access-logformat STRING:要写入的访问日志格式
--error-logfile FILE, --log-file FILE : 要写入错误日志的文件目录。
--log-level LEVEL : 错误日志输出等级。
--limit-request-line INT : HTTP请求头的行数的最大大小,此参数用于限制HTTP请求行的允许大小,默认情况下,这个值为4094。值是0~8190的数字。
--limit-request-fields INT : 限制HTTP请求中请求头字段的数量。此字段用于限制请求头字段的数量以防止DDOS攻击,默认情况下,这个值为100,这个值不能超过32768
--limit-request-field-size INT : 限制HTTP请求中请求头的大小,默认情况下这个值为8190字节。值是一个整数或者0,当该值为0时,表示将对请求头大小不做限制
-t INT, --timeout INT:超过这么多秒后工作将被杀掉,并重新启动。一般设定为30秒;
--daemon:是否以守护进程启动,默认false;
--chdir :在加载应用程序之前切换目录;
--graceful-timeout INT:默认情况下,这个值为30,在超时(从接收到重启信号开始)之后仍然活着的工作将被强行杀死;一般使用默认;
--keep-alive INT:在keep-alive连接上等待请求的秒数,默认情况下值为2。一般设定在1~5秒之间。
--reload:默认为False。此设置用于开发,每当应用程序发生更改时,都会导致工作重新启动。
--spew:打印服务器执行过的每一条语句,默认False。此选择为原子性的,即要么全部打印,要么全部不打印;
--check-config :显示现在的配置,默认值为False,即显示。
-e ENV, --env ENV: 设置环境变量;
是不是觉得 gunicorn
的参数很多?在部署的时候如果输入这么大一串命令,我相信就算是对参数很熟悉的人,也有可能会输错!
那么,有没有更方便的方法呢?当然!那就是用以配置文件的方式启动。
3.以配置文件的方式启动
一般这个配置文件名是 gunicorn.conf.py
或者 config.py
。其中部分代码如下:
# 并行工作进程数
workers = 4
# 指定每个工作者的线程数
threads = 2
# 端口 5000
bind = '0.0.0.0:5000'
# 设置守护进程,将进程交给supervisor管理
daemon = 'false'
## 修改是否重新加载
reload = True
# 工作模式协程
worker_class = 'uvicorn.workers.UvicornH11Worker'
# 设置最大并发量
worker_connections = 2000
# 设置进程文件目录
pidfile = '/var/run/gunicorn.pid'
# 设置访问日志和错误信息日志路径
accesslog = "log/access.log"
errorlog = "log/debug.log"
loglevel = "debug"
# 设置日志记录水平
loglevel = 'warning'
代码里面的注释都很详细了,但是还再解释下吧。
3.1 日志
配置文件中指定了日志文件的输出目录,需要注意的是:
需要log目录存在,如果不存在,启动会报错
accesslog
是访问日志,可以通过 access_log_format
设置访问日志格式
loglevel
用于控制 errorlog
的信息级别
不过更建议使用 logging
模块来管理日志是有几点需要说明的:
3.2 workers
worker_class
是指开启的每个工作进程的模式类型,默认为 sync
模式,这个使用 gevent
模式,gevent
是 python 的一个高并发库
workers
是并行工作进程数 ,在上述配置文件中,取的是服务器的 CPU
的数量。
需要注意的是,这个数字不是越大越好,因为我们还要注意部署机器的性能,不能无限制多开。一般是根据服务器的 CPU核心数来确定
的!
workers = multiprocessing * cpu_count() * 2 + 1
配置文件搞定之后,启动命令就很简单了。启动 gunicorn
命令如下:
gunicorn -c gunicorn.conf app:app
众所周知 Flask
是一个同步的框架,处理请求的时候是以单进程的方式,当同时访问的人数过多时,Flask
服务就会出现阻塞的情况。
就像我们买火车票一样,当买火车票的人多的时候,排队的人就会很多,队伍就会很长,相应的等待的时间会变得很长!
因此 Flask, Django,webpy
等框架自带的 web server
性能都很差,只能用来做测试用途,线上发布则需要选择更高性能的 wsgi server 。
这里推荐的部署方式:nginx + gunicorn + flask + supervisor
其中每个服务代表的含义如下:
- Nginx:高性能 Web 服务器+负载均衡;
- gunicorn:高性能 WSGI 服务器;
- gevent:把 Python 同步代码变成异步协程的库;
- Supervisor:监控服务进程的工具
这里有张图,能让你有个更直观的感受
Gunicorn
Gunicorn
可以指定多个工作进程,有多种工作模式可以供你选择。默认是同步的 sync
工作模式,除此之外还有 gevent, tronado, gthread, gaiohttp
等。
这里推荐 gevent, gevent
是一个基于 Greenlet
库,利用 python 协程来实现,这样你的 web 服务才能实现并发的功能!
4.Nginx
Nginx
实际上只能处理静态资源请求,那么对于动态请求怎么做呢。这就需要用到 Nginx 的 upstream
模块对这些请求进行转发,即反向代理
。Nginx 在这里主要是用来做负载均衡
,同时它能缓存一些动态内容。
安装 nginx,安装命令如下:
sudo apt-get install nginx
nginx 安装完后,我们可以通过以下命令控制 nginx
的开启和关闭
sudo /etc/init.d/nginx restart // 重启
sudo /etc/init.d/nginx start 开启
sudo /etc/init.d/nginx stop 关闭
配置 nginx
Nginx 配置文件位于 /usr/local/nginx/conf/nginx.conf
server {
listen 8080; # 监听8080端口,可以自行配置
server_name localhost; # 配置域名
# 动态请求转发到 9600 端口(gunicorn):
location / {
proxy_pass http://127.0.0.1:9600;
proxy_redirect off;
proxy_set_header X-Real-IP $remote_addr;
proxy_set_header Host $host;
proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
proxy_read_timeout 300;
proxy_send_timeout 300;
}
}
修改完之后保存,重启 nginx.
5.Supervisor
安装 supervisor,命令如下:
pip install supervisor
初始化配置文件:
echo_supervisord_conf > supervisor.conf
修改配置文件,在配置文件最底部添加相应配置
[include] 自己的项目配置
[program:project]
directory = /home/jerry/Code/project ; 程序的启动目录
command = /home/jerry/.virtualenvs/parsing/bin/gunicorn -w 4 -worker-class gevent -bind 0.0.0.0:9600 app:app ; 启动命令
numprocs=1 ; number of processes copies to start (def 1)
autostart = true ; 在 supervisord 启动的时候也自动启动
startsecs = 1 ; 启动 1 秒后没有异常退出,就当作已经正常启动了
autorestart = true ; 程序异常退出后自动重启
startretries = 3 ; 启动失败自动重试次数,默认是 3
user = root ; 用哪个用户启动
redirect_stderr = true ; 把 stderr 重定向到 stdout,默认 false
stdout_logfile_maxbytes = 20MB ; stdout 日志文件大小,默认 50MB
stdout_logfile_backups = 10 ; stdout 日志文件备份数
stdout_logfile=/home/jerry/Code/project/log/gunicorn.log ; log 日志
stderr_logfile=/home/jerry/Code/project/log/gunicorn.error ; 错误日志
编辑完之后保存,启动 supervisor
。这里的启动命令和在命令行用 gunicorn
启动的命令是一致的,其中 -w
是指服务的进程数,详细命令查看我之前写的那篇文章哈。
基本命令
通过配置文件启动 supervisor
supervisord -c supervisor.conf
查看 supervisor 的状态
supervisorctl -c supervisor.conf status
重新载入配置文件,每次修改之后记得重新载入
supervisorctl -c supervisor.conf reload
启动指定/所有 supervisor 管理的程序进程
supervisorctl -c supervisor.conf start [all]|[appname]
关闭指定/所有 supervisor管理的程序进程
supervisorctl -c supervisor.conf stop [all]|[appname]
这时候通过 http://127.0.0.1:8080
就能访问你的应用了! 想知道效果如何,可以自己测试一下,比如在代码中增加 sleep,或者自己动手写个脚本测试!