2Gcsv文件打不开怎么处理,使用byzer工具
原创
©著作权归作者所有:来自51CTO博客作者MonkeyKing_sun的原创作品,请联系作者获取转载授权,否则将追究法律责任
项目需要,需要将客户的环境的数据导出来做对对账分析,客户数据隐秘,不能提供调用接口,需要只能以csv文件的形式发出来。
但是一个2G的csv文件,大部分机器都会自己崩溃。还有一个方法就是拆分工具拆分,但是拆分后分析数据比较麻烦。
有一款Byzer的工具可以满足这个需求
官网地址:
https://docs.byzer.org/#/
支持私有环境部署,保证数据的隐私,搭建环境如下:
1、准备一台liunx机器,机器配置2核8G左右
2、下载byzer并安装
3、启动byzer
4.可以访问byzer,但是不太友好,可以安装配套的可视化工具notebook

5、下载并安装notebook
6、notebook依赖mysql,需要提前安装一下mysql
可以使用docker-compose安装,其他的安装方式,自己百度一下
docker-compose.yml 文件
version: "2"
services:
mysql:
container_name: mysql
image: mysql:5.7
restart: always
volumes:
- ./mysql/data:/var/lib/mysql
- ./mysql/init:/docker-entrypoint-initdb.d
- /etc/localtime:/etc/localtime:ro
ports:
- "3306:3306"
environment:
MYSQL_ROOT_PASSWORD: "XXXXX"
TZ: "Asia/Shanghai"
command: --max_allowed_packet=32505856
7、调整notebook关于mysql的配置

路径地址

8、启动notebook

9.注册后即可访问使用

10、点击上传,上传自己的2G的csv文件


因为是2G的文件,上传比较慢,这里需要耐心的等待
11、新建笔记本,对文件进行查看

12、将刚刚导出的csv转化为表结构
load csv.`/tmp/upload/billing.csv` where header="true" as r3;
如果是xlsx文件
load excel.`/tmp/upload/billing.xlsx` where header="true" as r4;
注意

这里是反引号,不是单引号
13、至此就可以查看使用
select * from r3 limit 10 as 2022_06_24_r3;
注意后面要带上 “as 表的别名” 这可能是byzer的特殊的标记方式。
select sum(BlendedCost) from r3 where payerAccountId=417966497442 as 417966497442_count;
支持所有的sql查询方式


附注:
如果出现这个错误,检查一下环境的JDK配置

如果出现访问不了9002,9003端口,检查一下安全组的设置