1.背景
面试的时候常常会被问到一个问题,大型的文件该怎样去重。写一个python脚本是效率非常差的策略。
这里讲下怎样用shell实现。
2.流程
(1)文件分割
用split函数对于文件分割。
split -l 10000 test.txt
-l是依照行分割,10000是每10000行分割成一份文件。分割完会在当前文件夹自己主动生成10000行一例的文件。
(2)去重
sort -u origin.txt -o output.txt
面试的时候常常会被问到一个问题,大型的文件该怎样去重。写一个python脚本是效率非常差的策略。
这里讲下怎样用shell实现。
用split函数对于文件分割。
split -l 10000 test.txt
-l是依照行分割,10000是每10000行分割成一份文件。分割完会在当前文件夹自己主动生成10000行一例的文件。
sort -u origin.txt -o output.txt
用几行Python代码,轻松搞定Excel表格数据去重
【代码】python 文件去重。
有多个文件,每个文件都有交集。 现在要将每个文件去重。这里使用到3个命令:cat、sort、uniqcat查看文件内容s
(1)两个文件的交集,并集前提条件:每个文件中不得有重复行1. 取出两个文件的并集(重复的行
举报文章
请选择举报类型
补充说明
0/200
上传截图
格式支持JPEG/PNG/JPG,图片不超过1.9M