作者 | 刘早起


SQL 和 Python 几乎是当前数据分析师必须要了解的两门语言,它们在处理数据时有什么区别?本文将分别用 MySQL和 pandas来展示七个在数据分析中常用的操作,希望可以 帮助掌握其中一种语言的读者快速了解另一种方法!

在阅读本文前,你可以访问下方网站下载本文使用的示例数据,并导入 MySQL 与 pandas 中,一边敲代码一边阅读!

https://raw.githubusercontent.com/pandas-dev/pandas/master/pandas/tests/io/data/csv/tips.csv

选择

在 SQL 中,我们可以使用 SELECT语句从表选择数据,结果被存储在一个结果表中,语法如下:

SELECT column_name,column_name
FROM table_name;
如果 不想显示全部的记录,可以使用 TOP或 LIMIT来限制行数。因此选择 tips 表中的部分列可以使用下面的语句
SELECT total_bill, tip, smoker, time
FROM tips
LIMIT 5;


而在 pandas 中,我们可以通过 将列名列表传递给 DataFrame来完成列选择


在 SQL 中,进行选择的同时还可以进行计算,比如添加一列
SELECT *, tip/total_bill as tip_rate
FROM tips
LIMIT 5;

在 pandas 中使用 DataFrame.assign同样可以完成这个操作


查找

单条件查找

在 SQL 中, WHERE子句用于提取那些满足指定条件的记录,语法如下
SELECT column_name,column_name
FROM table_name
WHERE column_name operator value;
比如查找示例数据中 time = dinner的记录
SELECT *
FROM tips
WHERE time = 'Dinner'
LIMIT 5;


而在 pandas 中,按照条件进行查找则可以有多种形式,比如可以 将含有True/False 的Series 对象传递给 DataFrame,并返回所有带有 True 的行


多条件查找

在SQL中,进行多条件查找可以使用AND/OR来完成

SELECT *
FROM tips
WHERE time = 'Dinner' AND tip > 5.00;

在pandas中也有类似的操作

查找空值
在pandas检查空值是使用 notna和 isna方法完成的。
frame[frame['col1'].notna]
在SQL中可以使用 IS NULL和 IS NOT NULL完成
SELECT *
FROM frame
WHERE col2 IS NULL;
SELECT *FROM frameWHERE col1 IS NOT NULL;
更新
在 SQL 中使用 UPDATE
UPDATE tipsSET tip = tip*2WHERE tip < 2;
而在 pandas 中则有多种方法,比如使用 loc函数
tips.loc[tips['tip'] < 2, 'tip'] *= 2
删除
在 SQL 中使用 DELETE
DELETE FROM tipsWHERE tip > 9;
在pandas中,我们选择应保留的行,而不是删除它们
tips = tips.loc[tips['tip'] <= 9]

分组

在 pandas 中,使用 groupby方法实现分组。 groupby通常是指一个过程,在该过程中,我们希望将数据集分为几组,应用某些功能(通常是聚合),然后将各组组合在一起。

常见的SQL操作是获取整个数据集中每个组中的记录数。例如,通过 对性别进行分组查询

SELECT sex, count(*)FROM tipsGROUP BY sex;


在pandas中的等价操作为


注意,在上面代码中,我们 使用 size而不是 count这是因为 count 将函数应用于每一列,并返回每一列中非空记录的数量!

连接

在 pandas 可以使用 join或 merge进行连接,每种方法都有参数,可让指定要执行的联接类型(LEFT,RIGHT,INNER,FULL)或要联接的列。

现在让我们重新创建两组示例数据,分别用代码来演示不同的连接

df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'],....: 'value': np.random.randn(4)})....:df2 = pd.DataFrame({'key': ['B', 'D', 'D', 'E'],....: 'value': np.random.randn(4)})
内连接
内联接使用比较运算符根据每个表共有的列的值匹配两个表中的行,在 SQL 中实现内连接使用 INNER JOIN
SELECT *FROM df1INNER JOIN df2ON df1.key = df2.key;
在 pandas 中可以使用 merge

merge提供了一些参数,可以将一个 DataFrame 的列与另一个 DataFrame 的索引连接在一起👇


左/右外联接
在 SQL 中实现左/右外连接可以使用 LEFT OUTER JOIN和 RIGHT OUTER JOIN
SELECT *FROM df1LEFT OUTER JOIN df2ON df1.key = df2.key;SELECT *FROM df1RIGHT OUTER JOIN df2ON df1.key = df2.key;
在 pandas 中实现同样可以使用 merge并指定 how 关键字为 left或者 right即可

全连接
全连接返回左表和右表中的所有行,无论是否匹配, 但并不是所有的数据库都支持,比如 mysql 就不支持,在 SQL 中实现全连接可以使用 FULL OUTER JOIN
SELECT *FROM df1FULL OUTER JOIN df2ON df1.key = df2.key;
在 pandas 中实现同样可以使用 merge并指定 how 关键字为 outer

合并
SQL 中 UNION 操作用于 合并两个或多个 SELECT 语句的结果集, UNION与 UNION ALL类似,但是 UNION 将删除重复的行。示例代码如下
SELECT city, rankFROM df1UNION ALLSELECT city, rankFROM df2;/*city rankChicago 1San Francisco 2New York City 3Chicago 1Boston 4Los Angeles 5*/
在 pandas 中可以使用 concat实现 UNION ALL

上面是 UNION ALL保留重复值,如果希望删除可以使用 drop_duplicates

以上就是本文的全部内容,可以看到在不同的场景下不同的语言有着不同的特性,如果你想深入学习了解可以进一步查阅官方文档并多加练习!