而在pandas中,我们可以通过将列名列表传递给DataFrame来完成列选择
在SQL中,进行选择的同时还可以进行计算,比如添加一列
SELECT *, tip/total_bill as tip_rate
FROM tips
LIMIT 5;
在pandas中使用DataFrame.assign()同样可以完成这个操作
二、查找
单条件查找
在SQL中,WHERE子句用于提取那些满足指定条件的记录,语法如下
SELECT column_name,column_name
FROM table_name
WHERE column_name operator value;
比如查找示例数据中time = dinner的记录
SELECT *
FROM tips
WHERE time = 'Dinner'
LIMIT 5;
而在pandas中,按照条件进行查找则可以有多种形式,比如可以将含有True/False的Series对象传递给DataFrame,并返回所有带有True的行
多条件查找
在SQL中,进行多条件查找可以使用AND/OR来完成
SELECT *
FROM tips
WHERE time = 'Dinner' AND tip > 5.00;
在pandas中也有类似的操作
查找空值
在pandas检查空值是使用notna()和isna()方法完成的。
frame[frame['col1'].notna()]
在SQL中可以使用IS NULL和IS NOT NULL完成
SELECT *
FROM frame
WHERE col2 IS NULL;
SELECT *
FROM frame
WHERE col1 IS NOT NULL;
三、更新
在SQL中使用UPDATE
UPDATE tips
SET tip = tip*2
WHERE tip < 2;
而在pandas中则有多种方法,比如使用loc函数
tips.loc[tips['tip'] < 2, 'tip'] *= 2
四、删除
在SQL中使用DELETE
DELETE FROM tips
WHERE tip > 9;
在pandas中,我们选择应保留的行,而不是删除它们
tips = tips.loc[tips['tip'] <= 9]
五、分组
在pandas中,使用groupby()方法实现分组。groupby()通常是指一个过程,在该过程中,我们希望将数据集分为几组,应用某些功能(通常是聚合),然后将各组组合在一起。
常见的SQL操作是获取整个数据集中每个组中的记录数。例如,通过对性别进行分组查询
SELECT sex, count(*)
FROM tips
GROUP BY sex;
在pandas中的等价操作为
注意,在上面代码中,我们使用size()而不是count() 这是因为count()将函数应用于每一列,并返回每一列中非空记录的数量!
六、连接
在pandas可以使用join()或merge()进行连接,每种方法都有参数,可让指定要执行的联接类型(LEFT,RIGHT,INNER,FULL)或要联接的列。
现在让我们重新创建两组示例数据,分别用代码来演示不同的连接
df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'],
....: 'value': np.random.randn(4)})
....:
df2 = pd.DataFrame({'key': ['B', 'D', 'D', 'E'],
....: 'value': np.random.randn(4)})
内连接
内联接使用比较运算符根据每个表共有的列的值匹配两个表中的行,在SQL中实现内连接使用INNER JOIN
SELECT *
FROM df1
INNER JOIN df2
ON df1.key = df2.key;