ITPub博客

首页 > 应用开发 > Python > 入门数据分析选择Python还是SQL?七个常用操作对比

入门数据分析选择Python还是SQL?七个常用操作对比

原创 Python 作者:千锋Python唐小强 时间:2020-11-05 16:47:14 0 删除 编辑

SQL和Python几乎是当前数据分析师必须要了解的两门语言,它们在处理数据时有什么区别?本文将分别用 MySQLpandas来展示七个在数据分析中常用的操作,希望可以 帮助掌握其中一种语言的读者快速了解另一种方法(文末也有给大家整理两种方法的视频教程,大家按需学习就好)


一、选择

在SQL中,我们可以使用 SELECT语句从表选择数据,结果被存储在一个结果表中,语法如下:

SELECT column_name,column_nameFROM table_name;

如果 不想显示全部的记录,可以使用 TOPLIMIT来限制行数。因此选择tips表中的部分列可以使用下面的语句

SELECT total_bill, tip, smoker, timeFROM tipsLIMIT 5;
入门数据分析选择Python还是SQL?七个常用操作对比

而在pandas中,我们可以通过 将列名列表传递给DataFrame来完成列选择

入门数据分析选择Python还是SQL?七个常用操作对比

在SQL中,进行选择的同时还可以进行计算,比如添加一列

SELECT *, tip/total_bill as tip_rateFROM tipsLIMIT 5;
入门数据分析选择Python还是SQL?七个常用操作对比

在pandas中使用 DataFrame.assign()同样可以完成这个操作

入门数据分析选择Python还是SQL?七个常用操作对比

二、查找

单条件查找

在SQL中, WHERE子句用于提取那些满足指定条件的记录,语法如下

SELECT column_name,column_nameFROM table_nameWHERE column_name operator value;

比如查找示例数据中 time = dinner的记录

SELECT *FROM tipsWHERE time = 'Dinner'LIMIT 5;
入门数据分析选择Python还是SQL?七个常用操作对比

而在pandas中,按照条件进行查找则可以有多种形式,比如可以 将含有 True/False的Series对象传递给DataFrame,并返回所有带有True的行

入门数据分析选择Python还是SQL?七个常用操作对比

多条件查找

在SQL中,进行多条件查找可以使用AND/OR来完成

SELECT *FROM tipsWHERE time = 'Dinner' AND tip > 5.00;
入门数据分析选择Python还是SQL?七个常用操作对比

在pandas中也有类似的操作

入门数据分析选择Python还是SQL?七个常用操作对比

查找空值

在pandas检查空值是使用 notna()isna()方法完成的。

frame[frame['col1'].notna()]

在SQL中可以使用 IS NULLIS NOT NULL完成

SELECT *FROM frameWHERE col2 IS NULL;SELECT *FROM frameWHERE col1 IS NOT NULL;


三、更新

在SQL中使用 UPDATE

UPDATE tipsSET tip = tip*2WHERE tip < 2;

而在pandas中则有多种方法,比如使用 loc函数

tips.loc[tips['tip'] < 2, 'tip'] *= 2


四、删除

在SQL中使用DELETE

DELETE FROM tipsWHERE tip > 9;

在pandas中,我们选择应保留的行,而不是删除它们

tips = tips.loc[tips['tip'] <= 9]


五、分组

在pandas中,使用 groupby()方法实现分组。 groupby()通常是指一个过程,在该过程中,我们希望将数据集分为几组,应用某些功能(通常是聚合),然后将各组组合在一起。

常见的SQL操作是获取整个数据集中每个组中的记录数。例如,通过 对性别进行分组查询

SELECT sex, count(*)FROM tipsGROUP BY sex;
入门数据分析选择Python还是SQL?七个常用操作对比

在pandas中的等价操作为

入门数据分析选择Python还是SQL?七个常用操作对比

注意,在上面代码中,我们 使用size()而不是count() 这是因为count()将函数应用于每一列,并返回每一列中非空记录的数量!

六、连接

在pandas可以使用 join()merge()进行连接,每种方法都有参数,可让指定要执行的联接类型(LEFT,RIGHT,INNER,FULL)或要联接的列。

现在让我们重新创建两组示例数据,分别用代码来演示不同的连接

df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'],
   ....:                     'value': np.random.randn(4)})
   ....: 
df2 = pd.DataFrame({'key': ['B', 'D', 'D', 'E'],
   ....:                     'value': np.random.randn(4)})

内连接

内联接使用比较运算符根据每个表共有的列的值匹配两个表中的行,在SQL中实现内连接使用 INNER JOIN

SELECT *FROM df1INNER JOIN df2
  ON df1.key = df2.key;

在pandas中可以使用 merge()

入门数据分析选择Python还是SQL?七个常用操作对比

merge()提供了一些参数,可以将一个DataFrame的列与另一个DataFrame的索引连接在一起

入门数据分析选择Python还是SQL?七个常用操作对比

左/右外联接

在SQL中实现左/右外连接可以使用 LEFT OUTER JOINRIGHT OUTER JOIN

SELECT *FROM df1LEFT OUTER JOIN df2
  ON df1.key = df2.key;
  SELECT *FROM df1RIGHT OUTER JOIN df2
  ON df1.key = df2.key;

在pandas中实现同样可以使用 merge()并指定how关键字为 left或者 right即可

入门数据分析选择Python还是SQL?七个常用操作对比

全连接

全连接返回左表和右表中的所有行,无论是否匹配, 但并不是所有的数据库都支持,比如mysql就不支持,在SQL中实现全连接可以使用 FULL OUTER JOIN

SELECT *FROM df1FULL OUTER JOIN df2
  ON df1.key = df2.key;

在pandas中实现同样可以使用 merge()并指定how关键字为 outer

入门数据分析选择Python还是SQL?七个常用操作对比

七、合并

SQL中UNION操作用于 合并两个或多个SELECT语句的结果集, UNIONUNION ALL类似,但是UNION将删除重复的行。示例代码如下

SELECT city, rankFROM df1UNION ALLSELECT city, rankFROM df2;/*
         city  rank
      Chicago     1
San Francisco     2
New York City     3
      Chicago     1
       Boston     4
  Los Angeles     5
*/

在pandas中可以使用 concat()实现 UNION ALL

入门数据分析选择Python还是SQL?七个常用操作对比

上面是 UNION ALL保留重复值,如果希望删除可以使用  drop_duplicates()

入门数据分析选择Python还是SQL?七个常用操作对比

以上就是本文的全部内容,可以看到在不同的场景下不同的语言有着不同的特性


来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/69923331/viewspace-2732437/,如需转载,请注明出处,否则将追究法律责任。

下一篇: 没有了~
请登录后发表评论 登录
全部评论

注册时间:2019-05-14

  • 博文量
    995
  • 访问量
    629951