pyspark命令 pyspark sample

转载

码海无压 2023-05-29 12:55:03

文章标签 python spark sql 连接数据库 文章分类 Spark 大数据

使用pyspark连接数据库获取相应符合条件的数据，然后随机抽样。

import pandas as pd
df1 = spark.sql('''
        SELECT spe_id,item_num,item_bare_price,0 as label
        FROM rm_erp_purchase_in_stock_item_source
        where group_id in (1001)
                and order_in_stock_time between '2020-01-01' and '2020-06-30'
                and item_bare_price>=lower_6 and item_bare_price<=upper
    ''')
df2 = df1.sample(n=100，replace=True)#有放回抽取100行

原本以为df1得出来的是dataframe类型，可以直接使用pandas包中的sample方法。但是运行报错：
TypeError: sample() got an unexpected keyword argument 'n'

原因：df1类型不符合sample方法中的类型

先看pandas包中sample的用法，自己先创建一个pandas包中的例子：

sq = pd.DataFrame({'coll':[9,8,7,6],'weight_column':[0.5,0.4,0.1,0]})
temp = sq.sample(n=2,replace=True)
type(temp)

输出：<class 'pandas.core.frame.DataFrame'>

type(df1)

输出：<class 'pyspark.sql.dataframe.DataFrame'>

很明显，两者类型是不一样的。

解决办法：将spark.DataFrame 转换成 pandas.DataFrame"

df1.toPandas()

完美解决！

拓展：将pandas.DataFrame 转换成 spark.DataFrame

from pyspark import SparkContext
sc = SparkContext()
sqlContext = SQLContext(sc)
spark_df = sqlContext.createDataFrame(sq)

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：命令行怎么运行java程序怎么用命令行运行java文件

下一篇：ccf命令行选项java javac命令可以运行什么文件

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

pyspark命令 pyspark sample

pyspark命令 pyspark sample

使用pyspark连接数据库获取相应符合条件的数据，然后随机抽样。

原因：df1类型不符合sample方法中的类型

解决办法： 将spark.DataFrame 转换成 pandas.DataFrame"

拓展：将pandas.DataFrame 转换成 spark.DataFrame

51CTO博客

解决办法：将spark.DataFrame 转换成 pandas.DataFrame"