5分钟上手 pyspark 和 colab

什么是pyspark

pyspark是用python封装的spark的api接口。

注意: pyspark使用了Py4j的java库,所以使用的时候机器上必须安装java

什么是 Colab

Colaboratory(简称 Colab),可以在浏览器中编写和执行 Python 代码,并且:无需任何配置;免费使用 GPU;轻松共享

准备条件

1.打开 colab 官网(https://colab.research.google.com/),新建一个 ipynb格式的 jupyter 文件

2.下载要读入的csv文件,并把它上传到 colab 在线文件夹的某个目录下

操作

环境准备

# 安装 pyspark 包
! pip install pyspark 

from pyspark.sql.session import SparkSession
sc = SparkContext('local')
spark = SparkSession(sc)

注意:一个jvm只能运行一个sparksession,你可以通过stop()方法后再新建其他的

数据输入和操作

注意:如果inferSchema=False,所有输入文本将会以字符串的格式读入

# 数据读入
titanic_df=spark.read.csv("/content/drive/MyDrive/Colab Notebooks/data/titanic.csv",header=True,inferSchema=True)

# 校验一下数据
titanic_df.show(2)

SQL 函数在 PySpark 中内置,因此可以使用 select SQL 函数的另一种方式将数据显示为表格。

titanic_df.select("*").show()

# 展示部分 column
titanic_df.select("PassengerId","Survived").show(5)

# 按条件展示column
titanic_df.where((titanic_df.Age > 25)& (titanic_df.Sex=="female")).show(5)

  
  

如果输入的数据需要和其他表关联,则需要创建临时表

# 创建临时表,表名为Titanic
titanic_df.createOrReplaceTempView("Titanic")
spark.sql("select * from titanic").show()