Data4Fun

什么是pyspark

pyspark是用python封装的spark的api接口。

注意： pyspark使用了Py4j的java库，所以使用的时候机器上必须安装java

什么是 Colab

Colaboratory（简称 Colab），可以在浏览器中编写和执行 Python 代码，并且：无需任何配置；免费使用 GPU；轻松共享

准备条件

1.打开 colab 官网(https://colab.research.google.com/)，新建一个 ipynb格式的 jupyter 文件

2.下载要读入的csv文件，并把它上传到 colab 在线文件夹的某个目录下

操作

环境准备

# 安装 pyspark 包
! pip install pyspark 

from pyspark.sql.session import SparkSession
sc = SparkContext('local')
spark = SparkSession(sc)

注意：一个jvm只能运行一个sparksession，你可以通过stop()方法后再新建其他的

数据输入和操作

注意：如果inferSchema=False，所有输入文本将会以字符串的格式读入

# 数据读入
titanic_df=spark.read.csv("/content/drive/MyDrive/Colab Notebooks/data/titanic.csv",header=True,inferSchema=True)

# 校验一下数据
titanic_df.show(2)

SQL 函数在 PySpark 中内置，因此可以使用 select SQL 函数的另一种方式将数据显示为表格。

titanic_df.select("*").show()

# 展示部分 column
titanic_df.select("PassengerId","Survived").show(5)

# 按条件展示column
titanic_df.where((titanic_df.Age > 25)& (titanic_df.Sex=="female")).show(5)

如果输入的数据需要和其他表关联，则需要创建临时表

# 创建临时表，表名为Titanic
titanic_df.createOrReplaceTempView("Titanic")
spark.sql("select * from titanic").show()

5分钟上手 pyspark 和 colab

什么是pyspark

什么是 Colab

准备条件

操作

环境准备

数据输入和操作