data = [1,2,4,7,11,15,20] # list of data
data

[1, 2, 4, 7, 11, 15, 20]

rdd = sc.parallelize(data,4) # create 4 partitions of the data

rdd

ParallelCollectionRDD[0] at readRDDFromFile at PythonRDD.scala:247

rdd.collect() # action the data

[1, 2, 4, 7, 11, 15, 20]

rdd1 = rdd.map(lambda x:(x+2)*4) # perform a transformation or calculation of the data
rdd1.collect()

[12, 16, 24, 36, 52, 68, 88]

rdd2 = rdd.filter(lambda x:(x+2)*4)
rdd2.collect()

[1, 2, 4, 7, 11, 15, 20]

rdd3 = rdd.filter(lambda x:x%3==0)
rdd3.collect()

[15]

rdd4 = rdd.map(lambda x:x%3==0)
rdd4.collect()

[False, False, False, False, False, True, False]

rdd5 = sc.parallelize([4,2,2,6,7,7,19,40,41,40,40])

rdd5.distinct()

PythonRDD[10] at RDD at PythonRDD.scala:53

rdd5.distinct().collect()

[4, 40, 41, 2, 6, 7, 19]

rdd6 = sc.parallelize([1,2,3,4])

rdd7 = rdd6.map(lambda x:[x,x+2,x+7])
rdd7.collect()

[[1, 3, 8], [2, 4, 9], [3, 5, 10], [4, 6, 11]]

rdd8 = rdd6.flatMap(lambda x:[x,x+2,x+7])
rdd8.collect()

[1, 3, 8, 2, 4, 9, 3, 5, 10, 4, 6, 11]

print(rdd7.collect())

[[1, 3, 8], [2, 4, 9], [3, 5, 10], [4, 6, 11]]

print(rdd8.collect())

[1, 3, 8, 2, 4, 9, 3, 5, 10, 4, 6, 11]

rdd8.reduce(lambda a,b:a*b)

68428800