Experiment in Spark

xiaoxiao2021-02-27  338

Wordcount by Spark

启动Spark

#Start Spark(shell) pyspark --master yarn-client --num-executors 10

这条命令启动了py-spark的这样一个终端,它是一个命令行交互的一个终端。在这里可以运行一些spark支持的这些命令和语言,它的这个语言使用Python来编写的,所以可以在这里面运行Python的一些代码。那么在这里,我们指定了它的master是一个yarn-client;然后我们指定了它的executor的数量是10。

Generate source RDDs

Use spark context(sc) textFile = sc.textFile(“/tmp/bigdata/2017/english_novel/*”)

启动了之后,我们就可以运行这个spark程序了。我们第一步要运行是需要创建一个spark的context,这在spark的编程方式和命令行方式,它是一致的。只不过在命令行方式,这个context会帮我们直接创建起来。通过context,我们可以把一个分布式文件系统的这样一个文件,或者本地的文件给转成第一个RDD,在这里面就是一个text file这样一个RDD。

Transformations

>>>wordsrdd = textFile.flatMap(lambda s: s.split()) >>>maprdd = wordsrdd.map(lambda s: (s,1)) >>>reducerdd = maprdd.reduceByKey(add)

3个>符号是shell提示符。 在这里面我们可以对它进行flat map。我们可以进行flat map之后来继续做map。然后我们还可以进行reduceByKey等等这样的一系列的操作。

Actions

reducerdd.take(10) reducerdd.filter(lambda (k,v): k == ‘word’) reducerdd.saveAsTextFile(‘flie:/home/robin/output’)

最后我们可以进行action。 比如说我们要看前10个元素是什么,然后我们可以去对里面的一些元素进行查找,通过一个叫做filter的操作,然后我们可以把它输出到文件,把它保存,结果保存出来。

转载请注明原文地址: https://www.6miu.com/read-3018.html

最新回复(0)