Experiment in Spark

xiaoxiao2021-02-27 397

Wordcount by Spark

启动Spark

#Start Spark(shell) pyspark --master yarn-client --num-executors 10

这条命令启动了py-spark的这样一个终端，它是一个命令行交互的一个终端。在这里可以运行一些spark支持的这些命令和语言，它的这个语言使用Python来编写的，所以可以在这里面运行Python的一些代码。那么在这里，我们指定了它的master是一个yarn-client；然后我们指定了它的executor的数量是10。

Generate source RDDs

Use spark context(sc) textFile = sc.textFile(“/tmp/bigdata/2017/english_novel/*”)

启动了之后，我们就可以运行这个spark程序了。我们第一步要运行是需要创建一个spark的context，这在spark的编程方式和命令行方式，它是一致的。只不过在命令行方式，这个context会帮我们直接创建起来。通过context，我们可以把一个分布式文件系统的这样一个文件，或者本地的文件给转成第一个RDD，在这里面就是一个text file这样一个RDD。

Transformations

>>>wordsrdd = textFile.flatMap(lambda s: s.split()) >>>maprdd = wordsrdd.map(lambda s: (s,1)) >>>reducerdd = maprdd.reduceByKey(add)

3个>符号是shell提示符。在这里面我们可以对它进行flat map。我们可以进行flat map之后来继续做map。然后我们还可以进行reduceByKey等等这样的一系列的操作。

Actions

reducerdd.take(10) reducerdd.filter(lambda (k,v): k == ‘word’) reducerdd.saveAsTextFile(‘flie:/home/robin/output’)

最后我们可以进行action。比如说我们要看前10个元素是什么，然后我们可以去对里面的一些元素进行查找，通过一个叫做filter的操作，然后我们可以把它输出到文件，把它保存，结果保存出来。

转载请注明原文地址: https://www.6miu.com/read-3018.html

技术

最新回复(0)