这条命令启动了py-spark的这样一个终端,它是一个命令行交互的一个终端。在这里可以运行一些spark支持的这些命令和语言,它的这个语言使用Python来编写的,所以可以在这里面运行Python的一些代码。那么在这里,我们指定了它的master是一个yarn-client;然后我们指定了它的executor的数量是10。
启动了之后,我们就可以运行这个spark程序了。我们第一步要运行是需要创建一个spark的context,这在spark的编程方式和命令行方式,它是一致的。只不过在命令行方式,这个context会帮我们直接创建起来。通过context,我们可以把一个分布式文件系统的这样一个文件,或者本地的文件给转成第一个RDD,在这里面就是一个text file这样一个RDD。
3个>符号是shell提示符。 在这里面我们可以对它进行flat map。我们可以进行flat map之后来继续做map。然后我们还可以进行reduceByKey等等这样的一系列的操作。
最后我们可以进行action。 比如说我们要看前10个元素是什么,然后我们可以去对里面的一些元素进行查找,通过一个叫做filter的操作,然后我们可以把它输出到文件,把它保存,结果保存出来。