#spark中拼接RDD指定行数据,RDD合并成一行,python实现
frompysparkimportSparkContext
sc=SparkContext("local","MyApp")
rows=sc.parallelize([[1,2,3],[4,5,6],[7,8,9],[10,11,12]])
#获得指定行的数据,返回RDD
defgetnum(s):
#全局行号迭代
globalcounter
#指定行号
globalrow
counter+=1
if(counter==row):
returns
counter=0
row=3
#cache()缓存数据
x1=rows.filter(getnum).cache()
row=4
x2=rows.filter(getnum).cache()
#生成一个包含两个RDD中所有元素的RDD
xx=x1.union(x2)
printxx.collect()
#运行结果
[[7,8,9],[10,11,12]] |