大佬救命十万火急急急急急spark的scala做

查看 206|回复 4

作者：wbq111 发布时间：2023-9-27 21:03:11

用spark 中的scala做

recode.txt
(318 Bytes, 下载次数: 0)
2023-9-27 17:25 上传
点击文件名下载附件
数据
下载积分: 吾爱币 -1 CB

1、使用List(1,2,3,4,5)创建RDD，并将所有元素打印出来。

2、将第1小题中的RDD的每个元素加2，打印出前3个元素。
3、有一个包含了学生姓名的数组Array("Jim","Tom","Jim","Jerry","John","Jim","Tom")，通过RDD去除重复的名字，打印出去重后的RDD元素。
4、通过RDD计算第3小题的数组中有多少个元素以字母'J'开头，打印RDD元素个数。
5、考试文档中的recode.txt文件中包含了商品被点击的记录，其中第一个字段是点击时间，第二个字段是商品ID，将文件数据读取到RDD中，使用合适的算子统计每件商品被点击的次数。
6、考试文档中的student.txt文件记录了大数据技术专业2个班同学的《spark实时数据处理技术》课程成绩，数据结构为【学号，姓名，班级，成绩】，读取文件数据用来创建DataFrame，将DataFrame中所有数据打印出来；
7、使用第6小题的DataFrame，统计出及格的学生人数并打印出来；
8、使用第6小题的DataFrame，统计每个班的平均分并打印出来；
9，使用第6小题的DataFrame，计算出1班排名前3的学生信息并打印出来；
10、使用第6小题的DataFrame，查询出不及格的学生，并将学生信息导出为csv文件。

小题, 打印出来

相关帖子

jack98 2023-9-27 21:03:43

wbq111 发表于 2023-9-27 19:17
《禁止使用网挣网盘》这个是什么？
被吾爱论坛错误识别为网盘地址

wbq111
OP
  2023-9-27 21:04:29

1、（8分）使用List(1,2,3,4,5)创建RDD，并将所有元素打印出来。

2、（8分）将第1小题中的RDD的每个元素加2，打印出前3个元素。
3、（8分）有一个包含了学生姓名的数组Array("Jim","Tom","Jim","Jerry","John","Jim","Tom")，通过RDD去除重复的名字，打印出去重后的RDD元素。
4、（12分）通过RDD计算第3小题的数组中有多少个元素以字母'J'开头，打印RDD元素个数。
5、（14分）考试文档中的recode.txt文件中包含了商品被点击的记录，其中第一个字段是点击时间，第二个字段是商品ID，将文件数据读取到RDD中，使用合适的算子统计每件商品被点击的次数。
6、（10分）考试文档中的student.txt文件记录了大数据技术专业2个班同学的《spark实时数据处理技术》课程成绩，数据结构为【学号，姓名，班级，成绩】，读取文件数据用来创建DataFrame，将DataFrame中所有数据打印出来；
7、（10分）使用第6小题的DataFrame，统计出及格的学生人数并打印出来；
8、（10分）使用第6小题的DataFrame，统计每个班的平均分并打印出来；
9、（10分）使用第6小题的DataFrame，计算出1班排名前3的学生信息并打印出来；
10、（10分）使用第6小题的DataFrame，查询出不及格的学生，并将学生信息导出为csv文件。

jack98   2023-9-27 21:05:13

1.使用List(1,2,3,4,5)创建RDD，并将所有元素打印出来。
import org.apache.spark.{SparkConf, SparkContext}
val conf = new SparkConf().setAppName("Example").setMaster("local")
val sc = new SparkContext(conf)
val listRDD = sc.parallelize(List(1,2,3,4,5))
listRDD.collect().foreach(println)
2.将第1小题中的RDD的每个元素加2，打印出前3个元素。
val addedRDD = listR禁止使用网挣网盘p(_ + 2)
addedRDD.take(3).foreach(println)
3.有一个包含了学生姓名的数组Array("Jim","Tom","Jim","Jerry","John","Jim","Tom")，通过RDD去除重复的名字，打印出去重后的RDD元素。
val studentArray = Array("Jim","Tom","Jim","Jerry","John","Jim","Tom")
val studentRDD = sc.parallelize(studentArray)
val distinctRDD = studentRDD.distinct()
distinctRDD.collect().foreach(println)
4.通过RDD计算第3小题的数组中有多少个元素以字母'J'开头，打印RDD元素个数。
val countRDD = distinctRDD.filter(_.startsWith("J"))
val count = countRDD.count()
println(count)
5.考试文档中的recode.txt文件中包含了商品被点击的记录，其中第一个字段是点击时间，第二个字段是商品ID，将文件数据读取到RDD中，使用合适的算子统计每件商品被点击的次数。
val dataRDD = sc.textFile("recode.txt")
val countRDD = dataR禁止使用网挣网盘p(line => (line.split("\t")(1), 1))
val itemClickCountRDD = countRDD.reduceByKey(_ + _)
itemClickCountRDD.collect().foreach(println)
6.考试文档中的student.txt文件记录了大数据技术专业2个班同学的《spark实时数据处理技术》课程成绩，数据结构为【学号，姓名，班级，成绩】，读取文件数据用来创建DataFrame，将DataFrame中所有数据打印出来。
import org.apache.spark.sql.{SparkSession, DataFrame}
val spark = SparkSession.builder().appName("Example").master("local").getOrCreate()
val studentDF = spark.read.format("csv").option("header", "false").load("student.txt")
studentDF.show()
7.使用第6小题的DataFrame，统计出及格的学生人数并打印出来。
val passCount = studentDF.filter("_c3 >= 60").count()
println(passCount)
8.使用第6小题的DataFrame，统计每个班的平均分并打印出来。
studentDF.groupBy("_c2").avg("_c3").show()
9.使用第6小题的DataFrame，计算出1班排名前3的学生信息并打印出来。
import org.apache.spark.sql.functions._
val rankDF = studentDF.filter("_c2 = '1'").orderBy(desc("_c3"))
rankDF.show(3)
10.使用第6小题的DataFrame，查询出不及格的学生，并将学生信息导出为csv文件。
val failDF = studentDF.filter("_c3
jack98 发表于 2023-9-27 18:45
1.使用List(1,2,3,4,5)创建RDD，并将所有元素打印出来。
import org.apache.spark.{SparkConf, SparkConte ...
《禁止使用网挣网盘》这个是什么？

wbq111
OP
  2023-9-27 21:06:01

图片可以点击放大，你再看看，能不能解决问题~

大佬救命十万火急急急急急spark的scala做

相关帖子

浏览过的版块

热门主题

微软 2FA 好像可以云备份了

大佬们，现在哪种cms程序自动采集还能快速

胡润财富报告：全国每100户家庭中就有一户

做一个怀旧网，卖一些怀旧老物件，大家觉得

我感觉 Codex 的编码能力还没有到足够强大

分享一个自用的专门针对飞书消息渠道展示优

有没有支持下行 PD/PPS 供电+数据的扩展坞/

字节跳动日常实习面试会问什么？

[macOS/开源] 会话散在 ~/.claude 和 ~/.co

‌Google算法更新‌，全球范围内

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

大佬救命十万火急急急急急spark的scala做

相关帖子

浏览过的版块

热门主题

微软 2FA 好像可以云备份了

大佬们，现在哪种cms程序自动采集还能快速

胡润财富报告：全国每100户家庭中 就有一户

做一个怀旧网，卖一些怀旧老物件，大家觉得

我感觉 Codex 的编码能力还没有到足够强大

分享一个自用的专门针对飞书消息渠道展示优

有没有支持下行 PD/PPS 供电+数据的扩展坞/

字节跳动日常实习面试会问什么？

[macOS/开源] 会话散在 ~/.claude 和 ~/.co

&#8204;Google算法更新&#8204;，全球范围内

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

胡润财富报告：全国每100户家庭中就有一户

‌Google算法更新‌，全球范围内

在 Yoo趣儿投放广告