单选题 必然属于宽依赖的操作是( )。(2.0)
A、mapValues
B、flatMapValues
C、Join
D、sample
单选题 关于Spark MLlib的特征处理工具,以下描述正确的是( )。
(2.0)
A、标准化(StandardScaler)可以将类别型特征转换为数值型
B、分桶(Bucketizer)用于将连续特征离散化为指定区间的桶
C、PCA(主成分分析)是一种特征选择方法
D、TF-IDF仅适用于图像特征提取
单选题 Structured Streaming 的核心设计目标是?( )(2.0)
A、完全替代批处理作业
B、将流处理与批处理统一为同一套 API,实现持续计算应用25
C、仅支持毫秒级延迟的实时处理
D、基于 RD
E、实现高吞吐量计算
单选题 默认情况下,RDD的持久化级别是( )。(2.0)
A、DISK_ONLY
B、MEMORY_AND_DISK_2
C、MEMORY_ONLY
D、MEMORY_ONLY_SER
单选题 对于RDD ((b, 2), (b, 3), (b, 4)),使用 “reduceByKey(_ + _)” 进行合并,结果是( )。(2.5) A. (b, 5)(2.0)
A、(b, 6)
B、(b, 9)
C、(3b, 9)
单选题 以下DSL风格代码中,能够正确实现“按性别分组统计平均年龄”的是:
(2.0)
A、d
B、groupBy("gender").avg("age")
C、d
D、groupBy("gender").agg("age" ->"mean")
E、d
F、groupBy("gender").agg(avg("age").alias("avg_age"))
G、d
H、groupBy("gender").select(mean("age"))
单选题 一、单选题(共40题,80分) 1、Spark的以下特性中,错误的是( )。(2.0)
A、支持内存计算
B、代码编写复杂
C、支持多种数据源
D、可以和Hadoop生态系统集成
单选题 Structured Streaming 程序执行过程的正确顺序是?( )(2.0)
A、创建输入数据源 → 导入依赖 → 定义流计算过程 → 启动流计算
B、导入依赖 → 创建 SparkSession → 定义流计算过程 → 启动流计算4
C、启动流计算 → 创建输入数据源 → 定义流计算过程 → 导入依赖
D、创建 SparkSession → 启动流计算 → 导入依赖 → 定义流计算过程