单选题 在DataFrame中,用于过滤数据的方法是( )。(2.0)

A、 select
B、 filter
C、 collect
D、 groupBy
下载APP答题
由4l***0d提供 分享 举报 纠错

相关试题

单选题 必然属于宽依赖的操作是( )。(2.0)

A、mapValues
B、flatMapValues
C、Join
D、sample

单选题 关于Spark MLlib的特征处理工具,以下描述正确的是( )。 (2.0)

A、标准化(StandardScaler)可以将类别型特征转换为数值型
B、分桶(Bucketizer)用于将连续特征离散化为指定区间的桶
C、PCA(主成分分析)是一种特征选择方法
D、TF-IDF仅适用于图像特征提取

单选题 Structured Streaming 的核心设计目标是?( )(2.0)

A、完全替代批处理作业
B、将流处理与批处理统一为同一套 API,实现持续计算应用25
C、仅支持毫秒级延迟的实时处理
D、基于 RD
E、实现高吞吐量计算

单选题 默认情况下,RDD的持久化级别是( )。(2.0)

A、DISK_ONLY
B、MEMORY_AND_DISK_2
C、MEMORY_ONLY
D、MEMORY_ONLY_SER

单选题 对于RDD ((b, 2), (b, 3), (b, 4)),使用 “reduceByKey(_ + _)” 进行合并,结果是( )。(2.5) A. (b, 5)(2.0)

A、(b, 6)
B、(b, 9)
C、(3b, 9)

单选题 以下DSL风格代码中,能够正确实现“按性别分组统计平均年龄”的是: (2.0)

A、d
B、groupBy("gender").avg("age")
C、d
D、groupBy("gender").agg("age" ->"mean")
E、d
F、groupBy("gender").agg(avg("age").alias("avg_age"))
G、d
H、groupBy("gender").select(mean("age"))

单选题 一、单选题(共40题,80分) 1、Spark的以下特性中,错误的是( )。(2.0)

A、支持内存计算
B、代码编写复杂
C、支持多种数据源
D、可以和Hadoop生态系统集成

单选题 Structured Streaming 程序执行过程的正确顺序是?( )(2.0)

A、创建输入数据源 → 导入依赖 → 定义流计算过程 → 启动流计算
B、导入依赖 → 创建 SparkSession → 定义流计算过程 → 启动流计算4
C、启动流计算 → 创建输入数据源 → 定义流计算过程 → 导入依赖
D、创建 SparkSession → 启动流计算 → 导入依赖 → 定义流计算过程