在DataFrame中，用于过滤数据的方法是（）。（2.0） - 考试宝

单选题在DataFrame中，用于过滤数据的方法是（）。（2.0）

A、 select

B、 filter

C、 collect

D、 groupBy

下载APP答题

由4l***0d提供分享举报纠错

相关试题

单选题必然属于宽依赖的操作是（）。（2.0）

A、mapValues

B、flatMapValues

C、Join

D、sample

单选题关于Spark MLlib的特征处理工具，以下描述正确的是（）。（2.0）

A、标准化（StandardScaler）可以将类别型特征转换为数值型

B、分桶（Bucketizer）用于将连续特征离散化为指定区间的桶

C、PCA（主成分分析）是一种特征选择方法

D、TF-IDF仅适用于图像特征提取

单选题 Structured Streaming 的核心设计目标是？（）（2.0）

A、完全替代批处理作业

B、将流处理与批处理统一为同一套 API，实现持续计算应用25

C、仅支持毫秒级延迟的实时处理

D、基于 RD

E、实现高吞吐量计算

单选题默认情况下，RDD的持久化级别是（）。（2.0）

A、DISK_ONLY

B、MEMORY_AND_DISK_2

C、MEMORY_ONLY

D、MEMORY_ONLY_SER

单选题对于RDD ((b, 2), (b, 3), (b, 4))，使用 “reduceByKey(_ + _)” 进行合并，结果是（）。（2.5） A. (b, 5)（2.0）

A、(b, 6)

B、(b, 9)

C、(3b, 9)

单选题以下DSL风格代码中，能够正确实现“按性别分组统计平均年龄”的是：（2.0）

A、d

B、groupBy("gender").avg("age")

C、d

D、groupBy("gender").agg("age" ->"mean")

E、d

F、groupBy("gender").agg(avg("age").alias("avg_age"))

G、d

H、groupBy("gender").select(mean("age"))

单选题一、单选题（共40题，80分） 1、Spark的以下特性中，错误的是（）。（2.0）

A、支持内存计算

B、代码编写复杂

C、支持多种数据源

D、可以和Hadoop生态系统集成

单选题 Structured Streaming 程序执行过程的正确顺序是？（）（2.0）

A、创建输入数据源 → 导入依赖 → 定义流计算过程 → 启动流计算

B、导入依赖 → 创建 SparkSession → 定义流计算过程 → 启动流计算4

C、启动流计算 → 创建输入数据源 → 定义流计算过程 → 导入依赖

D、创建 SparkSession → 启动流计算 → 导入依赖 → 定义流计算过程