单选题 数据仓库(Data Warehouse)的主要特点是( )
A、面向实时交易处理
B、存储历史数据并支持分析
C、仅存储非结构化数据
D、不支持复杂查询
单选题 在数据采集过程中,API接口的作用是( )
A、手动输入数据
B、自动化获取数据
C、删除冗余数据
D、加密数据传输
单选题 数据标准化(Normalization)的目的是( )
A、使数据符合正态分布
B、消除量纲影响,便于比较
C、删除异常值
D、增加数据维度
单选题 数据清洗的主要目的是( )
A、增加数据量
B、提高数据质量和一致性
C、将数据可视化
D、加密敏感数据
单选题 下列哪项是数据采集中的隐私保护措施?( )
A、尽可能多地采集用户数据
B、对敏感数据进行脱敏处理
C、公开原始数据集
D、忽略数据使用协议
单选题 以下哪种工具通常用于大数据批处理?( )
A、Apach
B、Kafka
C、Apach
D、Hadoop
E、Apach
F、Flink
G、Apach
H、Storm
单选题 以下哪种数据存储格式适合存储半结构化数据?( )
A、CSV
B、JSON
C、Excel
D、TXT
单选题 在数据清洗中,处理缺失值的常用方法不包括( )
A、删除包含缺失值的记录
B、用平均值填充缺失值
C、用随机数填充缺失值
D、保留缺失值不做处理