使用当前浏览器访问考试宝,无法享受最佳体验,推荐使用 Chrome 浏览器进行访问。
更新时间: 试题数量: 购买人数: 提供作者:
有效期: 个月
章节介绍: 共有个章节
我的错题 (0道)
我的收藏 (0道)
我的斩题 (0道)
我的笔记 (0道)
顺序练习 0 / 0
随机练习 自定义设置练习量
题型乱序 按导入顺序练习
模拟考试 仿真模拟
题型练习 按题型分类练习
易错题 精选高频易错题
学习资料 考试学习相关信息
HDFS的运行机制主要包括副本机制、心跳机制、副本放置与机架感知策略、Federation机制、HA机制、安全模式、垃圾回收等内容。
在Hadoop中,序列化与反序列化非常重要
简单地讲,序列化就是将对象转化为便于传输的格式
MapReduce是Hadoop中的大数据并行处理框架
它将一个数据处理任务划分成Map(映射)和Reduce(规约)两个任务
MapReduce是一个针对大规模集群中的分布式文件进行并行处理的计算模型。
分布式并行计算包含了分布式计算和并行计算两个层面内容。
(1)计算局限。它不适合数据事务处理或单一请求处理。它也不适合流式数据计算
(2)性能局限。
(3)应用局限。MapReduce不适合一般的Web应用
并且每个作业输出结果文件默认以“part-r-00000”
Hive并不能解决所有的大数据问题,例如,它不提供在线事务处理、实时数据查询及记录级的数据更新,不适合实现复杂的机器学习算法等。但是,Hive对于批量处理海量数据表现良好。
① ORDER BY 表示执行一次全局排序
② SORT BY 用于局部排序
③ DISTRIBUTE BY 会控制 map 的输出在 reduce 中的划分
④ CLUSTER BY 的效果就是把指定列的值相同的数据记录排在一起而已。
Hive除了提供基本数据类型外,还提供了ARRAY(数组)、MAP(键值对)和STRUCT(结构体)3种主要的复合数据类型