目录

  • 考点
  • 算法(记忆)
  • 亚线性空间算法
  • Morris算法
  • FM算法(弗拉约利特-马丁算法)
  • BJKST算法
  • Misra Gries算法(米斯拉·格里斯算法)
  • Final Count Sketch算法
  • AMS算法
  • Bloom Filter
  • 亚线性时间算法
  • 连通分量
  • 最小生成(支撑)树
  • 图的平均度
  • 时间亚线性判定算法
  • 大数据计算系统和管理系统
  • Hapdoop
  • Hive
  • Spark
  • RDD
  • Spark Streaming和Storm
  • NoSQL
  • 优化方法
  • 不懂


考点

  1. 判断(20)简答(20)问答(60)
  2. 三个公式的基本运用
  3. 不考太复杂的算法
  4. 系统部分:hadoop,spark,hiracks,spark streaming
  5. 去年题型:
  • 结点扩容,如何使负载均衡
  • 数字存储改为字符串存储
  • 根据三个公式计算期望、方差和质量保证

算法(记忆)

亚线性空间算法

Morris算法

参考链接

大数据机器学习 试卷_spark

FM算法(弗拉约利特-马丁算法)

参考链接

大数据机器学习 试卷_大数据机器学习 试卷_02

BJKST算法

大数据机器学习 试卷_spark_03

Misra Gries算法(米斯拉·格里斯算法)

参考链接

大数据机器学习 试卷_连通分量_04

Final Count Sketch算法

参考链接

大数据机器学习 试卷_大数据机器学习 试卷_05

AMS算法

参考链接

大数据机器学习 试卷_大数据_06

Bloom Filter

  1. 用于检索一个元素是否在一个集合中

亚线性时间算法

连通分量

大数据机器学习 试卷_spark_07

最小生成(支撑)树

如何计算C(i) ?

大数据机器学习 试卷_spark_08

图的平均度

大数据机器学习 试卷_大数据机器学习 试卷_09

时间亚线性判定算法

e-远离
排序链表搜索:先抽样S,找p,q,再从原数据列表中从p搜到q。

  1. 全0数组判定:独立抽取s=2/e个位置上的元素进行检查。
  2. 数组有序判定:独立抽取q=2/e个,对qi的两边二分查找。
  3. 串相等判定:看成二进制数,n位上的n个数求和,判断是否相等。

大数据计算系统和管理系统

Hapdoop

调度:迭代执行机制

Hive

Spark

  1. 调度:DAG
  2. Spark streaming

hadoop

磁盘IO开销大,延迟高,表达能力有限,在前一个任务执行完成前其他任务无法开始

spark

j基于MapReduce,还提供了多种数据集操作模型;提供内存计算;基于DAG的任务调度执行机制

  1. spark生态系统
  • “一个软件栈实现不同应用需求”
  • spark可以部署在资源管理器YARN上
  • 同时支持批处理、交互式查询和流数据处理

    (资源虚拟化层、存储层、处理层,访问接口层)
  1. spark 运行架构
  • RDD:分布式内存
  • DAG:有向无环图
  • 将内存和磁盘共同作为存储设备,有效减少IO开销
  1. spark 运行架构特点
  • 利用多线程来执行具体的任务
  • 运行过程与资源管理器无关
  • Task采用了数据本地性和推断执行等

RDD

  1. 只读的共享内存模型
    粗粒度转换
    高效
  • 创建RDD
  • 大数据机器学习 试卷_大数据_10


  • 大数据机器学习 试卷_spark_11

  • 优点:管道化、不需要保存中间结果,惰性调用,避免同步等待,每次操作简单

Spark Streaming和Storm

  1. 基于实时数据处理

NoSQL

  1. 键值数据库、列族数据库、文档数据库和图数据库
  2. ACID
  • 原子性
  • 一致性
  • 隔离性
  • 持久性
  1. 三大基石:CAP、最终一致性和BASE。
  • CAP:一致性、可用性和分区容忍性。只能三选二。
  • BASE:基本可用、软状态和最终一致性。

优化方法

大数据机器学习 试卷_连通分量_12

不懂

大数据机器学习 试卷_连通分量_13