前言

今天新开了一个 【大数据】分类,在整个的运维体系中,你稍微努力下,拿到12K-14k还是蛮容易的,但是想要拿到18k就稍微有些困难。 想要冲刺20K,就几乎成了个梦想。

在以往的授课中,的确有人学历,年龄,都不够的情况下拿到了20K, 但这种情况已经与技术 无关了,完全是靠沟通能力和运气。

如果你想在现有的运维体系中突破20K的薪资,在不考虑副业的情况下,只有通过继续深造,比如学学大数据的内容, 不是因为你会了大数据的知识,薪资才提高的,而是因为大数据公司的薪资相对较高。

这就和你作为普通专科只能去小企业一样,你有了211本科就增加了去大公司的机会,相对来说大公司给的薪资高,与你是不是211有一定关系,但并不是因为你有了211本科就一定能去大公司。

大数据的定义

提到大数据,很多人会想起一些国外的电影,比如在《斯诺登》中就有一个识别恐怖分子的桥段,用的就是大数据手段,通过分析公民电话和社交软件的数据,最终定位恐怖分子。

当然我们生活中也有很多地方,比如电商平台,广告投放系统,导航系统,共享单车系统,旅行推荐系统等。

说个题外话,最近发现平时跟人聊天,手机也会根据你的聊天内容来推送你想要的商品。 比如上次在办公室聊到了信用卡,第二天就有银行推荐办卡的短信发过来。

那什么是大数据呢?

维基百科有个定义: 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取,管理和处理的数据集合。


  • 数据量大,不管是采集,存储,计算的数据都很大,以PB,EB ,ZB为单位
  • 类型繁多,比如日志,音频,图片,视频,地理位置
  • 速度极快,时效高。 比如推荐系统
  • 价值密度低,商业价值高,比如数据挖掘
    想想抖音每天有多少视频上传,微博,微信每天有多少人转发小视频,发图片。

传统的数据处理和大数据技术互为补充

【大数据】当人们在说大数据的时候到底在说什么?_大数据

服务器的三大体系

从系统架构来看,目前商用服务器大体可以分为三类:


  • SMP :对称多处理器结构
  • NUMA: 非一致性存储访问结构
  • MPP 海量并行处理结构

1. SMP (Symmetric Multi-processor)

称多处理器结构,是指服务器中多个CPU对称工作,无主次或从属关系。各CPU共享相同的物理内存,每个 CPU访问内存中的任何地址所需时间是相同的,对SMP服务器进行扩展的方式包括增加内存、使用更快的CPU、增加CPU、扩充I/O或者添加磁盘存储

SMP 的CPU利用率最好的情况是2-4个CPU

2. NUMA(Non-Uniform Memory Access)

由于SMP在扩展能力上的限制,人们开始探究如何进行有效地扩展从而构建大型系统的技术,NUMA就是这种努力下的结果之一。利用NUMA技术,可以把几十个CPU(甚至上百个CPU)组合在一个服务器内

【大数据】当人们在说大数据的时候到底在说什么?_运维_02

NUMA使用cpu模块,每个cpu模块通常由4个组成,并且有独立的本地内存及IO槽口,使性能更佳。 但缺点是访问远地内存所造成的延迟远远大于本地内存,增加CPU,并不能线性增加系统性能。

3. MPP (Massive Parallel Processing)

MPP 由多个SMP服务器通过一定的节点互联网络进行连接,协同工作,完成相同的任务,从用户的角度来看是一个服务器系统

目前的技术可实现512个节点互联,数千个CPU ,每个节点都可以运行自己的操作系统和数据库。

数据处理系统架构的演进

SMP --SMP+MPP混合 --MPP – hadoop

大数据时代需要关注的几个点:


  • 容量: 海量数据不可能单机存储,为确保数据稳定和安全,还需要存多个副本,所以需要分布式存储
  • 性能: 数据量大,单机很难完成单独运算,只能使用分而治之的思想,大量的计算节点来分担运算量
  • 成本: 使用分布式系统,可以使用通用硬件来解决线性扩展,同时性能接近线性提升。

大数据运维工作职责


  • 集群管理: hadoop,hbase ,spark kafak,redis
  • 故障处理: 商用硬件故障及其他故障
  • 变更处理,配置管理和发布管理
  • 容量管理: 存储空间,运行链接数等
  • 性能调优: 不同的组件,性能的概念不一样,比如kafka注重的是吞吐量,hbase注重实时性可用性。
  • 架构优化: 优化大数据平台架构,支持平台能力和产品的不断迭代

大数据运维需要的能力


  1. 硬件,OS,网络,安全等相关知识
  2. 脚本能力: SHELL ,sql ,python,go
  3. 大数据组件知识: 设计思想,适用范围,底层架构,常用命令,常用配置或者参数,常见问题处理方法
  4. 工具能力: zabbix,ELK,企业自己研发的工具
  5. 解决问题的能力: 搜索能力(谷歌,百度,stackoverflow),java能力(根据代码异常分析问题产生的原因),英语阅读能力

运维的核心能力


  • 重启: 重启有问题的机器或者进程,使其正常工作,但是重启前一定要通知到正在用机器的所有人员,并确定自己知道机器上所有服务以及这些服务的启动方式,如有可能先设置开机自启动
  • 切换 : 主备切换,主主切换,逐点排查
  • 查杀: 杀死有问题的进程或者不正常的连接

这三个方法可以处理90%以上的故障,但大多数时候治标不治本。

大多数公司的大数据系统使用廉价的二手机器,甚至虚拟机,硬件故障是常态,通过告警,日志,维护命令去识别故障,组织硬件更换,比如HADOOP 常见的故障就是硬盘损坏。

一般出现问题,都是集中在资源问题,权限问题,代码问题中的一种。

总结

工作就是娱乐,用娱乐的心态去工作,你将飞速进步。 很多人玩游戏遇到困难从未想过放弃,学习遇到困难就很容易放弃,这是典型的本末倒置。 玩游戏就是一种帮别人数钱的过程。