前言
今天新开了一个 【大数据】分类,在整个的运维体系中,你稍微努力下,拿到12K-14k还是蛮容易的,但是想要拿到18k就稍微有些困难。 想要冲刺20K,就几乎成了个梦想。
在以往的授课中,的确有人学历,年龄,都不够的情况下拿到了20K, 但这种情况已经与技术 无关了,完全是靠沟通能力和运气。
如果你想在现有的运维体系中突破20K的薪资,在不考虑副业的情况下,只有通过继续深造,比如学学大数据的内容, 不是因为你会了大数据的知识,薪资才提高的,而是因为大数据公司的薪资相对较高。
这就和你作为普通专科只能去小企业一样,你有了211本科就增加了去大公司的机会,相对来说大公司给的薪资高,与你是不是211有一定关系,但并不是因为你有了211本科就一定能去大公司。
大数据的定义
提到大数据,很多人会想起一些国外的电影,比如在《斯诺登》中就有一个识别恐怖分子的桥段,用的就是大数据手段,通过分析公民电话和社交软件的数据,最终定位恐怖分子。
当然我们生活中也有很多地方,比如电商平台,广告投放系统,导航系统,共享单车系统,旅行推荐系统等。
说个题外话,最近发现平时跟人聊天,手机也会根据你的聊天内容来推送你想要的商品。 比如上次在办公室聊到了信用卡,第二天就有银行推荐办卡的短信发过来。
那什么是大数据呢?
维基百科有个定义: 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取,管理和处理的数据集合。
- 数据量大,不管是采集,存储,计算的数据都很大,以PB,EB ,ZB为单位
- 类型繁多,比如日志,音频,图片,视频,地理位置
- 速度极快,时效高。 比如推荐系统
- 价值密度低,商业价值高,比如数据挖掘
想想抖音每天有多少视频上传,微博,微信每天有多少人转发小视频,发图片。
传统的数据处理和大数据技术互为补充
服务器的三大体系
从系统架构来看,目前商用服务器大体可以分为三类:
- SMP :对称多处理器结构
- NUMA: 非一致性存储访问结构
- MPP 海量并行处理结构
1. SMP (Symmetric Multi-processor)
称多处理器结构,是指服务器中多个CPU对称工作,无主次或从属关系。各CPU共享相同的物理内存,每个 CPU访问内存中的任何地址所需时间是相同的,对SMP服务器进行扩展的方式包括增加内存、使用更快的CPU、增加CPU、扩充I/O或者添加磁盘存储
SMP 的CPU利用率最好的情况是2-4个CPU
2. NUMA(Non-Uniform Memory Access)
由于SMP在扩展能力上的限制,人们开始探究如何进行有效地扩展从而构建大型系统的技术,NUMA就是这种努力下的结果之一。利用NUMA技术,可以把几十个CPU(甚至上百个CPU)组合在一个服务器内
NUMA使用cpu模块,每个cpu模块通常由4个组成,并且有独立的本地内存及IO槽口,使性能更佳。 但缺点是访问远地内存所造成的延迟远远大于本地内存,增加CPU,并不能线性增加系统性能。
3. MPP (Massive Parallel Processing)
MPP 由多个SMP服务器通过一定的节点互联网络进行连接,协同工作,完成相同的任务,从用户的角度来看是一个服务器系统
目前的技术可实现512个节点互联,数千个CPU ,每个节点都可以运行自己的操作系统和数据库。
数据处理系统架构的演进
SMP --SMP+MPP混合 --MPP – hadoop
大数据时代需要关注的几个点:
- 容量: 海量数据不可能单机存储,为确保数据稳定和安全,还需要存多个副本,所以需要分布式存储
- 性能: 数据量大,单机很难完成单独运算,只能使用分而治之的思想,大量的计算节点来分担运算量
- 成本: 使用分布式系统,可以使用通用硬件来解决线性扩展,同时性能接近线性提升。
大数据运维工作职责
- 集群管理: hadoop,hbase ,spark kafak,redis
- 故障处理: 商用硬件故障及其他故障
- 变更处理,配置管理和发布管理
- 容量管理: 存储空间,运行链接数等
- 性能调优: 不同的组件,性能的概念不一样,比如kafka注重的是吞吐量,hbase注重实时性可用性。
- 架构优化: 优化大数据平台架构,支持平台能力和产品的不断迭代
大数据运维需要的能力
- 硬件,OS,网络,安全等相关知识
- 脚本能力: SHELL ,sql ,python,go
- 大数据组件知识: 设计思想,适用范围,底层架构,常用命令,常用配置或者参数,常见问题处理方法
- 工具能力: zabbix,ELK,企业自己研发的工具
- 解决问题的能力: 搜索能力(谷歌,百度,stackoverflow),java能力(根据代码异常分析问题产生的原因),英语阅读能力
运维的核心能力
- 重启: 重启有问题的机器或者进程,使其正常工作,但是重启前一定要通知到正在用机器的所有人员,并确定自己知道机器上所有服务以及这些服务的启动方式,如有可能先设置开机自启动
- 切换 : 主备切换,主主切换,逐点排查
- 查杀: 杀死有问题的进程或者不正常的连接
这三个方法可以处理90%以上的故障,但大多数时候治标不治本。
大多数公司的大数据系统使用廉价的二手机器,甚至虚拟机,硬件故障是常态,通过告警,日志,维护命令去识别故障,组织硬件更换,比如HADOOP 常见的故障就是硬盘损坏。
一般出现问题,都是集中在资源问题,权限问题,代码问题中的一种。
总结
工作就是娱乐,用娱乐的心态去工作,你将飞速进步。 很多人玩游戏遇到困难从未想过放弃,学习遇到困难就很容易放弃,这是典型的本末倒置。 玩游戏就是一种帮别人数钱的过程。