在运维工作岗位上也一年之久了,日常工作中处理的最多的故障问题就属中间件,平时接触到的有常用的一些中间件,如tomcat,Apache,nginx,F5,Weblogic以及Springboot,还有几种常用到的消息中间件,如:Kafka,RocketMQ等,对于中间件也从不知到稍微了解。接下来,在记录博客的过程中将逐渐深入的学习。
一、什么是中间件?
1、简介:
“中间件是介于应用系统和系统软件之间的一类软件,它使用系统软件所提供的基础服务(功能),衔接网络上应用系统的各个部分或不同的应用,能够达到资源共享、功能共享的目的。目前,它并没有很严格的定义,但是普遍接受IDC的定义:中间件是一种独立的系统软件服务程序,分布式应用软件借助这种软件在不同的技术之间共享资源,中间件位于客户机服务器的操作系统之上,管理计算资源和网络通信。”
上边是百度百科上对中间件的解释,虽然可能有点抽象,但是相信我们还是不难理解的。中间件并不是某一种软件或者工具,它是一类具有相似作用软件的总称。由于其在整个业务或产品系统中它由于处于后台操作系统软件和用户的应用系统软件的中间,因此被称为中间件。其作用是为上层应用系统提供统一的平台和运行环境,屏蔽了底层操作系统的复杂性,使程序开发人员面对一个简单而统一的开发环境,进而将注意力集中在自己的业务上,不必再为程序在不同系统软件上的移植而重复工作,从而大大减少了技术上的负担,也减少了系统的维护、运行和管理的工作量。
2、分类:
服务中间件、集成中间件、数据中间件、消息中间件、安全中间件。
3、常见中间件:
Tomcat,Apache,Nginx,F5,JBoss,Weblogic,Springboot,Kafka,Zookeeper,RocketMQ,ElasticSearch等。
二、什么是消息中间件?
1、简介
消息中间件顾名思义就是在不同应用间传输消息的一个系统,已经逐渐成为企业IT系统内部通信的核心组件。它具有低耦合、可靠投递、广播、流量控制、最终一致性等一系列功能,成为异步RPC的主要手段之一。
2、常用消息中间件
Kafka,RocketMQ,RabbitMQ,ActiveMQ等
附:阿里巴巴消息中间团队对常见的消息中间件性能对比:http://jm.taobao.org/2016/04/01/kafka-vs-rabbitmq-vs-rocketmq-message-send-performance/?utm_source=tuicool&utm_medium=referral
3、消息中间件的组成
(1)Broker 消息服务器,也称为节点,作为服务端提供消息的核心服务
(2)Producer 消息生产者,业务的发起方,主要负责生产消息传输给broker,
(3) Consumer 消息消费者,业务的处理方,负责从broker获取消息并进行业务逻辑处理
(4)Topic 主题,发布订阅模式下的消息统一汇集地,不同生产者向topic发送消息,由MQ服务器分发到不同的订阅者,实现消息的广播
(5)Queue 队列,PTP模式下,特定生产者向特定queue发送消息,消费者订阅特定的queue完成指定消息的接收
(6) Message 消息体,根据不同通信协议定义的固定格式进行编码的数据包,来封装业务数据,实现消息的传输
4、模式分类
(1)点对点(PTP)
该模式下主要使用队列(Queue)作为通信的载体,如下图:
说明:
消息生产者生产消息发送到queue中,然后消息消费者从queue中取出并且消费消息。 消息被消费以后,queue中不再存储,所以消息消费者不可能消费到已经被消费的消息。 Queue支持存在多个消费者,但是对一个消息而言,只会有一个消费者可以消费。
(2)发布/订阅(Pub/Sub)
Pub/Sub发布订阅(广播):主要使用主题(Topic)作为通信载体
说明:
消息生产者(发布)将消息发布到topic中,同时有多个消息消费者(订阅)消费该消息。
两种模式的不同之处:
queue实现了负载均衡,将producer生产的消息发送到消息队列中,由多个消费者消费。但一个消息只能被一个消费者接受,当没有消费者可用时,这个消息会被保存直到有一个可用的消费者。
topic实现了发布和订阅,当生产者发布一个消息,所有订阅这个topic的消费者都能得到这个消息,所以从1到N个订阅者都能得到一个消息的拷贝。
5、应用场景
(1)异步通信
有些业务不想也不需要立即处理消息。消息队列提供了异步处理机制,允许用户把一个消息放入队列,但并不立即处理它。想向队列中放入多少消息就放多少,然后在需要的时候再去处理它们。
(2) 解耦
降低工程间的强依赖程度,针对异构系统进行适配。在项目启动之初来预测将来项目会碰到什么需求,是极其困难的。通过消息系统在处理过程中间插入了一个隐含的、基于数据的接口层,两边的处理过程都要实现这一接口,当应用发生变化时,可以独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。
(3)冗余
有些情况下,处理数据的过程会失败。除非数据被持久化,否则将造成丢失。消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险。许多消息队列所采用的”插入-获取-删除”范式中,在把一个消息从队列中删除之前,需要你的处理系统明确的指出该消息已经被处理完毕,从而确保你的数据被安全的保存直到你使用完毕。
(4) 扩展性
因为消息队列解耦了你的处理过程,所以增大消息入队和处理的频率是很容易的,只要另外增加处理过程即可。不需要改变代码、不需要调节参数。便于分布式扩容。
(5) 过载保护
在访问量剧增的情况下,应用仍然需要继续发挥作用,但是这样的突发流量无法提取预知;如果以为了能处理这类瞬间峰值访问为标准来投入资源随时待命无疑是巨大的浪费。使用消息队列能够使关键组件顶住突发的访问压力,而不会因为突发的超负荷的请求而完全崩溃。
(6) 可恢复性
系统的一部分组件失效时,不会影响到整个系统。消息队列降低了进程间的耦合度,所以即使一个处理消息的进程挂掉,加入队列中的消息仍然可以在系统恢复后被处理。
(7)顺序保证
在大多使用场景下,数据处理的顺序都很重要。大部分消息队列本来就是排序的,并且能保证数据会按照特定的顺序来处理。
(8) 缓冲
在任何重要的系统中,都会有需要不同的处理时间的元素。消息队列通过一个缓冲层来帮助任务最高效率的执行,该缓冲有助于控制和优化数据流经过系统的速度。以调节系统响应时间。
(9)数据流处理
分布式系统产生的海量数据流,如:业务日志、监控数据、用户行为等,针对这些数据流进行实时或批量采集汇总,然后进行大数据分析是当前互联网的必备技术,通过消息队列完成此类数据收集是最好的选择。
三、Kafka初识
Kafka 中文文档 - ApacheCN: http://kafka.apachecn.org/intro.html
1、什么是Kafka?
Kafka是一个分布式的基于发布-订阅的消息系统,是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。
2、特性:
- 高吞吐量、低延迟:kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒,每个topic可以分多个partition, consumer group 对partition进行consume操作。
- 可扩展性:kafka集群支持热扩展
- 持久性、可靠性:消息被持久化到本地磁盘,并且支持数据备份防止数据丢失
- 容错性:允许集群中节点失败(若副本数量为n,则允许n-1个节点失败)
- 高并发:支持数千个客户端同时读写
3、使用场景
(1)消息传输
(2)网站行为日志跟踪
(3)审计数据收集
(4)日志收集
(5)事件源
(6)流式处理
4、主要架构
整体架构总结起来就是:
(1)生产者将生产的消息发送给Kafka集群。
(2)消费者从Kafka集群拉取消息进行消费。
(3)Kafka集群通过Zookeeper的分布式协调服务进行协调管理。
千里之行,始于足下。