1 Qos背景
传统的IP网络中,所有报文被无差别的对待。设备在转发报文的过程中平等对待所有报文,遵循FIFO的策略转发报文,尽最大努力将报文(Best-Effort)送到目的地
随着网络业务的发展,对服务质量有了更高的要求。例如,某些业务。如语音通话对实时性要求很高,如果发生丢包延迟,会影响业务体验;二对于非实时的网络业务,如FTP下载、有限对实时要求并不高,少量时延并不影响用户体验。对于因此需要对业务划分优先级,有限保证重要网络业务。
实际上,交换机在默认配置情况下,处理无优先级标记的报文时,是无差别*对待的。此时如果发生拥塞,将会随机丢弃报文
2 Qos服务模型
服务模型,是指一组端到端的QoS功能)
QoS提供以下三种服务模型:
1 Best-Effort service(尽力而为)
2 Integrated service(综合服务模型,简称IntServ)
3 Differentiated service(区分服务模型,简称DiffServ)
2.1 Best-Effort service
IP协议没有提供和保护传输数据包的带宽,而是以尽力而为(Best Effort)的方式来提供带宽服务。
它提供的数据包传送服务是不可靠和无连接的,不能保证数据包在传输过程中不丢失、不出错、不可靠,可靠性连接需要TCP完成。
2.2 Integrated service
Int-Serv是一个综合服务模型,它可以满足多种QoS需求。
该模型使用资源预留协议(RSVP),RSVP运行在从源端到目的端的每个设备上,可以监视每个流,以防止其消耗资源过多。
Inter-Serv模型可扩展性很差
2.3 Differentiated service
基于差别化服务的QoS在网络的入口指定每个数据包的优先级别,这些分类信息被携带在L3的IP包头或者L2的802.1Q帧头中。QoS对不同级别的数据包则提供不同的操作,如:提供不同的带宽、重写优先级、丢弃低优先级的报文。
在交换机中,一般涉及到的QoS业务都是Differentiated service类型的业务
3 Qos 概念
QoS(Quality of Service,服务品质保证)是指一个网络能够利用各种各样的技术向选定的网络通信提供更好的服务的能力。
QoS是服务品质保证,提供稳定、可预测的数据传送服务,来满足使用程序的要求,QoS不能产生新的带宽,而是根据应用的需求以及网络管理的设置来有效的管理网络带宽。
4 Qos 流程
绿色表示(交换芯片)入口(Ingress)方向;蓝色表示(交换芯片)出口(Egress)方向。
4.1 实现过程
1、流分类
采用一定的规则识别符合某类特征的报文 ,对应class-map
2、流量监管(Traffic Policing)
对流量限速,超出部分直接丢弃,对应policy-map中的policy cir、pir
3、流量整形(Traffic Shaping)
**控制最大输出通信速率提供可能,以确保通信符合配置的最大传输速率规定。
在交换芯片中,buffer资源是很少的,并不允许缓存大量的报文,所以实际测试时,看不到流量整形的效果
4、拥塞管理
就是当拥塞发生时制定一个资源的调度策略,以决定报文转发的处理次序,通常作用在接口出方向,
5、拥塞避免
监督网络资源的使用情况,当发现拥塞有加剧的趋势时采取主动丢弃报文的策略
4.1 实现方式
一个BCM的芯片流程图如下所示:
对特定的报文的Remark、监管是通过入口ACL实现,位于入口。
流量整形、拥塞管理通过Buffer Manage、Traffic Manage实现的,位于出口。
4.3 流分类
4.3.1 实现方式——流分类的三种方式
在交换机中,有三种方式可以用于Qos优先级等级的划分。芯片根据这三个字段的值,划分到不同的优先级队列中,在做QoS调度时,分配不同的资源,看到的现象就是低优先级的报文丢弃的数量多于高优先级的报文
三种流分类的方式如下:
a.基于Cos,存在于802.1q Vlan tag中的Pri优先级字段,0~7,值越大,优先级越高。
b.基于DSCP,位于IP头中服务类型(ToS)字段
DSCP是IP Precedence的升级
c.MPLS EXP
4.3.2 流分类——Cos值
8中cos值定义如下:
大名鼎鼎的IEEE 802.1Q标准定义了以太网MAC数据帧添加的标签格式。VLAN标签有两部分:VLAN ID(12位)和PCP(Priority Code Point)(3比特)。IEEE 802.1Q VLAN标准中没有定义和使用PCP,而802.1P中则定义了PCP。cos字段如下图PRI所示
4.3.3 流分类——Precedence值
Precedence值承载于IP报文的Tos字段,占1个字节,使用了其中的高3位,将IP报文划分为8个优先级,而在DSCP的优先级中,充分利用了8位,将IP报文划分为64个优先级。
DSCP由RFC2474定义,它重新命名了IPv4报头中TOS使用的那1字节和IPv6报头中数据类(TrafficClass)那1字节,新的名字称为DS字段(Differentiated ServicesField)。该字段的作用没有变,仍然被QoS工具用来标记数据。不同的是IPv4使用3比特,而DSCP使用6比特,最低2比特不用。
IP报文的格式如下图:
Precedence的格式如下图:
IP Precedence使用了IP头部ToS字段的前3个比特,定义了0-7共八个优选级,数字越大,优先级越高,一般使用0-5。
IP Precedence的优先级定义如下图:
4.3.4 流分类——DSCP值
DSCP利用IP Precedence的3个比特,再加上3个未使用的比特,总共6个比特,标记0~63个优先级。划分为四类
1 Class Selector(CS) xxx 000
2 Expedited Forwarding(EF) 101 110
3、Assured Forwarding(AF) xxx yy0
4、Ddefault(BE) 000 000
DSCP常用值如图所示:
4.3.5 流分类——MPLS EXP
时间2020-07-07,正在学习中,后续更新。
略略略略略
略略略略略
略略略略略
4.3.6 流分类——DCN交换机支持的流分类
通过ACL可以匹配任意特征的报文,如:mac地址、ip地址、dscp值、cos值
可以对满足条件的报文,采取多种行为。统计、丢弃、监管、修改dscp值、修改cos值、修改丢弃优先级
交换机上一个流分类的例子如下所示:
access-list 3100 permit host-source-mac 00-03-0f-00-00-01 any-destination-mac ip host-source 192.168.3.1 any-destination
class-map c1
match access-group 3100
policy-map p1
class c1
set cos 3
policy 1000 100 pir 1200 1100 violate-action drop
exit
Interface Ethernet7/0/1
service-policy input p1
对源mac为 00-03-0f-00-00-01 ,源ip为报文 192.168.3.1
e分类,将cos值修改为3
4.4 流量监管
监管的英文单词为policing,警察的英文单词是police,两者意思相近,从这一点可以知道流量监管的意思
流量监管完成以下工作:
a 对流量限速,超出部分可以直接丢弃
b 使用令牌桶算法,对流量大小测量和着色
c 对不同颜色的报文,采取不同的监管行为,如:放行、丢弃或重标记
4.4.1 令牌桶
相关资料可参见RFC2897、RFC2698
芯片使用令牌桶的机制来对报文速率进行测量(meter),继而进行着色,据此判断流量是否超速,执行后续的流量管控(policing,如丢弃、放行),令牌桶有三种:单速双色、单速三色(SrTCM,RFC2897定义)、双速三色(TrTCM,RFC2898定义)
速率是指令牌的投放速率。单速指令牌桶的速率有一种;双速指令牌桶的速率有两种。
颜色指判断报文的颜色。双色值报文有两种颜色;三色指报文有三种颜色。
4.4.2 单速双色
单速双色令牌桶如下图所示:
CBS(承诺突发尺寸 或 保证突发尺寸)表示令牌桶的大小,典型值如<1KByte~10000000KByte.CBS表示容纳单次突发的流量大小,当短时间收到大量报文时,令牌桶的令牌足够一部分报文通过,突发量小于CBS时,不会出现丢报文的情况,如果突发量大于CBS,则令牌桶的令牌不足够
CIR(承诺信息速率、保证信息速率)表示令牌的投放速率,典型值如<1KBit/s~10000000KBit/s>
着色规则:
1 以CIR(单位为:个/秒,BCM方案中,拿到一个令牌可以让1字节的报文通过)的速率向令牌桶中增加令牌
2 当报文到达时,能够获取到令牌,报文标记为绿色,否则标记为红色.所以叫单速双色
3 报文速率小于CIR对应的报文速率时,报文全速通过
4 报文速率连续超过CIR速率时,会将令牌桶消耗完毕,后续的令牌速率以CIR增加,这时,流量的速率即为CIR对应的报文速率,实现了限速
以汽车上高速获取通行卡来类比:
每辆汽车,相当于两个报文,每辆汽车上高速时,需要领取通行卡,而为了保证高速上的车间距,通行卡的投放速率是固定了。
当车辆较少时,有足够的通行卡发放,可以拿到通行卡。当一个大的车队一起过来时,桶里面的卡不够,只能让一半的车拿卡通行,其它的车需要等待发卡机的卡投放。
例子:
假设,CIR配置为1KBit/s,CBS配置为1000K Byte,红色报文默认丢弃现在以100Mbps的速率发送1000个1024字节长度的报文
配置为
policy 1 1000 conform-action transmit exceed-action drop
在BCM芯片方案中,一个令牌可以允许1个字节的报文通过
现象:
第1步:CIR为1K/s,1000个1024字节的报文长度,发送时间为,1/1024秒(1毫秒)。发送1000个1024报文,可以使用桶中的1000K令牌,可以全部通过,消耗全部令牌
第2步:再次,立刻发送1000个1024报文,由于没有令牌产生(1ms产生1 Byte的令牌可以忽略不计),1000个报文会被丢弃 。
报文的颜色可以通过配置统计查看到,如
S5750E-100D-16F-SI-R#show mls qos interface ethernet 1/0/3
Ethernet1/0/3:
Default COS: 0
Default int-Prio: 0
Trust:
Pass-through-cos:NONE
Pass-through-dscp-exp:NONE
Attached Policy Map for Ingress: p1
Classmap classified green yellow red (in packets)
c1 270137 57 NA 270080
Queue Algorithm: WDRR
Queue weights:
Queue 1 2 3 4 5 6 7 8
------------------------------------------------------
WdrrWeight 1 1 1 1 1 1 1 0
4.4.3 单速三色
单速三色令牌桶如下图所示:
CBS(承诺突发尺寸、保证突发尺寸)
表示C令牌桶的大小,典型值如<1KByte~10000000KByte>
EBS(超额突发尺寸)
表示E令牌桶的大小,典型值如<1KByte~10000000KByte>
CIR(承诺信息速率、保证信息速率)
表示令牌的投放速率,典型值如<1KByte/s~10000000Kbyte/s>
单速三色在单速双色的基础上,增加了一个EBS令牌桶。CBS和EBS令牌桶的令牌投放速率相同,都为CIR,桶的容量可以不同
着色规则:
1、C桶和E桶的投放速率都是为CIR,所以叫单速双色
2、C桶装满以后,才开始往E桶投放令牌桶
3、报文到来以后,先从C桶拿令牌,如果C桶有令牌,报文标记为绿色; 如果C桶没有令牌,则从E桶拿令牌。E桶中也没有令牌,报文标记为红色;E桶中有令牌,报文标记为黄色。
例子:
假设,CIR配置为1Kbit/s,CBS配置为10000KByte,EBS配置为5000Byte。现在以100Mbps的速率发送10000个1024字节长度的报文
配置为
policy 1 10000 5000 conform-action transmit exceed-action set-cos-transmit 4 violate-action set-cos-transmit 3
在BCM芯片方案中,一个令牌可以允许1个字节的报文通过
现象:
第1步:10000个报文消耗了C桶中的所有令牌,全部标记为绿色,C桶为空。E桶令牌未被消耗,保持5000KByte
第2步:继续发送5000个报文。由于C桶置空,开始从E桶中拿令牌,5000KByte的令牌全部消耗完毕,E桶置空,5000个报文标记为黄色。
第3步:继续发送1000个报文。由于C桶置空, E桶置空,1000个报文全部标记为红色。
4.4.2 双速三色
双速三色桶有两个:PBS和CBS,两个桶可以使用不同的速率,所以叫双速。CBS和PBS令牌桶的令牌桶的大小可以不同
CBS(承诺突发尺寸、保证突发尺寸)表示令牌桶的大小,典型值如<1KByte~10000000KByte>
PBS(峰值突发尺寸)表示令牌桶的大小,典型值如<1KByte~10000000KByte>
CIR(承诺信息速率、保证信息速率)
表示令牌的投放速率,典型值如<1KBit/s~10000000Kbyte/s>
PIR(峰值信息速率)表示令牌的投放速率,典型值如<1KBit/s~10000000KBit/s
CIR和PIR可以单独配置,PIR要大于CIR
PIR用于测量流量是否超过峰值速率;CIR用于测量流量是否超过保证速率。
P桶以PIR的速率投放令牌,C桶以PIR的速率投放令牌,两个桶的令牌单独投放,互补干扰。
以汽车上高速获取通行卡来类比:
每辆汽车,相当于两个报文,每辆汽车上高速时,需要领取通行卡,而为了保证高速上的车间距,通行卡的投放速率是固定了。当车辆较少时,有足够的通行卡发放,可以拿到通行卡。
当一个大的车队一起过来时,桶里面的卡不够,只能让一半的车拿卡通行,其它的车需要等待发卡机的卡投放。
着色规则:
1、流量过来以后。首先检查P桶中的是否令牌。 如果没有令牌,表示超过了峰值速率,直接标记为红色,不取走令牌。 如果有令牌,取走令牌,准备获取C桶令牌
2、如果C桶中有令牌,标记报文为绿色,取走令牌;
如果C桶中没有令牌,标记报文位黄色,不取走令牌。
3、P桶以PIR的速率投放令牌,C桶以PIR的速率放令牌,两个桶的令牌单独投放,互补干扰。
例子:
假设:CIR配置为1KByte/s,CBS配置为10000Byte;
PIR配置为2KBytes,PBS配置为15000Byte。现在以100Mbps的速率发送报文。
配置为
policy 2 10000 pir 3 15000 exceed-action set-cos-transmit 3 transmit violate-action set-cos-transmit 5 transmit
现象:
第1步:首先10000个1024字节长度的报文,去P桶中获取10000个字节的令牌,全部获取,P桶中剩余5000个字节的令牌,然后向C桶中获取5000个字节的令牌,全部获取,C桶剩余0个。标记为绿色报文。
第2步:继续发送5000个报文,去P桶中获取5000个字节的令牌,全部获取,P桶剩余0个,然后向C桶中获取,获取失败。标记为黄色报文。
第3步:继续发送1000个报文,获取P桶失败,标记为红色。
4.5 拥塞管理(调度)
拥塞管理作用于交换芯片的出口,而不是入口
当流量过大时,交换芯片根据策略对资源分配,选择性的丢弃或放行报文,这就是QoS(质量保证)的核心。许多地方,直接将拥塞管理称为schedule,翻译为调度或者排程
在交换芯片内部,802.1p优先级信息、IP Precedence(或者DSCP)根据特定的策略映射到队列中,最终对每个队列进行调度,不同802.1p优先级信息和IP Precedence(或者DSCP)信息的报文获得不同的速率。
交换机中一个优先级信息到队列的映射配置如下:
S4600-100D-10P-SI#show mls qos maps
Ingress COS-TO-Internal-Priority map:
COS: 0 1 2 3 4 5 6 7
-----------------------------------------
INTP: 0 1 2 3 4 5 6 7
Ingress DSCP-TO-Internal-Priority map:
d1 : d2 0 1 2 3 4 5 6 7 8 9
0: 0 0 0 0 0 0 0 0 1 1
1: 1 1 1 1 1 1 2 2 2 2
2: 2 2 2 2 3 3 3 3 3 3
3: 3 3 4 4 4 4 4 4 4 4
4: 5 5 5 5 5 5 5 5 6 6
5: 6 6 6 6 6 6 7 7 7 7
6: 7 7 7 7
队列(queue)的属于芯片内部的一个概念,通常的交换芯片(笔者只见过少部分厂家)的队列是8个,少部分为4个队列,可能存在其它的情况。
拥塞管理的位置如下图所示:
4.5.1 优先级信息到队列的映射
优先级映射、调度流程如下图所示:
携带不同优先级信息的报文通过放到了不同的队列中;Scheduler为调度器,完成调度的任务;Engress Port为出端口,调度完成以后,从端口发送出去。
调度器以队列为单位进行调度,这就需要不同Cos值、dscp值的报文按照各种映射以后,进入到不同的队列中,如:cos值到内部优先级映射表、内部优先级到队列映射表、dscp值到cos映射表
4.5.2 调度算法
常见算法:
1、严格优先级(Strict Priority)
2、循环调度(Round Robin)
3、加权循环调度(Weighted Round Robin)
4、加权差额循环调度(Weighted Deficit Round Robin)
注:仅列举了部分,每个芯片方案提供的类型不尽相同,但是SP模式和WRR模式一般都支持
4.5.2.1 SP算法
1、按照优先级从高到低的次序发送队列中的报文
2、较高优先级队列为空时,再发送较低优先级队列中的分组
一个测试结果如下图所示:
4.5.2.3 RR算法
1、基于报文的公平调度
2、每个队列调度出对一个报文,就转下一个队列
3、队列之间的调度的报文个数绝对相同
4.5.2.3 WRR算法
1、基于报文个数的调度
2、每个队列分配一个权重
3、队列权重表示每次调度时,该队列调度报文的个数
由于是基于报文的数的调度,而不是基于字节的调度。有可能长报文低优先级的报文,通过的字节数可能比优先级高的队列更多。
一个测试结果如下图所示:
配置:
bandwidth control 600000 transmit
mls qos queue wrr weight 1 2 2 2 4 4 4 4
mls qos queue wrr weight 2 4 4 4 4 8 8 8
由于是基于报文的数的调度,而不是基于字节的调度。有可能长报文低优先级的报文,通过的字节数可能比优先级高的队列更多。在例程中,P0队列中的报文位1024字节的长度
4.5.2.5 WDRR算法
1、基于字节的调度
2、每个队列分配一个权重
3、队列权重表示每次调度时字节数的大小:W*2KByte
一个测试结果如下图所示:
配置:
配置为:
mls qos queue algorithm wdrr
mls qos queue wdrr weight 2 2 2 2 4 4 4 4
测试结果:报文速率bps符合权重比例,帧速率fps不符合权重比例
4.6 拥塞避免
当拥塞发生时制定一个资源的调度策略,以决定报文转发的处理次序,通常作用在接口出方向
拥塞避免技术在不同的芯片方案中差异很大,且大多在设备的命令行中不可以配置,对用户来说是不可见的。
常见技术:End-to-end Congestion Control、WRED
4.6.1 End-to-end Congestion Control
出队列检测到拥塞的时候,给入口模块发送E2E HOL报文,令其丢弃报文
4.6.2 WRED(加权随机先期检测)
WRED:丢弃率与队列占用大小成正比:越拥塞,越丢弃。
5 Qos芯片实现流程
5.1 BCM(博通)实现
5.1.1 COS-TO-Internal-Priority
a: Cos信任模式:将不同Cos值的报文映射到不同的内部优先级,由于内部优先级和出口的Cos值是一一对应,且命令行不可以配置,所以COS-TO-Internal-Priority,可以修改报文的Cos值
b:Cos调度下,mls qos map cos-intp 0 1 2 3 4 6 6 6 这条命令配置以后,在出口会把Cos 7 Cos5的报文的Cos值修改为Cos6
c: COS到内部优先级的映射由芯片ING_PRI_CNG_MAP控制
5.1.2 DSCP-TO-Internal-Priority
a: DSCP信任模式下,将不同DSCP值的报文映射的内部优先级,在出口会将内部优先级映射成新的802.1p,报文最终携带不同的Cos值
b: COS到内部优先级的映射由芯片DSCP_TABLE控制
5.1.3 DSCP-TO-DSCP
a: DSCP信任模式下,将不同DSCP值的报文映射(修改)为不同的DSCP,报文最终携带不同的DSCP值
b: 由芯片DSCP_TABLE控制,与芯片DSCP-TO-Internal共用一个表
5.1.4 DSCP-TO-DSCP-Priority
a: DSCP信任模式下,将不同DSCP值的报文映射(修改)为不同的COS值及新的DSCP值,将会修改报文的Cos值、修改报文的DSCP值
b:由芯片DSCP_TABLE控制
5.1.5 示例
DSCP-TO-DSCP与DSCP-TO-Internal由同一个表控制
5.1.6 芯片配置
cos信任开启时:TRUST_OUTER_DOT1P==1,解析报文的COS字段,ING_PRI_CNG_MAP映射修改功能生效
cos信任关闭时:TRUST_OUTER_DOT1P==0,不解析报文的COS字段,默认为0,ING_PRI_CNG_MAP映射修改功能失效
dscp信任开启时:TRUST_DSCP_V4和RUST_DSCP_V6=1,解析报文中的DSCP,DSCP_TABLE映射功能生效,覆盖ING_PRI_CNG_MAP映射结果
dscp信任关闭时:TRUST_DSCP_V4和RUST_DSCP_V6=0,不解析报文中的DSCP值,DSCP_TABLE映射修改功能失效。