1. 什么是粘包
-
流式套接字
首先说说TCP为什么叫流式套接字,顾名思义,是指TCP的数据传输跟流动的水一样,大家可以想象一下,水是连成一片的,它是没有分界线的,而TCP数据传输也是一样的,是没有界限的; -
缓存机制
熟悉TCP协议的人都应该知道,TCP发送数据,并不是应用程序send以后就发出去了,它是先存储在发送缓冲区的,为了性能考虑,可能会等到多个数据包汇总到一起后,操作系统底层再把缓冲区整体发送出去,接收数据也是一样。 -
最大传输单元
在网络传输中,有个MTU-最大传输单元,是1500个字节,就是说每一次发送最多只能发送1500个字节,如果要发送超过这个长度的数据包,就需要分包发送。
当出现以上三点的情况时,接收端接收到的数据和发送的数据包大小、次数可能都不一致,我们没办法确定发送端发送过来的一个完整包是怎样的,就没办法正确获得我们需要的数据, 这就是粘包现象。
其实就是说,应用进程并不知道一个完整的数据包到底是多大,没法进行解析,客户端和服务端需要有一个约定的规则,来确保不出现粘包。
2. 怎么解决粘包
有以下三种情况可以解决粘包现象:
- 一是约定数据包长度,即发送端和接收端约定一样的发送和接收的数据包长度,这样可以清晰的获取到我们需要的数据;
- 二是使用分隔符,比如smtp协议就是在发送时,使用\r\n为分隔符,但如果我们要发送的数据中也有\r\n呢,就容易搞混淆,所以不是特别推荐;
- 三是在每个数据包的开头利用2个或者4个字节填充整个数据包的长度,这样接收端可以先接收2个或者4个字节,就可以准确的知道真正的数据包是多长,从而正确获取需要的数据;