第六章-应用层
6.4.5 万维网的信息检索系统
6.4.5.1 全文检索搜索和分类目录搜索
在万维网中用来进行搜索的程序叫做搜索引擎。
全文检索搜索引擎是一种纯技术型的检索工具。它的工作原理是通过搜索软件到互联网上的各网站收集信息,找到一个网站后可以从这个网站再链接到另一个网站。然后按照一定的规则建立一个很大的在线数据库供用户查询。
用户在查询时只要输入关键词,就从已经建立的索引数据库上进行查询(并不是实时地在互联网上检索到的信息)。
分类目录搜索:分类目录搜索引擎并不采集网站的任何信息,而是利用各网站向搜索引擎提交的网站信息时填写的关键词和网站描述等信息,经过人工审核编辑后,如果认为符合网站登录的条件,则输入到分类目录的数据库中,供网上用户查询。
分类目录搜索也叫做分类网站搜索。
一些著名的搜索引擎
最著名的全文检索搜索引擎:Google(谷歌)(www.google.com) 、百度 (www.baidu.com)
最著名的分类目录搜索引擎:雅虎 (www.yahoo.com)、雅虎中国 (cn.yahoo.com)、新浪 (www.sina.com)、搜狐 (www.sohu.com)、网易 (www.163.com)
垂直搜索引擎
垂直搜索引擎 (Vertical Search Engine) 针对某一特定领域、特定人群或某一特定需求提供搜索服务。
垂直搜索也是提供关键字来进行搜索的,但被放到了一个行业知识的上下文中,返回的结果更倾向于信息、消息、条目等。
6.4.6 博客和微博
6.4.6.1 博客
博客是万维网日志 (weblog) 的简称。也有人把 blog 进行音译,译为“部落格”,或“部落阁”。还有人用“博文”来表示“博客文章”。
Weblog 这个新词是 Jorn Barger 于 1997 年创造的。
简写的 blog(这是今天最常用的术语)则是 Peter Merholz 于 1999 年创造的。
有人把 blog 既当作名词,也当作动词,表示编辑博客或写博客。
博客已经极大地扩充了互联网的应用和影响 。
在博客出现以前,网民是互联网上内容的消费者。
但博客改变了这种情况,网民不仅是互联网上内容的消费者,而且还是互联网上内容的生产者 。
6.4.6.2 微博
微博就是微型博客 (microblog),又称为微博客。
微博不同于一般的博客。微博只记录片段、碎语,三言两语,现场记录,发发感慨,晒晒心情,永远只针对一个问题进行回答。
用户可以通过网页、WAP 网、手机短信彩信、手机客户端等多种方式更新自己的微博。
每条微博字数最初限制为140英文字符,但现在已增加了“长微博”的选项,可输入更多的字符。微博还提供插入图片、视频、音乐等功能。
6.4.6.3 轻博
轻博就是轻博客 (light blogging) 。
轻博客是一种介于博客和微博之间的网络服务,同样为用户提供生成内容表达自己的平台。
轻博可以发送博文,没有字数限制。
轻博发表后,其界面会好看些。
在轻博中,推荐与发现的内容比较丰富。
6.4.7 社交网站
社交网站 SNS (Social Networking Site) 是近年来发展非常迅速的一种网站,其作用是为一群拥有相同兴趣与活动的人创建在线社区。
2004年社交网站脸书 (Facebook,又名面书、脸谱、脸谱网) 在美国诞生。
国内以人人网、开心网等为代表的社交网站也如雨后春笋般迅速崛起。
目前世界上排名第一且分布最广的社交网站是脸书 (Facebook)。
排名第二的社交网站是视频分享网站优兔YouTube(被谷歌收购)。
国内类似的视频分享网站有优酷 (www.youku.com)、土豆 (movie.tudou.com)、56网 (56.com) 等。
另一种能够提供微博服务的社交网络现在也很流行。例如推特 Twitter (twitter.com) 网站可以让用户发表不超过140个字符的消息。这些消息也被称为“推文”(Tweet)。
我国的新浪微博 (www.weibo.com)、腾讯微博 (t.qq.com) 等就是这种性质的社交网站。
职业性社交网站领英 LinkedIn 也很受欢迎。
目前在我国最为流行的社交网站就是微信,微信最初是专为手机用户使用的聊天工具,现在微信的功能已远远超越了社交领域。
6.5 电子邮件
6.5.1 电子邮件概述
电子邮件 (e-mail):指使用电子设备交换的邮件及其方法。
电子邮件是互联网上使用得最多的和最受用户欢迎的一种应用。
优点:使用方便,传递迅速,费用低廉,可以传送多种类型的信息(包括:文字信息,声音和图像等)。
电子邮件的重要标准:简单邮件发送协议:SMTP、互联网文本报文格式、通用互联网邮件扩充 MIME、邮件读取协议:POP3 和 IMAP
电子邮件的组成:三个主要构件

用户代理 UA (User Agent):
用户代理 UA 就是用户与电子邮件系统的接口,是电子邮件客户端软件。
用户代理的功能:撰写、显示、处理和通信。
邮件服务器的功能是发送和接收邮件,同时还要向发信人报告邮件传送的情况(已交付、被拒绝、丢失等)。
邮件服务器按照客户 - 服务器方式工作。邮件服务器需要使用发送和读取两个不同的协议。

用户与电子邮件系统的接口。又被称为电子邮件客户端软件。
基本功能:撰写、显示、处理和通信。

用户与电子邮件系统的接口。又被称为电子邮件客户端软件。
基本功能:撰写、显示、处理和通信。
邮件服务器 (Mail Server):

又被称为邮件传输代理。
功能:发送和接收邮件,同时还要向发信人报告邮件传送的情况。
按照客户 – 服务器方式工作。
在发送和读取邮件时使用两个不同的协议:SMTP,POP3。
邮件发送和读取协议:

邮件发送和读取使用不同的协议协议。
简单邮件发送协议 SMTP:用于在用户代理向邮件服务器或邮件服务器之间发送邮件。
邮局协议 POP3:用于用户代理从邮件服务器读取邮件。
一个邮件服务器既可以作为客户,也可以作为服务器。
例如,当邮件服务器 A 向另一个邮件服务器 B 发送邮件时,邮件服务器 A 就作为 SMTP 客户,而 B 是 SMTP 服务器。
当邮件服务器 A 从另一个邮件服务器 B 接收邮件时,邮件服务器 A 就作为 SMTP 服务器,而 B 是 SMTP 客户。

邮件服务器必须能够同时充当客户和服务器。
SMTP和POP3(或IMAP)都是使用TCP连接来传送邮件的,目的是为了可靠地传送邮件。
电子邮件的最主要的组成构件:

发送和接收电子邮件的几个重要步骤:
1.发件人调用 PC 中的用户代理撰写和编辑要发送的邮件。
2.发件人的用户代理把邮件用 SMTP 协议发给发送方邮件服务器。
3.SMTP 服务器把邮件临时存放在邮件缓存队列中,等待发送。
4.发送方邮件服务器的 SMTP 客户与接收方邮件服务器的 SMTP 服务器建立 TCP 连接,然后就把邮件缓存队列中的邮件依次发送出去。
5.运行在接收方邮件服务器中的SMTP服务器进 程收到邮件后,把邮件放入收件人的用户邮箱中,等待收件人进行读取。
6.收件人在打算收信时,就运行PC机中的用户代理,使用POP3(或 IMAP)协议读取发送给自己的邮件。
电子邮件的组成:
电子邮件由信封 (envelope) 和内容 (content) 两部分组成。
电子邮件的传输程序根据邮件信封上的信息来传送邮件。用户在从自己的邮箱中读取邮件时才能见到邮件的内容。
在邮件的信封上,最重要的就是收件人的地址。
电子邮件地址的格式:
TCP/IP 体系的电子邮件系统规定电子邮件地址的格式如下:
收件人邮箱名@邮箱所在主机的域名
符号“@”读作“at”,表示“在”的意思。
例如电子邮件地址 xiexiren@tsinghua.org.cn
6.5.2 简单邮件传送协议 SMTP
SMTP 规定了在两个相互通信的 SMTP 进程交换信息的方法。
SMTP 使用客户–服务器方式。
SMTP 基于 TCP 实现客户与服务器的通信。

SMTP 是一个基于文本的 (即 ASCII 码) 的协议。
SMTP 客户与服务器之间采用命令-响应方式进行交互。

SMTP 基于 TCP 实现客户与服务器之间的通信。
SMTP 通信的三个阶段:
1.连接建立:连接是在发送主机的 SMTP 客户和接收主机的 SMTP 服务器之间建立的。SMTP不使用中间的邮件服务器。
2.邮件传送
3.连接释放:邮件发送完毕后,SMTP 应释放 TCP 连接。

6.5.3 电子邮件的信息格式
一个电子邮件分为信封和内容两大部分。
RFC 5322 只规定了邮件内容中的首部 (header) 格式,而对邮件的主体 (body) 部分则让用户自由撰写。
邮件内容的首部
1.“To:” 后面填入一个或多个收件人的电子邮件地址。用户只需打开地址簿,点击收件人名字,收件人的电子邮件地址就会自动地填入到合适的位置上。
2.“Subject:” 是邮件的主题。它反映了邮件的主要内容,便于用户查找邮件。
3.“Cc:” 表示应给某某人发送一个邮件副本。
4.“From” 和 “Date” 表示发信人的电子邮件地址和发信日期。
5.“Reply-To” 是对方回信所用的地址。
6.5.4 邮件读取协议 POP3 和 IMAP
两个常用的邮件读取协议:
1.POP3:邮局协议 (Post Office Protocol) 第3个版本
2.IMAP:网际报文存取协议 (Internet Message Access Protocol)
POP3 协议

POP3 使用客户–服务器方式。
POP3 基于TCP实现客户与服务器的通信。

POP3 支持用户鉴别。
POP3 服务器删除被用户读取了的邮件。
IMAP 协议

IMAP 使用客户–服务器方式。
IMAP 基于TCP实现客户与服务器的通信。
IMAP是一个联机协议。
IMAP 的特点
连接后只下载邮件首部(部分下载)。
用户直接在IMAP服务器上创建和管理文件夹。
用户可以搜索邮件内容。
用户可以在不同的地方使用不同的计算机随时上网阅读和处理自己的邮件。
允许收信人只读取邮件中的某一个部分。
缺点:要想查阅邮件,必须先联网。
必须注意
邮件读取协议 POP 或 IMAP 与邮件传送协议 SMTP 完全不同。
发信人的用户代理向源邮件服务器发送邮件,以及源邮件服务器向目的邮件服务器发送邮件,都是使用 SMTP 协议。
而 POP 协议或 IMAP 协议则是用户从目的邮件服务器上读取邮件所使用的协议。
6.5.5 基于万维网的电子邮件
用户代理 (UA) 的缺点:
必须在计算机中安装用户代理软件。
但可能不能安装或不允许安装。
因此,不方便收发邮件。
万维网电子邮件优点:
不需要在计算机中再安装用户代理软件。
计算机能联网,就能非常方便地收发电子邮件。
电子邮件界面非常友好。
万维网电子邮件

发送、接收电子邮件时使用 HTTP 协议。
两个邮件服务器之间传送邮件时使用 SMTP。
6.5.6 通用互联网邮件扩充 MIME
SMTP 有以下缺点:
SMTP 不能传送可执行文件或其他的二进制对象。
SMTP 限于传送 7 位的 ASCII 码。许多其他非英语国家的文字(如中文、俄文,甚至带重音符号的法文或德文)就无法传送。
SMTP 服务器会拒绝超过一定长度的邮件。
某些 SMTP 的实现并没有完全按照 [RFC 821] 的SMTP 标准。
6.5.6.1. MIME 概述
通用互联网邮件扩充 MIME 并没有改动 SMTP 或取代它。
MIME 的意图是继续使用目前的 [RFC 822] 格式,但增加了邮件主体的结构,并定义了传送非 ASCII 码的编码规则。
MIME 和 SMTP 的关系

MIME 主要包括三个部分
1.5个新的邮件首部字段,它们可包含在原有首部中。这些字段提供了有关邮件主体的信息。
2.定义了许多邮件内容的格式,对多媒体电子邮件的表示方法进行了标准化。
3.定义了传送编码,可对任何内容格式进行转换,而不会被邮件系统改变。
MIME 增加 5 个新的邮件首部
MIME-Version:MIME 的版本。若无此行,则为英文文本。
Content-Description:这是可读字符串,此邮件的说明。
Content-Id:邮件的唯一标识符。
Content-Transfer-Encoding:传送时邮件主体使用的编码方法。
Content-Type:邮件内容类型 / 子类型。
6.5.6.2 内容传送编码(Content-Transfer-Encoding)
编码方法 说明
7bit 7 位 ASCII 编码,每行不能超过 1000 个字符(包括回车和换行)。缺省编码方法。
8bit 8 位非 ASCII 编码,每行不能超过 1000 个字节(包括回车和换行)。
Binary 8 位非 ASCII 编码,任意长度的字节串。
Base64 将任意长度的字节串转换为用 7 位 ASCII 编码表示的字符串。可用于二进制和非文本数据的编码。
Quoted-printable 将任意长度的字节串转换为 ASCII 编码表示的字符串。可用于二进制和非文本数据的编码。
Quoted-printable 编码
适用于所传送的数据中只有少量的非 ASCII 码的情况。

Base64 编码
适合任意长度的二进制数据。编码表如下:
索引 对应字符 索引 对应字符 索引 对应字符 索引 对应字符 索引 对应字符
0 A 13 N 26 a 39 n 52 0
1 B 14 O 27 b 40 o 53 1
2 C 15 P 28 c 41 p 54 2
3 D 16 Q 29 d 42 q 55 3
4 E 17 R 30 e 43 r 56 4
5 F 18 S 31 f 44 s 57 5
6 G 19 T 32 g 45 t 58 6
7 H 20 U 33 h 46 u 59 7
8 I 21 V 34 i 47 v 60 8
9 J 22 W 35 j 48 w 61 9
10 K 23 X 36 k 49 x 62 +
11 L 24 Y 37 l 50 y 63 /
12 M 25 Z 38 m 51 z
用两个连在一起的二个等号“==”和一个等号“=”分别表示最后一组的代码只有8位或16位。
Base64 编码

6.5.6.3. 内容类型
MIME 着标准规定 Content-Type 说明必须含有两个标识符,即内容类型(type)和子类型(subtype),中间用“/”分开。
MIME 标准原先定义了 7 个基本内容类型和 15 种子类型。
MIME允许发件人和收件人自己定义专用的内容类型。但为避免可能出现名字冲突,标准要求为专用的内容类型选择的名字要以字符串 X-开始。
MIME Content-Type 说明中的类型及子类型
内容类型 子类型举例 说明
text(文本) plain, html, xml, css 不同格式的文本
image(图像) gif, jpeg, tiff 不同格式的静止图像
audio(音频) basic, mpeg, mp4 可听见的声音
video(视频) mpeg, mp4, quicktime 不同格式的影片
model(模型) vrml 3D模型
application(应用) octet-stream, pdf, javascript, zip 不同应用程序产生的数据
message(报文) http, rfc822 封装的报文
multipart(多部分) mixed, alternative, parallel, digest 多种类型的组合
MIME 举例

6.6 动态主机配置协议 DHCP
在协议软件中,给协议参数赋值的动作叫做协议配置。
一个协议软件在使用之前必须是已正确配置的。
连接到互联网的计算机的协议软件需要配置的参数包括:
1.IP 地址
2.子网掩码
3.默认路由器的 IP 地址
4.域名服务器的 IP 地址
协议配置
在协议软件中给这些参数赋值的动作叫做协议配置。
一个软件协议在使用之前必须是已正确配置的。
具体的配置信息有哪些则取决于协议栈。
需要配置的项目
1.IP 地址
2.子网掩码
3.默认路由器的 IP 地址
4.域名服务器的 IP 地址
这些信息通常存储在一个配置文件中,计算机在引导过程中可以对这个文件进行存取。
互联网广泛使用的动态主机配置协议 DHCP (Dynamic Host Configuration Protocol) 提供了即插即用连网 (plug-and-play networking) 的机制。
这种机制允许一台计算机加入新的网络和获取 IP 地址,而不用手工配置。
DHCP给运行服务器软件、且位置固定的计算机指派一个永久地址,给运行客户端软件的计算机分配一个临时地址。
DHCP 使用客户 - 服务器方式
需要 IP 地址的主机在启动时就向 DHCP 服务器广播发送发现报文
(DHCPDISCOVER),这时该主机就成为 DHCP 客户。
本地网络上所有主机都能收到此广播报文,但只有 DHCP 服务器才回答此广播报文。
DHCP 服务器先在其数据库中查找该计算机的配置信息。若找到,则返回找到的信息。若找不到,则从服务器的 IP 地址池 (address pool) 中取一个地址分配给该计算机。DHCP服务器的回答报文叫做提供报文(DHCPOFFER)。
DHCP 工作方式
DHCP 使用客户-服务器方式,采用请求/应答方式工作。
DHCP 基于 UDP 工作,DHCP 服务器运行在 67 号端口, DHCP客户运行在 68 号端口。

DHCP 中继代理(relay agent)
并不是每个网络上都有DHCP服务器,这样会使DHCP服务器的数量太多。现在是每一个网络至少有一个 DHCP 中继代理,它配置了 DHCP 服务器的 IP 地址信息。
当 DHCP 中继代理收到主机发送的发现报文后,就以单播方式向 DHCP 服务器转发此报文,并等待其回答。收到 DHCP 服务器回答的提供报文后,DHCP 中继代理再将此提供报文发回给主机。
DHCP 中继代理以单播方式转发发现报文

租用期 (lease period)
DHCP 服务器分配给 DHCP 客户的 IP 地址的临时的,因此 DHCP 客户只能在一段有限的时间内使用这个分配到的 IP 地址。DHCP 协议称这段时间为租用期。
租用期的数值应由 DHCP 服务器自己决定。
DHCP 客户也可在自己发送的报文中(例如,发现报文)提出对租用期的要求。
DHCP 协议的工作过程

1:DHCP 服务器被动打开 UDP 端口 67,等待客户端发来的报文。

2:DHCP 客户从 UDP 端口 68,发送 DHCP 发现报文 DHCPDISCOVER。

3:凡收到 DHCP 发现报文的 DHCP 服务器,都发出 DHCP 提供报文 DHCPOFFER,因此
DHCP 客户可能收到多个 DHCP 提供报文。

4:DHCP 客户从几个 DHCP 服务器中选择其中的一个,并向所选择的 DHCP 服务器发送 DHCP 请求报文 DHCPREQUEST。

5:被选择的 DHCP 服务器发送确认报文DHCPACK,进入已绑定状态,并可开始使用得到的临时 IP 地址了。

DHCP 客户现在要根据服务器提供的租用期 T 设置两个计时器 T1 和 T2,它们的超时时间分别是 0.5T 和 0.875T。当超时时间到就要请求更新租用期。

6:租用期过了一半(T1 时间到),DHCP 发送请求报文 DHCPREQUEST,要求更新租用期。

7:DHCP 服务器若同意,则发回确认报文DHCPACK。DHCP 客户得到了新的租用期,重新设置计时器。

8:DHCP 服务器若不同意,则发回否认报 DHCPNACK。这时 DHCP 客户必须立即停止使用原来的 IP 地址,而必须重新申请 IP 地址(回到步骤2)。

若 DHCP 服务器不响应步骤6的请求报文 DHCPREQUEST,则在租用期过了 87.5% 时,DHCP 客户必须重新发送请求报文 DHCPREQUEST(重复步骤6),然后又继续后面的步骤。

9:DHCP 客户可随时提前终止服务器所提供的租用期,这时只需向 DHCP 服务器发送释放报文 DHCPRELEASE 即可。
6.7 简单网络管理协议 SNMP
6.7.1 网络管理的基本概念
网络管理包括对硬件、软件和人力的使用、综合与协调,以便对网络资源进行监视、测试、配置、分析、评价和控制,这样就能以合理的价格满足网络的一些需求,如实时运行性能,服务质量等。网络管理常简称为网管。
网络管理并不是指对网络进行行政上的管理。
网络管理的五大功能
1.故障管理:故障检测、隔离和纠正。
2.配置管理:初始化网络、并配置网络。
3.计费管理:记录网络资源的使用。
4.性能管理:估价系统资源的运行状况及通信效率等。
5.网络安全管理:对授权机制、访问控制、加密和加密关键字的管理。
网络管理的一般模型

网络管理模型中的主要构件
管理站也常称为网络运行中心 NOC (Network Operations Center),是网络管理系统的核心。
管理程序在运行时就成为管理进程。
管理站(硬件)或管理程序(软件)都可称为管理者(manager)。Manager 不是指人,而是指机器或软件。
网络管理员 (administrator) 指的是负责网络管理的人员。
大型网络往往实行多级管理,因而有多个管理者,而一个管理者一般只管理本地网络的设备。
被管对象 (Managed Object)
网络的每一个被管设备中可能有多个被管对象。
被管设备有时可称为网络元素或网元。
在被管设备中也会有一些不能被管的对象。
代理 (agent)
在每一个被管设备中都要运行一个程序以便和管理站中的管理程序进行通信。这些运行着的程序叫做网络管理代理程序,或简称为代理。
代理程序在管理程序的命令和控制下在被管设备上采取本地的行动。
网络管理协议
网络管理协议简称为网管协议。
网络管理协议是管理程序和代理程序之间进行通信的规则。
网络管理员利用网络管理协议,通过管理站对网络中的被管设备进行管理。
需要注意的是,网管协议本身不管理网络。
简单网络管理协议 SNMP
简单网络管理协议SNMP (Simple Network Management Protocol) 中的管理程序和代理程序按客户–服务器方式工作。
管理程序运行 SNMP 客户程序,向某个代理程序发出请求(或命令),代理程序运行 SNMP 服务器程序,返回响应(或执行某个动作)。
在网管系统中,往往是一个(或少数几个)客户程序与很多的服务器程序进行交互。
网络管理的基本原理
若要管理某个对象,就必然会给该对象添加一些软件或硬件,但这种“添加”必须对原有对象的影响尽量小些。
SNMP 的指导思想
SNMP 最重要的指导思想就是要尽可能简单。
SNMP 的基本功能包括监视网络性能、检测分析网络差错和配置网络设备等。
在网络正常工作时,SNMP 可实现统计、配置、和测试等功能。当网络出故障时,可实现各种差错检测和恢复功能。
虽然 SNMP 是在 TCP/IP 基础上的网络管理协议,但也可扩展到其他类型的网络设备上。
SNMP 的基本功能
SNMP 最重要的指导思想就是要尽可能简单。
SNMP 的基本功能包括:
1.监视网络性能
2.检测分析网络差错
3.配置网络设备等。
SNMP 的管理站和委托代理
整个系统必须有一个管理站。
若网络元素使用的不是 SNMP 而是另一种网络管理协议,SNMP 协议就无法控制该网络元素。这时可使用委托代理 (proxy agent)。
委托代理能提供协议转换和过滤操作等功能,对被管对象进行管理。

SNMP 网络管理组成
SNMP 的网络管理由三个部分组成:
1.SNMP 本身
2.管理信息结构 SMI (Structure of Management Information)
3.管理信息库 MIB (Management Information Base)。
简单网络管理协议 SNMP
SNMP 定义了管理站和代理之间所交换的分组格式。
所交换的分组包含各代理中的对象(变量)名及其状态(值)。
SNMP 负责读取和改变这些数值。
管理信息结构 SMI
SMI 定义了命名对象和定义对象类型(包括范围和长度)的通用规则,以及把对象和对象的值进行编码的规则。
这样做是为了确保网络管理数据的语法和语义的无二义性。但从 SMI 的名称并不能看出它的功能。
SMI 并不定义一个实体应管理的对象数目,也不定义被管对象名以及对象名及其值之间的关联。
管理信息库 MIB
MIB 在被管理的实体中创建了命名对象,并规定了其类型。
管理程序使用 MIB 中的信息,对网络进行管理。