编译原理中的token简介
编译原理是介绍如何将高级程序设计语言转换成计算机硬件能识别的机器语言,以便计算机进行处理。
词法分析(Lexical Analyzer)是编译器的第一个步骤,它也被称为 扫描(scanning)。词法分析器(semantic analyzer)通过读入外部的字符流(源程序)对其进行扫描,并且把它们组成有意义的词素(lexeme)序列,对于每个词素,词法分析器都会产生词法单元(token) 作为输出。
编译原理领域中将高级程序语言中的最小的单元称为token,token是构成源程序的基本不可再分割的单元。高级程序设计语言在分析源程序时的第一步就是把源程序分割为一个个独立的token,这个过程就称为词法分析。
高级语言中的token
有以下几类:
分隔符(界限符)
关键字和保留字
标识符
操作符
字面值
高级语言中最常见的分隔符(界限符)有空格、换行符、分号、大括号等等,我们可以利用空格来分隔token、用换行符或者分号来分隔语句、用大括号或者是缩进(数量相等的空格或者是制表符)来分隔代码块(复合语句)。操作符也是一种特殊的分隔符。
标识符
编程语言的标识符是用来标识变量、自定义类型、函数等实体的符号名称,我们在后面想要使用这个实体的话只需要用这个实体的名字引用它就可以了。不同类型的标识符具有不同的作用,当标识符代表的是一个变量和函数的时候,它代表的其实是一个内存地址,我们使用变量进行内存访问、使用函数进行子程序的调用;而当标识符作为一个自定义数据类型的时候,它将在编译的时候为编译器提供组织内存的元数据信息。
关键字和保留字
关键字是指语言的设计者保留的具有特定语法含义的字符序列,每个关键字都有自己独特的用途和语法含义,我们只能按照高级程序设计语言的语法规定来使用它们。关键字是一门高级程序设计语言的语法的重要组成部分,同时也是我们为语言的编译器或解释器提供元数据信息的主要手段。保留字是一类比较特殊的关键字,是为了语言后续的升级所预留的,在当前的语言版本中,保留字还不具备任何特殊的语义,但是在后续的语言升级过程中,保留字可能会被提升为关键字。所以我们在为标识符命名的时候,也不能随意使用保留字。
操作符就是语言所使用的符号集合,一般来说操作符代表的是计算类的指令,我们会使用操作符来构建表达式,来完成计算任务。大多数的操作符会被编译成转换成计算类的指令。
按照功能分类,操作符可以做如下分类:
算术运算符
位运算符
赋值运算符
赋值复核运算符(+=这一类的)
比较运算符
逻辑运算符
括号(可以用来改变表达式的计算顺序,也可以用来进行函数调用)
自增自减操作
其他运算符,比如元素数组元素访问[],子元素访问.、->等等
按照操作数的数量,操作符可以做如下分类:
单目运算符
双目运算符
三目运算符
操作符的主要作用是用来构成表达式的,运算符有两个非常重要的特性,即优先级和结合性,这两个特性决定了表达式的计算。
优先级
我们在数学中进行四则运算的时候都知道一个计算式中要先算乘除后算加减,这个规则就是数学中四则运算的优先级规则,高级语言中的运算符的运算规则跟这个是类似的,具有更高优先级的运算符会优先占用操作数组成一个表达式进行计算产生一个值。
在所有语言中运算符的优先级规则都是非常相似的,一般来说操作数越少的操作数优先级越高,而且赋值运算符的优先级比较靠后。
结合性
优先级并不能完全解决表达式的计算顺序问题,在表达式中出现连续的多个优先级相同的运算符的时候,该以什么样的顺序进行计算呢?
高级语言中表达式的结合性就是用来解决连续多个相同优先级的运算符的计算顺序的。
结合性有两种,即左结合性和右结合性。具有左结合性的计算顺序是从左到右,右结合性的计算顺序是从右到左。
在高级语言中,存在三种最基本的字面值形式(不同语言所具有的字面值形式是不同的,但是大多数的语言都支持下面三种形式的字面值):
字符串:因为代码本身就是字符串,通常会使用界定符比如""来区分是字面值还是程序代码
数字:其实就是具有特定格式的字符串(只有数字字符,数字分隔符,进制前缀和类型后缀),因为其格式特殊,所以不需要界定符
逻辑值:通常也称为布尔值,true或者false,大部分程序设计语言中都把true和false作为关键字,但是在比较古老的编程语言中(例如C语言),没有专门代表逻辑值的数据类型,而是使用整数代表逻辑值,0代表false,所有的非0整数都代表true。
表达式(Expression)和语句(Statement)
表达式
表达式是由运算符和操作数组成,最简单的表达式是一个单独的运算对象,以此为基础可以创建复杂的表达式。像+、*这样可以进行运算的符号称为运算符(operator),作为运算对象的变量、常量、函数调用等称为操作数(operand)。
表达式有一个基本特征——每个表达式都会产生一个值。
根据表达式的复杂程度的不同,可以把表达式分为简单表达式和复合表达式:
简单表达式: “字面值”和“变量”。
复合表达式:由简单表达式和运算符所构成的更复杂的表达式。
语句
语句是命令式编程语言的一个语法单元,表示程序要执行的操作。程序是有一个或多个语句序列。语句可能包含内部组件(如关键字、表达式)。
大多数语言中,语句和表达式的区别在于,语句不返回结果。
在命令式编程语言中,Algol 68 是少数几种语句可以返回结果的语言之一。在混合了命令式和函数式风格的语言中,如 Lisp 家族,表达式和语句之间没有区别。在纯函数式编程中,没有语句,一切都是表达式。
语句可以分为简单语句和复合语句。
复合语句就是用来把多条语句组合成一个整体的。
通常会在如下情况下把一系列的语句集合起来,形成一条复合语句:
流程控制
在分支或者是循环结构中,某一个分支或者是循环体中的逻辑往往用一条语句是无法完成的,这个时候我们就需要一个复合语句来组织逻辑。
函数体
一个函数可能包含多条语句。
语句块
大多数编程语言中有自己组织语句块的方式,比如Java、c、C++等语言中使用{}, Python中用缩进来。
命令式编程语言中表达式和语句的关系
表达式有值,而语句不总有值。
程序是由语句组成的。语句可以是表达式,也可以不是。表达式可以当做值赋给变量。
表达式本身可以作为表达式语句,也能作为赋值语句的右值或if语句的条件等,所以表达式可以作为语句的组成部分,但不是必须成分(例如continue语句)。
【补充说明:token计算机科学中含义很多,不同场景下,其语义表面上看起来相差甚远。
在信息安全中
会话令牌(Session token),交互会话中唯一身份标识符;
访问令牌(Access token)表示访问控制操作主体的系统对象
密保令牌(Security token),或者硬件令牌,例如U盾,或者叫做认证令牌或者加密令牌,一种计算机身份校验的物理设备。
编译原理
词法分析是计算机科学中将字符序列转换为标记(token)序列的过程。从输入字符流中生成标记的过程叫作标记化(tokenization)。
在网络技术里
一种能够控制站点占有媒体的特殊帧,以区别数据帧及其他控制帧。】