2.词法分析

词法分析的目的是什么呢? 是把一长串的字符分解成一个个的词素,并且生成(id,2)这种作为语法分析的基础。

首先是词法单元,词素等的定义。

然后是如何输入。

三是输入后如何识别。

识别后如何组成中间式子。

  1.三个关键词

词法单元,词素,模式

scheme 中对闭包编译中的处理_scheme 中对闭包编译中的处理

  1. 词法单元: 词法单元由一个词法单元名和一个可选的属性值组成。

词法单元名是一个表示某种词法单位的抽象符号。比如一个特定的关键字

或者代表一个标识符的输入字符序列。词法单元名字是语法分析器的输入符号。

2.模式 描述了一个词法单元的词素可能具有的形式。 比如if 关键字,模式是对

语法或者词法中你某些特定的字符的抽象表达。 比如  标识符,关键字,等

3.词素,源程序的一个字符序列。

 

2.输入缓冲 ---进行词法分析最首先的是要进行字符串的输入。

如何输入也是一个问题。

1. 如果一个字符一个字符的输入,则显得太快缓慢。而全部读入这太占内存。所以这里有了一个输入缓冲的概念。

2.就是进行词法分析的时候,只读一个字符是无法分析这个词素属于什么模式。是一个标识符还是关键字,还是界符之类的。所以就有了超前搜索这个概念。

至少必须向前多查找一个字符做比对才知道这个词素属于什么模式

scheme 中对闭包编译中的处理_词法_02

3.为什么需要缓冲区对?

缓冲区是为了加快读入数据的效率,当输入字符超长的时候,一个缓冲区并不能完全识别串,所以需要缓冲区对。然后又加入了哨兵标记。

那么哨兵标记是干什么的呢?

 

 

3.词法规约:

这里的定义的串和语言比较泛化。不够深入和详尽。也可以表示为集合。

暂且理解为串是字母表符号的有限集合,而语言是串的集合

串: {a,b,v,d,s,s,}  

语言:{{a,v,c,,s},{dwmme,r,r,t,q,r}}

scheme 中对闭包编译中的处理_字符串_03


 

上图中确实很好的解释了串和语言了

L {A,B,…,a,b,…z}   

D {0,1,2,3,4,5,…,9} 

将L看成是大小写字母组成的字母表,将D看成是10个数位组成的字母表。

另一种方法是将L和D看做语言,他们的所有串的长度都为1.  A是长度为1的串 ,1,也是长度为1的串。

 

 

         1.串是一个字母表符号的有限集合。而字符表是一个有限的符号集合。符号包括了数字,字母和标点符号。{a,b,c,d,e}

         2.语言:语言是给定某个字母表上一个任意的可数的串的集合。

            {a,ab,abc,ed,treeeasdasa}

 3.闭包

编译原理的闭包:

 V是一个符号集合,假设V指的是三个符号a, b, c的集合,记为 V = {a, b, c }
V* 读作“V的闭包”,它的数学定义是V自身的任意多次自身连接(乘法)运算的积,也是一个集合。
也就是说,用V中的任意符号进行任意多次(包括0次)连接,得到的符号串,都是V*这个集合中的元素。
0次连接的结果是不含任何符号的空串,记为 ε
1次连接就是只有一个符号的符号串,比如,a,b, c
2次连接是两个符号构成的符号串,比如,aa, ab, ac, ba, bb, bc,等等

3.2  闭包的解释

 

 

3.2.1 编译原理书籍闭包解释:闭包和正则

正则表达式的最基本概念来重新介绍一次,主要想让大家更深地理解它。首先我们要重新定义一下“语言”这个概念。“语言”就是指字符串的集合,其中的字符来自于一个有限的字符集合。也就是说,语言总要定义在一个有限的字符集上,但是语言本身可以既可以是有穷集合,也可以是无穷集合。比如“C#语言”就是指满足C#语法的全体字符串的集合,它显然是个无穷集合。当然也可以定义一些简单的语言,比如这个语言{ a }就只有一个成员,那就是一个字母a。后面我们都用大括号{}来表示字符串的集合。所谓正则表达式呢,就是描述一类语言的一种特殊表达式,正则表达式共有2种基本要素:

  1. 表达式ε表示一个语言,仅包含一个长度为零的字符串,可以理解为{ String.Empty },我们通常把String.Empty记作ε,读作epsilon。
  2. 对字符集中任意字符a,表达式a表示仅有一个字符a的语言,即{ a }。

同时正则表达式定义了3种基本运算规则:

  1. 两个正则表达式的,记作X|Y,表示的语言是正则表达式X所表示的语言与正则表达式Y所表示语言的并集。比如a|b所得的语言就是{a, b}。类似于加法
  2. 两个正则表达式的连接,记作XY,表示的语言是将X的语言中每个字符串后面连接上Y语言中的每一种字符串,再把所有这种连接的结果组成一种新的语言。比如令X = a|b,Y = c|d,那么XY所表示的语言就是{ac, bc, ad, bd}。因为X表示是{a, b},而Y表示的是{ c, d},连接运算取X语言的每一个字符串接上Y语言的每一个字符串,最后得到了4种连接结果。这类似于乘法
  3. 一个正则表达式的克林闭包,记作X*,表示分别将零个,一个,两个……无穷个X与自己连接,然后再把所有这些求并。也就是说X* = ε | X | XX | XXX | XXX | ……比如a*这个正则表达式,就表示的是个无穷语言{ ε, a, aa, aaa, aaaa, …. }。这相当于任意次重复一个语言。

以上三种运算写在一起时克林闭包的优先级高于连接运算,而连接运算的优先级高于并运算。以上就是正则表达式的全部规则!并不是很难理解对吧?下面我们用正则表达式来描述一下刚才各个词素的规则。

 

首先是关键字string,刚才我们描述说它是“正好是s-t-r-i-n-g这几个字母按顺序组成”,用正则表达式来表示,那就是s-t-r-i-n-g这几个字母的连接运算,所以写成正则表达是就是string。大家一定会觉得这个例子很无聊。。那么我们来看下一个例子:标识符。用白话来描述是“由字母开头,后面可以跟零个或多个字母或数字”。先用正则表达式描述“由字母开头”,那就是指,可以是a-z中任意一个字母来开头。这是正则表达式中的运算:a|b|c|d|e|f|g|h|i|j|k|l|m|n|o|p|q|r|s|t|u|v|w|x|y|z。如果每个正则表达式都这么写,那真是要疯掉了,所以我们引入方括号语法,写在方括号里就表示这些字符的并运算。比如[abc]就表示a|b|c。而a-z一共26个字母我们也简写成a-z,这样,“由字母开头”就可以翻译成正则表达式[a-z]了。接下来我们翻译第二句“后面可以跟零个或多个字母或数字”这句话中的“零个或多个”可以翻译成克林闭包运算,最后相信大家都可以写出来,就是[a-z0-9]*。最后,前后两句之间是一个连接运算,因此最后描述标识符“语言”的正则表达式就是[a-z][a-z0-9]*。其中的*运算也意味着“标识符”是一种无穷语言,有无数种可能的标识符。本来就是这样,很好理解对吧?

 

从上面例子可以看出,正则表达式都可以用两种要素和三种基本运算组合出来。但是如果我们要真的拿来描述词法单词的规则,需要一些便于使用的辅助语法,就像上边的方括号语法那样。我们定义一些正则表达式的扩展运算:

  1. 方括号表示括号内的字符并运算。[abc]就等于a|b|c
  2. 方括号中以^字符开头,表示字符集中,排除方括号中的所有字符之后,所剩字符的并运算。[^ab]就表示除了ab以外所有字符求并。
  3. 圆.点表示字符集内所有字符的并。因此 .* 这个表达式就能表示这种字符集所能组成的一切字符串。
  4. X?表示 X|ε 。表示X与空字符串之间可选。
  5. X+表示XX*。这等于限制了X至少要重复1次。

用过正则表达式的同学应该都熟悉以上运算了。其实.NET中的正则表达式还提供更多的扩展语法,但我们这次并不使用.NET的正则库,所以就不列出其余的语法了。

 

我们把所有能用正则表达式表示的语言称作正则语言。很遗憾,并非所有的语言都是正则语言。比如C#,或者所有编程语言、HTML、XML、JSON等等,都不是正则语言。所以不能用正则表达式定义上述语言的规则。但是,用正则表达式来定义词法分析的规则却是非常合适的。大部分编程语言的词素都可以用一个简单的正则表达式来表达。下面就是上述单词的正则表达式定义。

 

为什么需要闭包。因为编译原理是在一个字符长串或者集合中找到正确的词。

 

闭包之后是正则表达式

scheme 中对闭包编译中的处理_正则表达式_04


(letter_|digit)*就是闭包运算。通过闭包运算来形成表达式。

我们数学中也有运算,比如 a+b  1+2 然后  1+2=3 这就形成了表达式 1+2是一个加法表达式。  + 表示加法运算。  闭包表示闭包运算。通过运算形成表达式。通过表达式形成自动机,其实自动机可以算成是等式。

什么是式,是一种格式,规范等。 表达式,算式,等式。

什么是正则表达式。 表示正则关系的规范。

 

3.2.2二元关系理解闭包:

 

集合X与集合Y上的二元关系是R=(X,Y,G(R)),其中G(R),称为R,是笛卡儿积X×Y的子集。若 (x,y) ∈G(R) ,则称xR-关系于y,并记作xRyR(x,y)。否则称xy无关系R。但经常地我们把关系与其图等同起来,即:若RX×Y,则R是一个关系。

例如:有四件物件 {球,糖,车,枪} 及四个人 {甲,乙,丙,丁}。 若甲拥有球,乙拥有糖,及丁拥有车,即无人有枪及丙一无所有— 则二元关系"为...拥有"便是R=({球,糖,车,枪}, {甲,乙,丙,丁}, {(球,甲), (糖,乙), (车,丁)})。

其中 R 的首项是物件的集合,次项是人的集合,而末项是由有序对(物件,主人)组成的集合。比如有序对(球,甲)∈G(R),所以我们可写作"球R甲",表示球为甲所拥有。

不同的关系可以有相同的图。以下的关系 ({球,糖,车,枪}, {甲,乙,丁}, {(球,甲), (糖,乙), (车,丁)} 中人人皆是物主,所以与R不同,但两者有相同的图。话虽如此,我们很多时候索性把R定义为G(R), 而 "有序对 (x,y) ∈G(R)" 亦即是 "(x,y) ∈R"。

二元关系可看作成二元函数,这种二元函数把输入元xXyY视为独立变量并求真伪值(即“有序对(x,y) 是或非二元关系中的一元”此一问题)。

X=Y,则称RX上的关系。

进行关系运算。

scheme 中对闭包编译中的处理_scheme 中对闭包编译中的处理_05


 

3.2.3数学中的闭包:

数学中是闭的集合,也就是集合和它的边界的并。集合e的全体聚点并上e称为e的闭包。关系的闭包运算时关系上的一元运算,它把给出的关系R扩充成一新关系R’,使R’具有一定的性质,且所进行的扩充又是最“节约”的。
比如自反闭包,相当于把关系R对角线上的元素全改成1,其他元素不变,这样得到的R’是自反的,且是改动次数最少的,即是最“节约”的。

什么是聚点?

在拓扑学、数学分析和复分析中都有聚点的概念。
在拓扑学中设拓扑空间(X,τ),A⊆X,x∈X。若x的每个邻域都含有A \ {x}中的点,则称x为A的聚 点。
在数学分析中坐标平面上具有某种性质的点的集合,称为平面点集。给定点集E ,对于任意给定的δ〉0 ,点P 的δ去心邻域内,总有E 中点,则称为P 是 E的聚点(或叫作极限点)。
聚点可以是E中的点,也可以不属于E。此聚点要么是内点,要么是边界点。内点是聚点,界点是聚点,孤立点不是聚点。对于有限点集是不存在聚点的。聚点必须相对给定的集合而言,离开了点集E,聚点就没有意义。
在复分析中点集E,若在复平面上的一点z的任意邻域都有E的无穷多个点,则称z为E的聚点。
以聚点为圆心,任意大的半径大ε>0画一圆,总有无穷多个点汇聚在该圆内。若聚点是唯一的,则聚点就是极限点。

 

3.2.4 Js中的闭包。更像java的内部类的概念。那么为什么要取名闭包??

 

闭包就是能够读取其他函数内部变量的函数。例如在javascript中,只有函数内部的子函数才能读取局部变量,所以闭包可以理解成“定义在一个函数内部的函数“。在本质上,闭包是将函数内部和函数外部连接起来的桥梁。

 

本质

集合 S 是闭集当且仅当 Cl(S)=S(这里的cl即closure,闭包)。特别的,空集的闭包是空集,X 的闭包是 X。集合的交集的闭包总是集合的闭包的交集的子集(不一定是真子集)。有限多个集合的并集的闭包和这些集合的闭包的并集相等;零个集合的并集为空集,所以这个命题包含了前面的空集的闭包的特殊情况。无限多个集合的并集的闭包不一定等于这些集合的闭包的并集,但前者一定是后者的父集。

若 A 为包含 S 的 X 的子空间,则 S 在 A 中计算得到的闭包等于 A 和 S 在 X 中计算得到的闭包(Cl_A(S) = A ∩ Cl_X(S))的交集。特别的,S在 A 中是稠密的,当且仅当 A 是 Cl_X(S) 的子集。

 

如果一个程式语言容许函数递回另一个函数的话 (像 Perl 就是),闭包便具有意义。要注意的是,有些语言虽提供匿名函数的功能,但却无法正确处理闭包; Python 这个语言便是一例。如果要想多了解闭包的话,建议你去找本功能性程式 设计的教科书来看。Scheme这个语言不仅支持闭包,更鼓励多加使用。

 

闭包是函数和声明该函数的词法环境的组合。

 

词法作用域

考虑如下情况:

 

function init() {

var name = "Mozilla"; // name 是一个被 init 创建的局部变量

n displayName() { // displayName() 是内部函数,一个闭包

alert(name); // 使用了父函数中 声明的变量

}

displayName();

}

init();

init() 创建了一个局部变量 name 和一个名为 displayName() 的函数。displayName() 是定义在 init() 里的内部函数,仅在该函数体内可用。displayName() 内没有自己的局部变量,然而它可以访问到外部函数的变量,所以 displayName() 可以使用父函数 init() 中声明的变量 name 。但是,如果有同名变量 name 在 displayName() 中被定义,则会使用的 displayName() 中定义的 name 。

 

运行代码可以发现 displayName() 内的 alert() 语句成功的显示了在其父函数中声明的 name 变量的值。这个词法作用域的例子介绍了引擎是如何解析函数嵌套中的变量的。词法作用域中使用的域,是变量在代码中声明的位置所决定的。嵌套的函数可以访问在其外部声明的变量。

 

闭包

现在来考虑如下例子 :

 

function makeFunc() {

var name = "Mozilla";

function displayName() {

alert(name);

}

return displayName;

}

 

var myFunc = makeFunc();

myFunc();

运行这段代码和之前的 init() 示例的效果完全一样。其中的不同 — 也是有意思的地方 — 在于内部函数 displayName() 在执行前,被外部函数返回。

 

第一眼看上去,也许不能直观的看出这段代码能够正常运行。在一些编程语言中,函数中的局部变量仅在函数的执行期间可用。一旦 makeFunc() 执行完毕,我们会认为 name 变量将不能被访问。然而,因为代码运行的没问题,所以很显然在 JavaScript 中并不是这样的。

 

这个谜题的答案是,JavaScript中的函数会形成闭包。 闭包是由函数以及创建该函数的词法环境组合而成。这个环境包含了这个闭包创建时所能访问的所有局部变量。在我们的例子中,myFunc 是执行 makeFunc 时创建的 displayName 函数实例的引用,而 displayName 实例仍可访问其词法作用域中的变量,即可以访问到 name 。由此,当 myFunc 被调用时,name 仍可被访问,其值 Mozilla 就被传递到alert中。

 

下面是一个更有意思的示例 — makeAdder 函数:

 

function makeAdder(x) {

return function(y) {

return x + y;

};

}

 

var add5 = makeAdder(5);

var add10 = makeAdder(10);

 

console.log(add5(2));  // 7

console.log(add10(2)); // 12

在这个示例中,我们定义了 makeAdder(x) 函数,他接受一个参数 x ,并返回一个新的函数。返回的函数接受一个参数 y,并返回x+y的值。

 

从本质上讲,makeAdder 是一个函数工厂 — 他创建了将指定的值和它的参数相加求和的函数。在上面的示例中,我们使用函数工厂创建了两个新函数 — 一个将其参数和 5 求和,另一个和 10 求和。

 

add5 和 add10 都是闭包。它们共享相同的函数定义,但是保存了不同的词法环境。在 add5的环境中,x 为 5。而在 add10 中,x 则为 10。

 

实用的闭包

闭包很有用,因为他允许将函数与其所操作的某些数据(环境)关联起来。这显然类似于面向对象编程。在面向对象编程中,对象允许我们将某些数据(对象的属性)与一个或者多个方法相关联。

 

 

 

 

 

因此,通常你使用只有一个方法的对象的地方,都可以使用闭包。

 

在 Web 中,你想要这样做的情况特别常见。大部分我们所写的 JavaScript 代码都是基于事件的 — 定义某种行为,然后将其添加到用户触发的事件之上(比如点击或者按键)。我们的代码通常作为回调:为响应事件而执行的函数。

 

假如,我们想在页面上添加一些可以调整字号的按钮。一种方法是以像素为单位指定 body 元素的 font-size,然后通过相对的 em 单位设置页面中其它元素(例如header)的字号:

 

body {

font-family: Helvetica, Arial, sans-serif;

font-size: 12px;

}

 

h1 {

font-size: 1.5em;

}

 

h2 {

font-size: 1.2em;

}

我们的文本尺寸调整按钮可以修改 body 元素的 font-size 属性,由于我们使用相对单位,页面中的其它元素也会相应地调整。

 

闭包,正则- 自动机-词法分析器:

 

scheme 中对闭包编译中的处理_正则表达式_06

 

 

 

数据库的关系和编译原理的关系:

D1 D2 D3 笛卡尔积D1 x D2 x … Dn的子集合,记作R(D1, D2, … , Dn)

R称为关系名,n为关系的目或度

编译原理的关系:

其实应该差不多,D1 D2 D3代表的是语言或者串

D1 D2 D3 笛卡尔积D1 x D2 x … Dn的子集合,记作R(D1, D2, … , Dn)

R称为关系名,n为关系的目或度

那么编译原理的闭包和js或者说java内部类的闭包有什么一样的呢

闭包在

数学中是闭的集合,也就是集合和它的边界的并。

其实看起来不管是js编译原理,java里面的闭包都源自数学里面这个闭包的概念。

编译原理的闭包的概念其实是一个集合里面连接N次,但是数学里面是集合和边界的并,其实要是画一个图理解起来是一样的。 Js的闭包呢?

 

还有关系这个概念数据库里的关系,编译原理里面的关系应该都是脱胎于数学的关系或者二元关系https://baike.baidu.com/item/%E4%BA%8C%E5%85%83%E5%85%B3%E7%B3%BB/2587180?fr=aladdin

见百度百科二元关系的解释。


见这个博客 数据库关系的解释。

 

 

  1. 正则表达式

为了描述程序设计语言所有合法的标识符,界符 ,运算符,关键字,常数。

Letter表示任一字母或者下划线

Digit表示数字

那么标识符可以用 letter_(letter_|digit)*  正则表达式表示。

正则表达式可以由较小的正则表达式按照如下规则递归地构建。

每个正则表达式r表示一个语言L(r),这个语言也是根据r的子表达式锁表示的语言递归地定义的。

在某个字母表E 上的正则表达式以及这些表达式所表示的语言。

scheme 中对闭包编译中的处理_正则表达式_07

归纳基础:  字母表用E表示,那个符号有点特殊,打不出,只好用E表示

scheme 中对闭包编译中的处理_scheme 中对闭包编译中的处理_08


  1. E是一个正则表达式L(E)={E},即该语言只包含空串。
  2. 如果a是E上的一个符号,那么a是一个正则表达式,并且L(a)={a}。也就是说,这个语言仅包含一个长度为1的符号串a。

下面我们举例说明。对于符号集合∑={a,b},有:

- 正则表达式a表示语言{a};

- 正则表达式a|b表示语言{a,b};

- 正则表达式(a|b)(a|b)表示语言{aa,ab,ba,bb};

- 正则表达式a*表示语言{ε,a,aa,aaa,…};

- 正则表达式(a|b)*表示语言{ε,a,b,aa,ab,ba,bb,aaa,…};

- 正则表达式a|a*b表示语言{a,b,ab,aab,aaab,…}。

scheme 中对闭包编译中的处理_词法_09


正则定义: 为方便表示,我们可能希望给某些正则表达式命名,并在之后的正则表达式中像符号一样使用这些名字:  d1->r1  比如 digit ->{0-9} digits->digit+

图3-11digit就是正则定义,右边是正则表达式。

scheme 中对闭包编译中的处理_scheme 中对闭包编译中的处理_10


  1. 每个d1都是一个新符号,他们都不在E中,并且各不相同。
  2. 每个r都是字母表E  U {d1,d2,d3,d4..dn-1}的正则表达式。

scheme 中对闭包编译中的处理_词法_11

  1. 状态转换图-确定的有穷自动机和不确定的又穷自动机

我们可以将正则表达式转换成状态转换图

初始状态  接受状态,终结状态

Relop  关系运算符

scheme 中对闭包编译中的处理_词法_12


scheme 中对闭包编译中的处理_词法_13


scheme 中对闭包编译中的处理_字符串_14


Digit表达式对应的状态转换图:

scheme 中对闭包编译中的处理_正则表达式_15


 

自动机:  有穷自动机是识别器,他们只能对每个可能的输入串简单的回答 “是”或者“否”。

  1. 不确定的有穷自动机,对齐边上的标号没有任何限制,一个符号标记离开同一状态的多边条。并且空串E也可以作为标号。
  2. 对于每个状态及自动输入字母表的每个符号,确定的有穷自动有且只有一条离开该状态,以该符号为标号的边。

 

 

 

 

不确定的有穷自动机:

   1一个有穷的状态集合S

   2 一个输入符号集合E 即输入字母表,我们假设代表空串的E不是E中的元素

   3  一个转换函数,他为每个状态和E U {E}中的每个符号都给出了相应的后继状态的集合

   4 S中的一个状态被S0被指定为开始状态

   5  S的一个字节F被指定为接受状态集合

确定的有穷自动机

确定的有穷自动机(Deterministic Finite Automate,下文简称DFA)是NFA的一个特例,其中:

 

标记集合:一个输入符号集合∑,但不包含空串ε;

转换函数:对每个状态s和每个输入符号a,有且仅有一条标号为a的边离开s,即转换函数的对应关系从一对多变为了一对一。