《编译原理》学习第 5 天,p25-p32总结,总计 8 页。

一、技术总结

1.lexical

lexical这个单词后续会经常用到,所以首先要搞懂它的英文意思,不然看到中文的“词法,语法,文法”这三个词的时候就会懵了——lexical对应这三个里面的哪一个?

(1)lexical: lexicon + al,加al后缀,表明lexical是一个形容词(adjective)。

(2)lexicon: 词根是lexis(a word)。all the words used in a particular language。意思是“全部词汇”,“词典”。

(3)lexical: adj. relating to words,词汇(word)相关的。

所以lexical 对应着“词(word)法”, lexical analyzer称为词法分析器。

2.production

(1)定义

p26,以C语言中的if-else 语句为例:

if (expression) statement else statement

如果使用expr表expression,使用stmt表示statement,那么上述语句就可以表示成:

stmt -> if (expr) stmt else stmt

->表示“can have the form”。形如“stmt -> if (expr) stmt else stmt”这样的rule称为production。

(2)作用

书中没有给出明确的定义,按照书中的定义,长“stmt -> if (expr) stmt else stmt”这样的就叫做production, 再简化一下还可写成: x -> y,“ x -> y”这个production的含义是什么呢?它的含义是x可以转为y。

(3)left side & right side

以 “stmt -> if (expr) stmt else stmt” 这个production为例,-> 左边的部分称为production的left side,-> 左边的部分称为production的right side。

3.token/terminal

在production中,lexical element(如:if, else)和 parenthsis称为token,也称为terminal、terminal symbol。

p27, “we assume that digits, signs such as <=, and boldface strings such as while are terminals”。根据这句话,terminal包含:(1)digit:如1,2,3。(2)signs: 如 <=。(3)boldface string: 如while。这里用boldface string很不好,boldface是从印刷的角度来说的,那非boldface的string是不是terminal呢?

4.nonterminal

stmt -> if (expr) stmt else stmt" 这个production

p26, variables like expr and stmt represent sequences of tokens and are called nonterminals。在这里,作者没有给出nonterminal的明确定义,暂且根据这句话的意思把像expr和stmt这样的variable称为nonterminal,然后继续往下阅读。

5.context-free grammar

(1)定义

首先,得对context-free grammar下定义,什么是context-free grammar?p26, In this section, we introduce a notation, called a context-free grammar(grammar, for short), for specifying the synaxt of a language。用于指定语言的语法的符号称为上下文无关文法,简写为grammar。

context-free grammar由四部分构成:

(1)a set of terminals。

(2)a set of nonterminals。

(3)a set of production。

(4)a start symbol。

“a designation of one of the nonterminals as the start symbol”——根据书中的定义,start symbol是从nonterminals中指定的。

6.|符号(or)

p27, For notational convenience, productions with the same nonterminals on the left can have their right sides grouped, with the algernative right sides separated by the symbol |, which we read as “or.”——为了方便表示,可以把多个具有相同left side的production,写成一个production,production的right side用符号| 隔开,|读者“or”。

示例:

以7,3-1,9-5+2, 为例,我们把数字称为digit(即1是一个digit, 2是一个digit, 3是一个digtit…), 把用+号或-号隔开的expression称为list( "3-1"即是一个list,"9-5+2"是一个list,1等数字是特殊的list),那么上面这三个expression使用production来表示可以写成:

(1)digit -> 0 | 1 | 2 | 4 | 5 | 6 | 7 | 8 | 9

(2)list -> digit

(3)list -> list - digit

(4)list -> list + digit

因为(2)、(3)、(4)这3个production的left side是一样的,都是list, 那么可以写成一个production:

list -> digit | list - digit | list + digit

7.production for nonterminal

p27, We say a production is for a nonterminal if the nonterminal appears on the left side of the production。

如果一个nonterminal出现在production的left side, 那么我们就说这个production是这个nonterminal的production(这里有点拗口,书上用的是for表示,意思就是这个production是归属于这个nonterminal的)。

当看到“production for nonterminal”我们就要想到nonterminal是在production的left side。

8.parse tree

(1)tree

关于tree相关的定义,参考维基百科即可。书中提到的interior node,实际就是我们常说的internal node。

(2)定义

grammar可以用tree来表示,这样的tree称为parse tree。parse tree描绘了从start symbol生成string(如:9-5+2)的过程。

二、其它

alphabet, string, language这三个概念书中没有严格的定义,但却又是核心概念,可以参考《Introduction to Automata Theory Languages and Computation》这本书。

今天的读书笔记写了很多,也是因为书上很多概念没有明确的定义,需要把相关的内容全部记下然,然后做交叉验证。

四、参考资料

1. 编程

(1)Alfred V. Aho,Monica S. Lam,Ravi Sethi,Jeffrey D. Ullman,《编译原理(英文版·第1版)》

2. 英语

(1)Etymology Dictionary:https://www.etymonline.com

(2) Cambridge Dictionary:https://dictionary.cambridge.org

《编译原理》阅读笔记:p25-p32_git

欢迎搜索及关注:编程人(a_codists)