python零基础轻松入门——字符和字符串-1

  字符:包括字母、数字、标点符号、空格(控制符)等都属于字符的一个子集。(一个数字或字母就是一个字符)。

字符编码:计算机要是想计算的话必须把我们通常使用的十进制数字转化成二进制数,二进制数才是计算机能够直接认识的,字符被电脑处理的话,需要在字符和电脑的二进制之间建立起一种关系那么我们就把这种对应关系称为字符编码。二进制数字表示字符在计算机中的内存地址。

最早的字符编码是美国在1960年代发布的美国信息交换标准代码,简称ASCII 这个ASCII主要是规定了英语字符在计算机中的编码,1986年的时候发布了最新的一版一共规定了128个字符的编码,在python交互模式下可以查看ASCII里所规定的字符所对应的字符编码是多少,使用内置函数ord()查看小写字母a对应的字符编码,>>>ord('a')回车返回显示97,表示字符a在ASCII中对应的的字符编码是97,97是把二进制转换成对应的十进制后是97,看它的二进制可以用bin(97)可以查询97所对应的二进制数字'0b1100001'后七位(1100001)是97对应的二进制数字,在ASCII里每个字符编码只占用一个字节,一个字节是8位,占用了一个字节的后七位,最前面的一位被统一规定位0.     a对应的ASCII里的编码是01100001转化成十进制表示就是97,(ps:bin(97)显示'0b1100001',0b表示十进制【是不同进制的表现形式方便直观】,转换后的二进制数字就是97在计算机中的内存地址)

ASCII对英语来说足够了,但是对其他语言如汉语也用一个字节表示一个汉字,一个字节是8位最多能表示256种字符汉字不够用,需要多个字节表示一个字符,现在常用的一个简体中文编码中就会用两个字节表示一个汉字,这样理论上就能支持256*256个字符,不同语言之间的编码不一样于是出现了Unicode统一的编码方案,中文成为万国码 、统一码、单一码等,目的就是把不同语言的编码方案统一起来。Unicode是一个很大的字符集,而没有制定编码规则,所以就需要再制定Unicode的实现方式,也就是所谓的编码规则,简称为utf,就出现了utf-16、utf-32等编码规则,现在使用最广泛的是utf-8的编码规则,也是互联网普遍采用的Unicode的实现方式。在python交互模式下通过引入标准库中的sys模块可以查询当前电脑所默认使用的编码方式,>>>import sys >>>sys.getdefaultencoding()显示'utf-8'   表示当前电脑磨人的编码规则是utf-8的格式。

字符串('str'):用一对双引号或单引号(成对出现),把字符引起来,就是一个字符串。可以用内置函数type()来检查这个对象类型是不是'str',是不是字符串。

出现:what's your name这种 “ 's”,这种情况需要:"what's you name"或 'what"s your name'或 'what\'s your name'(“ \ ”称为转义字符),加上\后第二个‘ ' ’’与第一个和第三个“ ' ”,在这个字符串中所表达的含义不再相同,不再认为第一个和第二个是一对符号。

序列:有序排列的一个对象,排列的元素如果顺序发生变化那就会变成一个新的对象。

所有的序列都具有以下集中操作:首先就是使用“+”可以连接,生成一个新的序列,原来的序列还会保留着,“+”号两边必须是同种对象类型(同是字符串或数字类型要一致)。eg:>>>a = 'ni'  >>>b = 'hao' >>>a + b  回车显示'nihao'。

>>>a * 3 显示'ninini'把a这个序列(字符串)重复三遍。

用内置函数len()可以测试这个序列的长度,>>>len(a) 显示2 (它显示这个字符串里一共有多少字符),>>>name = '你好' 显示2 【汉字算一个字符(实际上占两个字节),英文字母也算是一个字符(实际上占一个字节)】

对于序列来讲判断元素是不是在这个序列中的可以用符号是in,例如:>>>a = 'hello' >>>'h' in a 显示true(说明'h'在'hello'这个序列中) , >>>'d' in a 显示false (说明'd' 这个字符不在'a'这个字符串里面)。