一、基础概念

1集合:

集合是一个无序的、不重复的数据组,它的作用:

1)、去重复、把一个列表变成集合,就会自动去重

2)、关系测试,测试两组数据之间的交集、差集、并集等关系

集合的方法:

a、设置集合

>>>list_1 = [1,3,5,6,77,3,12]   #列表1
>>>list_2 = [1,3,88,4,33,77]  #列表2
>>>list_1 = set(list_1)  #通过set方法可以将列表变为集合
>>>list_1
{1, 3, 5, 6, 12,77}  #集合list_1现在已经去重
>>>list_2 = set(list_2)
>>>list_2
{1, 33, 3, 4, 77,88}
>>>print(list_1,type(list_1))#打印list_1类型,发现为set类型,证明为集合

 

b、取交集 intersection(list_1  list_2共有的元素)

>>>list_1.intersection(list_2)    
{1, 3, 77}
>>> print(list_1  & list_2)
{1, 3, 77}
#上述两种方法均可以取出list_1与list_2的交集

c、取并集union(list_1 与list_2中全部去重元素)

>>>list_1.union(list_2)                 
{1, 33, 3, 4, 5,6, 12, 77, 88}
>>>list_1  | list_2
{1, 33, 3, 4, 5,6, 12, 77, 88}
#上述两种方法取两个集合的全部去重元素

d、取差集(差集是一个集合有,但是另一个集合没有的元素,所以差集可以得到两种不同的结果)

>>>list_1.difference(list_2) #list_1中存在但是list_2中不存在
{12, 5, 6}
>>>list_2.difference(list_1) ##list_2中存在但是list_1中不存在
{88, 33, 4}
>>> list_1 - list_2
{12, 5, 6}
>>> list_2 - list_1 
{88, 33, 4}

 基本操作:

a、添加(集合操作没有插入动作,只能添加)

>>> list_1
{1, 3, 5, 6, 12,77}
>>>list_1.add(999)    #添加单项
>>>list_1.add('wang')
>>>list_1
{1, 3, 5, 6, 999,12, 77, 'wang'}
>>>list_1.update(['alex','john','tom'])  #添加多项
>>>list_1
{1, 3, 5, 6, 999,12, 77, 'john', 'tom', 'wang', 'alex'}

b、删除

>>>list_1
{1, 3, 5, 6, 999,12, 77, 'john', 'tom', 'wang', 'alex'}
>>>list_1.remove(999)  #通过remove方法删除,删除后不显示删除项,删除需要明确指定删除项的内容,因为集合是无序的,没有索引的概念
>>>list_1
{1, 3, 5, 6, 12,77, 'john', 'tom', 'wang', 'alex'}
>>>list_1.remove(wang)  #针对字符串需要加引号
Traceback (mostrecent call last):
  File "<stdin>", line 1, in <module>
NameError: name 'wang'isnot defined
>>>list_1.remove('wang')
>>>list_1
{1, 3, 5, 6, 12,77, 'john', 'tom', 'alex'}
>>> list_1.pop()  #pop方法属于随机删除,删除后显示删除的内容
1
>>>list_1.pop()
3
>>>list_1.pop()
5
>>>list_1.pop()
6
>>>list_1.pop()
12
>>>list_1.pop()
77
>>>list_1.pop()
>>>list_1.pop()
'john'
>>>list_1
{'tom', 'alex'}

c、discard删除

>>>list_1
{'wang', 1, 3, 5, 6, 999, 12, 77, 'john', 'tom', 'alex'}
>>>list_1.discard(999)  
>>>list_1
{'wang', 1, 3, 5, 6, 12, 77, 'john', 'tom', 'alex'}
>>>list_1.discard(888)    #discard与remove的不同之处在于,discard如果是删除不存在的内容,不会报错,但是remove会报错
>>>list_1.remove(999)
Traceback (mostrecent call last):
  File "<stdin>", line 1, in <module>
KeyError: 999

d、长度len

>>>len(list_1)
10
>>>list_1
{'wang', 1, 3, 5, 6, 12, 77, 'john', 'tom', 'alex'}

e、成员判断(in 和not in)

>>>list_1
{'wang', 1, 3, 5, 6, 12, 77, 'john', 'tom', 'alex'}
>>> 'wang'in list_1
True
>>> 11 in list_1     
False
>>> 11 notin list_1
True

 

 2、文件操作:

1、文件操作包括以下几种方式:

1)读模式

>>> data= open('yesterday.txt', 'r')   #open函数默认是读默认,所以r可以省略,但是为了规范最好写清楚已哪种方式打开
>>> print(data)  #当打开这个文件后,print会返回该文件名字,默认与默认编码等文件本身属性
<_io.TextIOWrappername='yesterday.txt' mode='r' encoding='UTF-8'>

2)写模式

>>> data= open('yesterday1.txt', 'w')   #文件已写模式打开
>>>data.write('1234\n')   #当打开后,可以使用wirite方法进行写入操作,如果需要每行结束后换行,需要手动添加“\n”  这样保证在输入后进行换行操作,当写入后,会自动提示写了多少个字符
5
>>> f =data.read()    #由于模式之间不兼容,如果只以写模式打开文件,进行读操作会报错
Traceback (mostrecent call last):
  File "<stdin>", line 1, in <module>
io.UnsupportedOperation:not readable

3)追加模式

>>> data= open('yesterday1.txt', 'a')  #和写模式不同,已追加模式打开文件,不会覆盖原文件内容,只会在文件后面进行添加,如果以w模式打开,会将文件原有内容全部清空,重新编写
>>>
>>>
>>>data.write('wwwyy\n')   #对于写与追加模式,都可以进行write操作
6
>>> f =data.read()    #追加模式也同样不能进行读操作
Traceback (mostrecent call last):
  File "<stdin>", line 1, in <module>
io.UnsupportedOperation:not readable

 

  总结:

文件打开最常用三种模式为读、写、追加。默认为open函数以读模式方式工作,在读模式中可以读取文件内容,写与追加模式均可以对文件进行修改,不同的是,读模式打开文件后,会将原有文件内容清空,添加新内容,而追加模式不会清空原有内容,会在文件最后添加新的需要追加的内容,至于如何在将r、w和a模式进行结合操作,会在修改文件时进行介绍

2、读模式的相关操作

1)read操作

>>>data= open('yesterday.txt', 'r')

>>>data.read()    #read操作会一次性将文件全部内容读取到内存中

'往日重现\n\n当我年轻的时候\n听着收音机\n等待着我最喜爱的歌\n当它播放时我独自跟唱\n让我心情愉快起来\n\n就像那些快乐时光\n惊讶消失的无影无踪\n但当它们回来时\n就像是久没联络的朋友一样\n这都是我喜欢的歌\n\n每个Sha-la-la-la\n每个Wo-o-wo-o\n记忆依鲜明\n每个shing-a-ling-a-ling\n节奏依然美好\n\n当故事到了那个段落\n他伤了她的心\n让我流下泪来\n就像从前\n往日重现'

>>>data.read()  # 由于文件指针的存在,当一次性读取文件到内存后如果不进行指针回退操作前再次读取,会返回空值,表示该内容上一次已经读取完毕,本次读取没有内容显示

2)readline操作

>>>data= open('yesterday.txt', 'r')
>>>data.readline()  #与read操作一次性读取不同,readline操作每次只会读取一行内容存储到内存中,readline方法可以针对每行内容进行操作
>>>data.readline()
'往日重现\n'

3)readlines操作

>>>data= open('yesterday.txt', 'r')
>>> data.readlines()#区别于read于readline操作,readlines操作也是一次性读取,不同的是它会将读取的内容放入到一个列表中,这样后续可以操作列表的方式对该文件内容进行需要的操作

4)close操作

>>>data.close() #在r、w、a操作的最后需要将文件关闭,采用close方法进行关闭,这样才会将文件修改保存到硬盘中,如果没有关闭操作,默认情况下都是在内存中进行操作的

5)文件的编码格式

>>>data= open('yesterday.txt', 'r',encoding='utf-8') #在打开文件时需要跟文件的编码格式,python3中默认是采用utf-8格式的编码,所以可以省略
>>> print(data)
<_io.TextIOWrappername='yesterday.txt' mode='r' encoding='utf-8'>

 

3、文件的其他操作

1)encoding:打印文件编码

>>>data.encoding
'utf-8'

2)  fino()返回文件句柄所在操作系统的编码  基本不使用操作

3)isatty()该文件是否是一个终端设备,linux系统中可以用来判断是否是一个tty文件

4)name打印文件名称

>>>data.name
'yesterday.txt'

5)  seekable() 是否可以移动指针

>>>data.seekable()
True

6)  flush()刷新操作:

如果以写模式打开文件,写完后不一定立即写入磁盘,如果此时突然断电可能没有及时写入进文件,所以可以通过flush方法刷新进磁盘

例子:可以在安装程序时,打印进度条

importtime,sys
for i in range(50):
    sys.stdout.write('#')
    sys.stdout.flush()  #将#号实时刷新到屏幕上来
    time.sleep(0.1)

7)closed 判断文件是否关闭

>>>data.closed
False
>>>data.close()
>>>data.closed
True

8)  truncate()如果不写入任何东西就是清空文件

data.truncate(10)会只保留10个字节,其余的会删除,同时truncate自带文件指针,无论通过seek移到任何位置,truncate都会按照初始位置来删除与保留

 

4、修改文件:

  修改文件分为两种模式:

1、将文件全部读入内存中,然后修改,该方式典型代表就是vim程序

2、将文件按照行模式读,然后每行操作完毕后再放入新文件,这种方式节约内存占用,类似与sed与awk操作

 

对于文件操作,除了典型r/w/a方式外还有其他操作,下面来简要介绍这几种更常用操作:

1)r+  读写操作,表示又能读又能写,这个表示以读与追加模式开始,如果写,会将写的内容放入最后

2)w+写读模式,创建新文件,输入内容,然后读取文件指针所在位置,在回退,再输入,会发现插入的内容,仍然在最后而不是通过seek调转

3)a+追加读模式,在追加的过程中可以进行读

5、二进制文件

针对二进制文件有两种方式,rb与wb,其中两种情况下使用rb:

1、网络传输,socket传输时只能使用二进制格式编码

2、视频文件打开,也必须使用二进制格式打开

6、with语句

当with代码执行完毕后,内部会自动关闭并释放文件所在内存,同时也可以同时打开多个文件

with open('tes2.txt','w') as f, open('test3.txt','w') as f2:#两个文件之间用‘,’来分割
    f.write('nnn\n')
    f2.write('mmmm\n')

 

3、字符编码与转码

知识点:

1.在python2默认编码是ASCII, python3里默认是unicode

2.unicode 分为 utf-32(占4个字节),utf-16(占两个字节),utf-8(占1-4个字节), soutf-16就是现在最常用的unicode版本,不过在文件里存的还是utf-8,因为utf8省空间

3.在py3中encode,在转码的同时还会把string 变成bytes类型,decode在解码的同时还会把bytes变回string

在介绍编码之前先介绍下计算机语言与人类可识别语言转换:

计算机只能识别二进制编码,即0和1,在二进制编码中采用bit(位)来表示,但是这种方式对人类来讲是不可读的,所以初始阶段,发明了ASII码,即采用一个byte(8个bits)方式来表示人类可识别字母,2的8次方-1也就是使用255个ASII码来表示A-Za-z0-9这些数字与字母,但是对于非英语国家来说,255个字符表示没法完全表示自己本国语言,对于中国来说,本身采用了gbk gbk2308 gbk2312等编码方式来进行特定的编码,但是这种方式到了其他国家由于编码格式未统一,所以导致本国的程序到其他国家未必会被采用,基于这种情况,标注化组织开发了unicode即万国码的方式来代替了原有的各自为政的局面,unicode要求:最少已2个资金来表示,这样又引入了新的问题,就是比较浪费资源,所以最后统一使用utf-8编码方式:英语国家采用ASII编码,一个字节,欧洲等国家采用两个字节,而中国这种亚洲国家采用3个字节来表示自己的编码,至此解决了编码方式的问题

在说的编码与解码,由于类似bgk与utf-8之间没法直接转换,都需要经过unicode作为中转编码,所以需要编码与解码过程

import sys
print(sys.getdefaultencoding())   #打印得出默认编码为utf-8
utf-8
s = '你好'      #在python3中默认编码为unicode
s_gbk = s.encode('gbk')  #由于默认编码为unicode,所以这里从unicode到gbk编码采用的是encode模式,因为unicode没有decode过程了,可以直接encode
print(s_gbk)  #这里输出为gbk编码格式
b'\xc4\xe3\xba\xc3'
s_to_utf8 =s.encode('gbk').decode('gbk').encode('utf-8')  '''从bgk变为utf-8:需要先把编码encode为bgk,然后在解码decode,解码是告诉自己为bgk,这时已经转换为unicode了,再从unicode状态encode成utf-8'''
print(s_to_utf8)
b'\xe4\xbd\xa0\xe5\xa5\xbd'
s_to_unicode =s.encode('gbk').decode('gbk').encode('utf-8').decode('utf-8')  #在上面的基础上再使用decode模式解码到unicode
print(s_to_unicode)
你好

 

4、函数

1、编程方式

1)面向对象:类 ,定义用class

2)面向过程:过程,定义用def

3)函数式编程:函数,定义用def

      其中函数式编程,其中没有任何变量,对于某一输入一定存在确定的输出,这种编程语言包括Lisp、relang,这里对函数式编码不做过多讨论

2、定义函数

def func1():   #通过def方式定义函数
  '''testing'''
  print('func1')
  return 0   #函数可以有返回值
 
a = func1()   #调用该函数

3、定义过程

def func2():  #定义过程与定义函数的区别在于定义过程是没有返回值的
    '''testing'''
    print('in the func2')

4、调用函数与调用过程,查看返回值

def func1():  
  '''testing'''
  print('func1')
  return 0
 
def func2():
    '''testing'''
    print('in the func2')
 
a = func1()  #调用函数1
b = func2() #调用过程2
 
print(a)
#打印返回值为0
print(b)
#打印没有返回值,按照默认来定义:None

 

5、使用函数的好处

1)代码的重复利用

2)程序容易扩展

3)保持代码的一致性

6、函数的返回值

def func1():
  '''testing1'''
 
def func2():
    '''testing2'''
    return 1
 
def func3():
    '''testing3'''
    return 1,[1,2,3,4,5,6,7],(1,2,4,3,3,'wang'),{'name':'gavin','age':99}
 
a = func1()
b = func2()
c = func3()
 
print(a)
None
print(b)
1
print(c)
(1, [1, 2, 3, 4,5, 6, 7], (1, 2, 4, 3, 3, 'wang'), {'age': 99, 'name': 'gavin'})

    返回值个数=0,返回None,系统默认返回空

    返回值个数=1,反正object,定义哪个返回值,就返回哪个

    反正值个数>1,返回tuple,当返回值个数大于1时,返回一个元组包含哪些需要返回的数值

 7、形参与实参

def func1(x,y):  #x与y时函数的形参,在没有调用该函数时,x与y不代表任何变量,不占用内存
  '''testing1'''
  x = x + y
  return x
 
 
a =func1(10,20)  #10与20是在调用该函数式传递给该函数的实参,目的是代替形参传入函数得到预期的结果
print(a)   #在没有默认参数的情况下,形参与实参是需要一一对应的,如果调用时不一一对应会导致报错
30

8、默认参数

def func1(x,y=20):#y有默认参数,但是实际调用时没有实参对y赋值,y将采用默认参数,需要注意的是,默认参数要放在最后

 

def func1(x,y=20):#y有默认参数,但是实际调用时没有实参对y赋值,y将采用默认参数,需要注意的是,默认参数要放在最后
  '''testing1'''
  x = x + y
  return x
a = func1(10)
print(a)
30
b = func1(11,21)
print(b)
32

  默认参数特点:

调用函数时,默认参数可有可无,默认参数的用途是1在默认安装软件时使用,2在连接数据库端口号时使用

9、局部变量与全局变量

  局部变量只在函数中生效,而全部变量是在整个程序中都生效的变量,代码顶层定义的变量,局部变量变成全局变量需要在函数中global这个局部变量,但是千万不要这么使用,但是需要注意的是,列表、字典、集合、类都是可以在函数中修改内容的,字符串与整数在局部变量中不能修改

name = 'gavin'
 
def my(name,age):
    name = 'jack'   #局部变量
    age = 23
    return name,age
 
 
a =my(name,44)   #name的局部变量在函数中生效变为jack,但是函数结束后仍然为gavin这个全局变量
print(a)   #传入的44在函数中没有生效
('jack', 23)
print(type(a))  #返回值多于一个,反正的是tuple
<class 'tuple'>
print(a[0])  #可以按照元组方式调用返回值
jack
print(a[1])
23
print(name)
gavin


a = 'gavin'
 
def my(name):
    global a    #将a变为全局变量
    name = 'jack'   #局部变量
    a = 'john'
    print(name,a)
 
my('a')
jack john
print(a)
john
names = ['alex','gavin','tom']
 
def my():
    print(names)
    names[1] = 'jack'   #将全局变量中的names[1]修改为jack
    return names
 
my()
['alex', 'gavin', 'tom']
print(names)  #在打印时发现局部变量中的jack替换了全部变量中的gavin
['alex', 'jack', 'tom']

10、递归

在函数内部,可以调用其他函数,如果一个函数在内部调用函数本身,这个函数就叫做递归函数

  递归的特点:

1)必须有一个明确的结束条件

2)每次进入更深的一层递归时,问题规模相比上一次递归应有所减少

3)递归效率不高,递归层次过多会导致栈溢出(在计算机中,函数调用是通过栈这种数据结构实现的,每当进入一个函数调用,栈会增加一层栈帧,每当函数返回会减少一层栈帧,由于栈的大小不是无限的,所以递归次数过多会导致栈的溢出)

defcalc(n):
    print(n)
    if int(n/2) > 0:
       returncalc(int(n/2))
    print('--->', n)
calc(10)
10
5
2
1
---> 1

11、高阶函数

变量可以指向函数,函数的参数能接受变量,那么一个函数就能接收另一个函数作为参数,这种函数叫做高阶函数

def add(a,b,f):
    return f(a) + f(b)
res =add(3,-10,abs)
print(res)
13