一、什么是结构化数组

“结构化数组”这一称呼来源于C语言,在C语言中,如果我们需要创建一个“ 学生 ”的数组,每一个学生包括 姓名、年龄、性别、体重 四个信息,我们需要先构造一个结构体,然后使用结构体数组。得到的数组的形式如下所示: 

 

name

age

weight

0

张三

22

68

1

李四

27

56

2

王五

25

62

当然,这样的数组我们要使用面向对象的编程语言去实现,再简单不过了,但是这样的数组我们在numpy里面该怎么实现呢 ?

二、numpy创建数组的方式

比如有一个numpy数组

a=np.array([1,2,3,4,5],dtype=np.int32)    #创建数组时,每一个元素的“ 类型 ”都是相同的,

也就是说,如果要创建类似于上面的“ 结构体数组 ”,第一件事情是需要定义一个 全新的dtype。参见下面的代码:

import numpy as np

student_type = {'names': ('name', 'age', 'sex', 'weight'), 'formats': ('U10', 'i4', 'U6', 'f8')}
students = np.array(
    [('袁菲', 25, '女', 55), ('张三', 22, '女', 65), ('李四', 28, '男', 70), ('赵二', 21, '女', 49), ('王五', 29, '男', 85)],
    dtype=student_type)
print(student_type)
print('========================================================================')
print(students)
print('========================================================================')
print(students.shape)  # 数组形状
print('========================================================================')
print(students.dtype)  # 数组元素类型
print('========================================================================')
row1 = students[0]  # 返回某一行,依然使用索引index
print(row1)
print('========================================================================')
name = students['name']  # 返回某一列,
print(name)
print('========================================================================')
sex = students['sex']
print(sex)
print('========================================================================')
element = students[1]['age']  # 返回某一行的某一列,即返回某一个 单元格 元素,等价于students[1][1]
print(element)

上面程序的运行结果为:

{'names': ('name', 'age', 'sex', 'weight'), 'formats': ('U10', 'i4', 'U6', 'f8')}
========================================================================
[('袁菲', 25, '女', 55.) ('张三', 22, '女', 65.) ('李四', 28, '男', 70.)
 ('赵二', 21, '女', 49.) ('王五', 29, '男', 85.)]
========================================================================
(5,)
========================================================================
[('name', '<U10'), ('age', '<i4'), ('sex', '<U6'), ('weight', '<f8')]
========================================================================
('袁菲', 25, '女', 55.)
========================================================================
['袁菲' '张三' '李四' '赵二' '王五']
========================================================================
['女' '女' '男' '女' '男']
========================================================================
22

总结:从上面的例子可以看出,numpy的结构化数组有点类似于pandas的使用,如果熟悉pandas的dataframe结构,就很简单了,但也有区别,比如我们不能通过这样的方式同时访问多个列:

name=students['name','weight']   #会显示错误
columns=students[['name','weight']] #这样就正确了


 

三、核心——如何创建自定义的dtype

创建结构体数组的关键和核心在于如何创建dtype,主要由以下几种创建方式:参考以下链接

https://docs.scipy.org/doc/numpy-1.13.0/user/basics.rec.html

注意:

(1)很多人不理解代码中的 ‘U10’  ‘i4’ ‘f8’ 是什么意思,其实它们代表的就是 固定长度的string、int4、float8,我们也可以直接使用  'U10'  ‘int'   'float' 代替,但是U10,不能直接使用str或者是string,具体原因我还没太弄清楚。

(2)np.dtype的本质上是一个类,我们可以使用help(np.dtype) 和 dir(np.dtype) 查看dtype类型的详细信息。

class dtype(builtins.object)   # 这就是dtype的定义

dir(np.dtype)
 

['alignment', 'base', 'byteorder', 'char', 'descr', 'fields', 'flags', 'hasobject', 'isalignedstruct', 'isbuiltin', 'isnative', 'itemsize', 'kind', 'metadata', 'name', 'names', 'ndim', 'newbyteorder', 'num', 'shape', 'str', 'subdtype', 'type']

上面是dtype的部分属性,没有完全列出来。

创建dtype的几种方式:字符串、列表、元组、字典

(1)方法一:使用字符串创建dtype类型

mytype='int,float,int'
         s=np.zeros(5,dtype=mytype)   #等价于s=np.zeros(5,dtype='int,float,int')

运行的结果是包含5个元素的结构体数组,这里结构体元素都是以单一的数字,我们还可以给结构体元素指定特定的形状,如下代码:

 

x = np.zeros(3, dtype='3int8, float32, (2,3)float64')
# 3int8 表示的是结构体的第一个元素是包含 3 个int元素的
# float 就表示第二个元素只是单纯的一个float值
# (2,3)float64 表示的是第三个元素是(2,3)的形状的 float元素

运行结果为:

     array([([0, 0, 0], 0.0, [[0.0, 0.0, 0.0], [0.0, 0.0, 0.0]]),

               ([0, 0, 0], 0.0, [[0.0, 0.0, 0.0], [0.0, 0.0, 0.0]]),

               ([0, 0, 0], 0.0, [[0.0, 0.0, 0.0], [0.0, 0.0, 0.0]])], dtype=[('f0', '|i1', 3), ('f1', '>f4'), ('f2', '>f8', (2, 3))])

总结:字符串创建自定义的“ 结构体元素 ”的方式为 ‘(形状)类型一,(形状)类型二,(形状)类型三’  的形式,而常见的一些类型可以如下一些形式:

     b1, i1, i2, i4, i8, u1, u2, u4, u8, f2, f4, f8, c8, c16, a<n> 或者是下面的也可以

  

int8,...,uint8,...,float16, float32, float64, complex64, complex128

(2)方法二:使用元组创建dtype类型

         这里暂时不做讨论,可参考前面的链接

(3)方法三:使用列表创建dtype类型

代码如下:
 

x = np.zeros(5, dtype=[('age','int'), ('height','i8'), ('weight',np.float), ('width','float',(2,3))])
 
# 第一个字段为age ,可以直接使用 int、float等等
 
# 第二个参数为height ,可以使用 i4、i8、f8等形式的参数
 
# 第三个参数为weight ,可以使用np的定义的类型
 
# 第四个参数为width ,还可以给参数指定形状(2,3)

运行结果为:

[(0, 0, 0., [[0., 0., 0.], [0., 0., 0.]])

(0, 0, 0., [[0., 0., 0.], [0., 0., 0.]])

(0, 0, 0., [[0., 0., 0.], [0., 0., 0.]])

(0, 0, 0., [[0., 0., 0.], [0., 0., 0.]])

(0, 0, 0., [[0., 0., 0.], [0., 0., 0.]])]    #第四个元素为(2,3)的形状

总结:使用列表定义dtype的一般格式为:

[ (' 字段一 ‘,’类型一‘,(形状一)),(' 字段二 ‘,’类型二,(形状二)),(' 字段三 ‘,’类型三‘,(形状三))]

(4)方法四:使用字典创建dtype类型

student_type={'names':('name', 'age', 'sex','weight'), 'formats':('U10', 'i4','U6', 'f8')}


通过指定字典的 names和formats 去实现。

四、dtype类型的相关操作

前面说过了,dtype本质上是一个类,因此有许多的属性可以访问和操作的

1、访问和修改字段名称——names属性

print(x.dtype.names)   #访问
x.dtype.names=('age','height','weight','width')   #修改字段名称

2、一次访问多个列

x[['col1','col2','col3']]  #使用两个中括号