numa架构的处理器 numa架构详解

转载

mob64ca14017c37 2024-02-28 08:51:45

文章标签 numa架构的处理器数据结构 linux 驱动开发开发语言 文章分类 架构后端开发

给出了下述内存划分的图示（该情形多少简化了一些，在我们详细讲解数据结构时，读者可以看到这一点）。

首先，内存划分为结点。每个结点关联到系统中的一个处理器，在内核中表示为pg_data_t的实例（稍后定义该数据结构）。各个结点又划分为内存域，是内存的进一步细分。还有一个高端内存区域无法直接映射。一个结点最多由3个内存域组成。内核引入了下列常量来区分它们。

numa架构的处理器 numa架构详解_numa架构的处理器

NUMA系统中的内存划分

内核引入了下列常量来枚举系统中的所有内存域：.

<mmzone.h>
enum zone_type {
#ifdef CONFIG_ZONE_DMA
         ZONE_DMA,
#endif
#ifdef CONFIG_ZONE_DMA32
         ZONE_DMA32,
#endif
　　  ZONE_NORMAL,
#ifdef CONFIG_HIGHMEM
　　  ZONE_HIGHMEM,
#endif
　　  ZONE_MOVABLE,
　　  MAX_NR_ZONES
};

ZONE_NORMAL标记了可直接映射到内核段的普通内存域。这是在所有体系结构上保证都会存在的唯一内存域，但无法保证该地址范围对应了实际的物理内存。例如，如果AMD64系统有2 GiB内存，那么所有内存都属于ZONE_DMA32范围，而ZONE_NORMAL则为空。

 ZONE_HIGHMEM标记了超出内核段的物理内存。(注意，ZONE_HIGHMEM的范围是896M~结束，该区域即为高端内存，内核不能直接使用。）

出于性能考虑，在为进程分配内存时，内核总是试图在当前运行的CPU相关联的NUMA结点上进行。但这并不总是可行的，例如，该结点的内存可能已经用尽。对此类情况，每个结点都提供了一个备用列表（借助于struct zonelist）。该列表包含了其他结点（和相关的内存域），可用于代替当前结点分配内存。列表项的位置越靠后，就越不适合分配。

数据结构

pg_data_t是用于表示结点的基本元素，定义如下：

<mmzone.h>
typedef struct pglist_data {
　　struct zone 　　node_zones[MAX_NR_ZONES];
　　struct zonelist 　　node_zonelists[MAX_ZONELISTS];
　　int　　　　　　 nr_zones;
　　struct page　　 *node_mem_map;
　　struct bootmem_data *　　bdata;
　　unsigned long 　　node_start_pfn;
　　unsigned long 　　node_present_pages; /* 物理内存页的总数 */
　　unsigned long　　 node_spanned_pages; /* 物理内存页的总长度，包含洞在内 */
　　int　　　　　　 node_id;
　　struct pglist_data *　　　　pgdat_next;
　　wait_queue_head_t　　 kswapd_wait;
　　struct task_struct *　　　　kswapd;
　　int 　　　　　　kswapd_max_order;
} pg_data_t;

 node_zones是一个数组，包含了结点中各内存域的数据结构。

 node_zonelists指定了备用结点及其内存域的列表，以便在当前结点没有可用空间时，在备用结点分配内存。

 结点中不同内存域的数目保存在nr_zones。

 node_mem_map是指向page实例数组的指针，用于描述结点的所有物理内存页。它包含了结点中所有内存域的页。

 在系统启动期间，内存管理子系统初始化之前，内核也需要使用内存（另外，还必须保留部分内存用于初始化内存管理子系统）。为解决这个问题，内核使用了3.4.3节讲解的自举内存分

配器（boot memory allocator）。bdata指向自举内存分配器数据结构的实例。

 node_start_pfn是该NUMA结点第一个页帧的逻辑编号。系统中所有结点的页帧是依次编号的，每个页帧的号码都是全局唯一的（不只是结点内唯一）。node_start_pfn在UMA系统中总是0，因为其中只有一个结点，因此其第一个页帧编号总是0。node_present_pages指定了结点中页帧的数目，而node_spanned_pages则给出了该结点以页帧为单位计算的长度。二者的值不一定相同，因为结点中可能有一些空洞，并不对应真正的页帧。

 node_id是全局结点ID。系统中的NUMA结点都从0开始编号。

 结点状态管理

如果系统中结点多于一个，内核会维护一个位图，用以提供各个结点的状态信息。状态是用位掩码指定的，可使用下列值：

内核使用zone结构来描述内存域。其定义如下：

<nodemask.h>
enum node_states {
　　N_POSSIBLE, /* 结点在某个时候可能变为联机 */
　　N_ONLINE, /* 结点是联机的 */
　　N_NORMAL_MEMORY, /* 结点有普通内存域 */
#ifdef CONFIG_HIGHMEM
　　N_HIGH_MEMORY, /* 结点有普通或高端内存域 */
#else
　　N_HIGH_MEMORY = N_NORMAL_MEMORY,
#endif
　　N_CPU, /* 结点有一个或多个CPU */
　　NR_NODE_STATES
};

状态N_POSSIBLE、N_ONLINE和N_CPU用于CPU和内存的热插拔。对内存管理有必要的标志是N_HIGH_MEMORY和N_NORMAL_MEMORY。如果结点有普通或高端内存则使用N_HIGH_MEMORY，仅当结点没有高端内存才设置N_NORMAL_MEMORY。

<mmzone.h>
struct zone {
　　
　　/*通常由页分配器访问的字段 */
　　unsigned long　　pages_min, pages_low, pages_high;
　　unsigned long　　lowmem_reserve[MAX_NR_ZONES];
　　struct per_cpu_pageset　　 pageset[NR_CPUS];
　　/*
　　　　* 不同长度的空闲区域
　　*/
　　spinlock_t lock;
　　struct free_area　　 free_area[MAX_ORDER];
　　ZONE_PADDING(_pad1_)
　　/* 通常由页面收回扫描程序访问的字段 */
　　spinlock_t 　　lru_lock;
　　struct list_head 　　active_list;
　　struct list_head 　　inactive_list;
　　unsigned long 　　nr_scan_active;
　　unsigned long 　　nr_scan_inactive;
　　unsigned long　　 pages_scanned; /* 上一次回收以来扫描过的页 */
　　unsigned long　　 flags; /* 内存域标志，见下文 */
　　/* 内存域统计量 */
　　atomic_long_t　　 vm_stat[NR_VM_ZONE_STAT_ITEMS];
　　int 　　　　　　prev_priority;
　　ZONE_PADDING(_pad2_)
　　/* 很少使用或大多数情况下只读的字段 */
　　wait_queue_head_t*　　 wait_table;
　　unsigned long        wait_table_hash_nr_entries;
　　unsigned long        wait_table_bits;
/* 支持不连续内存模型的字段。 */
　　struct pglist_data     *zone_pgdat;
　　unsigned long　　zone_start_pfn;
　　unsigned long　　spanned_pages; /* 总长度，包含空洞 */
　　unsigned long　　present_pages; /* 内存数量（除去空洞） */
/*
* 很少使用的字段：
*/
　　char　　*name;
} ____cacheline_maxaligned_in_smp;

该结构比较特殊的方面是它由ZONE_PADDING分隔为几个部分。这是因为对zone结构的访问非常频繁。内核使用ZONE_PADDING宏生成“填充”字段添加到结构中，以确保每个自旋锁都处于自身的

缓存行中。还使用了编译器关键字__cacheline_maxaligned_in_smp，用以实现最优的高速缓存对齐方式。
 pages_min、pages_high、pages_low是页换出时使用的“水印”。如果内存不足，内核可以将页写到硬盘。这3个成员会影响交换守护进程的行为。
 如果空闲页多于pages_high，则内存域的状态是理想的。
 如果空闲页的数目低于pages_low，则内核开始将页换出到硬盘。
 如果空闲页的数目低于pages_min，那么页回收工作的压力就比较大，因为内存域中急需空闲页。
 lowmem_reserve数组分别为各种内存域指定了若干页，用于一些无论如何都不能失败的关键
性内存分配。各个内存域的份额根据重要性确定。
 pageset是一个数组，用于实现每个CPU的热/冷页帧列表。内核使用这些列表来保存可用于
满足实现的“新鲜”页。但冷热页帧对应的高速缓存状态不同：有些页帧也很可能仍然在高
速缓存中，因此可以快速访问，故称之为热的；未缓存的页帧与此相对，故称之为冷的。
 free_area是同名数据结构的数组，用于实现伙伴系统。每个数组元素都表示某种固定长度的一些连续内存区。对于包含在每个区域中的空闲内存页的管理，free_area是一个起点。
 第二部分涉及的结构成员，用来根据活动情况对内存域中使用的页进行编目。如果页访问频
繁，则内核认为它是活动的；而不活动页则显然相反。在需要换出页时，这种区别是很重要
的。如果可能的话，频繁使用的页应该保持不动，而多余的不活动页则可以换出而没有什么
损害。
具体涉及的结构成员如下：
 active_list是活动页的集合，而inactive_list则不活动页的集合（page实例）。
 nr_scan_active和nr_scan_inactive指定在回收内存时需要扫描的活动和不活动页的数目。
 pages_scanned指定了上次换出一页以来，有多少页未能成功扫描。

flags描述内存域的当前状态。允许使用下列标志：

<mmzone.h>
typedef enum {
　　ZONE_ALL_UNRECLAIMABLE, /* 所有的页都已经“钉”住 */
　　ZONE_RECLAIM_LOCKED, /* 防止并发回收 */
　　ZONE_OOM_LOCKED,
　　/* 内存域即可被回收 */
} zone_flags_t;

 zone_start_pfn是内存域第一个页帧的索引。

冷热页

struct zone的pageset成员用于实现冷热分配器（hot-n-cold allocator）。内核说页是热的，意味着页已经加载到CPU高速缓存，与在内存中的页相比，其数据能够更快地访问。相反，冷页则不在高
速缓存中。在多处理器系统上每个CPU都有一个或多个高速缓存，各个CPU的管理必须是独立的。

numa架构的处理器 numa架构详解_数据结构_02

pageset是一个数组，其容量与系统能够容纳的CPU数目的最大值相同。

<mmzone.h>
struct zone {
...
struct per_cpu_pageset　　 pageset[NR_CPUS];
...
};

NR_CPUS是一个可以在编译时间配置的宏常数。在单处理器系统上其值总是1，针对SMP系统编

译的内核中，其值可能在2和32（在64位系统上是64）之间。该值并不是系统中实际存在的CPU数目，而是内核支持的CPU的最大数目。

数组元素的类型为per_cpu_pageset，定义如下：

numa架构的处理器 numa架构详解_开发语言_03

该结构由一个带有两个数组项的数组构成，第一项管理热页，第二项管理冷页。

有用的数据保存在per_cpu_pages中。①

numa架构的处理器 numa架构详解_开发语言_04

①(内核版本2.6.25在本书撰写时仍然在开发中，该版本会将分别管理冷页和热页的两个列表合并为一个。热页放置在列表头部，而冷页置于列表尾部。通过测量发现，与一个列表相比，两个独立的列表不会带来实质性的好处，因此引入了该修改)

页帧

C语言的联合很适合于该问题，尽管它未能增加struct page的清晰程度。考虑一个例子：一个物理内存页能够通过多个地方的不同页表映射到虚拟地址空间，内核想要跟踪有多少地方映射了该
页。为此，struct page中有一个计数器用于计算映射的数目。如果一页用于slub分配器（将整页细分为更小部分的一种方法，请参见3.6.1节），那么可以确保只有内核会使用该页，而不会有其他地方
使用，因此映射计数信息就是多余的。因此内核可以重新解释该字段，用来表示该页被细分为多少个小的内存对象使用。在数据结构定义中，这种双重解释如下所示：

<mm_types.h>
struct page {
　　...
　　union {
　　　　atomic_t _mapcount; /* 内存管理子系统中映射的页表项计数，
　　　　* 用于表示页是否已经映射，还用于限制逆向映射搜索。
　　　　*/
　　　　unsigned int inuse; /* 用于SLUB分配器：对象的数目 */
　　};
　　...
}

<mm.h>
struct page {
　　　unsigned long flags; /* 原子标志，有些情况下会异步更新 */
　　　atomic_t _count; /* 使用计数，见下文。 */
　　　union {
　　　　　atomic_t _mapcount; /* 内存管理子系统中映射的页表项计数，
　　　　　* 用于表示页是否已经映射，还用于限制逆向映射搜索。
　　　　　*/
　　　　　unsigned int inuse; /* 用于SLUB分配器：对象的数目 */
　　　};
　　　union {
　　　　　struct {
　　　　　　　unsigned long private; /* 由映射私有，不透明数据：
　　　　　　　　* 如果设置了PagePrivate，通常用于buffer_heads；
　　　　　　　　* 如果设置了PageSwapCache，则用于swp_entry_t；
　　　　　　　　* 如果设置了PG_buddy，则用于表示伙伴系统中的阶。
　　　　　　　　*/
　　　　　　　struct address_space *mapping; /* 如果最低位为0，则指向inode
　　　　  　　 * address_space，或为NULL。
　　　　　　　　* 如果页映射为匿名内存，最低位置位，
　　　　　　　　　* 而且该指针指向anon_vma对象：
　　　　　　　　* 参见下文的PAGE_MAPPING_ANON。
　　　　　　*/
　　　　};
　　　　...
　　　　　　struct kmem_cache *slab; /* 用于SLUB分配器：指向slab的指针 */
　　　　　　struct page *first_page; /* 用于复合页的尾页，指向首页 */
　　　　};
　　　　union {
　　　　　　pgoff_t index; /* 在映射内的偏移量 */
　　　　　　void *freelist; /* SLUB: freelist req. slab lock */
　　　　};
　　　　struct list_head lru; /* 换出页列表，例如由zone->lru_lock保护的active_list!
　　　　*/
#if defined(WAT_PAGE_VIRTUAL)
　　　　void *virtual; /* 内核虚拟地址（如果没有映射则为NULL，即高端内存） */ 
#endif /* WANT_PAGE_VIRTUAL */
};

 _count是一个使用计数，表示内核中引用该页的次数。在其值到达0时，内核就知道page实例当前不使用，因此可以删除。如果其值大于0，该实例决不会从内存删除。如果读者不熟悉引用计数器，可以在附录C查阅更详细的资料。
 _mapcount表示在页表中有多少项指向该页。
 lru是一个表头，用于在各种链表上维护该页，以便将页按不同类别分组，最重要的类别是活动和不活动页。
 内核可以将多个毗连的页合并为较大的复合页（compound page）。分组中的第一个页称作首页（head page），而所有其余各页叫做尾页（tail page）。所有尾页对应的page实例中，都将first_page设置为指向首页。
 mapping指定了页帧所在的地址空间。index是页帧在映射内部的偏移量。地址空间是一个非常一般的概念，例如，可以用在向内存读取文件时。地址空间用于将文件的内容（数据）与装载数据的内存区关联起来。通过一个小技巧，①mapping不仅能够保存一个指针，而且还能包含一些额外的信息，用于判断页是否属于未关联到地址空间的某个匿名内存区。如果将mapping置为1，则该指针并不指向address_space的实例，而是指向另一个数据结构（anon_vma），该结构对实现匿名页的逆向映射很重要，该结构在5.内存映射讨论。对该指针的双重使用是可能的，因为address_space实例总是对齐到sizeof(long)。因此在Linux支持的所有计算机上，指向该实例的指针最低位总是0。该指针如果指向address_space实例，则可以直接使用。如果使用了技巧将最低位设置为1，内核可使用下列操作恢复来恢复指针：
anon_vma = (struct anon_vma *) (mapping -PAGE_MAPPING_ANON)

 private是一个指向“私有”数据的指针，虚拟内存管理会忽略该数据。根据页的用途，可以用不同的方式使用该指针。大多数情况下它用于将页与数据缓冲区关联起来，在后续章节中描述。

 virtual用于高端内存区域中的页，换言之，即无法直接映射到内核内存中的页。virtual用于存储该页的虚拟地址。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。