2015 March 24 Memory

物理内存管理:请求PFN函数主体实现(1)

在物理内存管理:请求PFN函数层次结构分析这篇文章中，我分析了分配页框的函数结构，其中是上层页框分配的核心，这个函数比起alloc_pages()多一个参数nid,如果传入的nid < 0 ,那么在当前内存节点上分配physical frame。

这里需要阐述的是Linux的内存管理针对的就是NUMA结构，如果当前系统只有一个节点，那么默认调用numa_node_id()返回这个唯一节点。


309 static inline struct page *alloc_pages_node(int nid, gfp_t gfp_mask,
310                                                 unsigned int order)
311 {
312         /* Unknown node is current node */
313         if (nid < 0)
314                 nid = numa_node_id();
315 
316         return __alloc_pages(gfp_mask, order, node_zonelist(nid, gfp_mask));
317 }

而在__alloc_pages()函数中，根据nid与gfp_mask可以得到一个适当的zonelist链表，我们知道每个内存节点下面都会默认存在三个zonelist区域：ZONE_DMA/ZONE_NORMAL/ZONE_HIGHMEM ，而node_zonelist(nid, gfp_mask)就是选择合适的内存链表区域zonelist。

因为存在三个zonelist区域，联系之前的struct pglist_data结构成员struct zonelist node_zonelists[MAX_ZONELISTS]，MAX_ZONELISTS最大值就是2，可以看出分配只能分配当前节点和备用节点。


581 /*
582  * The NUMA zonelists are doubled because we need zonelists that restrict the
583  * allocations to a single node for __GFP_THISNODE.
584  *
585  * [0]  : Zonelist with fallback
586  * [1]  : No fallback (__GFP_THISNODE)
587  */
588 #define MAX_ZONELISTS 2

而__alloc_pages()函数内部又封装了__alloc_pages_nodemask()函数，这个函数是页框分配的主体[2]，


struct page *
2857 __alloc_pages_nodemask(gfp_t gfp_mask, unsigned int order,
2858                         struct zonelist *zonelist, nodemask_t *nodemask)
2859 {
2860         enum zone_type high_zoneidx = gfp_zone(gfp_mask);
2861         struct zone *preferred_zone;
2862         struct zoneref *preferred_zoneref;
2863         struct page *page = NULL;
2864         int migratetype = gfpflags_to_migratetype(gfp_mask);
2865         unsigned int cpuset_mems_cookie;
2866         int alloc_flags = ALLOC_WMARK_LOW|ALLOC_CPUSET|ALLOC_FAIR;
2867         int classzone_idx;
2868 
2869         gfp_mask &= gfp_allowed_mask;
2870 
2871         lockdep_trace_alloc(gfp_mask);
2872 
2873         might_sleep_if(gfp_mask & __GFP_WAIT);
2874 
2875         if (should_fail_alloc_page(gfp_mask, order))
2876                 return NULL;
...
2883         if (unlikely(!zonelist->_zonerefs->zone))
2884                 return NULL;
....
2889 retry_cpuset:
2890         cpuset_mems_cookie = read_mems_allowed_begin();
2891 
2892         /* The preferred zone is used for statistics later */
2893         preferred_zoneref = first_zones_zonelist(zonelist, high_zoneidx,
2894                                 nodemask ? : &cpuset_current_mems_allowed,
2895                                 &preferred_zone);
2896         if (!preferred_zone)
2897                 goto out;
2898         classzone_idx = zonelist_zone_idx(preferred_zoneref);
2899 
2900         /* First allocation attempt */
2901         page = get_page_from_freelist(gfp_mask|__GFP_HARDWALL, nodemask, order,
2902                         zonelist, high_zoneidx, alloc_flags,
2903                         preferred_zone, classzone_idx, migratetype);
2904         if (unlikely(!page)) {
....
2910                 gfp_mask = memalloc_noio_flags(gfp_mask);
2911                 page = __alloc_pages_slowpath(gfp_mask, order,
2912                                 zonelist, high_zoneidx, nodemask,
2913                                 preferred_zone, classzone_idx, migratetype);
2914         }
2915 
2916         trace_mm_page_alloc(page, order, gfp_mask, migratetype);
2917 
2918 out:
....
2925         if (unlikely(!page && read_mems_allowed_retry(cpuset_mems_cookie)))
2926                 goto retry_cpuset;
2927 
2928         return page;
2929 }

分析代码，我们可以看到，gfp_zone()根据gfp_mask选取适当类型的zone index。然后经过几项检查，通过zonelist->_zonerefs->zone判断zonelist是否为空，在这里至少要存在一个可用的zone，然后使用上述的zone index，通过first_zones_zonelist()来分配一个内存管理区。

如果前面分配成功，则进入get_page_from_freelist()函数，这个函数可以看成伙伴算法的前置函数，如果伙伴系统存在空位，那么利用伙伴系统进行分配内存，如果分配不成功就进入__alloc_pages_slowpath()慢速分配，这个时候内核要放宽分配的条件，回收系统内存，然后总会分配出一块page。

###这里我们要说明下likely()与unlikely()的用法，这两个宏只是提高代码执行概率，是的gcc在编译时，将哪个代码段提前，哪个代码段推后，从而提高效率，不会对值有修改，例如if (unlikely(!zonelist->_zonerefs->zone))表示的就是当zonelist->_zonerefs->zone为空时，执行return NULL操作[1],虽然这个return不太可能发生。

###在代码中我们还发现了cpuset_mems_cookie = read_mems_allowed_begin();语句，看到名字，我们就知道这个与cgroup有关，也就是说与cpuset子系统相关，cpuset子系统负责cpu节点与内存节点的分配，如果没有指定nodemask，则使用cpuset_current_mems_allowed允许的节点。我们看到在out域下，有一个if (unlikely(!page && read_mems_allowed_retry(cpuset_mems_cookie))) 发现目前kernel对于cgroup机制中出现page分配失败，就会怀疑是否cpuset_mems_cookie出现修改，如果出现修改，则重试。

[1] http://blog.csdn.net/npy_lp/article/details/7175517

[2] http://lxr.free-electrons.com/source/mm/page_alloc.c#L2857