接下来我们将介绍Demand paging。这是另一个非常流行的功能,许多操作系统都实现了它。
我们回到exec,在未修改的XV6中,操作系统会加载程序内存的text,data区域,并且以eager的方式将这些区域加载进page table。
但是根据我们在lazy allocation和zero-filled on demand的经验,为什么我们要以eager的方式将程序加载到内存中?为什么不再等等,直到应用程序实际需要这些指令的时候再加载内存?程序的二进制文件可能非常的巨大,将它全部从磁盘加载到内存中将会是一个代价很高的操作。又或者data区域的大小远大于常见的场景所需要的大小,我们并不一定需要将整个二进制都加载到内存中。
所以对于exec,在虚拟地址空间中,我们为text和data分配好地址段,但是相应的PTE并不对应任何物理内存page。对于这些PTE,我们只需要将valid bit位设置为0即可。
如果我们修改XV6使其按照上面的方式工作,我们什么时候会得到第一个page fault呢?或者说,用户应用程序运行的第一条指令是什么?用户应用程序在哪里启动的?
应用程序是从地址0开始运行。text区域从地址0开始向上增长。位于地址0的指令是会触发第一个page fault的指令,因为我们还没有真正的加载内存。
那么该如何处理这里的page fault呢?首先我们可以发现,这些page是on-demand page。我们需要在某个地方记录了这些page对应的程序文件,我们在page fault handler中需要从程序文件中读取page数据,加载到内存中;之后将内存page映射到page table;最后再重新执行指令。
之后程序就可以运行了。在最坏的情况下,用户程序使用了text和data中的所有内容,那么我们将会在应用程序的每个page都收到一个page fault。但是如果我们幸运的话,用户程序并没有使用所有的text区域或者data区域,那么我们一方面可以节省一些物理内存,另一方面我们可以让exec运行的更快(注,因为不需要为整个程序分配内存)。
前面描述的流程其实是有点问题的。我们将要读取的文件,它的text和data区域可能大于物理内存的容量。又或者多个应用程序按照demand paging的方式启动,它们二进制文件的和大于实际物理内存的容量。对于demand paging来说,假设内存已经耗尽了或者说OOM了,这个时候如果得到了一个page fault,需要从文件系统拷贝中拷贝一些内容到内存中,但这时你又没有任何可用的物理内存page,这其实回到了之前的一个问题:在lazy allocation中,如果内存耗尽了该如何办?
如果内存耗尽了,一个选择是撤回page(evict page)。比如说将部分内存page中的内容写回到文件系统再撤回page。一旦你撤回并释放了page,那么你就有了一个新的空闲的page,你可以使用这个刚刚空闲出来的page,分配给刚刚的page fault handler,再重新执行指令。
重新运行指令稍微有些复杂,这包含了整个userret函数背后的机制以及将程序运行切换回用户空间等等。
以上就是常见操作系统的行为。这里的关键问题是,什么样的page可以被撤回?并且该使用什么样的策略来撤回page?
学生回答:Least Recently Used
是的,这是最常用的策略,Least Recently Used,或者叫LRU。除了这个策略之外,还有一些其他的小优化。如果你要撤回一个page,你需要在dirty page和non-dirty page中做选择。dirty page是曾经被写过的page,而non-dirty page是只被读过,但是没有被写过的page。你们会选择哪个来撤回?
学生回答:我会选择dirty page,因为它在某个时间点会被重新写回到内存中。
如果dirty page之后再被修改,现在你或许需要对它写两次了(注,一次内存,一次文件),现实中会选择non-dirty page。如果non-dirty page出现在page table1中,你可以将内存page中的内容写到文件中,之后将相应的PTE标记为non-valid,这就完成了所有的工作。之后你可以在另一个page table重复使用这个page。所以通常来说这里优先会选择non-dirty page来撤回。
学生提问:对于一个cache,我们可以认为它被修改了但是还没有回写到后端存储时是dirty的。那么对于内存page来说,怎么判断dirty?它只存在于内存中,而不存在于其他地方。那么它什么时候会变成dirty呢?
Frans教授:对于memory mapped files,你将一个文件映射到内存中,然后恢复它,你就会设置内存page为dirty。
学生提问:所以这只对一个不仅映射了内存,还映射了文件的page有效?
Frans教授:是的,完全正确。(注,这里应该是答非所问,一个page只要最近被写过,那么就会是dirty的)
如果你们再看PTE,我们有RSW位,你们可以发现在bit7,对应的就是Dirty bit。当硬件向一个page写入数据,会设置dirty bit,之后操作系统就可以发现这个page曾经被写入了。类似的,还有一个Access bit,任何时候一个page被读或者被写了,这个Access bit会被设置。
为什么这两个信息重要呢?它们能怎样帮助内核呢?
学生回答:没有被Access过的page可以直接撤回,是吗?
是的,或者说如果你想实现LRU,你需要找到一个在一定时间内没有被访问过的page,那么这个page可以被用来撤回。而被访问过的page不能被撤回。所以Access bit通常被用来实现这里的LRU策略。
学生提问:那是不是要定时的将Access bit恢复成0?
Frans教授:是的,这是一个典型操作系统的行为。操作系统会扫描整个内存,这里有一些著名的算法例如clock algorithm,就是一种实现方式。
另一个学生提问:为什么需要恢复这个bit?
Frans教授:如果你想知道page最近是否被使用过,你需要定时比如每100毫秒或者每秒清除Access bit,如果在下一个100毫秒这个page被访问过,那你就知道这个page在上一个100毫秒中被使用了。而Access bit为0的page在上100毫秒未被使用。这样你就可以统计每个内存page使用的频度,这是一个成熟的LRU实现的基础。(注,可以通过Access bit来决定内存page 在LRU中的排名)