内存储器篇：JVM内存回收理论与实现

内存篇：JVM内存回收理论与实现
　　声明：本文为笔者原创，但首发于InfoQ中文站，详见文末声明。

　　在上一篇《HotSpot虚拟机对象探秘》中，我们讨论了在HotSpot里对象是如何创建的、有怎样的内存布局、如何查找和使用。在本篇中，我们将继续探讨虚拟机自动内存管理系统的最重要一块职能：虚拟机如何对死亡的对象进行内存回收。
　　本篇里面，所有涉及到具体JVM实现的内容，仍然默认为基于HotSpot虚拟机的实现，后文不再单独说明。

对象存活的判定
　　当一个对象不会再被使用的时候，我们会说这对象已经死亡。对象何时死亡，写程序的人应当是最清楚的。如果计算机也要弄清楚这件事情，就需要使用一些方法来进行对象存活判定，常见的方法有引用计数（Reference Counting）有可达性分析（Reachability Analysis）两种。
　　引用计数算法的大致思想是给对象中添加一个引用计数器，每当有一个地方引用它时，计数器值就加1；当引用失效时，计数器值就减1；任何时刻计数器为0的对象就是不可能再被使用的。它的实现简单，判定效率也很高，在大部分情况下它都是一个不错的算法，也有一些比较著名的应用案例，例如微软COM（Component Object Model）技术、使用ActionScript 3的FlashPlayer、Python语言和在游戏脚本领域得到许多应用的Squirrel中都使用了引用计数算法进行内存管理。但是，至少Java语言（这里指HotSpot等主流的JVM）里面没有选用引用计数算法来管理内存，其中最主要原因是它没有一个优雅的方案去对象之间相互循环引用的问题：当两个对象互相引用，即使它们都无法被外界使用时，它们的引用计数器也不会为0。
　　许多主流程序语言中（如Java、C#、Lisp），都是使用可达性分析来判定对象是否存活的。这个算法的基本思路就是通过一系列的称为GC根节点（GC Roots）的对象作为起始点，从这些节点开始进行向下搜索，搜索所走过的路径成为引用链（Reference Chain），当一个对象到GC Roots没有任何引用链相连（用图论的话来说就是从GC Roots到这个对象不可达）时，则证明此对象是不可用的。如图1所示，对象object 5、object 6、object 7虽然互相有关联，它们的引用并不为0，但是它们到GC Roots是不可达的，因此它们将会被判定为是可回收的对象。

图1 可达性分析算法判定对象是否可回收
枚举根节点
　　在Java语言里面，可作为GC Roots的节点主要在全局性的引用（例如常量或类静态属性）与执行上下文（例如栈帧中的本地变量表）中。如果要使用可达性分析来判断内存是否可回收的，那分析工作必须在一个能保障一致性的快照中进行——这里“一致性”的意思是整个分析期间整个执行系统看起来就像被冻结在某个时间点上，不可以出现分析过程中，对象引用关系还在不断变化的情况，这点不满足的话分析结果准确性就无法保证。这点也是导致GC进行时必须“Stop The World”的其中一个重要原因，即使是号称（几乎）不会发生停顿的CMS收集器中，枚举根节点时也是必须要停顿的。
　　由于目前的主流JVM使用的都是准确式GC（这个概念在第一篇中介绍过），所以当执行系统停顿下来之后，并不需要一个不漏地检查完所有执行上下文和全局的引用位置，虚拟机应当是有办法直接得到哪些地方存放着对象引用。在HotSpot的实现中，是使用一组称为OopMap的数据结构来达到这个目的，在类加载完成的时候，HotSpot就把对象内什么偏移量上是什么类型的数据计算出来，在JIT编译过程中，也会在特定的位置记录下栈里和寄存器里哪些位置是引用。这样GC在扫描时就就可以直接得知这些信息了。下面的代码清单1是HotSpot Client VM生成的一段String.hashCode()方法的本地代码，可以看到在0x026eb7a9处的call指令有OopMap记录，它指明了EBX寄存器和栈中偏移量为16的内存区域中各有一个普通对象指针（Ordinary Object Pointer）的引用，有效范围为从call指令开始直到0x026eb730（指令流的起始位置）+142（OopMap记录的偏移量）=0x026eb7be，即hlt指令为止。

代码清单1 String.hashCode()方法的编译后的本地代码

0x01b6d627: call   0x01b2b210         ; OopMap{[60]=Oop off=460}                                         ;*invokeinterface size                                         ; - Client1::main@113 (line 23)                                         ;   {virtual_call}   0x01b6d62c: nop                       ; OopMap{[60]=Oop off=461}                                         ;*if_icmplt                                         ; - Client1::main@118 (line 23)   0x01b6d62d: test   %eax,0x160100      ;   {poll}   0x01b6d633: mov    0x50(%esp),%esi   0x01b6d637: cmp    %eax,%esi

安全区域
　　使用Safepoint似乎已经完美解决如何进入GC的问题了，但实际情况却并不一定。Safepoint机制保证了程序执行时，在不太长的时间内就会遇到可进入GC的Safepoint。但是，程序“不执行”的时候呢？所谓的程序不执行就是没有分配CPU时间，典型的例子就是线程处于Sleep状态或者Blocked状态，这时候线程无法响应JVM的中断请求，走到安全的地方去中断挂起，JVM也显然不太可能等待线程重新被分配CPU时间。对于这种情况，就需要安全区域（Safe Region）来解决。
　　安全区域是指在一段代码片段之中，引用关系不会发生变化。在这个区域中任意地方开始GC都是安全的。我们也可以把Safe Region看作是被扩展了的Safepoint。
　　在线程执行到Safe Region里面的代码时，首先标识自己已经进入了Safe Region，那样当这段时间里JVM要发起GC，就不用管标识自己为Safe Region状态的线程了。在线程要离开Safe Region时，它要检查系统是否已经完成了根节点枚举（或者是整个GC过程），如果完成了，那线程就继续执行，否则它就必须等待直到收到可以安全离开Safe Region的信号为止。
　　到这里，我们简单介绍了虚拟机如何去发起内存回收的问题，但是虚拟机如何具体地进行内存回收动作仍然未涉及到。因为内存回收如何进行是由虚拟机所采用的GC收集器所决定的，而通常虚拟机中往往不止有一种GC收集器，像目前（JDK 7时代）的HotSpot里面就包含有Serial、Serial Old、ParNew、Parallel Scavenge、Parallel Old、Concurrent Mark Sweep和Garbage First七种收集器，在下一篇中，我们将以最新最先进的Garbage First（G1）收集器为例，介绍内存回收的具体过程。

参考资料
　　本文撰写时主要参考了以下资料：
http://icyfenix.iteye.com/blog/1095132http://xiao-feng.blogspot.com/2008/01/gc-safe-point-and-safe-region.htmlhttp://rednaxelafx.iteye.com/blog/1044951声明：
　　本文已经首发于InfoQ中文站，版权所有，原文为《JVM内存回收理论与实现》，如需转载，请务必附带本声明，谢谢。
　　InfoQ中文站是一个面向中高端技术人员的在线独立社区，为Java、.NET、Ruby、SOA、敏捷、架构等领域提供及时而有深度的资讯、高端技术大会如QCon 、线下技术交流活动QClub、免费迷你书下载如《架构师》等。

内存储器篇：JVM内存回收理论与实现

热点推荐