如何解决JVM解释器导致应用崩溃的bug-电子发烧友网

编者按：笔者遇到一个非常典型的问题，应用在 X86 正常运行，在 AArch64 上 JVM 就会崩溃。这个典型的 JVM 内部问题。笔者通过分析最终定位到是由于 JVM 中模板解释器代码存在 bug 导致在弱内存模型的平台上 Crash。

在分析过程中，涉及到非常多的 JVM 内部知识，比如对象头、GC 复制算法操作、CAS 操作、字节码执行、内存序等，希望对读者有所帮助。本文介绍了一般分析 JVM crash 的方法，并且深入介绍了为什么在 aarch64 平台上引起这样的问题，最后还给出了修改方法并推送到上游社区中。**对于使用非毕昇 JDK 的其他 JDK 只有在 jdk8u292、jdk11.0.9、jdk15以后的版本才得到修复，读者使用时需要注意版本选择避免这类问题发生。

背景知识

java 程序在发生 crash 时，会生成 hs_err_pid.log 文件，以及 core 文件（需要操作系统开启相关设置），其中 hs_err 文件以文本格式记录了 crash 发生位置的小范围精确现场信息（调用栈、寄存器、线程栈、致命信号、指令上下文等）、jvm 各组件状态信息（java 堆、jit 事件、gc 事件）、系统层面信息（环境变量、入参、内存使用信息、系统版本）等，精简记录了关键信息。而 core 文件是程序崩溃时进程的二进制快照，完整记录了崩溃现场信息，可以使用 gdb 工具来打开 core 文件，恢复出一个崩溃现场，方便分析。

约束

文中描述的问题适用于 jdk8u292 之前的版本。

现象

某业务线隔十天半个月总会报过来 crash 问题，crash 位置比较统一，都是在某处执行 young gc 的上下文中，crash 的直接原因是 java 对象的头被写坏了，比如这样：

而正常的对象头由 markoop 和 metadata 两部分组成，前者存放该对象的 hash 值、年龄、锁信息等，后者存放该对象所属的 Klass 指针。这里关注的是 markoop，64 位机器上它的具体布局如下：

每种布局中每个字段的详细含义可以在 jdk 源码 jdk8u/hotspot/src/share/vm/oops/markOop.hpp 中找到，这里简单给出结论就是 gc 阶段一个正常对象头中的 markoop 不可能是全 0，而是比如这样：

此外，crash 时间上也有个特点：基本每次都发生在程序刚启动时的几秒内。

分析

发生 crash 的 java 对象有个一致的特点，就是总位于 eden 区，我们仔细分析了 crash 位置的 gc 过程逻辑，特别是会在 gc 期间修改对象头的相关源码更是重点关注对象，因为那块代码为了追求性能，使用了无锁编程：

补充介绍一下 CAS（Compare And Swap），CAS 的完整意思是比较并替换，并且确保整个操作原子性。CAS 需要 3 个操作数：内存地址 dst，比较值 cmp，要更新的目标值 value。当且仅当内存地址 dst 上的值跟比较值 cmp 相等时，将内存地址 dst 上的值改写为 value，否则就什么都不做，其在 aarch64 上的汇编实现类似如下：

然而我们经过反复推敲，这块 gc 逻辑似乎无懈可击，而且位于 eden 区也意味着没有被 gc 搬移过的可能性，这个问题在很长时间里陷入了停滞……

直到某一天又收到了一个类似的 crash，这个问题才迎来了转机。在这个 crash 里，也是 java 对象的头被写坏了，但特殊的地方在于，头上的错误值是 0x2000，凭着职业敏感，我们猜测这个特殊的错误值是否来自这个 java 对象本身呢？这个对象的 Java 名字叫 DynamicByteBuffer，来自某个基础组件。反编译得到了问题类 DynamicByteBuffer 的代码：

再结合 core 信息中其他正常 DynamicByteBuffer 对象的布局，确定了这个特殊的 0x2000 值原本应该位于 segmentSize 字段上，而且从代码中注意到这个 segmentSize 字段是 final 属性，意味着其值只可能在实例构造函数中被设置，使用 jdk 自带的命令 javap 进行反汇编，得到对应的字节码如下：

putfield 这条字节码的作用是给 java 对象的一个字段赋值，在红框中的语义就是给 DynamicByteBuffer 对象的 segmentSize 字段赋值。

分析到这里，我们做一下小结，crash 的第一现场并非在 gc 上下文中，而是得往前追溯，发生在这个 java 对象被初始化期间，这期间在初始化它的 segmentSize 字段时，因为某种原因，0x2000 被写到了对象头上。

接下来继续分析， JDK 在发生 crash 时会自动生成的 hs_err 日志，其中有记录最近发生的编译事件 “Compilation events （250 events）”，从中没有发现 DynamicByteBuffer 构造函数相关的编译事件，所以可以推断 crash 时 DynamicByteBuffer 这个类的构造函数尚未被编译过（由于 crash 发生在程序启动那几秒，JIT 往往需要预热后才会介入，所以可以假设记录的比较完整），这意味着，它的构造函数只会通过模板解释器去执行，更具体地说，是去执行模板解释器中的 putfield 指令来把 0x2000 写到 segmentSize 字段位置。

具体怎么写其实很简单，就是先拿到 segmentSize 字段的偏移量，根据偏移量定位到写的位置，然后写入。然而 JVM 的模板解释器在实现这个 putfield 指令时，额外增加了一条快速实现路径，在 runtime 期间会自动（具体的时间点是 “完整” 执行完第一次 putfield 指令后）从慢速路径切到快速路径上，这个切换操作的实现全程没有加锁，同步完全依赖 barrier。

注：图中 bcp 指的是 bytecode pointer，就是读字节码。

上图表示接近同一时间点前后，两条并行流分别构建一个 DynamicByteBuffer 类型的对象过程中，各自完成 segmentSize 字段赋值的过程，用 Java 代码简单示意如下：

其中第一条执行流走的慢速路径，第二条走的快速路径，可以留意到，红色标识的是几次公共内存的访存操作，barrier 就分布在这些位置前后（标在下图中）。

接下来再给一个更加精确一点的指令流模型

简单介绍一下这个设计模型：

线程从记录了指令的内存地址 bcp（bytecode pointer）上取出指令，然后跳转到该指令地址上执行，当取出的指令是 bcp1（比如 putfeild 指令的慢速路径）时就是图中左边的指令流；

左边的指令流就是计算出字段的 offset 并 str 到指定内存地址，然后插入 barrier，最后将 bcp2 指令（比如 putfeild 指令的快速路径）覆写到步骤 1 中的内存地址 addr 上；

后续线程继续执行步骤 1 时，由于取出的指令变成了 bcp2，就改为跳转到图中右边的指令流；

右边的指令流就是直接取出步骤 2 中已经存到指定内存地址中的 offset。

回顾整个设计模型，左边的指令流通过一个等效于完整 dmb 的 barrier 来保证 str offset 和 str bcp2 这两条 str 指令的执行顺序并且全局可见；而右边的指令流中，ldr bcp 和 ldr offset 这两条 ldr 指令之间没有任何 barrier，设计者可能认为一个无条件跳转指令可以为两条 ldr 指令建立依赖，从而保证执行顺序，然而从实测结果来看是不成立的。

这里先来简单补充介绍一下内存顺序模型的概念，现代 CPU 为了提高执行效率，在指令的执行顺序上拥有很大的自主权，对每个独立的 CPU 来说，只要确保语义不变，实际如何执行都有可能，这种方式对于单个 CPU 来说没有问题，当放到多个 CPU 共享数据的时候，这种乱序执行的行为就会引发每个 CPU 看到数据的顺序不一致问题，导致跨 CPU 的程序逻辑乱套了。这就需要对读、写内存指令进行约束，来规范每个 CPU 看到的内存生效行为，由此提出了内存顺序模型的概念：

其中 ARM 采用的是一种弱内存模型，这种模型默认对读、写指令没有任何约束，需要由程序员自己通过插入 barrier 来手动保证。

再回到这个问题上，测试方式是在 ldr offset 指令后额外加了检测指令：

就是检查 offset 值是否为 0，如果为 0 则直接强制 crash（设计上保证了 java 对象的任何实例字段的 offset 不可能是 0）。

经过长时间测试，程序果然在这个位置触发了 crash！这说明上面提到的两条 ldr 指令不存在依赖关系，或者说这种依赖关系类似 ARMv8 手册中描述的条件依赖，并不能保证执行顺序。ldr offset 指令先于 ldr bcp 执行，使得读到一个非法的 offset 值 0。更说明了，这才是这个案例的第一案发现场！

找到了问题的根因后，解决方法也就顺利出炉了，那就是在两条 ldr 指令之间插入 barrier 来确保这两条 ldr 指令不发生乱序。实测证明，这种修复方案非常有效，这类 crash 现象消失。

详细的修复 patch 见 https://hg.openjdk.java.net/jdk/jdk/rev/b9529fcbbd33 。目前已经 backport 到 jdk8u292、jdk11.0.9、jdk15。

总结

Java 虚拟机（JVM）为了追求性能，大量使用了无锁编程进行设计，而且这么多年以来 JDK（特别是 JDK8）主要都是面向 X86 平台开发的，如今才慢慢的开始支持 aarch64 平台，所以 aarch64 弱内存序问题是我们面临的一个比较严峻的挑战。

后记

如果遇到相关技术问题（包括不限于毕昇 JDK），可以进入毕昇 JDK 社区查找相关资源（点击原文进入官网），包括二进制下载、代码仓库、使用教学、安装、学习资料等。毕昇 JDK 社区每双周周二举行技术例会，同时有一个技术交流群讨论 GCC、LLVM、JDK 和 V8 等相关编译技术，感兴趣的同学可以添加如下微信小助手，回复 Compiler 入群。

责任编辑：haq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

应用

应用

+关注

关注
2

文章
436

浏览量
33970
JVM

JVM

+关注

关注
0

文章
152

浏览量
12126

原文标题：一个 JVM 解释器 bug 在 AArch64 平台导致应用崩溃的问题分析

文章出处：【微信号：wireless-tag，微信公众号：启明云端科技】欢迎添加关注！文章转载请注明出处。

IAR仿真时崩溃了怎么解决？

发现IAR有个BUG，程序中定义一个unsigned char型的变量，如果在代码中给变量赋某些值（比如0xEC,0xE0），在IAR仿真环境下查看该变量时会导致IAR奔溃退出。不查看该值就不会崩溃；如果赋的值是0x13或者其他

发表于 04-22 07:57

什么是电压崩溃？产生电压崩溃的原因

探讨电压崩溃的原因以及可能的解决方案。第一部分：电压崩溃的原因 1. 电源故障：电源崩溃是导致电压崩溃的最常见原因之一。电源可能会由于内部

发表于 12-20 17:05 •739次阅读

eclipse设置jvm内存大小

内存大小，并对其背后的原理进行解释。 JVM（Java虚拟机）是Java程序的运行环境，它负责将Java字节码翻译成机器码，以便在不同的平台上执行。JVM使用内存来存储运行时对象和执行过程中的临时数据。如果

发表于 12-06 11:43 •734次阅读

jvm参数的设置和jvm调优

JVM（Java虚拟机）参数的设置和调优对于提高Java应用程序的性能和稳定性非常重要。在本文中，我们将详细介绍JVM参数的设置和调优方法。一、JVM参数的设置内存参数： -Xms：设置J

发表于 12-05 11:36 •494次阅读

jvm调优参数

JVM（Java虚拟机）是Java程序的运行环境，它负责解释Java字节码并执行相应的指令。为了提高应用程序的性能和稳定性，我们可以调优JVM的参数。 JVM调优主要涉及到堆内存、垃圾

发表于 12-05 11:29 •333次阅读

什么场景需要jvm调优

，如果JVM的性能不够优越，可能会导致应用程序的性能下降甚至崩溃。此时需要对JVM进行调优，以提高应用程序的并发处理能力。例如，调整线程池的大小、调整垃圾收集器的策略等。内存占用过高

发表于 12-05 11:14 •434次阅读

jvm内存溢出该如何定位解决

在Java应用程序中，JVM（Java虚拟机）内存溢出是指Java应用程序试图分配的内存超过了JVM所允许的最大内存大小，导致程序无法正常执行。内存溢出通常是由以下几个原因引起的：内存泄漏、对象大小

发表于 12-05 11:05 •614次阅读

服务器数据恢复-服务器多块硬盘掉线导致上层应用崩溃的数据恢复案例

某银行的某一业务模块崩溃，无法正常使用。排查服务器故障，发现运行该业务模块的服务器中多块硬盘离线，导致上层应用崩溃。

发表于 10-20 16:40 •256次阅读

OOM会导致JVM虚拟机退出吗

熟悉Java开发的人，应该会经常遇到的异常：OOM，那么这个异常会导致 JVM 虚拟机退出吗？ 1、结论 Java虚拟机（JVM）在运行Java应用时，可能会遇到内存不足的情况，从而抛出

发表于 09-30 10:14 •316次阅读

哪些原因会导致SOLIDWORKS崩溃？

使用SOLIDWORKS时，最常见的问题之一是它会突然崩溃。这对于忙碌的工程师来说很烦人，因为它会浪费宝贵的时间，甚至可能会导致他们失去重要的工作进度。所以我们需要找出它的原因。以下

发表于 07-17 14:31 •1242次阅读

容器JVM内存配置最佳实践

Killer）机制，此时系统会终止内存占用较多的进程以保证系统的正常运行。特别是在容器环境下，不合理的JVM堆参数设置会导致各种异常现象产生，例如应用堆大小还未到达JVM设置的堆阈值或应用的规格限制，就因为OOM

发表于 06-20 09:45 •637次阅读

Esp导致路由器崩溃的原因？如何解决？

我在通过 USB 将 ESP 连接到笔记本电脑时遇到问题。似乎每次我这样做时，我的 wifi 网络都会崩溃，这意味着我所有连接的设备（笔记本电脑、电话等）都失去了与互联网的连接。有人遇到过类似的问题吗？

发表于 06-01 07:40

一个冗余电路导致的BUG

　　昨天解了一个BUG，一个低级错误导致的BUG，一个冗余电路导致的BUG，写写做个记录。

发表于 05-14 15:28 •589次阅读

ESP8266从Littlefs加载文件时它崩溃了的原因？

在我的 ESP8266 中获得了一个带有大量 javascript 的网络服务器的程序。当我尝试从 Littlefs 加载文件时它崩溃了。这可能不是原因，但是，我遇到了内存不足的 OOM。所以

发表于 05-10 09:24

ISR中的pinMode导致崩溃的原因？如何解决？

或底层宏 GPF(p) 在 ISR 中使用时会导致崩溃。我通过直接控制 GPIO 寄存器来反转引脚方向来解决这个问题，并将其作为 gitHub 上的问题提出。

发表于 05-08 06:35

搜索历史

如何解决JVM解释器导致应用崩溃的bug

评论

IAR仿真时崩溃了怎么解决？

什么是电压崩溃？产生电压崩溃的原因

eclipse设置jvm内存大小

jvm参数的设置和jvm调优

jvm调优参数

什么场景需要jvm调优

jvm内存溢出该如何定位解决

服务器数据恢复-服务器多块硬盘掉线导致上层应用崩溃的数据恢复案例

OOM会导致JVM虚拟机退出吗

哪些原因会导致SOLIDWORKS崩溃？

容器JVM内存配置最佳实践

Esp导致路由器崩溃的原因？如何解决？

一个冗余电路导致的BUG

ESP8266从Littlefs加载文件时它崩溃了的原因？

ISR中的pinMode导致崩溃的原因？如何解决？