FastJson:大面积故障规避案例

简介: 翻阅掘金文章定位诡异NPE问题,发现FastJson解析Lambda表达式{}触发kotlin_error静态标记位,致全局反序列化失败。问题源于Kotlin语法误用,混编场景下需格外谨慎,框架亦不可盲信。

翻阅到相似的例子
接下来就还是一直在网上翻阅其他资料,后来在掘金找到一篇: https://juejin.cn/post/6929740384734019597

文章提到的问题现象跟我们的还挺像的,都是一开始正常,过了一会儿就又出现问题。
文章对FastJson剖析挺深,感觉我们的工程不至于这么奇葩吧。还提到了什么getKoltinConstructorParameters、Unit变量、kotlin_error标记位问题。核心原因是有个静态标记位被置为异常状态。

虽然抽象,但死马当活马医,试试看吧。
先看工程里有没有打印这个NPE吧,SLS日志搜了半天都没搜到,去源码看了一下,原来这里只打印了异常堆栈,那不会被采集到SLS中,不过服务器日志里可能会有。

妈耶还真给我搜到了,再仔细读了一下打堆栈的地方,会将kotlin_error置为true,而且关键的地方在于这玩意儿是个static volatile变量!!具有静态共享特征(static)和多线程可见性(volatile),意味着整个工程使用的都是被修改后的值。

  1. ☆ 锁定关键报错位置
    继续进QuestionCardProxyApi 228行 找到报错源,发现确实有个toJsonString。对于invokeResumeReq这个对象,我一眼看到有个古怪的赋值,this.resumeBody被赋值为{}。但这个赋值有何神奇之处,哪能这么个小玩意儿导致全局异常啊??

这段日志代码是12-17添加的,时间看了下还挺符合。再看resumeBody其实是个Java类的一个object类型字段,kotlin中这样对其赋值,编译器倒也没报错。

其实到这个地方已经感觉要水落石出了,再一看master,妈耶这个代码上线了,但线上却没有任何报错,运行一切正常。
但基本能确定是这里无疑了,就赶紧拉写这段代码的同学看(悄悄说,仁兄一开始提给我的bug),确认线上还没开始灰度,无任何流量后放心了。他在家里加班修,我继续看原理。
首先肯定本意是想将resumeBody置空,误用了{},{}在kotlin中被编译器解释为一个lambda表达式。

再看debug信息,这里resumeBody实际上被解释为 ()->kotlin.Unit 这样一个lambda函数,arity表示函数的参数数量为0.

也就是说:{}是一个没有任何入参,并且返回值默认为Unit类型的一个函数(没有明确返回值时默认Unit类型)。
为了更清晰地了解这个语法,可以看下面这个例子:这里定义了一个函数式变量x,入参为s,出参为s+“000”。在使用时可以直接以函数的方式调用x,最终得到y=111000

FastJson自然无法正确解析这样的一个Object字段,而最令人细思极恐的问题是 解析这个对象报了错,却把kotlin_error置为true,而后有没有地方将其复原为false,导致所有的反序列化都进到这里,返回不正确的结果,错误结果被外层拦截抛出default constructor not found异常。这个影响面是巨大的,会导致整个工程崩溃。
具体代码解释:
1.一开始 kotlin_error !=true ,会进到 kotlin_kclass_getConstructors.invoke获取类构造器,这里抛错了,把kotlin_error改为true;
2.往后所有相关的FastJson序列化、反序列化重新进到这里都会return null,导致类构造器获取失败;
3.外层没拿到paramNames,直接抛了异常。

  1. 有问题的代码(自测)
    有kotlin运行环境的同学可以尝试运行下面的代码自测。
    注意:经测试这段代码在FastJson 2.0.53版本可以正常运行,其他版本同学们可以再自测下。

四、总结&反思
至此,问题定位清楚并彻底解决了。这次bug是工作以来碰到的最抽象的一个,耗时两天。虽然有点低效,但找到原因后俺非常激动,逮住组里同学细细讲了一番,估计这么抽象的问题工作多年的大佬也不一定能遇到。
再次膜拜一下掘金大佬:https://juejin.cn/post/6929740384734019597
另外也反思了以下几个问题:
1.工程中Java、kotlin、groovy等多语言混编,对开发同学的语法掌握程度有较高要求,有时候各语言间会混淆,特别是判空、变量定义规则等。这些语言的线上空指针我都尝过,有点酸爽。这次同学出现语法问题,其实也是有点语言混淆了,如果纯Java,铁定不会甩个{}上去;
2.这次线上无异常,得益于灰度开关(哥们可得感谢我,还没放量,否则一旦流量进来,涉及kotlin的链路全部中断就寄了);
3.FastJson是有很多漏洞的,使用时仍然要高度注意。任何框架都是不能完全信任的,毕竟代码都是人写出来的,Bug要大家一起合力发现hhh;

相关文章
|
2月前
|
存储 人工智能 搜索推荐
向量数据库的基本概念
向量数据库是专为存储和检索高维向量设计的系统,能将图片、文本等非结构化数据转化为“数字指纹”(向量),通过相似性搜索快速找到相近内容,广泛应用于推荐系统、图像识别和AI搜索等领域。
|
2月前
|
人工智能 JSON 数据挖掘
全面认识MCP:大模型连接真实世界的“USB-C接口”
MCP通过动态上下文窗口、多步骤流程支持与标准化通信协议,实现AI智能体对用户偏好、会话历史与环境数据的持续记忆与灵活响应。其基于JSON-RPC 2.0的统一接口,支持Stdio、HTTP/SSE等传输方式,简化了大模型与工具系统的集成。借助MCP,AI应用可高效完成数据分析、办公自动化等复杂任务,提升处理能力的同时保障安全合规,推动大模型在真实场景中的落地应用。
|
2月前
|
人工智能 JSON 安全
大模型应用开发中MCP与Function Call的关系与区别
Function Call依赖模型直接调用工具,适用于单一场景;MCP通过标准化协议实现模型与工具解耦,支持跨模型、跨设备的动态集成。二者可协同工作,形成“意图解析-协议传输-工具执行”分层架构,未来将趋向融合,推动AI应用生态标准化发展。
|
2月前
|
人工智能 自然语言处理 API
全面认识MCP:大模型连接真实世界的“USB-C接口”
MCP解决AI工具集成难题,打破“工具孤岛”。通过标准化协议,实现模型与工具的即插即用,降低开发成本,提升AI连接现实世界的能力。
|
2月前
|
存储 监控 Java
整合切面,参数拦截+过滤
该类基于Spring AOP实现请求参数日志记录,通过@Aspect切面拦截Controller层方法,记录请求来源、URL、方式、参数及执行耗时,便于调试与监控,支持后续扩展如数据存储或脱敏处理。
|
2月前
|
存储 NoSQL 安全
Redis:内存陡增100%深度复盘
缓冲区用于暂存数据,防止处理速度跟不上发送速度导致丢数据。Redis通过输入/输出缓冲区管理命令与响应,但输出缓冲区在Pub/Sub模式下可能剧增,理论最大占用达9.375GB,远超实例内存(如2GB),导致SET/GET失败,系统无法正常工作。
|
2月前
|
缓存 NoSQL 算法
Redis:内存陡增100%深度复盘 简单回顾
大KEY随流量激增占满带宽,5分钟内致Redis内存100%,触发全面超时。内存满并非直接致崩,主因或是过期Key集中删除阻塞,或非正常写入导致淘汰机制失灵,引发性能雪崩。
|
2月前
|
SQL Dubbo druid
线程池:故障梳理总结
调用量大易引发线程池满、连接池阻塞等问题,导致服务雪崩。常见原因包括远程调用超时、未合理设置限流与超时参数、压测未预热、SQL未加Limit等。需践行fast-fail理念,合理配置Dubbo、HTTP、Druid、Redis等连接池的超时与队列参数,实施多维流控与背压机制,保障系统稳定。
|
2月前
|
消息中间件 Arthas 监控
RocketMQ:底层Netty频繁OS OOM
某核心应用出现少量机器OOM被杀,排查发现容器内存8G,JVM堆4G、MaxDirectMemorySize设为1G,但实际RSS远超预期。通过NMT定位到“Other”内存持续增长,结合Arthas发现7个不同ClassLoader加载了Netty的PooledByteBufAllocator,每个独立占用堆外内存,导致总使用量突破1G限制。其中rocketmq-client实例几乎占满1G,最终确认为多ClassLoader引发的堆外内存超额使用问题。
|
2月前
|
运维 监控 Java
一场FullGC故障排查
收到JDOS容器CPU告警(达104%),排查发现线程执行跑批任务导致高CPU。初期怀疑Full GC,但机器内存仅62%,与预期不符。排除流量突增等因素后,转向JVM监控,通过SGM发现老年代内存被打满后清理,确认为Full GC引发。dump堆内存并用JProfiler分析,定位到多个大List对象占用近900MB,内含大量Map键值对,最终锁定代码中大对象创建问题。