背景

我们(指原作者)在工作中使用 DDAgent Ver. 5 作为采集工具进行被管服务器的性能指标采集与上报,并且对 DDAgent 做了一定程度的定制。在几次特性迭代后,发现线上一批运行许久的被管服务器出现内存占用过高。分析问题机器上进程树各节点占用情况,看到 DDAgent 采集进程的内存占用居高不下。

作为保障业务系统稳定作业的监控组件发生了内存泄漏,自然是非常严重的,所以开始我们的“排查之旅”。

分析

有许多工具提供了对 Python 程序内存状态的分析与导出,这里我们使用 pyrasite,它可以 attach 到一个运行中的 Python 程序,生成一份内存快照,并查看当前有哪些对象类型分别占用了多少内存,从大到小排序。

使用命令非常简单:pyrasite-memory-viewer <PID>,同时会生成一份快照文件:/tmp/pyrasite-<PID>-objects.json

由于无法提供真实生产中的数据,下文提及的所有数据均来自于问题版本在测试环境中运行 12 小时之后的采样。

在 pyrasite 提供的 CUI 视图中,我们可以清晰地看到字典类型的对象实例占用内存最多,达到了 3.4MB,有 6621 个实例:

Total 60350 objects, 223 types, Total size = 10.4MiB (10857450 bytes)
     Index   Count   %      Size   % Cum     Max Kind
(X)      0    6621  10   3551928  32  32   98584 dict
( )      1   21363  35   1817633  16  49    6342 str
( )      2     291   0    902640   8  57   12624 module
( )      3     918   1    829872   7  65     904 type
( )      4    5605   9    717440   6  72     128 code
( )      5    5969   9    716280   6  78     120 function
    More...

可惜 pyrasite 的 CUI 界面没有提供进一步数据透视的能力,以查看这么多字典对象到底是哪些,有什么特征。

但我们也看到,内存快照文件是 JSON 格式的可读文本,打开后为如下结构的内容:

{"address": 139671453162096, "type": "instance", "size": 72, "refs": [139671565716816, 139671453172632]}
{"address": 139671453172632, "type": "dict", "size": 1048, "len": 4, "refs": [139671677239136, 29053312, 139671565997664, 139671451015864, 139671677145776, 29056072, 139671677239040, 139671674819024]}
{"address": 139671674819024, "type": "bool", "size": 24, "value": "True", "refs": []}
{"address": 139671677239040, "type": "str", "size": 43, "len": 6, "value": "closed", "refs": []}
{"address": 29056072, "type": "int", "size": 24, "value": 134, "refs": []}
...

很容易猜出,每一行表示当前内存中的一个 Python 对象,address 为该对象的内存地址,type 为该对象的类型名,size 是该对象自身占据的内存大小(不出意外该值和 sys.getsizeof 计算所得一致),如果对象类型为 intstrbool 这种 Primitive Type,则通过 value 表示其值,如果对象类型为 strtuplelistdict 等容器类型(按 Python 定义严谨地讲是实现了 __len__ 方法的类型),那么通过 len 表示其元素数量,最后一个 refs 则表示这个对象上所引用其他对象的地址。

在对该快照文件中的字典对象做简单分析后,得到了一个很重要的情报:6621 个字典对象中有 4884 个都是空字典 ,占比 73.8%。

不论什么业务场景,在一个正常的 Python 程序实现中,不可能有如此多的空字典。

想搞清为什么,就得找出在哪里创建了这些空字典对象。

但是到目前为止 pyrasite 提供的信息都已探索完,要进一步排查,就得“另辟蹊径”。

定位

我们针对发生泄漏的场景重新缕下思路,有如下事实和猜测:

  • 一个或多个地方在持续创建空字典对象,并且无法回收它们,导致内存泄漏
  • 内存泄漏量随着时间变化而增长,在指标采集业务中,很可能是在每次采集过程中造成的泄漏,在间隔周期后又重复触发
  • 并未看到当前依赖的 DDAgent 版本有未关闭的相关 Issue,很可能是我们定制过程中引入的 Bug

但是,哪怕一次最简单的系统基础指标采集,程序所跑过的代码行数(DDAgent 框架代码、采集 Check 插件代码)都在千级规模,想靠人力去分析定位“泄漏点”,如同大海捞针。

同时我们还面临一个挑战:由于泄漏过程较慢,很难在本地测试环境进行快速复现和分析。

如何克服上述困难?结合造成泄漏对象很重要的画像——无法回收的空字典,我们或许可以借助 Python 解释器的运行时修改与自省特性来排查。

即,我们写一段追踪代码,捕捉符合以下特征的对象:

  • 特征 1:字典(dict)类型
  • 特征 2:字典对象长度为 0
  • 特征 3:该对象的引用计数始终大于 0

对应的解决方案是:

  • 响应特征 1:构造一个字典类型,其:
  • 我们使用的解释器版本为 CPython 2.7.13,所以是 __builtin__ 而不是 3.x 的 builtins
  • 该方案存在一些问题,但在我们这个场景中恰好够用了,后面复盘时再提
  • 在初始化函数 __init__ 中记录自己被实例化时的堆栈信息,通过 traceback 模块完成,这是实现追踪的关键
  • 并通过 __builtin__ 模块进行运行时替换,将内置的 dict 换成该自定义类型,实现全局追踪
  • 响应特征 2:这个最简单,需要时 len(dict_obj) == 0 搞定
  • 响应特征 3:使用 weakref.WeakSet 实现追踪表收集字典对象,通过“弱引用”特性避免追踪代码影响正常对象的回收

接着,只要定时将追踪表中符合特征的内容进行输出,就可以达到定位创建未回收空字典对象位置的目标:

# coding: utf-8
import __builtin__
import time
import json
import weakref
import traceback
import threading

# “弱引用”特性的追踪表确保不干扰正常对象的回收
trace_table = weakref.WeakSet()


# 定时输出符合特征的内容
def exporter():
    while True:
        time.sleep(30)
        print('writing trace infos...')
        # 将追踪表中的空字典收集输出
        empty_dicts = [d.trace_info for d in trace_table if len(d) == 0]
        with open('traceinfo', 'w') as f:
            f.write(json.dumps(empty_dicts))


threading.Thread(target=exporter).start()


class TraceableDict(dict):
    idx = 0

    def __init__(self, *args, **kwargs):
        super(TraceableDict, self).__init__(*args, **kwargs)
        # !!!获取堆栈信息!!!
        self.trace_info = traceback.extract_stack()
        self.trace_hash = TraceableDict.idx
        TraceableDict.idx += 1
        # 将自己加入到追踪表
        trace_table.add(self)

    def __hash__(self):
        # 如果不实现 __hash__ 方法,则无法被插入到 WeakSet 中
        return self.trace_hash


# !!!这只是为了定位问题!!!
# !!!平时千万不要这么用!!!
__builtin__.dict = TraceableDict

print('start tracing...')

这里需要额外提及一下,由于 dict 字典对象没有实现 __hash__ 方法,因此它无法作为 Key 被插入到 dictsetWeakSet 对象中,一句话测试下便知:

> python -c "{}[{}]=0"
Traceback (most recent call last):
  File "<string>", line 1, in <module>
TypeError: unhashable type: 'dict'

为了使其能被顺利插入到 WeakSet 中,这里使用自增 Id 方案做最简单的 Hash 实现。

接着我们在 DDAgent 的采集模块 collect.py 入口处启用这段追踪代码:

# coding: utf-8
# file: collect.py
import tracer  # 导入即启用
import signal
# ...

将采集进程运行一段时间后,我们得到了 traceinfo 文件:

[
  [
    [".../embedded/lib/python2.7/threading.py",774,"__bootstrap","self.__bootstrap_inner()"],
    [".../embedded/lib/python2.7/threading.py",801,"__bootstrap_inner","self.run()"],
    [".../modules/monitor/bot/schedule.py",51,"run","task.run()"],
    [".../modules/monitor/bot/task.py",50,"run","super(RepeatTask, self).run()"],
    [".../modules/monitor/bot/task.py",18,"run","self.check()"],
    [".../modules/monitor/checks/collector.py",223,"wrapper","_check.run()"],
    [".../modules/monitor/checks/__init__.py",630,"run","self._roll_up_instance_metadata()"],
    [".../modules/monitor/checks/__init__.py",498,"_roll_up_instance_metadata","dict((k, v) for (k, v) in self._instance_metadata))"],
    [".../modules/monitor/tracer.py",33,"__init__","self.trace_info = traceback.extract_stack()"]
  ],
  [
    [".../embedded/lib/python2.7/threading.py",774,"__bootstrap","self.__bootstrap_inner()"],
    [".../embedded/lib/python2.7/threading.py",801,"__bootstrap_inner","self.run()"],
    [".../modules/monitor/bot/schedule.py",51,"run","task.run()"],
    [".../modules/monitor/bot/task.py",50,"run","super(RepeatTask, self).run()"],
    [".../modules/monitor/bot/task.py",18,"run","self.check()"],
    [".../modules/monitor/checks/collector.py",223,"wrapper","_check.run()"],
    [".../modules/monitor/checks/__init__.py",630,"run","self._roll_up_instance_metadata()"],
    [".../modules/monitor/checks/__init__.py",498,"_roll_up_instance_metadata","dict((k, v) for (k, v) in self._instance_metadata))"],
    [".../modules/monitor/tracer.py",33,"__init__","self.trace_info = traceback.extract_stack()"]
  ],
  [
    [".../embedded/lib/python2.7/threading.py",774,"__bootstrap","self.__bootstrap_inner()"],
    [".../embedded/lib/python2.7/threading.py",801,"__bootstrap_inner","self.run()"],
    [".../modules/monitor/bot/schedule.py",51,"run","task.run()"],
    [".../modules/monitor/bot/task.py",50,"run","super(RepeatTask, self).run()"],
    [".../modules/monitor/bot/task.py",18,"run","self.check()"],
    [".../modules/monitor/checks/collector.py",223,"wrapper","_check.run()"],
    [".../modules/monitor/checks/__init__.py",630,"run","self._roll_up_instance_metadata()"],
    [".../modules/monitor/checks/__init__.py",498,"_roll_up_instance_metadata","dict((k, v) for (k, v) in self._instance_metadata))"],
    [".../modules/monitor/tracer.py",33,"__init__","self.trace_info = traceback.extract_stack()"]
  ],
...

不用花太多精力,就可以识别到几乎所有的空字典对象都创建自 .../modules/monitor/checks/__init__.py 文件的第 498 行,在一个名为 _roll_up_instance_metadata 的方法中:

class AgentCheck(object):
    # ...
    def _roll_up_instance_metadata(self):
        self.svc_metadata.append(
            dict((k, v) for (k, v) in self._instance_metadata))
        self._instance_metadata = []

该方法在每个采集过程中都会被调用一次,每次调用将某些元数据插入到 svc_metadata 这个对象成员列表中。

既然有生产肯定有消费,我们紧接着该方法就找到重置 svc_metadata 列表的代码:

class AgentCheck(object):
    # ...
    def _roll_up_instance_metadata(self):
        # ...
    def get_service_metadata(self):
        if self._instance_metadata:
            self._roll_up_instance_metadata()  # 注意:这里并不是唯一调用 _roll_up_instance_metadata 的位置
        service_metadata = self.svc_metadata
        self.svc_metadata = []  # 重置
        return service_metadata

如果 get_service_metadata 方法能在每次采集过程末被成功调用,那至少 svc_metadata 不会产生数据堆积。

但是在检查当前版本的整体实现后,我们并没找到任何一处触发 get_service_metadata 的地方。

随后,通过对比 DDAgent 官方实现,并审查 Git 提交历史,终于一切真相大白。

DDAgent 在 checks/collector.py 的第 416 行 调用了 get_service_metadata,对元数据进行了消费:

class Collector(object):
    # ...
    @log_exceptions(log)
    def run(self, checksd=None, start_event=True, configs_reloaded=False):
        # ...
        # Collect metadata
        current_check_metadata = check.get_service_metadata()  # L416
        # ...

然而我们在某次特性迭代中,为了让 run 方法看上去更整洁,将一些与需求实现无关的代码全部移除了,包括对 get_service_metadata 的调用!

移除消费代码,但生产代码继续在工作,这就是导致内存泄漏的原因!

复盘

这里就不提诸如“做好设计评审与 Code Review”、“加强测试阶段质量检测工作”等“套话”,当然这些也值得我们反思。

内存泄漏问题几乎不可能彻底预防与治理,像 Rust 这样的安全编程语言也 无法作出承诺保证程序不会发生内存泄漏。

许多触发内存不安全的行为:数组访问越界、访问释放后的内存等,都可以通过制定更严格的编程模型(如 Rust 提出的所有权+生命周期规则)来规避——甚至可以规避数据竞争(data-race)的问题。

然而触发内存泄漏的行为,和竞态条件(race-condition)一样,则需要开发人员自己结合开发组件和业务规则进行约束。试想一个需要手动触发 flush 的数据队列,结果我们在不停推送数据的同时却忘了调用它,这种引发的内存泄漏是无法靠任何通用检查规则来甄别的。

敬畏编码。

最后聊下我们的“排查之旅”其实非常幸运,因为触发泄漏的关键代码:

class AgentCheck(object):
    # ...
    def _roll_up_instance_metadata(self):
        self.svc_metadata.append(
            dict((k, v) for (k, v) in self._instance_metadata))
        self._instance_metadata = []

恰好使用 dict 类型构造函数实例化了一个空字典!

如果直接使用字面量方式创建,如:self.svc_metadata.append({}),则是无法被追踪到的 —— __builtin__ 模块只能替换内置类型构造函数的入口,无法控制字面量。

假想通过字面量构建空字典的内存泄漏场景,我们又该如何排查?这里提供两个思路,仅作记录:

  • 修改 CPython 源码中 dict 内置类型的实现,根据前面的追踪方案给每个 dict 对象加上实例化时的堆栈信息
  • 后面了解到,CPython 3.4 新增了一个 tracemalloc 模块,虽然还未实践过,但从其官方介绍来看也适用我们这次的场景
  • Compute the differences between two snapshots to detect memory leaks
  • Statistics on allocated memory blocks per filename and per line number: total size, number and average size of allocated memory blocks
  • Traceback where an object was allocated
  • 该模块能提供一个对象被创建时的堆栈信息
  • 逐文件、逐行统计已分配的内存块信息:总大小、数量、平均大小
  • 可以计算两次内存快照间的差异,甄别内存泄漏