参考Crash Course的课程,做下笔记,原视频在这里 ↓

  1. 我们要对如下一张 4像素 X 4像素的 图片进行压缩,

    而在磁盘中图片是一串像素值的形式存储的,每个像素的颜色由RGB确定,这样一张图片需要 48(16*3) 个字节
  2. 为了能够压缩图片,我们需要减少冗余的信息或者用更紧凑的表示方法。可以发现,有很多相同的排列:白黄、黑黄、黄黄、白白,这个序列可以有这四种排列组成(当然也有其他不同的方式),我们为这四种排列生成紧凑代码,用更少的字节表示每对排列

哈夫曼图像无损压缩和重建 python_子树

  1. 我们会发现,这四对出现的频率并不相同
  2. 哈夫曼图像无损压缩和重建 python_子树_02

  3. 黄黄出现的次数最多,所以我们希望通过最紧凑的方式来表示,其次是白黄,黑黄和白白出现的次数最少,我们可以用长一点的来表示
  4. 为了实现以上的表示,我们需要构造哈夫曼树
  • 列出所有的块和频率,每轮选择两个最低的频率,将它们组成一个树。这里BY和WW频率最低,将其组成一个树,组成后的频率为2,这样就完成了一轮算法。
  1. 下一轮中重复这样的操作。现在白色的两个频率最低,合并!

    合并之后的情况如下
  2. 第三轮同理

    这样我们就完成了哈夫曼树,它是按照频率排序的,频率低的在下面,频率高的在上
  1. 完成了哈夫曼树,我们还需要生成字典,即如何访问各个节点。我们可以将所有的左子树的分支用0标示,右子树用1标示

    这样我们就完成了字典

    这样我们可以用0 标示YY,111标示 WW…
    经过这样的压缩后,原本的字符可以表示为如下的形式

    这样原来的48字节我们用14位就能表示了!!! (48字节=48 X 8位 = 384 位)
  2. 当然,只保存14位的数据是没有意义的,我们需要将字典也保存下来才能知道表示的信息

    加上字典信息后我们需要30字节的空间,仍然比48字节好很多。