题目:有一个源源不断地吐出整数的数据流,假设你有足够的空间来保存吐出的数。请设计一个名叫MedianHolder的结构,MedianHolder可以随时取得之前吐出所有数的中位数。
解析:关于此问题的主要解题思路为建立大根堆和小根堆,大根堆用来存储较小的数,小根堆用来存储较大的数,在读入数据的过程中要进行大根堆和小根堆的调整,使两者所保存的数据量的差值不大于2,主要的步骤如下:
- 建立大根堆和小根堆;
- 读入第一个数据,将其放入大根堆中并建堆;
- 读入数据,比较该数据与大根堆堆顶元素的大小,如果该值小于大根堆的堆顶,将该值加入大根堆中并进行hepify操作,否则进行下一步操作;
- 如果小根堆为空,将该值放入小根堆中并建堆,并返回,否则比较该数据与小根堆堆顶元素的大小,如果该值小于小根堆的堆顶元素,则将该值加入到大根堆中,否则将其加入小根堆中,随后对该数据加入的堆进行heapify操作;
- 加入数据后对,大根堆和小根堆进行相应的调整: 如果大根堆的size比小根堆的size大2,那么从大根堆里将堆顶弹出,并放入小根堆中;如果小根堆的size比大根堆的size大2,那么从小根堆里将堆顶弹出,并放入大根堆中。
建堆完成后,如果大根堆和小根堆的size相等,那么取两个堆得堆顶元素的平均数即可,如果不相等,那么取size较大的堆的堆顶元素即可。
首先,我们利用Python自带的heapq模块分别建立大根堆和小根堆。
import heapq
class BigHeap():
def __init__(self):
self.arr = list()
def heap_insert(self, val):
heapq.heappush(self.arr, -val)
def heapify(self):
heapq.heapify(self.arr)
def heap_pop(self):
return -heapq.heappop(self.arr)
def get_top(self):
if not self.arr:
return
return -self.arr[0]
import heapq
class SmallHeap():
def __init__(self):
self.arr = list()
def heap_insert(self, val):
heapq.heappush(self.arr, val)
def heapify(self):
heapq.heapify(self.arr)
def heap_pop(self):
return heapq.heappop(self.arr)
def get_top(self):
if not self.arr:
return
return self.arr[0]
接下来我们设计MedianHolder结构来获取数据流中的中位数。
class MedianHolder():
def __init__(self):
self.bigHeap = BigHeap()
self.smallHeap = SmallHeap()
def addNum(self, num):
if len(self.bigHeap.arr) == 0:
self.bigHeap.heap_insert(num)
return
if self.bigHeap.get_top() >= num:
self.bigHeap.heap_insert(num)
else:
if len(self.smallHeap.arr) == 0:
self.smallHeap.heap_insert(num)
return
if self.smallHeap.get_top() > num:
self.bigHeap.heap_insert(num)
else:
self.smallHeap.heap_insert(num)
self.modifyTwoHeapSize()
def getMedian(self):
smallHeapSize = len(self.smallHeap.arr)
bigHeapSize = len(self.bigHeap.arr)
if smallHeapSize + bigHeapSize == 0:
return None
smallHeapHead = self.smallHeap.get_top()
bigHeapHead = self.bigHeap.get_top()
if (smallHeapSize + bigHeapSize) %2 == 0:
return (smallHeapHead+bigHeapHead)/2
else:
return smallHeapHead if smallHeapSize > bigHeapSize else bigHeapHead
def modifyTwoHeapSize(self):
smallHeapSize = len(self.smallHeap.arr)
bigHeapSize = len(self.bigHeap.arr)
if smallHeapSize == bigHeapSize + 2:
self.bigHeap.heap_insert(self.smallHeap.heap_pop())
if bigHeapSize == smallHeapSize + 2:
self.smallHeap.heap_insert(self.bigHeap.heap_pop())
测试用例如下:
if __name__ == '__main__':
arr = [68,51,42,92,13,46,24,58,62,72,32]
medianHold = MedianHolder()
for i in range(len(arr)):
medianHold.addNum(arr[i])
print(medianHold.getMedian())