小根堆法:
定义中位数为一个有序数组(len(array)+1)//2处的元素,“//”代表下取整。我知道中位数的定义分按照数组长度的奇偶性分两种,但是面试官会告诉你这里求的中位数就是有序数组(len(array)+1)//2处的元素。
如:
1 2 3 4 5 6 7 8 9 的中位数是(9+1)//2 = 5
1 2 3 4 5 6 7 8 9 10 的中位数是(10+1)//2=5
现在来求无序数组的中位数:
步骤 1 :如果数组长度为奇数则取数组的前 (len(array)+1)//2 个元素建立 一个最小堆,如果为偶数则取(len(array)+1)//2 +1个元素建立 一个最小堆。
步骤 2 :遍历剩余元素,如果该元素小于堆顶元素,则丢弃或不作处理;如果该元素大于堆顶元素,则将其取代堆顶元素,并且重新调整当前堆为最小堆。
步骤 3 :遍历结束后,返回堆顶元素,它就是所要寻找的中位数。
原理:
(建立大根堆也是行得通,这里选小根堆来解释)
这里假设数组长度为奇数,步骤1中说是从前往后取(len(array)+1)//2 个元素建立 一个最小堆,其实任意取(len(array)+1)//2 个元素都可以,所取的这(len(array)+1)//2 个元素有两种可能的情况。
情况1:这(len(array)+1)//2 个元素中包含了中位数。
情况2:这(len(array)+1)//2 个元素没有包含中位数。
对于情况1:
中位数可能位于堆顶或者堆内部。
(1)当中位数位于堆顶的时候,因为是小根堆,所以数组内所有比中位数大的元素都在小根堆内,此时遍历数组剩余元素,根本不可能找到比堆顶大的元素,所以遍历完数组剩余元素堆顶保持不变。
如1 2 3 4 5 6 7 8 9 任取(9+1)//2=5个元素建立小根堆,如果5是堆顶,那堆内的其余元素只能是6 7 8 9了。遍历剩余元素1 2 3 4 ,堆顶保持不变。
(2)当中位数位于堆内的时候,堆顶元素比中位数小,则数组剩余元素中必然含有比中位数大的元素。如果用数组剩余元素中比堆顶小的来替换堆顶,那小根堆根本不用调整,这谁顶得住啊,小根堆不调整那中位数什么时候能到堆顶。所以要用数组剩余元素中比堆顶大的来替换堆顶,上面说了数组剩余元素中必然含有比中位数大的元素,现记它为T,那T必然比堆顶要大,所以用T替换堆顶,当T成了堆顶,而且它比中位数要大,所以T必然下沉,中位数必然上升,只要经过若干次这样的替换与调整,中位数肯定会到达堆顶。
对于情况2:
这(len(array)+1)//2 个元素没有包含中位数,那这些元素中肯定包含比中位数大的和比中位数小的,并且比中位数小的必然在堆顶,此时中位数位于数组的剩余元素中。与情况1描述的操作一样,多次替换与调整后中位数肯定会替换掉比它小的堆顶元素,此时中位数又到了小根堆内,这就和情况1一模一样了。
代码如下:
# 调整自顶向下调整小根堆
def changed_top_bot(array):
flag = len(array)//2 # 最后一个分支节点的索引
for i in range(1, flag+1): # 从堆顶开始到最后一个分支节点
if i == flag:
if (2 * i + 1) > len(array): # 判断最后一个分支节点是否有右孩子
if array[i-1] > array[2 * i-1]:
temp = array[i-1]
array[i-1] = array[2 * i-1]
array[2 * i-1] = temp
continue
if not (array[i-1] <= array[2*i-1] and array[i-1] <= array[2*i]):
temp = array[i-1]
if array[2*i-1] >= array[2*i]:
array[i-1] = array[2*i]
array[2*i] = temp
else:
array[i-1] = array[2*i-1]
array[2*i-1] = temp
return array
# 调整自底向上调整小根堆
def changed_bot_top(array):
flag_branch = len(array) // 2 # 数组长度除以2下取整表示最后一个分支节点
# print 'flag_branch: ', flag_branch
while flag_branch != 0: # 从最后一个分支结点开始自底向上调整该二叉树
# print '执行了'
if flag_branch == len(array)//2:
if (2 * flag_branch + 1) > len(array): # 因为是完全二叉树,最后一个分支结点可能没有右孩子
# print '执行了'
if array[flag_branch - 1] >= array[2 * flag_branch - 1]: # 数组中索引要减1
temp = array[flag_branch - 1]
array[flag_branch - 1] = array[2 * flag_branch - 1]
array[2 * flag_branch - 1] = temp
flag_branch -= 1
continue
# print array[flag_branch-1] <= array[2 * flag_branch-1] and array[flag_branch-1] <= array[2 * flag_branch]
if not (array[flag_branch-1] <= array[2 * flag_branch-1] and array[flag_branch-1] <= array[2 * flag_branch]):
# 该分支结点的孩子节点中有比它小的,所以选择小的替换该分支节点
temp = array[flag_branch-1]
if array[2 * flag_branch-1] >= array[2 * flag_branch]:
array[flag_branch-1] = array[2 * flag_branch]
array[2 * flag_branch] = temp
else:
array[flag_branch-1] = array[2 * flag_branch-1]
array[2 * flag_branch-1] = temp
flag_branch -= 1
# print 'flag_branch: ', flag_branch
# print array
return array
# 实现小根堆找无序数组中位数
def find_mid_num(array):
# 根据数组长度奇偶性取部分元素
extract_array = []
remain_array = []
if not len(array) % 2:
extract_array += array[:(len(array)+1)//2+1]
remain_array += array[(len(array)+1)//2+1:]
else:
extract_array += array[:(len(array)+1)//2]
remain_array += array[(len(array)+1)//2:]
# print 'extract_array: \n', extract_array
# print remain_array
# 利用所取的部分元素建立完全二叉树
# 根据完全二叉树在数组的中的存储,现在调整该完全二叉树使其成为小根堆
# 将完全二叉树调整为小根堆需要先自低向上调整再自顶向下调整
extract_array = changed_bot_top(extract_array)
# 自底向上调整完,必须在自顶向下调整一次才可以完成初始小根堆
extract_array = changed_top_bot(extract_array)
# print extract_array
small_root_array = extract_array # 得到了初始小根堆
for remain_item in remain_array: # 遍历剩余元素数组
if remain_item < small_root_array[0]: # 剩余元素小于堆顶元素
continue
else:
small_root_array[0] = remain_item # 替换
small_root_array = changed_top_bot(small_root_array) # 只要建立了初始小根堆,后面的调整只需自定向下)
return small_root_array[0] # 堆顶元素就是中位数
if __name__ == '__main__':
array = [5, 2, 4, 1, 3, 6, 7, 8, 9]
# array = [5, 2, 4, 1, 3, 6, 7, 8, 9, 10]
mid_num = find_mid_num(array)
print mid_num