今日内容总结

算法简介及二分法

1.什么是算法
     算法(Algorithm)是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制。也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。如果一个算法有缺陷,或不适合于某个问题,执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。

一个算法应该具有以下七个重要的特征:

①有穷性(Finiteness):算法的有穷性是指算法必须能在执行有限个步骤之后终止;

②确切性(Definiteness):算法的每一步骤必须有确切的定义;

③输入项(Input):一个算法有0个或多个输入,以刻画运算对象的初始情况,所谓0个输 入是指算法本身定出了初始条件;

④输出项(Output):一个算法有一个或多个输出,以反映对输入数据加工后的结果。没 有输出的算法是毫无意义的;

⑤可行性(Effectiveness):算法中执行的任何计算步骤都是可以被分解为基本的可执行 的操作步,即每个计算步都可以在有限时间内完成(也称之为有效性);

⑥高效性(High efficiency):执行速度快,占用资源少;

⑦健壮性(Robustness):对数据响应正确。
2.算法的应用场景
1 金融领域
金融领域使用机器学习建模最多的场景就是风控。当然风控也要进行细分,主要应用机器学习建模的细分场景如下:

信用卡交易反欺诈:分类任务,GBDT算法+LR逻辑回归;

信用卡申请反欺诈:分类任务,GBDT算法+LR逻辑回归;

贷款申请反欺诈:分类任务,GBDT算法+LR逻辑回归;

反洗钱:分类任务,GBDT算法+LR逻辑回归;

 2.媒体领域
在媒体领域最典型的就是今日头条了,包括像很多其他的媒体端如小红书、抖音等;这里面最常应用机器学习的就是推荐场景。大家经常发现的一点就是今日头条、小红书经常会根据你之前看过的一些内容来给你推相关内容。比如你经常看大长腿,小红书就一直给你推,别问我怎么知道的。

推荐:基于内容item的推荐、基于知识图谱的推荐、基于协同过滤算法的推荐。资讯信息物料的推荐,这里面会涉及到Doc2Vec、Lsi等算法,因为涉及到一部分对于物料语义的理解。

3 零售领域
在零售领域,使用机器学习建模最多的场景也是推荐场景和搜索场景中的排序。APP上购物车页面提交订单时为用户推荐相似商品、推荐可能感兴趣的商品,以及针对什么样的用户推荐什么样的优惠券等等。

推荐:协同过滤CF算法、FM算法+LR排序模型、深度学习模型目前在推荐领域使用也十分广泛了。

除去推荐,零售领域还有一个使用机器学习建模比较多的场景,就是对某类商品进行销量预测,根据预测量来调整商品的供给。

销量预测:目前基本都转用LightGBM算法了;
3.算法工程师的要求
1.专业要求:计算机、电子、通信、数学等相关专业;
2.学历要求:本科及其以上的学历,大多数是硕士学历及其以上;
3.语言要求:英语要求是熟练,基本上能阅读国外专业书刊;
4.必须掌握计算机相关知识,熟练使用仿真工具MATLAB等,必须会一门编程语言。
5.算法工程师一般都是学的数据挖掘和机器学习,而且对专业要求比较高,对能力也有一定的限制。 算法工程师是一个非常高端的职位; 专业要求:计算机、电子、通信、数学等相关专业; 学历要求:本科及其以上的学历,大多数是硕士学历及其以上。
4.算法部门
不是所有的互联网公司都养得起算法部分 只有大型互联网公司才有
算法部门类似于药品研发部分
5.二分法
是算法中最简单的算法 甚至都称不上是算法

"""
二分法的使用要求
     待查询的数据集必须要有序
二分法的缺陷
    针对开头结尾的数据 查找效率很低
    
常见算法的原理以及伪代码
   二分法、冒泡、快拍、插入、堆排、捅排、数据结构(链表 约瑟夫问题 如何链表是否成环)
""" 

l1 = [11,22,33,44,55,66,77,88,99,100]
查找列表中的某个数据值
方式1:for循环 次数较多
方式2:二分法 不断的对数据集做二分切割
    '''代码实现部分'''
    定义我们想要查找的数据值
    target_num = 66
def get_middle(l1,target_num):
    #添加一个结束条件
    if len (l1) == 0:
        print('很抱歉 没找到')
        return
           #1.获取列表中间索引值
        middle_index = len(l1)//2
        #2.比较目标数据值与中间索引值的大小
        if target_num > l1[midle_index]:
            #切片保留列表右边一半
            right_l1 = l1[middle_index + 1:]
            print(right_11)
            #针对右边的一半的列表继续二分并判断   感觉要用递归函数
            return get_middle(right_l1,target_num)
        elif target_num < l1[middle_index]:
            #切片保留列表左边一半
            left_l1 = l1[:middle_index]
            print(left_11
            #针对左边一半的列表继续二分并判断>>>  感觉要用递归函数
            return get_middle(left_l1,target_num)
        else:
            print('恭喜你 找到了')
 get_middle(l1,66)
 get_middle(l1,11)
 get_middle(l1,100)

三元表达式

作用:简化步骤 代码简单并且只有一行 那么可以直接在冒号后面编写
name = 'jason'
if name == 'jason':
	print('老师')
else:
    print('学生')
print('学生')

用三元表达式简化:
    
res = '老师' if name =='jason'else'学生'
print(res)

"""
数据值1   if 条件 else 数据值2
条件城里则使用数据值1 条件不成立则使用数据值2
当结果是二选一的情况下 使用三元表达式较为简便
但是 不推荐多个三元表达式嵌套
"""

各种生成式/表达式/推导式

name_list = ['jason', 'kevin', 'oscar', 'tony', 'jerry']
给列表中所有人名的后面加上_NB的后缀
 for循环
 new_list =  
 for name in name_list:
     data = f'{name}_NB'
     new_list.append(data)
 print(new_list)
 列表生成式
 先看for循环 每次for循环之后再看for关键字前面的操作
 new_list = [name + "_NB" for name in name_list]
 print(new_list)
 复杂情况
 new_list = [name + "_NB" for name in name_list if name == 'jason']
 print(new_list)
 new_list = ['大佬' if name == 'jason' else '小赤佬' for name in name_list if ame != 'jack']
 print(new_list)
字典生成式
 s1 = 'hello world'
 for i,j in enumerate(s1,start=100):
     print(i,j)
 d1 = {i: j for i, j in enumerate('hello')}
 print(d1)
 集合生成式
 res = {i for i in 'hello'}
 print(res)
 元组生成式>>>:没有元组生成式 下列的结果是生成器(后面讲)
 res = (i+'SB' for i in 'hello')
 print(res)
 for i in res:
     print(i)

匿名函数

没有名字的函数 需要使用关键字lambda
语法结构 
     lambda 形参:返回值
使用场景
    lambda a,b:a+b
匿名函数一般不单独使用 需要配合其他函数一起用

常见内置函数

1.map() 映射
l1 = [1, 2, 3, 4, 5]
def func(a):
    return a+1
res = map(lambda x:x+1,l1)
print(list(red))

2.max(),min()
l1 = [11,22,33,44]
res = max(l1)
    
d1 = {
      'zj': 100,
      'jason':888,
      'berk':99999,
      'oscar':1
    }
def func(a):
    return d1.get(a)
# res = max(d1, key=lambda k:d1.get(k))
res = max(d1, key = func)
print(res)

3.reduce
# reduce 传播多个值 返回一个值
from functools import reduce
l1 = [11,22,33,44,55,66,77,88,]
res = reduce(lambda a,b: a*b,11)
print(res)

'''好奇执行流程可以使用debug模式简单看看'''