在数据分析领域,机器学习是一种重要的工具,机器学习模型的选择在一定程度上会影响数据分析效果,那么,选择模型的原则有哪些?本文就此问题探讨一二。
模型效果
使用机器学习进行判断/预测的效果,如果不能接近/超过人类,那就没有任何意义。
如果人脸识别不能达到几乎100%准确,根本不可能使用人脸识别代替人工检查。
所以,追求模型预测准确是机器学习的核心目标。
(当然,预测的准确度不仅仅取决于模型的选择,应用模型之前,对数据的清洗和处理也很重要。)
运算速度
能够同时处理大量数据,可以在超短时间内极速学习,是机器学习的重要优势,如果机器学习的判断速度不能接近/超越人类,那计算机判断的优越性就几乎不存在了。
模型效果与运算速度往往是此消彼长的,在模型效果不错的情况下保障运算速度较快,是机器学习中重要的一环。
可解释性
机器学习是一门技术,是一门有门槛的技术,所以,大众注定不太可能短时间内熟悉它,但是技术人员肩负着要向老板,客户,同事,甚至亲朋好友解释机器学习在做什么的职责。
比如说,在“是否分发信用卡”的问题中,如果算法判断“这个人有违约风险,不发信用卡”,那客户很可能找上门来要个解释,这个时候,你能告诉他说“因为算法判断你不通过”吗?
因此,在解释性需求很强的领域,我们就需要可解释的算法。
服务于业务
而所有的一切,都是为了服务于业务。
只有模型效果优秀,运算速度快,还带有一部分可解释性的算法才是最优秀的算法。