HyperLearn是一个基于PyTorch重写的机器学习工具包Scikit Learn,它的一些模块速度更快、需要内存更少,效率提高了一倍。
专为大数据而设计,HyperLearn可以使用50%以下的内存,并在某些模块上运行速度提高50%以上。将支持GPU,并且所有模块都是并行化的。
项目作者Daniel Han-Chen,毕业于澳大利亚新南威尔士大学,专注于AI、NLP和无监督机器学习的推荐和匹配算法。
基于HyperLearn,作者展示了如何让很多机器学习算法更快、更高效。
其中一些很酷的算法:
● 最小二乘法/线性回归的拟合时间相比sklearn减少70%,内存使用减少50%
● 由于新的并行算法,非负矩阵分解的拟合时间相比sklearn减少50%
● Euclidean算法/余弦相似度算法加快40%
● LSMR迭代最小二乘法时间减少50%
● 新的Reconstruction SVD算法——使用SVD来估算丢失的数据,比mean imputation方法好约30%
稀疏矩阵运算速度提高50%——并行化
● RandomizedSVD,速度加快20%~30%
● New Incremental SVD和Incremental Eig,RandomizedSVD / Truncated SVD
● 等等
项目地址:
https://github.com/danielhanchen/hyperlearn
并且,作者写了一本电子书:Modern Big Data Algorithms,介绍了12个新算法以及一些更新的算法:
红色:新算法;绿色:更新的算法;蓝色:即将发布
让我们先大致看一下“奇异值分解”(SVD)这一章,这是最重要的算法之一。SVD将PCA、线性回归、岭回归、QDA、LDA、LSI、推荐系统、压缩算法、L2 distance等多种算法联系在一起,可以说是机器学习中最重要的算法了。
提速50%+,RAM使用减少50%+
提速50%+,RAM使用减少50%+,GPU支持的重写Sklearn,使用Statsmodels组合新的算法。
HyperLearn完全用PyTorch, NoGil Numba, Numpy, panda, Scipy 和 LAPACK编写,镜像主要是Scikit Learn。HyperLearn还嵌入了统计推断方法,可以被想Scikit Learn语法(model.confidence_interval_)一样调用。
速度/内存的比较
时间表示Fit + Predict的时间。RAM(mb) = max( RAM(Fit), RAM(Predict) )
以下是N = 5000,P = 6000时的初步结果:
关键方法和目标
● 令人尴尬的并行循环
● 速度提升50%+,精简50%+
● 为什么Statsmodels有时会慢得让人无法忍受?
● 使用PyTorch的深度学习模块
● 代码量减少20%+,更清晰的代码
● 访问旧算法和令人兴奋的新算法
1. 令人尴尬的并行循环
● 包括内存共享,内存管理
● 通过PyTorch和Numba的CUDA并行性
2. 50%+ Faster, 50%+ Leaner
● 矩阵乘法排序:
https://en.wikipedia.org/wiki/Matrix_chain_multiplication ● Element Wise矩阵乘法将复杂度从O(n^3)降低到O(n^2): https://en.wikipedia.org/wiki/Hadamard_product_(matrices)
● 将矩阵运算简化为Einstein Notation:
https://en.wikipedia.org/wiki/Einstein_notation
● 连续评估一次性矩阵操作以减少RAM开销。
● 如果p >> n,则可能分解X.T优于分解X.
● 在某些情况下,应用QR分解SVD可能会更快。
● 利用矩阵的结构来计算更快(例如三角矩阵,Hermitian矩阵)。
● 计算 SVD(X),然后获得pinv(X) ,有时比单纯计算pinv(X)更快
3. 为什么Statsmodels有时会慢得让人无法忍受?
● 对线性模型的置信度、预测区间,假设检验和拟合优度检验进行了优化。
● 尽可能使用 Einstein Notation和Hadamard Products。
● 仅计算需要计算的内容(计算矩阵对角线,而不是整个矩阵)。
● 修复Statsmodels在符号、速度、内存方面的问题和变量存储上的缺陷。
4. 使用PyTorch的深度学习模块
● 使用PyTorch创建Scikit-Learn
5. 代码量减少20%+,更清晰的代码
● 尽可能使用 Decorators和Functions。
● 直观的中层函数名称,如(isTensor,isIterable)。
● 通过hyperlearn.multiprocessing轻松处理并行
6. 访问旧算法和令人兴奋的新算法
● 矩阵补全算法——非负最小二乘法,NNMF
● 批相似性隐含狄利克雷分布(BS-LDA)
● 相关回归(Correlation Regression)
● 可行的广义最小二乘法FGLS
● Outlier Tolerant Regression
● 多维样条回归(Multidimensional Spline Regression)
● 广义MICE
● 使用Uber的Pyro进行贝叶斯深度学习
本文作者:Daniel Han-Chen