M是一个斜率,或者我们可以说是梯度。
B是y轴上的值截距。
Y是X的函数。回归模型是线性近似。为了获得良好的预测,我们需要找到B和M。
例子:
假设我们具有“能量”和“公里数”的适应性数据。
我们需要找到乙和中号。查找这些值得公式如下:
M =样本数*(XY总和-X总和* Y总和)/样本数*(X平方总和-X总和的平方)
B = Y总和-M * X总和/样本数
该图显示了这些值。
计算出该值之后,M变为1.89,B的值为0.667。从这些值,我们可以从公式中得出预测。
Y = 1.89 * X + 0.667
在检查了一些X值后,可以预测公里数。一个例子如下所示:
我们得到了模型,但是是一种简单的技术。让我们用python检查是否获得相同的值。
#import all the libraries
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
读取Excel文件
df = pd.read_excel(“fitness.xlsx”)
使用describe函数查看统计信息。
将数据分为x和y。
y = df[‘Y1’]
x = df[‘X1’]
#plot the scatter plot between them
plt.scatter(x,y)
plt.xlabel(‘Energy’, fontsize =20)
plt.ylabel(‘Kms Covered’, fontsize =20)
plt.show()
我们几乎得到了线性相关。