一、简介
波士顿房价数据集包括506个样本,每个样本包括12个特征变量和该地区的平均房价
房价(单价)显然和多个特征变量相关,不是单变量线性回归(一元线性回归)问题
选择多个特征变量来建立线性方程,这就是多变量线性回归(多元线性回归)问题

二、核心步骤
使用Tensorflow进行训练的核心步骤:
(1) 准备数据
(2) 构建模型
(3) 训练模型
(4) 进行预测

三、准备数据

3.1)数据获取

波士顿房价数据集包括506个样本,可以点击下面百度网盘链接进行下载。

链接: https://pan.baidu.com/s/1GpZN3g3_It9kcdYfQdCkzQ 提取码: 73ga

3.2)数据解读

基于cnn和lstm的房价预测_基于cnn和lstm的房价预测


四、多元线性回归模型

基于cnn和lstm的房价预测_初始化_02


五、模型训练

设置训练超参数

迭代轮次:50

train_epochs=50

学习率:0.01

learning_rate=0.01

进行50轮训练,损失值变化趋势如下:

基于cnn和lstm的房价预测_基于cnn和lstm的房价预测_03

六、进行预测

根据模型进行预测,随机从506个样本中取3个,检测模型是否训练好。运行结果如下:

基于cnn和lstm的房价预测_数据_04


七、参数调优

通过调整不同的超参数来优化模型。

第一组情况: train_epochs=50 learning_rate=0.01

第二组情况: train_epochs=100 learning_rate=0.01

第三组情况: train_epochs=200 learning_rate=0.01

第四组情况: train_epochs=100 learning_rate=0.001

第五组情况: train_epochs=200 learning_rate=0.001

通过分析,得出最优模型参数:

基于cnn和lstm的房价预测_线性回归_05

八、实现代码

import tensorflow as tf
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from sklearn.utils import shuffle

#读取数据文件
df=pd.read_csv('data/boston.csv',header=0)
#显示数据摘要描述信息
#print(df.describe())
#获取df的值
df=df.values
#把df转换为np的数组格式
df=np.array(df)

'''
     数据准备
'''

#数据预处理
#对特征数据[0到11]列做(0-1)归一化
for i in range(12):
    df[:,i]=(df[:,i]-df[:,i].min())/(df[:,i].max()-df[:,i].min())

#x_data 为前12列特征数据
x_data=df[:,:12]
#y_data 为最后1列标签数据
y_data=df[:,12]

'''
     定义模型
'''
#训练数据占位符
#12个特征数据(12列)
x=tf.placeholder(tf.float32,[None,12],name='X')
#1个标签数据(1列)
y=tf.placeholder(tf.float32,[None,1],name='Y')

#定义模型函数
#定义一个命名空间
with tf.name_scope('Model'):
    # w 初始化值为shape=(12,1)的随机数
    w=tf.Variable(tf.random_normal([12,1],stddev=0.01),name='W')
    # b 初始化值为1.0
    b=tf.Variable(1.0,name='b')
    # w和x是矩阵相乘,用matmul,不能用mutiply或者*
    def model(x,w,b):
        return tf.matmul(x,w)+b
    #预测计算操作,前向计算节点
    pred=model(x,w,b)

'''
    模型训练
'''

#1)设置训练超参数
# 迭代轮次
train_epochs=50
# 学习率
learning_rate=0.01
# 定义均方差损失函数
#命名空间
with tf.name_scope('LossFunction'):
    loss_function=tf.reduce_mean(tf.pow(y-pred,2)) #均方误差

#创建梯度下降优化器,目标损失值最小
optimizer=tf.train.GradientDescentOptimizer(learning_rate).minimize(loss_function)
#2)训练模型
#声明会话
sess=tf.Session()
#定义初始化变量的操作
init=tf.global_variables_initializer()

#为TensorBoard可视化准备数据
#设置日志存储目录
logdir='log'
#创建一个操作,用于记录损失值loss,后面再TensorBoard中SCALARS栏可见
sum_loss_op=tf.summary.scalar('loss',loss_function)
#把所有需要记录摘要日志文件的合并,方便一次性写入
merged=tf.summary.merge_all()

sess.run(init)
#w创建摘要writer,将计算图写入摘要文件,后面可视化显示
writer=tf.summary.FileWriter(logdir,sess.graph)


#用于保存loss值的列表
loss_list=[]
for epoch in range(train_epochs):
    loss_sum=0.0
    for xs,ys in zip(x_data,y_data):
        xs=xs.reshape(1,12)
        ys=ys.reshape(1,1)
        #Feed数据必须和placeholder的shape一致
        _,summary_str,loss=sess.run([optimizer,sum_loss_op,loss_function],feed_dict={x:xs,y:ys})
        writer.add_summary(summary_str,epoch)
        loss_sum=loss_sum+loss
    #打乱数据顺序
    x_data,y_data=shuffle(x_data,y_data)
    w0temp=w.eval(session=sess)
    b0temp=b.eval(session=sess)
    loss_average=loss_sum/len(y_data)
    #每轮添加一次
    loss_list.append(loss_average)

    #print('epoch=',epoch+1,'loss=',loss_average,'b=',b0temp,'w=',w0temp)
#可视化损失值
plt.plot(loss_list)
#plt.show()

'''
    应用模型
'''
for i in range(3):
    #随机确定一条来看看效果
    n=np.random.randint(506)
    print('样本序号:',n)
    x_test=x_data[n]
    x_test=x_test.reshape(1,12)
    predict=sess.run(pred,feed_dict={x:x_test})
    print('预测值:%f'%predict)
    target=y_data[n]
    print('标签值:%f'%target)
    dis=abs(predict-target)
    print('误差:',dis)
    print('')