我们现实世界中很多问题其实都是可以模型化的,而为了更好的描述并解决问题,数学家们人为创造了很多符号方便我们理解客观世界的规律。根据以往数学建模的经历加上对神经网络的理解,我发现可以从“维度”的角度去理解神经网络。

生活中的高维描述

首先一般的几何思维都知道0维是一个点,一维是一天线,二维是一个平面,三维是一个立方体,那么四维是一开始伽利略发现的时间维,最后被牛顿总结,再被爱因斯坦进一步解释的广义相对论。

那么我们的现实空间中存在高维吗?答案是肯定的。比如,我们现在要做一个简单的决策,现在有四部电影可供选择:《黑客帝国》《天空之城》《三生三世十里桃花》《憨豆先生》,这时已经约好和朋友小明一起去电影院看电影,应该选择看哪部电影呢?这里涉及到一个问题:你是如何做决策的呢?

首先,这里先明确一个维度,叫时间。现在其实你可以想不都用想就下单《黑客帝国》,是因为小鱼是喜欢看科幻和动作类型的电影。这是你做出决策的判断信息,但是在三年前你们还不熟的时候,也许会问上一句:你喜欢看哪部电影?

可观测特征(输入层)

那么在时间维度的基础上,这三年间发生了什么呢?首先,你了解到这个人的一些基本信息,比如身高178,学历是本科,中国人,大学参加了话剧社等等…这些都是可以具体写在纸上的具体的特征,叫做可观测特征。经过三年的相处,你会获得越来越多小明的可观测特征,比如大学是否拿了奖学金,有没有去国外旅游,毕业后找了什么工作。有时候也会跟你分享看过的电影,并且给每部电影都打了自己的分,比如《夏洛特烦恼》不太感冒,《情书》一般3.5分,《小时代》根本不会去看,《当幸福来敲门》还不错4.5分等等。

隐含特征(隐层)

终于有一天,你终于发现你了解了很多小鱼的隐含特征,比如说小鱼喜欢吃甜食,小鱼是个路痴,小鱼看过很多科幻片。这些信息并不是可以被我们直接收集到的数据,一般是通过总结和分析而得到,而这些信息通常是拿来预测(做决策)的最重要的特征,叫做隐含特征

思考的过程——神经网络信息传递

对应的,可观测特征是通过听和看直接获取的信息,作为神经网络的输入层。输入层的每一个节点都是智能体可观测的特征,了解的越深,说明数据的维度越高:

神经网络的输入维度如何实现可变 神经网络的维度是什么_解析几何


那么把这些可观测的特征放在一个n维空间里面就可以得到“小明”(张量)具体的表示:

神经网络的输入维度如何实现可变 神经网络的维度是什么_数据_02


那么这里的输出端代表的则是四部电影:

神经网络的输入维度如何实现可变 神经网络的维度是什么_解析几何_03


这时,一个代表小明的n维空间要进入这个神经“大脑”去做决定选择哪部电影,但是这个n维空间无法直接预测或者判断究竟选择哪一个,此时就需要隐层的接入:

神经网络的输入维度如何实现可变 神经网络的维度是什么_解析几何_04


隐层代表了隐含特征,它可以有很多层,预测目标不断向输出层迈进。(为了方便介绍,这里只说明一层隐层)隐层是一个不同于输入层的m维空间,小明在这个m维空间上也有一个表达方式。从输入层的n维空间变换到隐层的m维空间,就可以获得小明的喜好类型:

神经网络的输入维度如何实现可变 神经网络的维度是什么_神经网络_05

空间变换

这就有利于对“大脑”的下一步选择做出预测(决策)了。这个步骤就叫做高维空间的变换。神经网络的训练则就是在寻找这个变换映射的参数。层与层之间的信息传递都是一个空间变换,而由最后一个隐层到输出层就是最后的决策(决策)。
关于空间变换的坐标系变化规则参考解析几何和线性代数,这里需要划重点的地方:n维空间到m维空间,
(1)事物的参考系变了;
(2)描述事物的坐标值变了;
(3)被描述的客观事物是恒定不变的“存在”。
综上,高维不见得是一个现实存在的几何事物,更像是一个描述客观存在的隐含规律。

小小的思考

我认为在高维空间的生物是一定存在的,我们经常说的用发展的眼光看问题,深谋远虑,站得高看得远,实际上都是在描述做决策时体现的高瞻远瞩,比如现在看当年的马云,可如果几十年前的你就可以看到如今社会和科学发展的样貌,对于当时的人们来说不就是“降维打击”吗?