联合分布蕴含一切信息,但?
但在实际计算时,并非如此。
我们总是喜欢解析的表达式,但从解析的联合分布并不一定能容易地得到解析的条件分布:
\[p(\theta|D)=\frac{p(\theta,D)}{p(D)}=\frac{p(D|\theta)p(\theta)}{\int p(D|\theta)p(\theta) d\theta} \]
贝叶斯公式中,分子由参数先验和生成模型组成,分母却不容易积出来。
明白这一点,是区分不同算法、理解不同算法存在意义的关键——因为大家是为了解决“可计算性”的问题,而非理论上的问题。一定要分清“理论可行性”和“计算可行性”。
问题
关于“解析解”我一直不太理解,如果我积不出来,是因为理论上就积不出来,还是说我水平不够积不出来呢?(虽然这两者在实际中区别似乎不大?)其实努力去积一个积分的时候就同时也研究了这个问题。
另外就是,数值计算积分似乎可以满足应用上的需求,那是否说我们没有研究解析地积出积分的必要了呢?还是说有计算复杂度上的区别。
高斯混合模型?
今天注意到,GMM似乎有两种表达。
第一种:
\[X \sim \sum_{k=1}^{K}\pi_k \mathcal{N}(\mu_k,\Sigma_k) \\ \pi \sim Dirichlet(\alpha_0) \]
第二种:
\[X \sim \prod_{k=1}^{K} {\mathcal{N}(\mu_k,\Sigma_k)}^{z_k} \\ z \sim Categorical(\pi) \\ \pi \sim Dirichlet(\alpha_0) \]
直观上感觉这两种表达似乎是一致的,现在来算一下条件密度。
第一种:
\[p(X|\pi)=\sum_{k=1}^{K}\pi_k \mathcal{N}(\mu_k,\Sigma_k) \]
第二种:
\[\begin{align} p(X|\pi) &= \int p(X|z)p(z|\pi) dz \\ &= \int \prod_{k=1}^{K} {\mathcal{N}(\mu_k,\Sigma_k)}^{z_k} \prod_{k=1}^{K}\pi_k^{z_k} dz \\ &= \int \prod_{k=1}^{K} \left[\pi_k {\mathcal{N}(\mu_k,\Sigma_k)}\right]^{z_k} dz \\ &= \sum_{l=1}^K I(z_l=1) \prod_{\substack{j=1\\ j\neq l}}^{K}I(z_j = 0) \prod_{k=1}^{K} \left[\pi_k {\mathcal{N}(\mu_k,\Sigma_k)}\right]^{z_k} \\ &= \sum_{l=1}^K \pi_l {\mathcal{N}(\mu_l,\Sigma_l)} \end{align} \]
确实是一样的。
问题
那为什么要有两种表达呢?哪种更合理一点?
其实做simulation的时候应该是按照第二种进行的,分层建模的思想。也许这么看更清晰一点?
或者我自己造一个词:变量隔离。在推导0均值GMM的变分推断时想到的。
干扰数据---王者荣耀数据分析
我们统计学专业一直号称可以做数据分析师,但学生时代,我们做的那些小儿科,远没有实际中的问题来得复杂。
比如数据预处理,我们都说要剔除异常值,ok,在欧氏空间,异常值还好判断一点,或者至少说离群点容易判断。(虽然很多时候我觉得即使面对结构化的标准的数据,识别outlier也并非易事。)但是在一些竞技比赛中,假如你是一支队伍的数据分析师,你要如何判断哪些数据是真实的,而不是对方故意表演以引导你走向错误的方向呢?
你需要有较强的专业背景,还得有魄力——选贤与能的魄力。数据不是束手就擒等待审讯的犯人,而是身怀绝技却不遇知己的人才,你应该敬畏它、了解它,听它讲述自己的故事,然后把它安置在正确的位置(合适的model)中,而不是冷冷地抛下一句“让数据说话”。
真正本质的,不是数据,而是产生数据的机制。在MOBA游戏或一些竞技比赛中,数据分析师不能只关注一场比赛下来之后选手或队员的数据,更应该关注选手本身,以及战术。这是一个很有挑战的工作。比如你要做王者荣耀的数据分析师,你不应该整天醉心于这种model那种model中,而应该真真正正地去打游戏,阅读游戏,很多特征你是不能靠想象提取出来的,“手捏特征”是一种重要的能力,不要心怀偏见。
越来越理解薛江老师说过的那句话:如果你要做理论,就一点都不必想如何落地,潜心按照你的节奏去开拓就好了;如果你要做应用,你必须知道最前沿的理论在研究什么,以及最前沿的应用需要什么,你要找到之间可能的路径,然后将其打通。
也越来越理解为什么说统计学是关于艺术与科学的学问。
问题
其实以后若有机会,我很想走近NBA、LOL、王者荣耀、国乒、国足等幕后的数据分析团队,从“learning to learn”的角度讲,这其实是在训练我自己成为一名理想的数据分析师的过程,需要观察别的数据分析师是如何学习的,包括“好的”和“坏的”:观察好的能让你知道如何做也许能变得更好,而观察坏的能让你知道不要如何做也许可以让你变得不坏(不坏不等同于好),当然还会关注好队和坏队表现之间的相关性,对比观察能得到更多的东西。
这些东西形成于大脑中数以亿计的神经元及其复杂的连接中,见诸于文字,所以感性的文字有时候恰恰能做到理性的模型和数据难以做到的事。以前我们总觉得理性是严谨的,大家醉心于用理性建构世界,甚至希望用理性去理解和描述感性;但是,是否存在这样一种可能,感性处于理性同等的地位,都是最本质的东西,而不应该去用其中一种去解释另一种(也不一定),是否存在基于感性导出的“感论”(对应于理论)呢?换句话说,将这段话中的所有“感性”和“理性”掉个个儿,是否就成了某个地外文明的“智能体”可能会提的问题呢?
有生之年系列。