1.学习大数据知识

根据网上的资料,学习《尚硅谷大数据教程》和《网易云课堂的大数据项目实战》。

学习hadoop原理,hdfs原理,使用zookeeper分布式部署,安装hbase,学习flume采集,使用hive和hbase集成。能够用HSQL进行HBASE数据库查询。

2.学习人工智能知识

最近人工智能特别火,再加上工作中使用到语音识别ASR,所以对于这部分的知识也需要补充下。

人工智能(ArtificialIntelligence,AI)是最宽泛的概念,是研发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。由于这个定义只阐述了目标,而没有限定方法,因此实现人工智能存在的诸多方法和分支,导致其变成一个“大杂烩”式的学科。机器学习(MachineLearning,ML)是当前比较有效的一种实现人工智能的方式。深度学习(DeepLearning,DL)是机器学习算法中最热门的一个分支,近些年取得了显著的进展,并替代了大多数传统机器学习算法。

主要学习百度的飞桨平台paddlepaddle和paddlespeech。学习开源软件kaldi。

学习语音识别原理,搭建paddlepaddle,并在paddlepaddle上安装部署paddlespeech。并在paddlespeech上运行,验证语音识别的效果。

区别于人工智能,机器学习、尤其是监督学习则有更加明确的指代。机器学习是专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构,使之不断改善自身的性能。这句话有点“云山雾罩”的感觉,让人不知所云,下面我们从机器学习的实现和方法论两个维度进行剖析,帮助读者更加清晰地认识机器学习的来龙去脉。

机器学习的实现可以分成两步:训练和预测,类似于归纳和演绎:

  • 归纳: 从具体案例中抽象一般规律,机器学习中的“训练”亦是如此。从一定数量的样本(已知模型输入XXX和模型输出YYY)中,学习输出YYY与输入XXX的关系(可以想象成是某种表达式)。
  • 演绎: 从一般规律推导出具体案例的结果,机器学习中的“预测”亦是如此。基于训练得到的YYY与XXX之间的关系,如出现新的输入XXX,计算出输出YYY。通常情况下,如果通过模型计算的输出和真实场景的输出一致,则说明模型是有效的。

机器学习的方法论和人类科研的过程有着异曲同工之妙,下面以“机器从牛顿第二定律实验中学习知识”为例,帮助读者更加深入理解机器学习(监督学习)的方法论本质,即在“机器思考”的过程中确定模型的三个关键要素:假设、评价、优化。

总结:

通过小长假7天,充分学习,补充短板。计划很美好,希望现实不要太骨感。加油。