RDD是弹性分布式数据集,通常RDD很大,会被分成很多个分区,分别保存在不同的节点上1.分区的作用(1)增加并行度!image.png(https://s2.51cto.com/images/20211228/1640664998888960.png?xossprocess=image/watermark,size_14,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_1
转换操作对于RDD而言,每一次转换操作都会产生不同的RDD,供给下一个“转换”使用转换得到的RDD是惰性求值的,也就是说,整个转换过程只是记录了转换的轨迹,并不会发生真正的计算,只有遇到行动操作时,才会发生真正的计算,开始从血缘关系源头开始,进行物理的转换操作!image.png(https://s2.51cto.com/images/20211228/1640664631887676.png?x
配置动态路由RIP目的1、了解动态路由协议采用的自适应路由算法2、了解路由协议算法的层次划分3、学会配置动态路由RIP步骤及结果将路由器和PC拖到工作区,并选择自动连接类型按照拓扑结构连接各设备。!image.png(https://s2.51cto.com/images/20211228/1640656412970671.png?xossprocess=image/watermark,size_
名称单交换机VLAN的划分目的1、理解虚拟局域网VLAN的概念2、掌握交换机划分VLAN的配置过程3、验证VLAN划分前后的广播域4、验证同一VLAN之间的终端能互相通信5、验证不同VLAN之间的终端不能相互通信。步骤及结果1、实验环境搭建启动PacketTracer软件,在逻辑工作区根据实验拓扑图放置和连接设备。各终端PC的IP地址及连接交换机的端口情况如下表所示。根据该表配置各个PC端的IP地
名称Scala编程初级实践目的1.掌握Scala语言的基本语法、数据结构和控制结构;2.掌握面向对象编程的基础知识,能够编写自定义类和特质;3.掌握函数式编程的基础知识,能够熟练定义匿名函数。熟悉Scala的容器类库的基本层次结构,熟练使用常用的容器类进行数据;4.熟练掌握Scala的REPL运行模式和编译运行方法。内容与结果分析1.计算级数请用脚本的方式编程计算并输出下列级数的前n项之和Sn,直
名称RDD编程目的1.熟悉Spark的RDD基本操作及键值对操作。2.熟悉使用RDD编程解决实际具体问题的方法。内容与结果分析1、在sparkshell环境下编写代码并运行。假设有一个本地文件word.txt,里面包含了很多行文本,每行文本由多个单词构成,单词之间用空格分隔。统计每个单词出现的次数先创建本地文件!image.png(https://s2.51cto.com/images/20211
名称SparkSQL编程目的1.通过实验掌握SparkSQL的基本编程方法;2.熟悉RDD到DataFrame的转化方法;3.熟悉利用SparkSQL管理来自不同数据源的数据。内容与结果分析1.将下列JSON格式数据复制到Linux系统中,并保存命名为employee.json。{"id":1,"name":"Ella","age":36}{"id":2,"name":"Bob","age":29
采用AGNES算法,对给出的16个样本数据进行聚类,聚类簇数可自由调整,最后输出簇数为2、3、4的聚类结果。Cluster.javajavapackageagnes;importjava.util.ArrayList;importjava.util.List;publicclassCluster{privateList<DataPointdataPoints=newArrayList<DataPo
采用kMeans算法,对给出的15个样本数据进行聚类,聚类簇数可自由调整,最后输出簇数为2、3、5的聚类结果。javapackagekMeans;importjava.util.;publicclassKm{privateArrayList<doubledataSet;//数据集链表privateArrayList<doublecenter;//中心点链表privateArrayList<Arra
关联规则挖掘可以让我们从数据集中发现项与项之间的关系,它在我们的生活中有很多应用场景,关联规则挖掘是个非常有用的技术。下面就让我们通过一个实例来学习此算法首先我们需要了解两个概念1.支持度<br支持度是个百分比,它指的是某个商品组合出现的次数与总次数之间的比例。支持度越高,代表这个组合出现的频率越大。<br2.置信度<br置信度是个条件概念,就是说在A发生的情况下,B发生的概率是多少。它指的就是当
目的熟悉Linux系统的基本使用方法。需要读者提前熟悉Linux系统的基本用法,尤其是一些常用命令的使用方法。平台操作系统:Linux内容和要求使用Linux系统的常用命令cd命令:切换目录(1)切换到目录/usr/localcd/usr/local!image.png(https://s4.51cto.com/images/blog/202112/15192235_61b9cffbafcaa54
目的1.理解NoSQL数据库和关系型数据库的区别;2.熟练使用MongoDB操作常用的Shell命令;平台操作系统:LinuxMongoDB版本:3.2.6或以上版本内容和要求1.NoSQL数据库和关系型数据库的区别<1NoSQL使用简单,开源,成本低;关系型数据库成本高;<2Nosql不适用SQL,关系型数据库使用;<3NoSQL易扩展,关系型数据库不易扩展。<4NoSQL存储方式多,比如key
目的1.熟练使用HBase操作常用的Shell命令;2.熟悉HBase操作常用的JavaAPI。平台操作系统:LinuxHadoop版本:2.6.0或以上版本HBase版本:1.1.2或以上版本JDK版本:1.6或以上版本JavaIDE:Eclipse内容和要求Hbase数据库练习Shell练习根据下面给出的表格,用HbaseShell模式设计学生表格,表名用自己姓名全拼。namescoreEng
目的1.理解HDFS在Hadoop体系结构中的角色;2.熟练使用HDFS操作常用的Shell命令;3.熟悉HDFS操作常用的JavaAPI。平台操作系统:LinuxHadoop版本:2.6.0或以上版本JDK版本:1.6或以上版本JavaIDE:Eclipse内容和要求HDFS理解含义:HDFS是hadoop项目的核心子项目,是分布式计算中数据存储管理的基础。是基于流数据模式访问和处理超大文件的需
朴素贝叶斯分类是一种十分简单的分类算法,说它十分简单是因为它的解决思路非常简单。即对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。而朴素贝叶斯(NativeBayes)算法是基于贝叶斯定理和特征条件独立假设的分类算法。朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素,朴素贝叶斯的思想基础是这样的:对于给出
JAVA环境配置说到java环境,首先我们需要了解一下什么是环境变量环境变量(https://baike.baidu.com/item/%E5%8F%98%E9%87%8F)是在操作系统中一个具有特定名字的对象,它包含了一个或者多个应用程序(https://baike.baidu.com/item/%E7%A8%8B%E5%BA%8F)所将使用到的信息。例如Windows(https://baik
Maven是什么?Maven是Apache下的一个开源项目,它是一个项目管理工具,它用于对java项目进行项目构建、依赖管理及项目信息管理。当前使用Maven的项目在持续增长。Maven包含了一个项目对象模型(ProjectObjectModel),一组标准集合,一个项目生命周期(ProjectLifecycle),一个依赖管理系统(DependencyManagementSystem),和用来运
内容1. 分析weka自带的测试数据集;2. 利用weka实现对数据库中数据的挖掘;3.利用weka中的预处理算法对数据进行预处理,包括:添加属性,删除属性/实例,将数据离散化。步骤及结果分析weka自带的测试数据集;首先安装weka安装完后解压weka.jar!image.png(https://s4.51cto.com/images/blog/202112/15191811_61b9cef32
目的1.通过实验掌握基本的MapReduce编程方法;2.掌握用MapReduce解决一些常见的数据处理问题。平台已经配置完成的Hadoop伪分布式环境。实验内容和要求假设HDFS中/user/hadoop/input文件夹下有文件wordfile1.txt和wordfile2.txt。现在需要设计一个词频统计程序,统计input文件夹下所有文件中每个单词的出现次数。!image.png(http
KNN是什么?KNN是通过测量不同特征值之间的距离进行分类。它的的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。K通常是不大于20的整数。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。那么K值有什么影响?K值比较小,就相当于未分类物体与它的
贝叶斯分类算法是统计学的一种分类方法(https://baike.baidu.com/item/%E5%88%86%E7%B1%BB%E6%96%B9%E6%B3%95/9508629),它是一类利用概率统计(https://baike.baidu.com/item/%E6%A6%82%E7%8E%87%E7%BB%9F%E8%AE%A1/1486966)知识进行分类的算法。在许多场合,朴素贝叶斯
首先我们需要了解一下什么是apriori算法Apriori算法是一种通过频繁项集来挖掘关联规则的算法。该算法既可以发现频繁项集,又可以挖掘物品之间关联规则。分别采用支持度和置信度来量化频繁项集和关联规则。其核心思想是通过候选集生成和情节的向下封闭检验检测两个阶段来挖掘频繁项集。实验如下:加载weather.nomianl.arff数据,切换至Associate标签页,依次选择chooseAprio
思想:利用局部性原理,根据一个进程在执行过程中过去的页面访问踪迹来推测未来的行为。认为过去一段时间里不曾被访问过的页面,在最近的将来可能也不会再被访问。即利用“最近的过去”预测“最近的将来”。即选择最近一段时间内最久不用的页面予以淘汰。性能接近最佳算法。了解页面置换的算法,编写LRU置换算法假定一个能够存放M个页面的内存,当发生缺页时,调入一个页面,通过LRU算法求出应该置换出的页面号。输入一连串
大数据的特点数据量大数据类型繁多处理速度快价值密度低真实性hdfs最终数据块的存储位置datanode的位置Master主服务器的作用 Master主服务器主要负责表和Region的管理工作。管理用户对表的增加、删除、修改、查询等操作。实现不同Region服务器之间的负载均衡。在Region分裂或合并后,负责重新调整Region的分布。对发生故障失效的Region服务器上的Regio
内容struts框架实现web应用的基本配置创建基于Struts2框架的HelloWord工程了解struts2目的熟悉采用Eclipse搭建struts应用的一般流程了解struts.xml配置文件的基本结构及作用掌握Struts2建立web项目的步骤平台:EclipseforJ2EETomcat服务器(Tomcat6.x)框架jar包官方网站下载,放入工程lib库中http://struts.
目的1.掌握频繁项目集的生成原理2.掌握关联规则挖掘的原理3.掌握在weka中进行关联规则挖掘的具体流程。内容1.根据给定的事务数据库,支持数阈值2和置信度阈值0.7,编写代码生成频繁项目集及对应的关联规则。2.利用weka工具对天气数据、美国国会议员投票信息、超市购物篮数据进行关联规则挖掘,并分析挖掘结果步骤1.根据给定的事务数据库,支持数阈值2和置信度阈值0.7,编写代码生成频繁项目集及对应的
目的安装Spark在spark-shell中运行代码编写Spark独立应用程序基础环境Spark支持4种不同类型的部署方式,包括:Local模式:单机模式 Standalone模式:使用Spark自带的简单集群管理器 YARN模式:使用YARN作为集群管理器 Mesos模式:使用Mesos作为集群管理器 Spark可以独立安装使用,也可以和Hadoop一起安装使用。安装了Hadoop后,就可以让S
圆周率(Pi)是圆的周长与直径的比值,一般用希腊字母π表示,是一个在数学及物理学中普遍存在的数学常数。π也等于圆形之面积与半径平方之比。是精确计算圆周长、圆面积、球体积等几何形状的关键值。为了探索圆周率,本文用代码的方式来验算三种计算π的方式圆周率的计算方法割圆术所谓“割圆术”,是用圆内接正多边形的面积去无限逼近圆面积并以此求取圆周率的方法 代码如下i = 0n = 15an = 1whi
分类方法的实现基于weka的分类方法的实现,包括:KNN分类、决策树分类、朴素贝叶斯分类步骤KNN分类1. 打开weka进入explorer 界面,加载天气数据集glass.arff,然后切换到classify标签页。单击choose依次选择weka->classifiers->lazy->IBk,,IBk是一种KNN分类器。IBk的参数值保持默认,使用交叉验证的方式测试该分类器
银行家算法银行家算法是一个用来避免死锁的算法。下面我们通过一个例题来解释怎么使用实例假定系统中有五个进程{P0、P1、P2、P3、P4}和三种类型资源{A、B、C},每一种资源的数量分别为10、5、7。各进程的最大需求、T0时刻资源分配情况如下 所示。 试问:一、T0时刻是否安全? 二、T0之后的T1时刻P1请求资源Request1(1,0,2)是否允许? 三、T1之后的T2时刻P4请求资源R
Copyright © 2005-2025 51CTO.COM 版权所有 京ICP证060544号