环境:虚拟机hive+本地spark+python(pyspark)数据:商品订单数据+商品种类数据步骤:将数据上传到hdfs后,在python中完成hive表的创建,数据处理,关联规则挖掘,数据可视化实现功能:对商品订单中的信息进行挖掘,得到商品组合之间的关联关系(本文只对order进行了处理,没有涉及到type)一.数据准备将GoodsOrder.csv和GoodsTypes.csv文件上传到
转载
2023-10-02 09:13:18
69阅读
题目:现有一张emp表,字段分别为 员工编号,员工姓名,工作,管理编号,生日,工资,备注,部门编号 数据:7369,SMITH,CLERK,7902,1980/12/17,800,,20
7499,ALLEN,SALESMAN,7698,1981/2/20,1600,300,30
7521,WARD,SALESMAN,7698,1981/2/22,1250,500,30
7566,JONES,MA
转载
2023-10-02 20:47:20
39阅读
# 数据挖掘Hadoop单机模式安装实验报告
## 一、引言
Hadoop是一个流行的大数据处理框架,而单机模式则适合初学者进行学习和实验。本文将带你逐步完成Hadoop在单机模式下的安装,帮助你理解整个流程。
## 二、流程概述
以下是Hadoop单机模式安装的步骤概览:
| 步骤 | 描述 |
|------|--------
首先是来说一下这两天来自己的个人感受吧。我争取在第一段将情怀给逼逼完,大家可以无视这一段~~~真心是不容易,第一个感觉就是,乱。为啥呢?先说说我使用Hadoop的原因吧。选了云计算这门课,打算到时候深入研究大数据,也就要好好学咯。第一个学生研究课题是Hadoop环境搭建,据说是从选软件(也就是第一个:CentOs操作系统,第二个:jdk和第三个:Hadoop版本)到配置好环境并且能够测试通所有的东
1 实验内容单机模式. 单机模式是Hadoop的默认模。当配置文件为空时,Hadoop完全运行在本地。因为不需要与其他节点交互,单机模式就不使用HDFS,也不加载任何Hadoop的守护进程。该模式主要用于开发调试MapReduce程序的应用逻辑。2 实验步骤添加用户和用户组安装相关的配置包配置ssh免密码登录下载并安装Hadoop测试单机模式3 安装过程3.1 添加用户和用户组首先添加Hadoop
转载
2023-07-13 16:47:49
129阅读
昨天我在我的一台linux上安装了一下hadoop的1.1.2版本,并简单的使用了一下,感觉hadoop就向一个linux虚拟机,可以在上面创建文件夹、放文件,删除文件夹、删除文件,只是它NB的地方是可以帮你把文件分布式存储在多台子节点上,而使用者不要关心;另外,它对文件在不同子节点上有备份功能,所以你也不担心某台子节点坏了而导致文件损坏这种情况。因为我是开发者,所
转载
2023-12-04 17:39:43
283阅读
Hadoop学习笔记 大数据之处理工具Hadoop概念Hadoop是一个能够对大量数据进行分布式处理的软件框架。够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序,但是
转载
2023-11-12 14:10:54
247阅读
# 数据挖掘的心得:鸢尾花实验
数据挖掘作为一种从大量数据中提取信息和知识的过程,在当今社会中越来越显得重要。鸢尾花(Iris)数据集是机器学习和数据挖掘领域中经典的实验材料之一,它不仅简单易懂,还适合初学者练习分类算法。本文将结合鸢尾花数据集,分享我的一些数据挖掘心得,并展示相关代码示例、关系图和数据表格。
## 鸢尾花数据集简介
鸢尾花数据集是由弗朗西斯·高尔顿在1936年创建的,数据集
Hadoop安装教程(单机/伪分布式环境搭建)/Ubuntu18.04本教程使用 Ubuntu 18.04 LTS 64位 作为系统环境(Ubuntu 16.04,Ubuntu20.04 也行,32位、64位均可),请自行安装系统。本教程基于原生 Hadoop 2,在 Hadoop 2.6.0 (stable) 版本下验证通过,可适合任何 Hadoop 2.x.y 版本,如 Hadoop 2.7.
转载
2023-10-26 06:26:33
72阅读
实验一:Hadoop大数据平台安装16281002 杜永坤1、实验目的在大数据时代,存在很多开源的分布式数据采集、计算、存储技术,本实验将熟悉并搭建几种常用的大数据采集、处理分析技术环境。 《大数据技术》实验一需要在笔记本上搭建 Hadoop 集群,实验报告根据教程对笔记本上创建虚拟机搭建 Hadoop 集群的步骤进行了说明。包含所有需要安装的软件与服务的版本,安装路径,安装方法等。主要流程为:安
从开始知道需要安装Hadoop到现在Hadoop安装成功并可以使用,前前后后花费了好长时间,但是从中也吸取了很多教训,1.不要永远照抄别人的教程。这一点是我这近两天发现的,比如在所有的网上的教程,基本都是会指导你去安装一个Windows与Linux之间文件传输的工具起初我也是按照网上的教程,MobaXterm,这个软件就是那个传输工具,又在这个软件使用上花费了很大功夫,但是更具自己的理解,Linu
转载
2023-07-14 19:36:45
446阅读
# Hadoop伪分布式安装的实验心得
在大数据领域,Hadoop是一个非常重要的框架,而伪分布式安装是学习Hadoop的第一步。本文将指导你进行Hadoop的伪分布式安装,并分享一些心得体会。
## 安装流程
以下是Hadoop伪分布式安装的简要步骤:
| 步骤 | 描述 |
|------|------|
| 1. 准备环境 | 安装必要的软件如JDK、SSH等 |
| 2. 下载Ha
一.大数据的特点: 数据多,类型多,更新快,更新内容多。二.分类(classification)与混淆矩阵(confusion matrix) 这里的分类说的是二分类问题,比如说把人分为好人和坏人,即非黑即白。混淆矩阵就是将Actual value和predicted&n
转载
2023-12-12 11:49:19
211阅读
hive的计算是通过什么实现的hive是搭建在Hadoop集群上的一个SQL引擎,它将SQL语句转化成了MapReduce程序在Hadoop上运行,所以hive的计算引擎是MapReduce,而hive的底层存储采用的是HDFSyarn和hive的关系因为hive的底层实现是MapReduce,所以确切的来说是yarn和MapReduce的关系,yarn可以作为MapReduce计算框架的资源调度
转载
2023-07-14 16:19:44
81阅读
# Hadoop实验心得
## 引言
Hadoop 是一个开源的分布式计算框架,被广泛用于大规模数据的存储和处理。本文将介绍Hadoop的基本概念和使用方法,并通过一个简单的例子演示Hadoop的使用。
## Hadoop概述
Hadoop由两个核心组件组成:Hadoop分布式文件系统(HDFS)和Hadoop分布式计算框架(MapReduce)。HDFS用于在集群中存储大规模数据,而MapR
原创
2023-09-11 03:57:48
309阅读
Hadoop,分布式的大数据存储和计算, 免费开源!
有Linux基础的同学安装起来比较顺风顺水,写几个配置文件就可以启动了,本人菜鸟,所以写的比较详细。
为了方便,本人使用三台的虚拟机系统是Ubuntu-12。
设置虚拟机的网络连接使用桥接方式,这样在一个局域网方便调试。
单机和集群安装相差不多,先说单机然后补充集群的几点配置。
第一步,先安装工具软件
转载
2023-08-17 19:15:56
121阅读
本周学习了Hadoop的一些知识点并进行了尝试。Hadoop 三种模式:单机模式、伪集群模式和集群模式。单机模式:Hadoop 仅作为库存在,可以在单计算机上执行 MapReduce 任务,仅用于开发者搭建学习和试验环境。伪集群模式:此模式 Hadoop 将以守护进程的形式在单机运行,一般用于开发者搭建学习和试验环境。集群模式:此模式是 Hadoop 的生产环境模式,也就是说这才是 Hadoop
原创
2023-05-18 22:44:14
357阅读
1简述hadoop集群的安装过程1.安装好linux2.安装VMTools 以上是准备工作3.关闭防火墙(切记)临时关闭防火墙
service iptables status :查看防火墙状态
service iptables stop :临时关闭防火墙
开机启动是
目录Hadoop分布式计算实验踩坑实录及小结踩坑实录Hadoop学习Hadoop简介HDFSSome conceptsMapReduce主要配置文件集群搭建来源与引用 Hadoop分布式计算实验踩坑实录及小结踩坑实录单机jdk配置Ubuntu下安装jdk11,不熟悉apt-get的默认目录及目录配置,直接在Oracle找了Linux的压缩包在虚拟机上解压,解压到指定目录后配一下java环境变量。
1.实验目的(1)理解HDFS在Hadoop体系结构中的角色;(2)熟练使用HDFS操作常用的Shell命令;(3)熟悉HDFS操作常用的Java API。2. 实验平台(1)操作系统:Linux;(2)Hadoop版本:2.7.4 ;(3)JDK版本1.8;(4)Java IDE:eclipse 。3. 实验步骤(一)编程实现以下功能,并利用Hadoop提供的Shell命令完成相同任
转载
2023-10-17 12:35:59
281阅读