乐胖代购免代理版

大数据Spark DataFrame/DataSet常用操作

目录1 一般操作：查找和过滤1.1 读取数据源1.1.1读取json1.1.2 读取Hive表1.2 取数据列1.3

spark

big data

hive

scala

json

原创 2021-12-31 11:22:24 2081 阅读

Spark SQL自定义函数

目录1 Spark SQL自定义函数1.1 自定义函数分类1.2 自定义UDF1.3 自定义UDAF2 开窗函数2.1

spark

sql

hive

数据

原创 2021-12-31 11:21:30 799 阅读

Spark多语言开发

目录1 多语言开发-说明2 Java-Spark-掌握2.1 SparkCore2.2 SparkStreaming2.3 SparkSQL2.4 StructuredStreaming2.5 线性回归算法-房价预测案例2.5.1 需求代码实现3 PySpark-了解3.1 SparkCore3.2 Spa

spark

scala

big data

java

sql

原创 2021-11-15 21:00:00 548 阅读

Spark学生答题情况分析

目录1 流程分析2 业务模块划分3 创建模块包结构4 准备Kafka主题4.1 测试发送数据到Kafka5 需求5.1 代码实现6 需求6.1 准备模型-直接训练并使用6.2 代码实现7 学生答题情况离线分析7.1 代码实现 1 流程分析注意: 重点做的 2 3 4 部分 2 业务模块划分准备工作 3

spark

kafka

zookeeper

sql

apache

原创 2021-11-15 20:45:00 322 阅读

大数据Spark Streaming实时处理Canal同步binlog数据

目录1. Canal 环境搭建2 配置Canal2.1 下载Canal2.2 解压2.3 修改instance 配置文件2.4 修改canal.properties配置文件2.5 启动Canal2.6. 验证2.7. 关闭Canal3 Spark实现实时数据分析3.1 在Mysql中创建如下两张表3.2 S

big data

spark

java

json

kafka

原创 2021-11-12 20:45:00 653 阅读

Spark设计实现π的计算

目录1 分布式估算圆周率2 程序设计3 分布式运行3.1 采用本地模式提交sparkAPP.jar3.2 采用Yarn-client或Yarn-cluster模式提交1 分布式估算圆周率计算原理假设正方形的面积S等于x²，而正方形的内切圆的面积C等于Pi×(x/2)²，因此圆面积与正方形面积之比C/S就为Pi/4，于是就有Pi=4×C/S。可以利用计算机随机产生大量位于正方形内部的点，通过点的数量去近似表示面积。假设位于正方形中点的数量为Ps，落在圆内的点的数量为Pc，则随机点的数量趋近于无穷

spark

大数据

big data

jar包

jar

原创 2021-11-04 21:45:00 626 阅读

Spark Yarn模式部署集群

目录1 安装地址2 解压安装2.1 配置Linux环境变量2.2 scala环境配置2.3 配置spark-env.sh环境变量2.4 配置slaves文件2.5 将安装好的Spark复制到Slave 1 安装地址http://archive.apache.org/dist/spark/spark-2.4.0/ 2 解压安装ta

spark

yarn

scala

hadoop

spark安装

原创 2021-11-04 21:30:00 1427 阅读

大数据Spark MLlib基于模型的协同过滤

目录1 简介2 隐语义模型（LFM）3 LFM 降维方法 —— 矩阵因子分解3.1 矩阵因子分解3.2 矩阵因子分解计算4 LFM 的进一步理解4.1 矩阵因子分解 1 简介在大数据Spark MLlib推荐算法这篇文章中涉及到拆分,至于为什么拆分没有详解接下来写一下如何来构建模型.基于模型的协同过滤推荐，就是基于样本的用户偏好信息，训练一

big data

spark

mllib

因子分解

数据

原创 2021-10-25 20:30:00 383 阅读

大数据Spark MLlib推荐算法

目录1 相似度算法1.1 欧几里德距离算法1.2 基于夹角余弦相似度算法2 最近邻域3 交替最小二乘法3.1 最小二乘法3.2 交替最小二乘法3.3 ALS算法流程3.4 ALS算法实战3.4.1 数据说明3.4.2 数据建模3.4.3 实战3.4.4 优化改进 1 相似度算法无论是基于用户还是

1024程序员节

spark

java

数据

apache

原创 2021-10-24 18:21:50 700 阅读

Zeppelin调试Spark程序

目录1 什么是Zeppelin2 Zeppelin配置spark3 Zeppein运行spark程序3.1 创建spark notebook3.2 使用SparkSQL查看有多少数据库:3.3 使用SparkCore执行word count 1 什么是Zeppelina. Apache Zeppelin 是一个基于网页的交互式数据分析开源框架。Zep

spark

big data

sql

数据分析

apache

原创 2021-10-05 23:54:22 433 阅读

大数据Spark MLlib推荐系统

spark

mllib

微信

数据

推荐系统

原创 2021-10-04 23:08:54 558 阅读

大数据Spark MLlib机器学习

目录1 什么是Spark MLlib？2 支持的数据类型2.1 本地向量集2.1.1、密集型数据集2.1.2 稀疏型数据集2.2 向量标签2.3 本地矩阵2.4 分布式矩阵2.4.1 行矩阵2.4.2 行索引矩阵2.4.3 坐标矩阵2.4.4 分块矩阵3 RDD、DataSet、Dataframe区

spark

mllib

big data

java

分块

原创 2021-10-04 15:34:19 597 阅读

大数据Spark Continuous Processing

目录1 连续处理概述2 编程实现3 支持查询 1 连续处理概述连续处理（Continuous Processing）是Spark 2.3中引入的一种新的实验性流执行模式，可实现低的（~1 ms）端到端延迟，并且至少具有一次容错保证。将其与默认的微批处理（micro-batchprocessing）引擎相比较，该引擎可以实现一次性保证，但最多可实现~100ms的延迟。在实时

spark

big data

数据库

kafka

数据

原创 2021-09-03 19:14:21 449 阅读

大数据Spark物联网设备数据分析

目录1 设备监控数据1.1 创建 Topic1.2 模拟数据2 基于DataFrame分析3 基于SQL分析4 时间概念5 event-time 窗口分析6 event-time 窗口生成7 延迟数据处理7.1 延迟数据7.2 Watermarking 水位7.3 官方案例演示 1 设备监控数据在物联网

spark

kafka

big data

数据

sql

原创 2021-09-03 19:14:05 787 阅读

大数据Spark Structured Streaming集成 Kafka

目录1 Kafka 数据消费2 Kafka 数据源3 Kafka 接收器3.1 配置说明3.2 实时数据ETL架构3.3 模拟基站日志数据3.4 实时增量ETL4 Kafka 特定配置 1 Kafka 数据消费Apache Kafka 是目前最流行的一个分布式的实时流消息系统，给下游订阅消费系统提供了并行处理和可靠容错机制，现在大公司

kafka

spark

big data

数据

apache

原创 2021-09-03 19:13:49 1308 阅读

大数据Spark偏移量管理

目录1 重构代码2 Checkpoint 恢复3 MySQL 存储偏移量3.1 编写工具类3.2 加载和保存偏移量 1 重构代码针对前面实现【百度热搜排行榜Top10】实时状态统计应用来说，当应用关闭以后，再次启动（Restart）执行，并没有继续从上次消费偏移量读取数据和获取以前状态信息，而是从最新偏移量（Latest Offset）开始的消费，肯定不符合

spark

kafka

big data

数据

偏移量

原创 2021-09-03 19:13:21 590 阅读

大数据Spark实时搜索日志实时分析

目录1 业务场景2 初始化环境2.1 创建 Topic2.2 模拟日志数据2.3 StreamingContextUtils 工具类3 实时数据ETL存储4 实时状态更新统计4.1 updateStateByKey 函数4.2 mapWithState 函数5 实时窗口统计 1 业务场景百度搜索风云榜（http://t

spark

big data

hadoop

kafka

数据

原创 2021-09-01 22:02:35 1103 阅读

大数据Spark Streaming Queries

目录1 输出模式2 查询名称3 触发间隔4 检查点位置5 输出终端（Sinks）5.1 文件接收器5.2 Memory Sink5.3 Foreach Sink5.4 ForeachBatch Sink6 容错语义7 Kafka 数据消费8 Kafka 数据源9 Kafka 接收器9.1 配

spark

kafka

数据

sql

apache

原创 2021-08-29 19:13:09 856 阅读

大数据Spark Structured Streaming

目录1 Spark Streaming 不足2 Structured Streaming 概述2.1 模块介绍2.3 编程模型3 入门案例：WordCount3.1 功能演示3.2 Socket 数据源3.3 Console 接收器3.4 编程实现4 DataStreamReader 接口5 文件数据源6

spark

scala

big data

数据

sql

原创 2021-08-29 18:48:38 615 阅读

大数据Spark Streaming集成Kafka

目录1 整合Kafka 0.8.21.1 回顾 Kafka 概念1.2 集成方式1.3 两种方式区别2 Direct 方式集成2.1 编码实现2.2 底层原理3 集成Kafka 0.10.x4 获取偏移量 1 整合Kafka 0.8.2在实际项目中，无论使用Storm还是SparkStreaming与Flink，主要从Kafk

kafka

spark

面试

数据

apache

原创 2021-08-26 23:34:47 702 阅读

大数据Spark DStream

目录1 DStream 是什么2 DStream Operations2.1 函数概述2.2 转换函数：transform2.3 输出函数：foreachRDD 1 DStream 是什么SparkStreaming模块将流式数据封装的数据结构：DStream（Discretized Stream，离散化数据流，连续不断的数据流），代表持续性的数据流和经过各

spark

scala

big data

数据

apache

原创 2021-08-26 23:34:39 356 阅读

大数据Spark Streaming入门

目录1 官方案例运行2 编程实现2.1 StreamingContext2.2 编写代码2.3 Streaming 应用监控3 Streaming 工作原理3.1 创建 StreamingContext3.2 接收器接收数据3.3 汇报接收Block报告3.4 Streaming 工作原理总述 1 官方案例运行SparkStreaming官方提供Example案例，功能描述：从TCP Socket

spark

big data

数据

时间间隔

词频统计

原创 2021-08-26 23:34:24 312 阅读

大数据Spark Streaming概述

目录1 Streaming 应用场景2 Lambda 架构3 Streaming 计算模式4 SparkStreaming 计算思想 1 Streaming 应用场景在很多实时数据处理的场景中，都需要用到流式处理（Stream Process）框架，Spark也包含了两个完整的流式处理框架Spark Streaming和Structured Streaming（S

spark

数据库

big data

数据

大数据

原创 2021-08-26 23:33:51 342 阅读

大数据Spark External DataSource

spark

python

数据

sql

hive

原创 2021-08-25 23:22:45 215 阅读

大数据Spark分布式SQL引擎

目录1 Spark SQL CLI2 ThriftServer JDBC/ODBC Server2.1 beeline 客户端2.2 JDBC/ODBC 客户端 1 Spark SQL CLI 回顾一下，如何使用Hive进行数据分析的，提供哪些方式交互分析？？？方式一：交互式命令行（CLI）bin/hive，编写SQL语句及DDL语句方式二：启动服务HiveSe

spark

sql

hive

客户端

apache

原创 2021-08-25 23:22:01 366 阅读

大数据Spark SQL快速入门

目录1 SparkSession 应用入口2 词频统计WordCount2.1 基于DSL编程2.2 基于SQL编程3 数据处理分析3.1 基于DSL分析3.2 基于SQL分析 1 SparkSession 应用入口Spark 2.0开始，应用程序入口为SparkSession，加载不同数据源的数据，封装到DataFrame/Dataset集

spark

sql

big data

数据

hive

原创 2021-08-25 23:21:37 458 阅读

大数据Spark Dataset

spark

scala

big data

数据

数据结构

原创 2021-08-24 21:03:21 286 阅读

大数据Spark电影评分数据分析

spark

big data

r语言

数据

sql

原创 2021-08-24 21:03:06 2413 阅读

大数据Spark DataFrame

spark

python

big data

数据

sql

原创 2021-08-24 20:37:05 937 阅读

大数据Spark RDD持久化和Checkpoint

spark

scala

python

缓存

数据

原创 2021-08-24 20:36:55 479 阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

赵广陆

大数据Spark DataFrame/DataSet常用操作

Spark SQL自定义函数

Spark多语言开发

Spark学生答题情况分析

大数据Spark Streaming实时处理Canal同步binlog数据

Spark设计实现π的计算

Spark Yarn模式部署集群

大数据Spark MLlib基于模型的协同过滤

大数据Spark MLlib推荐算法

Zeppelin调试Spark程序

大数据Spark MLlib推荐系统

大数据Spark MLlib机器学习

大数据Spark Continuous Processing

大数据Spark物联网设备数据分析

大数据Spark Structured Streaming集成 Kafka

大数据Spark偏移量管理

大数据Spark实时搜索日志实时分析

大数据Spark Streaming Queries

大数据Spark Structured Streaming

大数据Spark Streaming集成Kafka

大数据Spark DStream

大数据Spark Streaming入门

大数据Spark Streaming概述

大数据Spark External DataSource

大数据Spark分布式SQL引擎

大数据Spark SQL快速入门

大数据Spark Dataset

大数据Spark电影评分数据分析

大数据Spark DataFrame

大数据Spark RDD持久化和Checkpoint

欢迎