乐胖代购免代理版

SPARK的MAster资源调度原理（源码）分析

SPARK的MAster资源分配算法（SPARK1.3）master资调度通过源码中的 org.apache.spark.deploy.master包下的schedule()方法实现步骤如下：首先判断master是否是alive状态，如果不是alive则返回，也就是只有活动的master才会进行资源调度，standby master是不会进行资源调度的把之前注册的worker中的aliv

standby

master

schedule

置顶原创 2017-05-03 18:22:22 1326 阅读

Spark用Java实现二次排序的自定义key

最近看了很多网上的对于SPARK用Java实现二次排序的方法，对于自定义key的做法基本上都是实现Ordered<>接口，重写$greater、$greater$eq、$less、$less$eq、compare、compareTo方法，定义hashCode、equals·····感觉好麻烦，其实我们自定义key只是用了里面的compareTo方法，其他的$greate

Java

Spark

二次排序

置顶原创 2017-04-27 23:11:01 2093 阅读

python 库

本文内容摘自Github上有名的AwesomePythonAwesomePython涵盖了Python的方方面面，主要有Web框架、网络爬虫、网络内容提取、模板引擎、数据库、图片处理、数据可视化、文本处理、自然语言处理、机器学习、日志、代码分析等。学会这些库，保证你在Python方面会有质的飞跃。管理面板(AdminPanels)Admin面板的开源库Ajenti-你的服务器应该拥有的管理面板ht

python库

翻译 2018-01-25 11:39:12 1208 阅读

python 命名规范

python

命名规范

原创 2018-01-10 14:50:22 2032 阅读

servlet

原文：https://howtodoinjava.com/servlets/complete-java-servlets-tutorial/Servlet是一些遵从JavaServletAPI的Java类，这些Java类可以响应请求。尽管Servlet可以响应任意类型的请求，但是它们使用最广泛的是响应web方面的请求。Servlet必须部署在Javaservlet容器才能使用。虽然很多开发者都使用

servlet

翻译 2017-12-05 11:05:42 518 阅读

sfs

java

转载 2017-12-05 10:24:49 362 阅读

storm

伴随着信息科技日新月异的发展，信息呈现出爆发式的膨胀，人们获取信息的途径也更加多样、更加便捷，同时对于信息的时效性要求也越来越高。举个搜索场景中的例子，当一个卖家发布了一条宝贝信息时，他希望的当然是这个宝贝马上就可以被卖家搜索出来、点击、购买啦，相反，如果这个宝贝要等到第二天或者更久才可以被搜出来，估计这个大哥就要骂娘了。再举一个推荐的例子，如果用户昨天在淘宝上买了一双袜子，今天想买一副泳镜去游泳

storm

原创 2017-12-05 10:23:27 1493 阅读

我的友情链接

走不完的路,看不完的书!

原创 2017-11-22 23:13:04 260 阅读

spark读取kafka数据流

spark读取kafka数据流提供了两种方式createDstream和createDirectStream。两者区别如下：1、KafkaUtils.createDstream构造函数为KafkaUtils.createDstream(ssc, [zk], [consumer group id], [per-topic,partitions] ) 使用了receivers来接收数据，利用

消费者

数据流

topic

原创 2017-06-07 13:44:24 3678 阅读

spark性能优化之使用高性能序列化类库

如果使用序列化技术，在执行序列化操作的时候很慢或者是序列化之后的数据量还是很大，那么会让分布式应用程序性能下降很多，spark自身就会在一些地方对数据进行序列化，比如shuffle写磁盘，还有就是如果我们算子函数使用了外部数据，（比如Java内置类型，或者自定义类型）那么也需要让其可序列化。默认，spark使用了Ja

Java

应用程序

shuffle

原创 2017-05-10 15:33:07 2491 阅读

executor启动task

把接收到的task反序列化用executor的launchTask()方法来启动一个task对每个task都会创建一个taskrunner，taskrunner实现了Java的runnable接口，把taskrunner放入内存缓存把taskrunner线程放进线程池中进行执行，如果线程池内暂时没有空闲的线程，那么丢进来的线程要排队（线程池自动实现排队机制）

其他

executor

原创 2017-05-05 17:06:28 811 阅读

task分配算法核心原理描述

把stage生成的每个task创建一个taskset对象双重for循环，遍历所有taskset，以及每种本地化级别本地化级别有：1.process_local：进程本地化RDD的partition和task进入同一个executor中，速度最快2.node_local：RDD的partition和task不在一个executor上，但是在一个worker上3.NO_PERF：没有所谓的本地化级别4

其他

task

原创 2017-05-05 16:43:58 801 阅读

提交stage

//提交stage，为stage创建一批task，task数量和partition数量相同 private def submitMissingTasks(stage: Stage, jobId: Int) { logDebug("submitMissingTasks(" + stage + ")") // Get our

private

filter

remember

原创 2017-05-05 15:26:00 765 阅读

stage划分算法

stage划分算法总结最后一个RDD创建finalstage finalstage倒推通过宽依赖，来进行新的stage划分使用递归，依次提交stage，从父stage开始源码 org.apache.spark.scheduler包下stage划分算法由 submitStage和getMissingParentStages方法组成第一步：使用触发job的最后一个RD

stage

划分算法

原创 2017-05-05 14:59:30 1409 阅读 1收藏

spark分组取 topN

SPARK用scala实现分组取topN原文件：class1 33class2 56class1 87class2 77class1 76class2 88class1 95class1 74class2 85class2 67class2 77class1 99class1 59class2 60import org.apache.spark.SparkConfimport org.apache

spark

分组取

topN

原创 2017-04-28 12:16:48 1089 阅读

Mapreduce与Hive比较

1、背景介绍早先的工作中,有很多比较复杂的分析工作,当时对hive还不熟悉,但是java比较熟悉,所以在进行处理的时候,优先选择了MR. 但是随着工作的数据内容越来越多,越来越复杂,对应的调整也越来越多,越来越复杂.纯使用MR方式整个流程就比较复杂,如果需要修改某个部分,那首先需要修改代码中的逻辑,然后把代码打包上传到某个可访问路径上(一般就是hdfs),然后在调度平台内执行

java

ip地址

网站

用户

成本

转载 2017-03-16 11:32:07 1098 阅读

Hbase之表设计原则

1、列簇的设计列簇尽量少，最好不超过3个。因为每个列簇是存在一个独立的HFile里的，flush和compaction操作都是针对一个Region进行的，当一个列簇的数据很多需要flush的时候，其它列簇即使数据很少也需要flush，这样就产生的大量不必要的io操作。在多列簇的情况下，注意各列簇数据的数量级要一致。如果两个列簇的数量级相差太大，会使数量级少的列簇的数据扫描效率低下。将经常查询和不经

二进制

设计原则

数量级

原创 2016-10-21 11:26:09 792 阅读

MapReduce 中的两表 join 几种方案简介

1. 概述在传统数据库（如：MYSQL）中，JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作，同样常见且耗时，由于Hadoop的独特设计思想，当进行JOIN操作时，有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法，然后给出了几种针对不同输入数据集的优化方法。2. 常见的join方法介绍假设要进行join的数据分别来自File1和File2.2.1 redu

标签

数据库

技巧

笛卡尔

reduce

翻译 2016-10-19 17:46:20 633 阅读

java单例模式

闲来无事，整理了下单实例模式单例模式确保某一个类只有一个实例，而且向这个系统提供这个实例。二、单例模式的要点： 1、某个类只能有一个实例 2、它必须自行创建这个实例 3、必须自行向这个系统提供这个实例三、单例模式的结构及实现： 1、饿汉式单例类：代码： public c

单例模式 java

原创 2015-08-21 22:39:26 704 阅读 2点赞 1评论

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

小凌的世界

SPARK的MAster资源调度原理（源码）分析

Spark用Java实现二次排序的自定义key

python 库

python 命名规范

servlet

sfs

storm

我的友情链接

spark读取kafka数据流

spark性能优化之使用高性能序列化类库

executor启动task

task分配算法核心原理描述

提交stage

stage划分算法

spark分组取 topN

Mapreduce与Hive比较

Hbase之表设计原则

MapReduce 中的两表 join 几种方案简介

java单例模式

欢迎