deidara博客slaytanic的blog
环境配置 操作系统 centos 5.8 hadoop版本cloudera cdh3u3 hbase版本hbase-0.90.4-cdh3u3 php版本5.2 1. 下载并编译thrift # wget http://ftp.tc.edu.tw/
在工作中用hive进行数据统计的时候,遇到一个用group by 进行查询的问题,需要统计的字段为 gid,sid,user,roleid,time,status,map_id,num 其中time字段为时间戳形式的,统计要求为将各个字段按照每个小时的num总数进行统计 开始的时候写的hive SQL为 select gid,sid,user,roleid,time,statu
我想要所有对于http://www.langui.me的请求跳转至http://langui.me,这样子可以使用请求地址会更短。 编辑.htaccess文件,加入下面几行,当然,域名得换成你自己的: RewriteCond %{HTTP_HOST} ^www.langui.me RewriteRule (.*) http://langui.me/$1 [R=301,L]
相关文章 持续集成(第一版) 进化式数据库设计 我还可以生动记起第一次看到大型软件工程的情景。我当时在一家大型英国电子公司的QA部门实习。我的经理带我熟悉公司环境,我们进到一间巨大的,充满了压抑感和格子间的的仓库。我被告知这个项目已经开发了好几年,现在正在集成阶段,并已经集成了好几个月。我的向导还
查询同一表内多字段同时重复记录的SQL语句 来自:7th string 比如现在有一人员表 (表名:peosons) 若想将姓名、身份证号、住址这三个字段完全相同的记录查询出来 select&nb
1. 将hive 的metastore用mysql连接储存 2 在/etc/init.d/文件夹中编辑文件hive-thrift #!/bin/bash # init script for Hive Thrift Interface. # # chkcon
1. 背景介绍 许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征: (1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦; (2) 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统; (3) 具有高可扩展性。即:当数据量增加时,可以通过增加节点进行水平扩展。 本文从设
hive hbase整合,要求比较多,1.hive的得是0.6.0(当前最新的版本) 2.hive本身要求hadoop的最高版本是hadoop-0.20.2 3.要求hbase的版本是0.20.3,其他版本需要重新编译hive_hbase-handler 但是新版的hbase(0.90)变动特别大,根本无法从编译。这点比较恶心,hbase目前升级比较快,当前是0.90(从0.20.6直
有的时候, datanode或者tasktracker crash,或者需要向集群中增加新的机器时又不能重启集群。下面方法也许对你有用。 1.把新机器的增加到conf/slaves文件中(datanode或者tasktracker crash则可跳过) 2.在新机器上进入hadoop安装目录 $bin/hadoop-daemon.sh start datanode
作者:云中哈哈 ericlzyu#gmail.com http://hi.baidu.com/lzyu 2011.7.3 今天搞定了关于公平调度器的配置。记录下。可以多个JOB一起跑了。 在 HADOOP/conf/mapred-site.xml中,配置相关的变量 <property> <name>mapreduce.jobtracker.
1 系统工具dstat centos中安装方法yum -y install dstat 查看系统cpu memory disk等状态工具 2 nload 查看网卡带宽信息工具 3 iptraf nuttcp工具查看网卡流量等工具
在hive0.7的版本中增加了local hadoop的功能,就是在处理数据量比较小的情况在本地执行,而不走分布的mapred。 这样一来,那些比较小的任务的执行速度就会大大提高。 那到底什么样的任务会采用local hadoop呢,是由hive的一个参数控制的。 hive.exec.mode.local.auto.inputbytes.max 当处理的数据量比这个参数值小的情况下就会采用
本篇简单的介绍一下MySql主动-主动模式下的主主复制,虽然这种模式的复制会出现很多问题,最明显的就是自增主键的冲突问题,但是在某些特定的环境下,还是会用到这种复制模式。 假设我们的主从主从复制结构是由4台服务器构成,2台master,2台slave。 master服务器1:192.168.0.100 slave服务器1:192.168.0.101 master服务器2:192.
1 Map side tuning参数 1.1 MapTask运行内部原理 当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buffer中进行一些预排序来优化整个map的性能。如上图所示,每一个map都会对应存在一个内存buffer(MapOutputBuf
Copyright © 2005-2025 51CTO.COM 版权所有 京ICP证060544号