deidara博客slaytanic的blog
环境配置 操作系统 centos 5.8 hadoop版本cloudera cdh3u3 hbase版本hbase-0.90.4-cdh3u3 php版本5.2 1. 下载并编译thrift # wget http://ftp.tc.edu.tw/
在工作中用hive进行数据统计的时候,遇到一个用group by 进行查询的问题,需要统计的字段为 gid,sid,user,roleid,time,status,map_id,num 其中time字段为时间戳形式的,统计要求为将各个字段按照每个小时的num总数进行统计 开始的时候写的hive SQL为 select gid,sid,user,roleid,time,statu
我想要所有对于http://www.langui.me的请求跳转至http://langui.me,这样子可以使用请求地址会更短。 编辑.htaccess文件,加入下面几行,当然,域名得换成你自己的: RewriteCond %{HTTP_HOST} ^www.langui.me RewriteRule (.*) http://langui.me/$1 [R=301,L]
相关文章 持续集成(第一版) 进化式数据库设计 我还可以生动记起第一次看到大型软件工程的情景。我当时在一家大型英国电子公司的QA部门实习。我的经理带我熟悉公司环境,我们进到一间巨大的,充满了压抑感和格子间的的仓库。我被告知这个项目已经开发了好几年,现在正在集成阶段,并已经集成了好几个月。我的向导还
查询同一表内多字段同时重复记录的SQL语句 来自:7th string 比如现在有一人员表 (表名:peosons) 若想将姓名、身份证号、住址这三个字段完全相同的记录查询出来 select&nb
1. 将hive 的metastore用mysql连接储存 2 在/etc/init.d/文件夹中编辑文件hive-thrift #!/bin/bash # init script for Hive Thrift Interface. # # chkcon
1. 背景介绍 许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征: (1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦; (2) 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统; (3) 具有高可扩展性。即:当数据量增加时,可以通过增加节点进行水平扩展。 本文从设
hive hbase整合,要求比较多,1.hive的得是0.6.0(当前最新的版本) 2.hive本身要求hadoop的最高版本是hadoop-0.20.2 3.要求hbase的版本是0.20.3,其他版本需要重新编译hive_hbase-handler 但是新版的hbase(0.90)变动特别大,根本无法从编译。这点比较恶心,hbase目前升级比较快,当前是0.90(从0.20.6直
有的时候, datanode或者tasktracker crash,或者需要向集群中增加新的机器时又不能重启集群。下面方法也许对你有用。 1.把新机器的增加到conf/slaves文件中(datanode或者tasktracker crash则可跳过) 2.在新机器上进入hadoop安装目录 $bin/hadoop-daemon.sh start datanode
作者:云中哈哈 ericlzyu#gmail.com http://hi.baidu.com/lzyu 2011.7.3 今天搞定了关于公平调度器的配置。记录下。可以多个JOB一起跑了。 在 HADOOP/conf/mapred-site.xml中,配置相关的变量 <property> <name>mapreduce.jobtracker.
1 系统工具dstat centos中安装方法yum -y install dstat 查看系统cpu memory disk等状态工具 2 nload 查看网卡带宽信息工具 3 iptraf nuttcp工具查看网卡流量等工具
在hive0.7的版本中增加了local hadoop的功能,就是在处理数据量比较小的情况在本地执行,而不走分布的mapred。 这样一来,那些比较小的任务的执行速度就会大大提高。 那到底什么样的任务会采用local hadoop呢,是由hive的一个参数控制的。 hive.exec.mode.local.auto.inputbytes.max 当处理的数据量比这个参数值小的情况下就会采用
本篇简单的介绍一下MySql主动-主动模式下的主主复制,虽然这种模式的复制会出现很多问题,最明显的就是自增主键的冲突问题,但是在某些特定的环境下,还是会用到这种复制模式。 假设我们的主从主从复制结构是由4台服务器构成,2台master,2台slave。 master服务器1:192.168.0.100 slave服务器1:192.168.0.101 master服务器2:192.
1 Map side tuning参数 1.1 MapTask运行内部原理 当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buffer中进行一些预排序来优化整个map的性能。如上图所示,每一个map都会对应存在一个内存buffer(MapOutputBuf
Hive怎样决定reducer个数? Hadoop MapReduce程序中,reducer个数的设定极大影响执行效率 ,这使得Hive怎样决定reducer个数成为一个关键问题。遗憾的是Hive的估计机制很弱,不指定reducer个数的情况下,Hive会猜测确定一个reducer个数,基于以下两个设定: 1. hive.exec.reducers.bytes.per.reducer(默认
使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑。但是某些情况下,因为不熟悉数据特性,或没有遵循Hive的优化约定,Hive计算任务会变得非常低效,甚至无法得到结果。一个”好”的Hive程序仍然需要对Hive运行机制有深入的了解。 有一些大家比较熟悉的优化约定包括:Join中需要将大表写在靠右的位置;尽量使用UDF而不是transfrom…
通过把一部分log已经迁移到Hadoop集群上 并由Hive来执行相关的查询 hadoop中默认的mapred.tasktracker.map.tasks.maximum设置是2 也即:每一个tasktracker同时运行的map任务数为2 照此默认设置,查询80天某用户的操作日志,耗时5mins, 45sec 经过测试,发现将mapred.tasktracker.map.tasks
<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Put site-specific property overrides in this file. --> &
建立环境 部署 Hadoop 环境的步骤 在执行性能调优之前,需要先构建 Hadoop 集群环境。步骤如下: 准备集群节点,在这些节点上安装 Linux OS、JDK 1.6 和 ssh。确保每个节点上都在运行 sshd。 访问 The Apache Software Foundation 站点,下载稳定的 Hadoop 发行版。 选择自己的 NameNo
DDL Operations 创建表 hive> CREATE TABLE pokes (foo INT, bar STRING); 创建表并创建索引字段ds hive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING); 显示所有表 hive> SHOW TABLES;
将nginx日志导入到hive中的方法 1 在hive中建表 CREATE TABLE apachelog (ipaddress STRING, identd STRING, user STRING,finishtime STRING,requestline string,&nb
主控脚本 #!/bin/bash #ipv6china@comsenz.com F=”`pwd`/url” #数据文件,一行一个域名 tmpfile=$$.fifo mkfifo $tmpfile exec 4<>$tmpfile rm $tmpfile thread=200 #最大进程数量 { for j in
先来假设一个场景,在机房有几台服务器,分别是: mysql:192.168.1.10 web:192.168.1.20 test:192.168.1.30 有如下限制: 1) test可以ssh到web,不能ssh到mysql 2) web不能ssh到mysql 3) web可以访问mysql 4) test不能访问mysql 5)
其中的一个参数CLIENT_MULTI_RESULTS不明白是什么意思,google之,在mysql的官方主页上关于mysql提供的c接口的文档(http://dev.mysql.com/doc/refman/5.0/en/mysql-real-connect.html)里找到了这个参数和其他一些参数,我大概翻译了一下描述,如下: Fl
<!-- create procedure in_out (in parameter integer) begin declare variable varchar(20); if parameter=1 then set variable='MySQL'; else set variable='PHP'; end if; insert into userinfo(user
最近公司组织了个PHP安全编程的培训, 其中涉及到一部分关于Mysql的”SET NAMES”和mysql_set_charset (mysqli_set_charset)的内容: 说到, 尽量使用mysqli_set_charset(mysqli:set_charset)而不是”SET NAMES”, 当然, 这个内容在PHP手册中也有叙及, 但
1.编写shell脚本 vi /tmp/ceshi.sh #!/bin/sh while [ true ]; do /bin/sleep 1 /bin/date >>/tmp/date.txt done 2.后台运行 nohup /tmp/ceshi.sh 2>&1 > /dev/null & 3.确认每秒执行 tail -f /
在vmware虚拟机中安装了两个centos5.5系统进行测试了一下,先安装keepalived ,具体安装过程可以参考http://blog.csdn.net/jiedushi/archive/2009/07/25/4379372.aspx master主机配置如下 global_defs { &
CentOS USTC mirror http://centos.ustc.edu.cn/centos/ 安装后请按照以下步骤修改CenOS-Base.repo,以后就可以方便的用yum安装软件了. cd /etc/yum.repos.d mv CentOS-Base.repo CentOS
Copyright © 2005-2025 51CTO.COM 版权所有 京ICP证060544号