Slipstream简介
在4.3版本之前,TranswarpDataHub(TDH)上的流处理应用必须用Java或者scala开发,这将流处理应用的开发门槛设置得非常高。从TDH4.3开始,TranswarpSlipstream允许用户通过SQL的方式实现业务逻辑,大大降低了流应用开发的门槛。所以,星环科技推荐多数用户采用Slipstream开发流应用。Slipstream几乎可以应用于所有业务场景,包括ETL工具,规则报警工具等简单业务场景。对于更复杂的业务逻辑,用户可以选择使用PLSQL,属于Slipstream的高级功能。从4.8开始,Slipstream新增了基于事件驱动模式的流处理功能,在低延迟处理方面的性能表现更为出色。
Slipstream的优势
1.微批模式和事件驱动模式的一体化
在同一套系统里,用户可以根据业务需求,灵活切换微批模式的流处理和事件驱动模式的流处理。
2.极高的易用性
以往的流处理平台有较高的入门门槛,比如SparkStreaming,Storm,必须对框架以及流处理本身,甚至是底层技术比较熟悉的情况下,才能写出高效的流处理程序。这大大地限制了流处理的推广和应用。而使用Slipstream,用户只需要有编写普通SQL的经验,就可以写出高效、安全、稳定的流处理应用。
3.性能提升
在一些条件下,采用Slipstream的方式甚至比编程方式获得更高的性能提升。这是因为Slipstream做了一些特殊优化,在编程模式下无法轻易实现。比如,多条针对同一个输入流的SQL只需读取一份数据;增加迭代框架,使得原本无法利用SparkAPI进行优化的迭代计算效率大大提升。
4.产品化程度高
通过编程的方式来实现流处理的另一个问题是产品化程度非常低。由于编程有较高的自由度,出现问题的可能性很大;而又由于编程的方式将流处理平台和用户程序绑定在一起,用户没办法很好地区分是自己代码的问题还是平台的问题,导致无法及时地分析出错原因。SQL作为一个通用的接口将大大地提高产品化程度。
5.迁移成本低
用户原有的业务逻辑很多是通过SQL实现的,如果通过编程的方式迁移到流上,迁移成本非常高,还不能保证迁移后的逻辑是否正确。而一旦采用Slipstream的方式,用户只需要修改少量SQL,迁移成本几乎接近零。
Slipstream的技术指标
1.支持率
99%的ANSI SQL 2003的支持率;
95%的PLSQL Oracle以及PLSQL DB2的支持率。
2.强大的优化器提升性能
3.支持按数据字段时间切分滑动窗口和跳动窗口。
4.支持多种输出方式
包括Hyperbase,Hive以及Holodesk等。
5.支持企业数据总线
6.支持运行时隔离
7.Slipstream与ANSI SQL 2003无缝兼容
Slipstream 基础
Stream
Input Stream
直接用于接收数据源传来的Stream;
Input Stream定义了如何从数据源读取数据。
Derived Stream
对已有Stream进行变形得到的新的Stream。
Window Stream
Window Stream是Derive Stream的一种, 是对一个stream中在一定时间窗口(window)内的数据进行转化。
两个重要的参数
Length:窗口的持续时间;
Slide:执行窗口操作的间隔。
StreamJob
要让Slipstream执行计划,需要有相应的 Action 操作(比如将结果插入结果表,或者执行一个临时查询)来触发StreamJob。
StreamJob从逻辑上讲是运行时概念,然而为了方便错误恢复或者用户使用,Slipstream也支持将其序列化。
Application
定义:一组业务逻辑相关的StreamJob的集合。
功能:权限控制、全局配置、资源共享、资源隔离。
Slipstream与普通SQL最大的两个区别
1. DML SQL背景运行
对于普通SQL,当敲完SQL回车后用户需要等待SQL执行结束后得到结果或者得到出错信息;
执行Slipstream的DML语句时用户会立即得到返回结果。
2. 结果输出
对于普通SQL,执行"select …"查询,查询结果将显示在用户命令行或者通过JDBC读取;
在Slipstream中,用户必须显式地指定将结果输出到哪个地方。
Slipstream使用步骤
SlipStream登录
beeline -u jdbc:hive2://tdh-1:10010
beeline -u jdbc:hive2://tdh-1:10010,tdh-2:10010,tdh-3:10010 --color=true
scv格式
beeline -u jdbc:hive2://tdh-4:10010 --showHeader=false --outputformat=csv
建kafka producer并发布消息
执行下面命令,运行kafka/bin目录下得kafka-console-producer.sh脚本:
./kafka-console-producer.sh --broker-list tdh-1:9092 --topic demo
登录集群中的任意一个节点,连接到Slipstream
beeline -u "jdbc:hive2://tdh-1:10010"
建一个Stream
create stream demo_stream(name STRING,age INT,addr STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' TBLPROPERTIES("topic"="demo","kafka.zookeeper"="tdh-1:2181","kafka.broker.list"="tdh-1:9092");
查看Stream
show streams;
创建并触发一个streamjobs
建一张新表demo_table,它需要和demo_stream有相同的schema
create table demo_table(name STRING,age INT,addr STRING);
向demo_table插入demo_stream中的数据,这个操作会触发streamjob的执行
insert into demo_table select * from demo_stream;
列出正在执行的streamjob
list streamjobs;
切换到正在运行向demo发布数据的kafka producer的页面,在命令行输入一些数据
./kafka-console-producer.sh --broker-list tdh-1:9092 --topic demo
切换回Slipstream命令行的窗口,现在查看demo_table中的数据
select * from demo_table;
现在可以在demo_table上进行一些查询
select * from demo_table order by age;
停止streamjob
stop streamjob <streamjobID>;
附:Kafka操作
Slipstream支持以Kafka为数据源,从4.8开始,与Slipstream对接的Kafka版本为0.10.2。
查询topic,进入kafka目录
bin/kafka-topics.sh --list --zookeeper localhost:2181
启用producer
bin/kafka-console-producer.sh --broker-list localhost:9092 --topic topicName
消费topic内容
bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic topicName --from-beginning