Flink介绍

框架和分布式流处理引擎,应用于持续生成新数据的场景,如:电商促销时的实时交易总额榜,TOP5最受欢迎的产品等等,简单描述如下:

数据实时采集——>数据实时计算——>数据实时下发(告警:邮件、短信、微信等,存储:消息队列、DB、文件系统等)

告警:如果超过相关阈值界限后会通过邮件、短信、微信等通知运维及时做好应对措施,减少故障损失

存储:数据存储后,监控大盘从存储中查询对应指标的数据就可以实现诸如爆款商品、店铺成交额、机器CPU、Mem等。

实时计算场景
  • 交通信号灯
  • 公安视频监控
  • 服务器运行状态
  • 金融证券公司实时跟踪股市波动,计算风险价值
  • 数据实时ETL【数据抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(Load)的过程】
  • 动态数据监控

总结为以下四大类:

  • 实时数据存储:实时数据存储的时候做一些微聚合、过滤某些字段、数据脱敏,组建数据仓库,实时 ETL。
  • 实时数据分析:实时数据接入机器学习框架(TensorFlow)或者一些算法进行数据建模、分析,然后动态的给出商品推荐、广告推荐
  • 实时监控告警:金融相关涉及交易、实时风控、车流量预警、服务器监控告警、应用日志告警
  • 实时数据报表:活动营销时销售额/销售量大屏,TopN 商品

传统离线计算 VS 实时计算

离线计算特点:

  • 数据量大且时间周期长(一天、一星期、一个月、半年、一年)
  • 在大量数据上进行复杂的批量计算操作
  • 数据在计算之前已经固定,不再会发生变化
  • 能够方便的查询批量计算的结果

实时计算特点:实时计算需要不断的从 MQ 中读取采集的数据,然后处理计算后往 DB 里存储,在计算这层你无法感知到会有多少数据量过来、要做一些简单的操作(过滤、聚合等)、及时将数据下发

  • 数据实时到达
  • 数据到达次序独立,不受应用系统所控制
  • 数据规模大且无法预知容量
  • 原始数据一经处理,除非特意保存,否则不能被再次取出处理,或者再次提取数据代价昂贵

实时计算的优势:面对源源不断生成的新数据,在流数据中进行数据多维度关联、聚合、筛选,从而找到复杂事件中的根因,然后根据算法处理后的数据结果提取出有效的信息,给出不一样的推荐内容,让不同的人看到不同的网页(千人千面)

Flink特点

  • 批流一体:统一批处理、流处理
  • 分布式:Flink程序可以运行在多台机器上
  • 高性能:处理性能比较高
  • 高可用:Flink支持高可用性(HA)
  • 准确:Flink可以保证数据处理的准确性(Exactly-once)