java flink 写入 es

原创

mob64ca12dedda8 2024-11-24 06:27:03 ©著作权

文章标签 Elastic flink apache 文章分类 Java 后端开发

©著作权归作者所有：来自51CTO博客作者mob64ca12dedda8的原创作品，请联系作者获取转载授权，否则将追究法律责任

用Java Flink写入Elasticsearch的完整流程

在大数据环境中，Flink是一个流处理框架，而Elasticsearch则是一个强大的搜索引擎。在这篇文章中，我们将讲解如何使用Java Flink将数据写入Elasticsearch的步骤。下面是我们将要讨论的流程:

步骤	描述
1. 环境搭建	搭建Java、Flink和Elasticsearch环境
2. 添加依赖	在项目中添加Flink和Elasticsearch的依赖
3. 编写代码	编写Flink程序，实现数据处理与写入
4. 运行程序	运行程序并验证Elasticsearch中的数据

步骤详解

1. 环境搭建

首先，确保你已安装Java、Flink和Elasticsearch。简单的搭建步骤如下：

安装Java JDK（建议版本11及以上）
下载并解压[Flink](
下载并解压[Elasticsearch](

启动Elasticsearch服务，通常运行命令如下：

# 在elasticsearch目录下
./bin/elasticsearch

2. 添加依赖

在你的Maven项目中，添加Flink和Elasticsearch的依赖，例如在pom.xml中：

<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-java</artifactId>
    <version>1.15.0</version> <!-- 确保版本匹配 -->
</dependency>
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-connector-elasticsearch7</artifactId>
    <version>1.15.0</version> <!-- 确保版本匹配 -->
</dependency>

3. 编写代码

下面是一个将数据写入Elasticsearch的简单示例代码：

import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.connectors.elasticsearch7.ElasticsearchSink;
import org.apache.flink.streaming.connectors.elasticsearch7.ElasticsearchSinkFunction;
import org.apache.flink.util.Collector;
import org.apache.flink.shaded.elasticsearch7.org.elasticsearch.client.Requests;
import org.apache.flink.shaded.elasticsearch7.org.elasticsearch.action.index.IndexRequest;

import java.util.HashMap;
import java.util.Map;

public class FlinkElasticsearchExample {
    public static void main(String[] args) throws Exception {
        // 创建Flink执行环境
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        // 读取数据流（可以替换为真实的数据源）
        DataStream<String> stream = env.fromElements("hello", "world");

        // 配置Elasticsearch sink
        stream.addSink(new ElasticsearchSink<String>(createElasticsearchSink()));
        
        // 执行程序
        env.execute("Flink Elasticsearch Example");
    }

    private static ElasticsearchSink<String> createElasticsearchSink() {
        ElasticsearchSinkFunction<String> elasticsearchSinkFunction = new ElasticsearchSinkFunction<String>() {
            @Override
            public void process(String element, Context ctx, Collector<Void> out) {
                // 创建一个IndexRequest
                Map<String, String> json = new HashMap<>();
                json.put("data", element);

                IndexRequest indexRequest = Requests.indexRequest()
                        .index("flink-index")
                        .source(json);
                
                // 向Elasticsearch发送数据
                // 具体的写入逻辑
            }
        };

        // 这里你需要返回一个ElasticsearchSink的配置
        return null; // 请根据需要返回配置
    }
}

4. 运行程序

完整代码编写后，运行Flink程序。确保Elasticsearch服务在运行状态。可以用curl命令验证数据是否写入：

curl -X GET "localhost:9200/flink-index/_search?pretty"

Status Diagram

stateDiagram
    [*] --> Start
    Start --> Building
    Building --> Running
    Running --> [*]

Sequence Diagram

sequenceDiagram
    participant Client
    participant FlinkJob
    participant Elasticsearch
    Client->>FlinkJob: 启动Flink程序
    FlinkJob->>Elasticsearch: 发送数据
    Elasticsearch-->>FlinkJob: 数据写入成功
    FlinkJob-->>Client: 执行结束