Kafka Connect

2022-03-03

老子今天开始卷Kafka

本文翻译自《KAFKA CONNECT》

8. KAFKA CONNECT

8. KAFKA CONNECT

8.1 概述

Kafka Connect是一个用于在Apache Kafka和其他系统之间可扩展和可靠的数据流的工具。它使快速定义connector变得简单，将大量的数据集合移入和移出Kafka。Kafka Connect可以摄取整个数据库或从你所有的应用服务器收集指标到Kafka topic，使数据可用于低延迟的流处理。输出作业可以将数据从Kafka主题传送到二级存储和查询系统中，或传送到批处理系统中进行离线分析。

Kafka Connect的特点包括:

Kafkaconnector的通用框架 - Kafka Connect将其他数据系统与Kafka的集成标准化，简化了connector的开发、部署和管理
分布式和独立模式–可扩展为支持整个组织的大型集中管理服务，也可扩展为开发、测试和小型生产部署的模式
REST接口–通过一个易于使用的REST API提交和管理connector到你的Kafka Connect集群
自动偏移管理–只需来自connector的少量信息，Kafka Connect就能自动管理偏移提交过程，因此connector开发人员不需要担心connector开发中这个容易出错的部分。
默认情况下是分布式和可扩展的–Kafka Connect建立在现有的组管理协议之上。可以添加更多的工作者来扩大Kafka Connect集群的规模。
流处理/批处理集成–利用Kafka现有的能力，Kafka Connect是桥接流流处理和批处理数据系统的理想解决方案。

8.2 用户指南

快速入门提供了一个简短的例子，说明如何运行独立版本的Kafka Connect。本节介绍了如何配置、运行和管理Kafka Connect的更多细节。

运行Kafka Connect

Kafka Connect目前支持两种执行模式：standalone（单进程）和分布式。

在standalone模式下，所有的工作都在一个单一的进程中执行。这种配置在设置和开始使用时比较简单，在只有一个工作者有意义的情况下可能很有用（例如收集日志文件），但它不能从Kafka Connect的一些功能中受益，例如容错。你可以用以下命令启动一个独立的进程。

1	> bin/connect-standalone.sh config/connect-standalone.properties connector1.properties [connector2.properties ...]

第一个参数是worker的配置。这包括诸如Kafka连接参数、序列化格式以及提交偏移量的频率等设置。所提供的例子应该能够很好地适用于使用config/server.properties所提供的默认配置运行的本地集群。它将需要调整以用于不同的配置或生产部署。所有工作者（包括独立的和分布式的）都需要一些配置。

bootstrap.services - 用于引导连接到Kafka的Kafka服务器的列表
key.converter - 转换器类，用于转换Kafka Connect格式和写入Kafka的序列化形式。这可以控制写入Kafka或从Kafka读取的消息中的键的格式，由于这与connector无关，它允许任何connector与任何序列化格式一起工作。常见格式的例子包括JSON和Avro。
value.converter - 转换器类，用于转换Kafka Connect格式和写入Kafka的序列化形式。这可以控制写入Kafka或从Kafka读取的消息中的值的格式，由于这与connector无关，它允许任何connector与任何序列化格式一起工作。常见格式的例子包括JSON和Avro。

standalone模式特有的重要配置选项是：

offset.storage.file.filename - 储存偏移数据的文件
这里配置的参数是为Kafka Connect使用的生产者和消费者准备的，用于访问配置、偏移和状态topic。对于Kafka source任务使用的生产者和Kafka sink任务使用的消费者的配置，可以使用相同的参数，但需要分别以producer.和consumer.为前缀。唯一从worker配置中继承的没有前缀的Kafka客户端参数是bootstrap.services，在大多数情况下这就足够了，因为同一个集群经常被用于所有目的。一个值得注意的例外是安全集群，它需要额外的参数来允许连接。这些参数需要在worker配置中最多设置三次，一次用于管理访问，一次用于Kafka source，一次用于Kafka sink。

从2.3.0开始，客户端配置覆盖可以通过使用前缀producer.override.和consumer.override.分别针对Kafka source或Kafka sink单独配置每个connector。这些覆盖将与connector的其他配置属性一起包含。

剩下的参数是connector的配置文件。你可以包括你想要的数量，但所有的将在同一进程中执行（在不同的线程上）。

分布式模式处理工作的自动平衡，允许你动态地扩大（或缩小）规模，并在活动任务以及配置和偏移提交数据方面提供容错。执行方式与standalone模式非常相似。

1	> bin/connect-distributed.sh config/connect-distributed.properties

区别在于启动的类和配置参数，它们改变了Kafka Connect进程如何决定在哪里存储配置、如何分配工作以及在哪里存储偏移量和任务状态。在分布式模式下，Kafka Connect在Kafka topic中存储偏移量、配置和任务状态。建议为偏移量、配置和状态手动创建topic，以实现所需的分区数量和复制因子。如果在启动Kafka Connect时还没有创建话题，那么话题将以默认的分区数和复制系数自动创建，这可能不适合其使用。

特别是，除了上面提到的常见设置外，以下配置参数在启动集群前的设置至关重要：

group.id (default connect-cluster) - 集群的唯一名称，用于形成连接集群组；注意，这不能与消费者组的ID冲突
config.storage.topic (default connect-configs) - 用于存储connector和任务配置的topic；注意，这应该是一个单分区、高度复制、紧凑的topic。你可能需要手动创建topic以确保正确的配置，因为自动创建的topic可能有多个分区，或者自动配置为删除而不是压缩。
offset.storage.topic（默认为connect-offsets) -用于存储偏移量的topic；这个topic应该有很多分区，被复制，并被配置为压实的。
status.storage.topic (default connect-status) - 用于存储状态的topic；这个topic可以有多个分区，并且应该被复制和配置为压实。

注意，在分布式模式下，connector的配置不会在命令行上传递。相反，使用下面描述的REST API来创建、修改和销毁connector。

配置Connectors

连接器的配置是简单的键值映射。对于standalone模式，这些配置被定义在一个属性文件中，并在命令行中传递给Connect进程。在分布式模式下，它们将被包含在创建（或修改）连接器的请求的JSON有效载荷中。

大多数配置都与连接器有关，所以不能在此概述。然而，有几个常见的选项:

name - 连接器的唯一名称。试图用相同的名字再次注册将会失败。
connector.class - 连接器的Java类。
tasks.max - 这个连接器应该创建的最大任务数。如果连接器不能达到这个水平的并行性，它可以创建更少的任务。
key.converter - （可选）覆盖工作者设置的默认键转换器。
value.converter - (可选) 覆盖工作者设置的默认值转换器。

Connector.class配置支持几种格式：这个连接器的类的全名或别名。如果连接器是org.apache.kafka.connect.file.FileStreamSinkConnector，你可以指定这个全名，或者使用FileStreamSink或FileStreamSinkConnector来使配置简短一些。

Sink连接器也有一些额外的选项来控制它们的输入。每个sink连接器必须设置以下内容之一。

topics - 以逗号分隔的主题列表，作为该连接器的输入。
topics.regex - 一个Java正则表达式，用来作为这个连接器的输入的主题。
对于任何其他选项，你应该查阅连接器的文档。

Transformations

连接器可以配置transformations功能，以进行轻量级的逐次信息修改。它们可以方便地用于数据处理和事件路由。

在连接器的配置中可以指定一个transformation链。

transforms - 转换的别名列表，指定转换应用的顺序。
transforms.$alias.type - 转换的完全合格的类名称。
transforms.$alias.$transformationSpecificConfig 转换器的配置属性

例如，让我们使用内置的文件source Connector，并使用一个转换来添加一个静态字段。

在整个例子中，我们将使用无模式的JSON数据格式。为了使用无模式的格式，我们把connect-standalone.properties中的以下两行从true改为false:

key.converter.schemas.enable
value.converter.schemas.enable

文件source connector将每一行作为一个字符串来读取。我们将把每一行封装在一个Map中，然后添加第二个字段来识别事件的source。为了做到这一点，我们使用两个transforms。

HoistField将输入行放在Map中。
InsertField来添加静态字段。在这个例子中，我们将表明记录来自一个文件Connector
添加transformations后，connect-file-source.properties文件看起来如下:

name=local-file-source
connector.class=FileStreamSource
tasks.max=1
file=test.txt
topic=connect-test
transforms=MakeMap, InsertSource
transforms.MakeMap.type=org.apache.kafka.connect.transforms.HoistField$Value
transforms.MakeMap.field=line
transforms.InsertSource.type=org.apache.kafka.connect.transforms.InsertField$Value
transforms.InsertSource.static.field=data_source
transforms.InsertSource.static.value=test-file-source

所有以transforms开头的行都是为transform而添加的。你可以看到我们创建的两个转换。”InsertSource “和 “MakeMap “是我们选择用来给transform的别名。这些transform类型是基于你可以在下面看到的内置transform列表的。每个transform类型都有额外的配置。HoistField需要一个名为 “field “的配置，它是map中的字段名称，将包括文件中的原始String。InsertField transform让我们指定字段名和我们要添加的值。

当我们在没有transform的情况下在我的样本文件上运行文件source Connector，然后用kafka-console-consumer.sh读取它们，结果是：

1
2
3

"foo"
"bar"
"hello world"

然后我们创建一个新的文件Connector，这次是在向配置文件添加transform后。这一次，结果将是：

1
2
3

{"line":"foo","data_source":"test-file-source"}
{"line":"bar","data_source":"test-file-source"}
{"line":"hello world","data_source":"test-file-source"}

你可以看到，我们所读的行现在是JSON map的一部分，并且有一个额外的字段，有我们指定的静态值。这只是一个例子，说明你可以用transform做什么。

包含的transform

Kafka Connect包含了几个广泛适用的数据和路由transform。

InsertField - 使用静态数据或记录元数据添加一个字段
ReplaceField - 过滤或重命名字段
MaskField - 用有效的空值类型（0、空字符串等）或自定义替换（仅非空字符串或数字值）替换字段
ValueToKey - 用一个由记录值中的字段子集形成的新键来替换记录键
HoistField - 将整个事件作为一个单一的字段包裹在一个Struct或Map中。
ExtractField - 从Struct和Map中提取一个特定的字段，在结果中只包括这个字段
SetSchemaMetadata - 修改模式名称或版本
TimestampRouter - 基于原始主题和时间戳修改记录的主题。当使用一个需要根据时间戳写到不同的表或索引的水槽时非常有用
RegexRouter - 根据原始主题、替换字符串和正则表达式来修改记录的主题。
Filter - 从所有进一步的处理中移除消息。这与一个谓词一起使用，以选择性地过滤某些消息。
InsertHeader - 使用静态数据添加一个标题
HeadersFrom - 复制或移动键或值中的字段到记录头中
DropHeaders - 按名称删除标头
下面列出了如何配置每个transform的细节：

org.apache.kafka.connect.transforms.InsertField
使用记录元数据的属性或配置的静态值插入字段。
使用为记录的键（org.apache.kafka.connect.transforms.InsertField$Key）或值（org.apache.kafka.connect.transforms.InsertField$Value）设计的具体转换类型。

offset.field
Kafka偏移量的字段名–只适用于sink Connector。
后缀为！以使其成为一个必需的字段，或？以保持其可选性（默认）。