Kafka基本操做、整合代码自定义分区器、提升吞吐量

2022年05月12日 阅读数:4
这篇文章主要向大家介绍Kafka基本操做、整合代码自定义分区器、提升吞吐量,主要内容包括基础应用、实用技巧、原理机制等方面,希望对大家有所帮助。

基本命令

bin/kafka-topics.sh --bootstrap-server 192.168.6.101:9092 --list
# 建立名为test的主题
bin/kafka-topics.sh --bootstrap-server 192.168.6.101:9092 --create --partitions 1 --replication-factor 1 --topic first
#查看 first 主题的详情
bin/kafka-topics.sh --bootstrap-server 
192.168.6.101:9092 --alter --topic first --partitions 3
#修改
bin/kafka-topics.sh --bootstrap-server 192.168.6.101:9092 --topic first --alter --partitions 4
#删除 topic
bin/kafka-topics.sh --bootstrap-server 
192.168.6.101:9092 --delete --topic firstjava

生产者命令行操做apache

像topic中发送数据
bin/kafka-console-producer.sh --bootstrap-server 192.168.6.101:9092 --topic first
在另外一台虚拟机建立消费者取数据
bin/kafka-console-consumer.sh --bootstrap-server 192.168.6.101:9092 --topic first
取出全部数据
bin/kafka-console-consumer.sh --bootstrap-server 192.168.6.101:9092 --topic first --from-beginingbootstrap

整合代码

添加依赖app

<dependencies>
 <dependency>
 <groupId>org.apache.kafka</groupId>
 <artifactId>kafka-clients</artifactId>
 <version>3.0.0</version>
 </dependency>
</dependencies>

建立客户端负载均衡

package com.lzq.producer;
import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerConfig;
import org.apache.kafka.clients.producer.ProducerRecord;
import org.apache.kafka.common.serialization.StringSerializer;

import java.util.Properties;

public class CustomProducer {
    public static void main(String[] args) {
        //属性配置
        Properties properties = new Properties();
        //链接集群
        properties.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG,"192.168.6.101:9092");
        //指定k、v序列化类型
        properties.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());
        properties.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG,StringSerializer.class.getName());
        //建立生产者对象
        KafkaProducer<String, String> kafkaProducer = new KafkaProducer<>(properties);
        //像first主题发送数据
        kafkaProducer.send(new ProducerRecord<>("first","hello"));
        //关闭资源
        kafkaProducer.close();
    }
}

回调发送数据ide

 //像first主题发送数据
        kafkaProducer.send(new ProducerRecord<>("first", "hello"), new Callback() {
            @Override
            public void onCompletion(RecordMetadata recordMetadata, Exception e) {
                if (e==null){
                    System.out.println("发送成功,主题"+recordMetadata.topic()+"分区"+recordMetadata.partition());
                }
            }
        });

同步发送数据命令行

当第一批数据处理完,才发送第二批数据code

  kafkaProducer.send(new ProducerRecord<>("first", "hello"),new Callback() {
            @Override
            public void onCompletion(RecordMetadata recordMetadata, Exception e) {
                if (e==null){
                    System.out.println("发送成功,主题"+recordMetadata.topic()+"分区"+recordMetadata.partition());
                }
            }
        }).get();

生产者分区

(1)便于合理使用存储资源,每一个Partition在一个Broker上存储,能够把海量的数据按照分区切割成一 块一块数据存储在多台Broker上。合理控制分区的任务,能够实现负载均衡的效果。server

(2)提升并行度,生产者能够以分区为单位发送数据;消费者能够以分区为单位进行消费数据。对象

分区规则

(1)指明partition的状况下,直 接将指明的值做为partition值

(2)没有指明partition值但有key的状况下,将key的hash值与topic的 partition数进行取余获得partition值

(3)既没有partition值又没有key值的状况下,Kafka采用Sticky Partition(黏性分区器),会随机选择一个分区,并尽量一直 使用该分区,待该分区的batch已满或者已完成,Kafka再随机一个分区进行使用(和上一次的分区不一样)

指定分区

参数为topic,分区,key,value

kafkaProducer.send(new ProducerRecord<>("first", 1,"","hello")

自定义分区器

public class MyPartitioner implements Partitioner {
    //主题、序列化后的k、v k、v
    @Override
    public int partition(String s, Object o, byte[] bytes, Object o1, byte[] bytes1, Cluster cluster) {
        //获取数据
        String value = o1.toString();
        int partition;
        //若是包含lzq就发送到0号分区
        if (value.contains("lzq")){
            partition = 0;
        }else {
            partition = 1;
        }
        return 0;
    }

    @Override
    public void close() {

    }

    @Override
    public void configure(Map<String, ?> map) {

    }
}
public class CustomProducer {
    public static void main(String[] args) throws ExecutionException, InterruptedException {
        //属性配置
        Properties properties = new Properties();
        //链接集群
        properties.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG,"192.168.6.101:9092");
        //指定k、v序列化类型
        properties.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());
        properties.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG,StringSerializer.class.getName());
        //关联自定义分区
        properties.put(ProducerConfig.PARTITIONER_CLASS_CONFIG,"com.lzq.producer.MyPartitioner");
        //建立生产者对象
        KafkaProducer<String, String> kafkaProducer = new KafkaProducer<>(properties);
        //像first主题发送数据
        kafkaProducer.send(new ProducerRecord<>("first", 1,"","lzq"),new Callback() {
            @Override
            public void onCompletion(RecordMetadata recordMetadata, Exception e) {
                if (e==null){
                    System.out.println("发送成功,主题"+recordMetadata.topic()+"分区"+recordMetadata.partition());
                }
            }
        }).get();
        //关闭资源
        kafkaProducer.close();
    }
}

提升吞吐量

// batch.size:批次大小,默认 16K
 properties.put(ProducerConfig.BATCH_SIZE_CONFIG, 16384);
 // linger.ms:等待时间,默认 0
 properties.put(ProducerConfig.LINGER_MS_CONFIG, 1);
 // RecordAccumulator:缓冲区大小,默认 32M:buffer.memory
 properties.put(ProducerConfig.BUFFER_MEMORY_CONFIG, 33554432);
// compression.type:压缩,默认 none,可配置值 gzip、snappy、lz4 和 zstd
properties.put(ProducerConfig.COMPRESSION_TYPE_CONFIG,"snappy");