Kafka Summit 2020

Publiseret Aug 26, 202010 min læsning0 kommentarer

Jeg deltog i Kafka Summit 2020, en virtuel konference af Confluent. Det var en virtuel konference over to dage med masser af gode talere fra Kafka Community. Jeg deltog i begivenheden fra Danmark, så jeg var oppe næsten hele natten med kaffe for at chatte og følge med i alle de spændende foredrag.

Opsummering af dag 1

Jeg startede eventet med at se Day 1 morning Keynote Program, som officielt startede eventet. Her snakkede Gwen Shapira fra Confluent om de nye Kafka Improvement Proposals med fokus på KIP-405 Kafka Tiered Storage og KIP-500 Replace Zookeeper med Metadata Quorum. Begge enorme forbedringer af Kafka.

Kafka Tiered Storage hjælper med Elasticity af Kafka Cluster ved at introducere et cold storage layer til offload af data fra Kafka Brokeren. Denne feature gør det nemmere at skalere og tilføje nye Kafka Brokers, fordi der skal kopieres mindre data til de nye Kafka Brokers.

Fjernelse af Zookeeper simplificerer den operative byrde med at holde Kafka Cluster kørende, fordi det et mindre software komponent at holde styr på. Ved at have metadata state in memory opstår der bedre muligheder for skalering med op til 10,000,000 partitioner i fremtiden.

Efter det gik jeg videre til et foredrag om tradeoffs in distributed systems design: Is Kafka the best? Jeg anbefaler virkelig at du ser dette foredrag. De snakkede omkring de mange trade-off i infrastruktur design med benchmark comparisons, for eksempel data throughput benchmark comparison med Kafka, Pulsar and RabbitMQ. Messaging model basics, contiguous streams vs fragmented streams og alt det andet gode stuff!!

Viktor Gamov’s foredrag omkring testing stream processing applikationer havde også godt indhold + han er en meget sjov og energisk foredrager. Jeg anbefaler at du også checker hans livestream videoer ud på Viktor’s youtube channel og Confluent’s youtube channel, især hvis du vil lære mere om testing og kafka streams applikationer.

Fordraget: Can Kafka Handle a Lyft Ride har en god demo og gennemgang af State Machines, PubSub arkitektur, message delivery time og Kafka.

Opsummering af dag 2

Jeg startede dag 2 med at se Kai Waehner’s foredrag: Apache Kafka, Tiered Storage and TensorFlow for Streaming Machine Learning without a Data Lake. Et godt foredrag med forklaring og demo af predictive maintenance use case, hvor han viste en full data pipeline til machine learning, for eksempel hvordan man træner en machine learning model med streaming data and model predictions med ksqlDB.

Derefter gik jeg videre til Robin Moffatt’s foredrag: Apache Kafka and ksqlDB in Action: Let’s Build a Streaming Data Pipeline! Nice kundedata demo med Kafka, ksqlDB, Kafka Connect med Change Data Capture fra Relational Database og integration til ElasticSearch og Kibana dashboard.

Dag 2 blev for alvor skudt i gang med Keynote Program Day 2 Morning foredrag af Jay Kreps, co-founder af Kafka og Sam Newman, Forfatter af Building Microservices. Det var de to bedste foredrag under hele eventet. Du kan se dem her:

Jeg sluttede eventet med at se A Tale of Two Data Centers: Kafka Streams Resiliency af Anna McDonald. Sjovt og spændende foredrag omkring resiliency, replication og stretch clusters.

Tusind tak til alle talere, sponsorer og deltagere som gjorde dette event muligt!!