Böyük Data

Apache Kafka ilə real vaxt data axını arxitekturası

Event-driven arxitekturaların onurğa sütunu olan Kafka düzgün qurulduqda əməliyyat sistemləri ilə analitik qat arasındakı əlaqəni köklü dəyişir.

BIART Ekibi2 dəq oxu1 baxış
Distributed sistem ve devre kartı görseli

Bank əməliyyatı saniyələr içində fırıldaq skoruna çevrilməlidir. Pərakəndə satışda stok sayğacı sifarişlərlə sinxron qalmadıqda kampaniyalar səhv işləyir. Belə ssenaridə batch pipeline-lar kifayət etmir və Apache Kafka əsaslı event streaming arxitekturaları devrəyə girir.

Kafka Nə Edir?

Kafka paylanmış mesaj növbəsi deyil, dayanıqlı paylanmış logdur. İstehsalçı sistemlər (producers) mesajları topic-lərə yazır; istehlakçılar (consumers) bu topic-lərdən oxuyur. Mesajlar saxlama müddəti boyunca (günlər, həftələr və ya sonsuz) yenidən oxuna bilər — bu Kafka-nı klassik message queue-lardan fərqləndirən xüsusiyyətdir.

Arxitektura Şablonları

Kafka üzərində qurulmuş arxitekturalarda üç geniş yayılmış şablon öne çıxır:

  1. Event Sourcing: tətbiq state-i event log kimi saxlanılır; cari state event-lərin ardıcıl emalı ilə qurulur.
  2. CDC (Change Data Capture): Debezium kimi alətlərlə əməliyyat verilənlər bazasından bütün dəyişikliklər Kafka-ya axıdılır, analitik qat batch deyil stream kimi sinxronlaşır.
  3. Stream Processing: Kafka Streams, Apache Flink və ya Spark Structured Streaming ilə event-lər üzərində pəncərə əsaslı aqreqasiyalar real vaxtda hesablanır.

İstehsalatda Kritik Qərarlar

  • Replication factor 3: məlumat itkisinin qarşısını almaq üçün minimum standart.
  • Partitioning strategiyası: açar seçimi partition daxili sıralamanın qorunmasını müəyyən edir. Müştəri əsaslı əməliyyatlar üçün customer_id ən geniş yayılmış seçimdir.
  • Schema Registry: producer və consumer arasında schema uyğunluğunu Avro/Protobuf ilə idarə etmək istehsalatı xaosdan qoruyur.
  • Monitoring: consumer lag, broker disk doluluğu və under-replicated partition sayı — davamlı izlənilməli olan üç əsas metrika.

Kafka Korporativ Səviyyədə Nə Zaman Doğru Seçimdir?

Hər məlumat axını Kafka-ya köçürülməməlidir. Gündə bir dəfə işləyən batch pipeline-lar üçün Airflow ETL kifayətdir. Kafka-nın dəyəri gecikmə kritik olduqda (saniyə altı) və eyni event-in bir neçə istehlakçı tərəfindən fərqli məqsədlərlə istifadə olunduğu ssenarilərdə ortaya çıxır.

Praktiki Nümunə

Türkiyədə böyük bir özəl bankda CDC əsaslı Kafka inteqrasiyası gün sonu hesabatların istehsal müddətini 6 saatdan 12 dəqiqəyə endirdi. Əsas uğur Schema Registry-nin ilk gündən qurulması və consumer qruplarının biznes domeni (risk, CRM, analitika) üzrə ayrılması idi.

Nəticə

Paylaş