Présentation
Un service Kafka est une offre de service cloud d'Apache Kafka, une plateforme de diffusion de données.
La plateforme Apache Kafka est complexe à déployer à grande échelle, notamment dans un environnement de cloud hybride. C'est pourquoi de nombreux utilisateurs de données de diffusion en continu optent souvent pour un service Kafka, dans le cadre duquel la gestion de l'infrastructure et du système est confiée à un fournisseur de services.
Apache Kafka, qu'est-ce que c'est ?
Apache Kafka est une plateforme Open Source distribuée de diffusion de données en continu, capable de publier, stocker, traiter et souscrire à des flux d'enregistrement en temps réel. Elle est conçue pour gérer des flux de données provenant de plusieurs sources et les fournir à plusieurs utilisateurs.
Créée pour traiter des quantités massives de données, Apache Kafka est une solution adaptée aux applications d'entreprise. Elle est conçue pour gérer les données de diffusion en continu tout en étant rapide, évolutive horizontalement et résistante aux pannes.
La plateforme Apache Kafka est adaptée pour relever les défis du Big Data. Dans de nombreux cas d'utilisation liés au traitement des données, tels que l'Internet des objets et les réseaux sociaux, les données croissent de façon exponentielle et peuvent rapidement surcharger une application conçue sur la base du volume de données disponible à cet instant.
Pour les développeurs qui travaillent avec des microservices, Apache Kafka facilite l'intégration asynchrone orientée événements, ce qui peut renforcer l'utilisation de l'intégration synchrone et des API.
Ressources Red Hat
Que sont les données de diffusion en continu, et quel est leur intérêt ?
Les données de diffusion en continu correspondent au flux continu d'informations en temps réel, souvent représenté sous la forme d'un journal des modifications ou des événements survenus dans un ensemble de données.
Les cas d'utilisation de la diffusion de données en continu peuvent concerner toute situation exigeant une réponse en temps réel à des événements, qu'il s'agisse de transactions financières, de données de l'Internet des objets (IoT) ou du suivi de patients dans les hôpitaux.
Les logiciels qui interagissent avec les données de diffusion en continu permettent de traiter les données au moment où elles arrivent, souvent selon le modèle d'une architecture orientée événements.
Avec un modèle de diffusion d'événements en continu, les consommateurs d'événements peuvent lire toute partie du flux et peuvent rejoindre le flux à tout moment. Un événement de base de diffusion de données en continu comprend une clé, une valeur et des données d'horodatage. Une plateforme de diffusion de données en continu ingère des événements et traite, ou transforme, le flux d'événements. Et le traitement des flux d'événements peut permettre de trouver des tendances dans les flux de données.
Quels sont les avantages d'un service Kafka ?
Bien qu'elle offre de nombreux avantages, la plateforme Apache Kafka peut être difficile à déployer à grande échelle dans un environnement de cloud hybride. Les services de données de diffusion en continu peuvent avoir des exigences plus strictes que d'autres applications de données.
Les flux de données doivent fournir des informations séquentielles en temps réel, tout en étant cohérents et hautement disponibles. La quantité de données brutes dans un flux peut augmenter rapidement. Les flux doivent donner la priorité au séquençage correct des données, à leur cohérence et à leur disponibilité, même pendant les périodes de forte activité. Les flux doivent également être conçus pour résister en cas de panne partielle du système.
Dans un environnement de cloud hybride distribué, les clusters de données de diffusion en continu s'accompagnent d'exigences particulières. Les data brokers d'Apache Kafka sont de type stateful et doivent être préservés en cas de redémarrage. La mise à l'échelle nécessite une orchestration minutieuse pour s'assurer que les services de messagerie se comportent comme prévu et qu'aucun enregistrement n'est perdu.
Ces difficultés expliquent pourquoi de nombreux utilisateurs d'Apache Kafka optent pour un service cloud géré, dans le cadre duquel la gestion de l'infrastructure et du système est confiée à un fournisseur de services.
Voici quelques-uns des avantages liés à l'utilisation d'un service Kafka :
- Prise en charge de la gestion de l'infrastructure, ce qui permet aux équipes de concentrer leurs efforts sur le développement d'applications et d'autres compétences essentielles
- Accélération du développement d'applications, car les équipes peuvent commencer à travailler immédiatement et à mettre en œuvre une nouvelle technologie rapidement
- Vaste écosystème de services cloud supplémentaires, qui peuvent également simplifier la distribution d'applications basées sur des flux
- Connecteurs qui relient les brokers Kafka aux services distribués, ce qui facilite ainsi la consommation et le partage des données de diffusion en continu entre les applications et les systèmes
- Tarification basée sur la consommation, ce qui permet aux clients de payer ce dont ils ont besoin quand ils en ont besoin
Et dans le cadre d'une exécution sur une plateforme Kubernetes gérée, les clusters Apache Kafka peuvent couvrir les environnements sur site ainsi que les clouds publics, privés et hybrides, et utiliser plusieurs systèmes d'exploitation.
Le blog officiel de Red Hat
Découvrez les dernières informations concernant notre écosystème de clients, partenaires et communautés.