什么是 Kafka 服务？

Published 2021 年 10 月 7 日•3 分钟阅读

Kafka 服务是 Apache Kafka 提供的一种云服务产品，是一个数据流平台。

Apache Kafka 在大规模部署时非常复杂，尤其是在混合云环境中。所以，许多流数据用户通常会选择 Kafka 服务，将基础架构和系统管理工作交给服务提供商负责。

Apache Kafka 是一个开源分布式数据流处理平台，可以实时发布、订阅、存储和处理数据流。它旨在处理多种来源的数据流，并将它们交付给多个消费者。

Apache Kafka 专用于处理大量数据，是适合企业应用的解决方案，它擅长管理流数据，同时具有快速、可横向扩展和容错等特性。

Apache Kafka 非常适合用于应对大数据挑战。在许多数据处理用例中，如物联网和社交媒体，数据呈指数级增长，或许很快就会让按照当今数据容量构建的应用不堪重负。

对于使用微服务的开发人员来说，在使用异步事件驱动集成时，Apache Kafka 是一个很好的选择，它可以增加同步集成和应用编程接口（API）的使用。

流数据是指实时信息的持续流动，通常表示为数据集中发生的变化或事件的运行日志。

数据流用例可能涉及任何需要对事件进行实时响应的情况——从金融交易到物联网（IoT）数据到医院患者监控。

与流数据交互的软件能够在数据到达时进行处理，通常使用事件驱动架构模型。

使用事件流模型时，事件使用者可以读取流的任何部分，并且可以随时加入流。基本的数据流事件包括一个密钥、一个值和一个时间戳。数据流传输平台会获取事件和流程，或转换事件流。事件流处理可用于查找数据流中的模式。

尽管 Apache Kafka 具有诸多优势，但要在混合云环境中大规模部署仍然很困难。流数据服务的要求可能比其他数据应用更为严格。

数据流必须实时提供有序的信息，必须一致且高度可用。数据流中的原始数据量可能会迅速增加。数据流需要优先考虑适当的数据排序、数据一致性和可用性，即使是在活动高发的时候。数据流在设计时，还必须确保能在部分系统出现故障时保持耐久性。

在分布式混合云环境中，流数据集群需要注意一些特殊事项。Apache Kafka 数据代理是有状态的，在重新启动时必须保留。扩展时需仔细编排，确保消息传递服务按预期运行，且不会丢失任何记录。

因为这些挑战，许多 Apache Kafka 用户会选择托管云服务，将基础架构和系统管理工作交给服务提供商负责。

使用 Kafka 服务具有多种优势，包括：

在托管 Kubernetes 平台上运行时，Apache Kafka 集群可以跨越现场和公共云、私有云或混合云，并且使用不同的操作系统。

扩展阅读

ISV 合作伙伴，即提供各种软件和/或 SaaS 解决方案，旨在解决客户需求的独立软件供应商。

应用集成可将不同的系统和应用连接起来，使它们可通过交换数据和使用服务进行协作。

应用编程接口（API）是一组用于构建和集成应用软件的定义和协议。通过向合作伙伴或公众提供您的 API，可以：创造新的收入渠道，扩大您的品牌覆盖范围，通过外部开发和协作，推动开放创新或提高效率。