We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Streaming Ecosystem Complexities and Cost Management // Rohit Agarwal // #302

Streaming Ecosystem Complexities and Cost Management // Rohit Agarwal // #302

2025/4/4
logo of podcast MLOps.community

MLOps.community

AI Deep Dive AI Chapters Transcript
People
R
Rohit Agarwal
Topics
Rohit Agarwal: 我在Tecton领导几个工程团队,主要负责流数据、批处理数据、在线和离线推理等核心数据流和基础设施。当前流数据生态系统高度分散,客户通常使用Kafka、Kinesis等流解决方案,但难以有效利用这些数据进行机器学习或分析。这主要是因为生态系统碎片化,需要整合多种工具和技术,这需要多种技能,并带来持续的运营成本。 构建和维护实时数据流系统需要整合多个工具和技术,这需要多种技能,并带来持续的运营成本。最简单的解决方案包括Kafka流、流处理器(Spark或Flink)、存储(键值存储或离线存储如Iceberg)以及应用的Serving层。每个步骤都需要不同的技能,构建团队非常困难,现有工具也比较有限且难以使用。DynamoDB用于存储来自流处理器的记录,并提供高吞吐量、低延迟的服务,但维护它也具有挑战性,需要仔细考虑模式设计,以及如何随时间演变。 实时数据流系统的成本与数据的新鲜度密切相关,需要在成本和数据新鲜度之间取得平衡。理想情况下,系统应该具有可调节的旋钮,允许在成本和新鲜度之间进行权衡。然而,许多系统要么成本很高但延迟很低,要么成本很低但延迟很高。大多数公司都有各种各样的用例,有些需要非常低的延迟,有些则可以接受稍高的延迟。因此,能够根据新鲜度管理成本的系统非常重要。 在批处理方面,我们使用DuckDB作为Spark Batch的替代方案;在流处理方面,我们使用自己的流引擎。实时数据流系统的维护通常由不同的团队负责,这导致了团队之间在责任和优先级上的脱节,影响了系统的整体可靠性。用户关注的是端到端的可靠性,而不是单个服务的可靠性,而这在多个工具整合的系统中很难实现。构建和维护实时数据流管道会产生高昂的云基础设施成本和运营成本。 利用云存储服务(如S3)作为存储层,可以降低实时数据流系统的成本和运营开销,并提高可扩展性。WarpStream(被Confluent收购)就是一个例子,它类似于Kafka on S3。利用对象存储可以独立扩展计算和存储,从而降低成本和运营开销。调整检查点频率可以显著降低实时数据流系统的成本,但需要权衡数据新鲜度和恢复点目标。在实时数据流系统中,需要根据不同的使用场景和成本预算,调整数据新鲜度和成本之间的平衡。许多公司会为批处理和流式处理分别构建系统,这导致了工作重复、成本增加和维护复杂化。 管理数据保留策略(数据在流中的保留时间)对于控制实时数据流系统的成本至关重要。为了降低成本,可以将近期数据存储在流中,而将历史数据存储在批处理系统中,并通过数据管道将两者整合。越来越多的供应商提供托管服务,简化了实时数据流管道的构建和维护,但这些服务也可能比较昂贵。选择合适的工具和技术需要考虑产品速度和上市时间,这需要权衡成本和开发效率。Iceberg有可能成为数据领域的GitHub,成为数据存储的中心枢纽,从而促进不同供应商之间的互操作性。并非所有实时数据流系统都需要像大型科技公司那样构建大规模系统,选择更简单的工具可以降低成本和复杂性。未来,批处理和流式处理系统将并存,各自发挥其优势,而不是完全被流式处理所取代。“自带云”(BYOC)解决方案将成为未来实时数据流和批处理系统的一个趋势,这将解决数据安全性和合规性问题。

Deep Dive

Chapters
Rohit Agarwal, Director of Engineering at Tecton, discusses his role, focusing on real-time and batch systems, and the company's work with feature platforms for various applications.
  • Rohit leads engineering teams at Tecton, focusing on real-time and batch data processing.
  • Tecton is a feature platform used for applications like fraud detection, recommender systems, and loan scoring.
  • Rohit's role involves managing teams working on streaming data, batch data, and online/offline inference.

Shownotes Transcript

Streaming Ecosystem Complexities and Cost Management // MLOps Podcast #302 with Rohit Agarwal, Director of Engineering at Tecton.

Join the Community: https://go.mlops.community/YTJoinIn Get the newsletter: https://go.mlops.community/YTNewsletter

// AbstractDemetrios talks with Rohit Agarwal, Director of Engineering at Tecton, about the challenges and future of streaming data in ML. Rohit shares his path at Tecton and insights on managing real-time and batch systems. They cover tool fragmentation (Kafka, Flink, etc.), infrastructure costs, managed services, and trends like using S3 for storage and Iceberg as the GitHub for data. The episode wraps with thoughts on BYOC solutions and evolving data architectures.

// BioRohit Agrawal is an Engineering Manager at Tecton, leading the Real-Time Execution team. Before Tecton, Rohit was the a Lead Software Engineer at Salesforce, where he focused on transaction processign and storage in OLTP relational databases. He holds a Master’s Degree in Computer Systems from Carnegie Mellon University and a Bachelor’s Degree in Electrical Engineering from the Biria Institute of Technology and Science in Pilani, India.

// Related Links