Современная Data-платформа строится из нескольких слоёв. Для потоковой передачи событий между сервисами используют Apache Kafka (6 управляемых сервисов в каталоге) — это шина данных реального времени для логов, кликстримов и метрик. Для пакетной аналитики и ETL-процессов применяют кластеры Apache Spark (2 сервиса).
Для полнотекстового поиска и анализа логов используют OpenSearch (2) — open-source форк Elasticsearch. Trino (2) — распределённый SQL-движок для федеративных запросов сразу к нескольким источникам данных (S3, PostgreSQL, Kafka) без ETL. Yandex Cloud и VK Cloud предлагают по 4 Big Data сервиса каждый — наиболее широкое покрытие в этой категории.
Когда стоит использовать Kafka вместо обычной очереди (RabbitMQ)?
Kafka лучше подходит для высоких объёмов (миллионы сообщений в секунду), долгосрочного хранения событий и когда один поток данных читают несколько Consumer Groups независимо. RabbitMQ проще и лучше подходит для task-очередей с подтверждением выполнения. Для Data Pipeline или Event Sourcing выбирайте Kafka.
Чем ClickHouse отличается от PostgreSQL для аналитики?
ClickHouse — колоночная СУБД для аналитических запросов (OLAP). На агрегациях по миллиардам строк он в 100–1000 раз быстрее PostgreSQL. Но ClickHouse не подходит для транзакционных операций (OLTP) и частых UPDATE/DELETE. Правильная схема: PostgreSQL для операционных данных + ClickHouse для аналитики.
Что такое Trino и для чего он используется?
Trino (бывший PrestoSQL) — распределённый SQL-движок для федеративных запросов к данным из разных источников (S3, PostgreSQL, Kafka, Hive, ClickHouse) без предварительного ETL. Удобен для ad-hoc аналитики данных в Data Lake.
Можно ли начать с Big Data без команды Data Engineers?
Managed-сервисы значительно снижают порог входа. Поднять кластер Kafka или OpenSearch в облаке можно за 15–20 минут. Провайдеры берут на себя масштабирование, обновление версий, мониторинг и бэкапы. Для старта достаточно одного инженера с базовыми знаниями SQL.