Аналитика больших данных (Big Data)

Управляемые кластеры для хранения, обработки и потоковой передачи больших данных: Kafka, Spark, OpenSearch, Trino. 10 сервисов с бесплатным тестовым периодом.

Advanced Distributed Message Service for Kafka

Cloud.ru
Брокер сообщений на базе Apache Kafka
Free tier
Бесплатный тест
Категория Kafka

Evolution Managed Kafka

Cloud.ru
Готовый кластер Apache Kafka — сервис для потоковой обработки данных в реальном времени
Free tier
Бесплатный тест
Категория Kafka

Managed Kafka

MWS
Управление кластерами Apache Kafka
Free tier
Бесплатный тест
Категория Kafka

Облачная база данных для Kafka

Selectel
Готовые к работе кластеры Apache Kafka для работы с сообщениями по принципу «публикация-подписка»
Free tier
Бесплатный тест
Категория Kafka

OpenSearch

VK Cloud
Облачный сервис полнотекстового поиска, хранения, обработки и аналитики логов в приложениях
Free tier
Бесплатный тест
Категория OpenSearch

Cloud Kafka

VK Cloud
Сервис распределенной потоковой передачи данных между приложениями
Free tier
Бесплатный тест
Категория Kafka

Cloud Spark

VK Cloud
Сервис распределенной обработки данных любого объема
Free tier
Бесплатный тест
Категория Spark

Cloud Trino

VK Cloud
Сервис для эффективной работы с данными из любых источников
Free tier
Бесплатный тест
Категория Trino

Managed Service for Apache Kafka®

Yandex Cloud
Управление кластерами Kafka®
Free tier
Бесплатный тест
Категория Kafka

Managed Service for OpenSearch

Yandex Cloud
Управление кластерами OpenSearch
Free tier
Бесплатный тест
Категория OpenSearch

Managed Service for Apache Spark™

Yandex Cloud
Сервис кластерных вычислений на основе Apache Spark
Free tier
Бесплатный тест
Категория Spark

Yandex Managed Service for Trino

Yandex Cloud
Управление распределённым аналитическим SQL-движком Trino
Free tier
Бесплатный тест
Категория Trino

Ничего не найдено

Попробуйте изменить запрос или фильтры.

Инструменты для работы с Big Data в облаке

Современная Data-платформа строится из нескольких слоёв. Для потоковой передачи событий между сервисами используют Apache Kafka (6 управляемых сервисов в каталоге) — это шина данных реального времени для логов, кликстримов и метрик. Для пакетной аналитики и ETL-процессов применяют кластеры Apache Spark (2 сервиса).

Для полнотекстового поиска и анализа логов используют OpenSearch (2) — open-source форк Elasticsearch. Trino (2) — распределённый SQL-движок для федеративных запросов сразу к нескольким источникам данных (S3, PostgreSQL, Kafka) без ETL. Yandex Cloud и VK Cloud предлагают по 4 Big Data сервиса каждый — наиболее широкое покрытие в этой категории.

Часто задаваемые вопросы

Когда стоит использовать Kafka вместо обычной очереди (RabbitMQ)?

Kafka лучше подходит для высоких объёмов (миллионы сообщений в секунду), долгосрочного хранения событий и когда один поток данных читают несколько Consumer Groups независимо. RabbitMQ проще и лучше подходит для task-очередей с подтверждением выполнения. Для Data Pipeline или Event Sourcing выбирайте Kafka.

Чем ClickHouse отличается от PostgreSQL для аналитики?

ClickHouse — колоночная СУБД для аналитических запросов (OLAP). На агрегациях по миллиардам строк он в 100–1000 раз быстрее PostgreSQL. Но ClickHouse не подходит для транзакционных операций (OLTP) и частых UPDATE/DELETE. Правильная схема: PostgreSQL для операционных данных + ClickHouse для аналитики.

Что такое Trino и для чего он используется?

Trino (бывший PrestoSQL) — распределённый SQL-движок для федеративных запросов к данным из разных источников (S3, PostgreSQL, Kafka, Hive, ClickHouse) без предварительного ETL. Удобен для ad-hoc аналитики данных в Data Lake.

Можно ли начать с Big Data без команды Data Engineers?

Managed-сервисы значительно снижают порог входа. Поднять кластер Kafka или OpenSearch в облаке можно за 15–20 минут. Провайдеры берут на себя масштабирование, обновление версий, мониторинг и бэкапы. Для старта достаточно одного инженера с базовыми знаниями SQL.