Senior Data Engineer

Moscow

Описание вакансии

Мы занимаемся созданием big data платформы для крупнейшей логистической компании России. Платформа построена на open source технологиях, и с помощью таких open source технологий как Kafka, Flink, Spark Streaming, Spark, Hive, ClickHouse позволяет обрабатывать от 200 до 400 млн. событий в сутки.
Платформа активно развивается - растущий поток данных и новые бизнес задачи требуют исследования и внедрения новых фреймворков и технологий, поэтому мы ищем новых специалистов в команду.

Технологический стек:
У нас есть стриминговые и батчевые расчеты с классическим data lake.
На стриминговых расчетах используется: Kafka, Spark Streaming, Flink, Kafka Streams(в перспективе).
На батче: Flink, Spark (DF, Scala), ClickHouse, Vertica.
Коммитим код в Gitlab, собираем с помощью Maven.
Обязательное покрытие тестами и ревью кода в Upsource.
Автоматизировано создание рутинного кода по выделению слоев STG, ODS и DDS.
Оркестрация на Oozie (в планах airflow).
Процесс CI/CD выстроен с помощью Team City.
Вывод в Prod выполняют выделенные релиз-инженеры.
Поддержку инфраструктуры и её развитие осуществляет команда DevOps.
Мы используем: Java 8, Scala 10/11, SQL. Big Data stack: Hadoop, Hive, Spark, Spark Streaming, Sqoop, Oozie, Kafka, Flume. DBs: PostgreSQL, Cassandra, ClickHouse, Vertica. BI: Pentaho. Data Analysis: Spark Ml.

Обязанности

Рефакторинг/оптимизация ETL/ELT-процессов
Конфигурирование и тюнинг Prod Batch WF
Развитие и саппорт CI/CD Oozie WF
Формирование SRS-документов
Траблшутинг в Продуктиве
Описание новых ETL/ELT под нужны инфраструктуры, тестирование и планирование миграций данных, тестирование и проектировка схем данных и их оптимизация

Расположение
Moscow
Адрес офиса
г.Москва, ул. Годовикова, 9 стр.7, БЦ «Калибр»
Тип работы
BigData (Hadoop etc.)
Номер вакансии
VR-57368
Язык
English: A2 Elementary

Требования к кандидату

Обязательные требования

Опыт работы с Hadoop 2.6.1- 3.1, hive 1.2-3.1, Spark 1-3, yarn(умение правильно настраивать квоты при большом кол-во пользователей(больше 200);
Знание etl/elt(есть оба вида конвертеров);
Хорошие знания sql, cql, понимание вторичных индексов, составных инжексов;
Опыт работы с SparkSQL;
Опыт работы с kafka, оптимизацией запросов к ней, KSQL.

Желательные требования

Знание инструмента управления развертыванием приложений Puppet
Опыт работы с Vertica, CLickHouse, Cassandra
Базовые знания Java
Опыт работы с Tomcat, Jetty
Опыт работы с Облачными Технологиями (Docker и т.п.)
Знание пакетных менеджеров (RPM, Deb)
Опыт управления системой сбора логов: Kibana+ElasticSearch
Знание инструментов сборки Java-продуктов (Maven, Gradle, Ant)
Знакомство c ETL инструментарием для работы с данными экосистемы Hadoop

Работа у нас — это

Команда профессионалов, готовых поддержать ваши инициативы

Возможность работы с новыми технологиями

Возможности карьерного роста

Обучение за счёт компании

Красивый и комфортный офиc

Гибкий график

ДМС

Мощное железо и дополнительное оборудование