OneData — ETL-инструмент для эффективного управления данными

OneData — ETL-инструмент для эффективного управления данными
20.03.2024
#новости OneData — ETL-инструмент для эффективного управления данными
OneData — ETL-инструмент для эффективного управления данными

Время собирать данные. Тенденции российского рынка ETL


Не секрет, что объем и сложность данных, которые накапливаются в хранилищах организаций, постоянно растет. Этому способствует как цифровизация бизнес-процессов в целом, так и развитие отдельных технологий – Big Data, ML и других. Несмотря на то, что хранение и обработка больших объемов информации становятся всё затратнее, это приносит компаниям значительные преимущества: аналитика больших данных помогает объективно оценивать бизнес-показатели в реальном времени, принимать на ее основе взвешенные решения и строить прогнозы.


Инструменты ETL играют решающее значение для наполнения хранилищ данных: благодаря их работе обеспечивается постоянное снабжение информационных систем компании актуальными данными из различных источников. Выстраивая процессы ETL, нужно учитывать разнородность этих систем-источников, передаваемые данные и различные механизмы доступа к ним: JDBC, брокеры сообщений вроде Kafka, API, файлы на файловых хранилищах и т.д.


До 2022 года подразделения, ответственные за наполнение корпоративных хранилищ, в зависимости от разных факторов, выбирали для своей работы разные инструменты: готовые или самописные решения. Среди вендорских решений предпочтения отдавались проверенным западным продуктам от лидеров рынка – Informatica PowerCenter, SAS ETL, Oracle Data Integrator. Согласно тому же исследованию ЦСР, в 2021 году зарубежные поставщики занимали 64% рынка в денежном выражении.


Ситуация резко изменилась, когда большинство из этих компаний в связи с геополитической ситуацией и санкциями, введенными против России, приняли решение покинуть локальный рынок. Параллельно с приостановкой бизнеса в стране эти разработчики сворачивают обслуживание своих продуктов у российских клиентов, возможность обновлений и другие сервисные обязательства.


В связи с этим для российских организаций возникает ряд существенных рисков. Отсутствие техподдержки и обновлений грозит привести к сбоям в работе ПО и появлению большого количества уязвимостей. Непрерывность бизнес-процессов, сильно зависящих от интеграции данных и аналитики, также может быть нарушена. Очевидно, что компании заинтересованы в поиске и внедрению альтернативных решений ETL, а это требует значительных инвестиций временных, человеческих и финансовых ресурсов.


Уход западных поставщиков ETL – большой вызов для российских организаций. Вместе с тем он открывает возможности для российских разработчиков и стимулирует инновации в сфере управления данными в России. Важно отметить и активный интерес государства к развитию этого направления ИТ. Например, в дорожной карте «Новое общесистемное программное обеспечение», утвержденной Минцифры в 2022 году, содержатся меры поддержки разработчиков СУБД. Технологии хранения и анализа больших данных включены в концепцию технологического развития России до 2030 года.


Варианты импортозамещения ETL в 2024 году


В качестве альтернативы продуктам западных поставщиков ETL чаще всего упоминают три категории решений: продукты ETL российских разработчиков, open source инструменты ETL (Apache Airflow, Apache NiFi, Talend Open Studio) и облачные сервисы (Яндекс Data Transfer). Помимо коммерческих продуктов и проектов с привлечением интегратора крупными заказчиками рассматриваются варианты разработки собственных решений, в том числе на базе открытого ПО, а также самостоятельной миграции на open source решения.

У каждого из этих сценариев есть преимущества и недостатки. Так, самостоятельная миграция на open source, а тем более разработка и поддержка самописного решения – хорошая возможность внедрить инструмент, максимально соответствующий специфике и потребностям компании. Но решения с открытым исходным кодом часто не предоставляют пользователям всей необходимой функциональности – их кастомизация либо ресурсозатратная, либо вообще невозможна.


В случае самописного инструмента компания действительно может получить не просто работающее кастомизированное ETL решение, но и продукт высокого уровня зрелости с потенциалом его тиражирования на внешнем рынке. Однако такая разработка доступна далеко не всем. Это очень трудоемкий процесс, требующий привлечения большого количества квалифицированных специалистов (собственной или аутсорсинговой команды) и написания кода. Если же речь идет о каком-то нишевом применении, – учитывая адаптацию продукта под требования внутреннего заказчика, он так же имеет ограниченную функциональность, а его стоимость измеряется сотнями миллионов рублей.


Продукты ETL облачных провайдеров позволяют заказчику сэкономить на разработке и поддержке, а также на вычислительных ресурсах. Но они работают только на хранилищах, расположенных внутри тех же облаков – соответственно, возникает большая зависимость от провайдера. Кроме того, для многих компаний применение облачных сервисов противоречит политикам информационной безопасности, причем зачастую речь идет как о зарубежных продуктах (AWS Glue, Azure Data Factory), так и даже о российских публичных облаках.


Исходя из этого большинство российских заказчиков все-таки ориентируются на использование отечественных ETL-продуктов и находятся в поисках оптимального по производительности и функциональности решения. Понимая эту потребность, в 2023 году мы в IT_ONE на основе богатого опыта внедрения хранилищ и озер данных разработали собственный фреймворк перемещения данных OneData, о котором хотелось бы рассказать подробнее.


Подробнее по ссылке.