назад

Старший DevOps инженер

Мы набираем IT специалистов в большую команду для работы на проектах для крупного и динамичного российского банка. Команда будет занимать разработкой инструментов и процессов для реализации единой платформы для разработки, развертывания и эксплуатации решений на основе LLM, а так же агентской платформы для работы с ИИ-агентами.
Проект направлен на создание единой технологической платформы для разработки, развертывания и эксплуатации решений на основе больших языковых моделей с использованием инфраструктуры АС «Суперкомпьютер». Ключевая задача – переход от точечных пилотов к промышленному внедрению ИИ с централизацией управления безопасностью, качеством и стоимостью, а также настроить приоритизацию клиентских запросов. Архитектура платформы четырехуровневая: инфраструктурный слой (GPU-кластер), слой оркестрации и LLMOps, слой знаний (RAG), агентская платформа.

Обязанности

• Обеспечение доступности и надёжности open source приложений, развернутых в Kubernetes на всех средах (от dev до prod) в закрытых контурах банка (LLMOps процессы / инфраструктура);
• Работа с инцидентами в рамках дежурств в рабочее время (реагирование, эскалация, post-mortem);
• Создание и изменение CI/CD пайплайнов (TeamCity, ArgoCD);
• Создание и изменение крупных umbrella Helm-чартов;
• Создание и изменение Docker-образов;
• Поиск причин неисправностей при развертывании и эксплуатации поддерживаемых приложений;
• Консультация и помощь пользователям в решении проблем эксплуатации;
• Создание и реагирование на алёрты от систем мониторинга и логирования (Grafana / Prometheus stack);
• Автоматизация рутинных операций и рутинных задач (toil);
• Исследование и внедрение нового функционала (R&D) существующих приложений;
• Исследование и внедрение новых приложений;
• Участие и внесение доработок по результатам проведения приёмо-сдаточных испытаний с отделами информационной безопасности.

Обязательные требования

• Уверенное понимание архитектуры Kubernetes, основных компонентов и типов манифестов;
• Опыт прикладного использования Kubernetes — от 2 лет;
• Опыт отладки приложений, запускаемых в кластерах Kubernetes, и поиска проблем в инфраструктуре Kubernetes кластера;
• Понимание принципов контейнеризации и технологий, на которых она основана;
• Опыт сборки контейнерных образов и знание best practices сборки;
• Опыт работы с Helm — от 1 года;
• Опыт работы с мониторингом приложений и инфраструктуры, понимание принципов RED / USE / 4 Golden Signals;
• Опыт командной работы с Git (GitFlow);
• Опыт написания скриптов автоматизации на bash и Python для администрирования/мониторинга;
• Опыт создания и изменения CI/CD пайплайнов;
• Высшее техническое образование;
• Хорошее знание Linux.

Будет плюсом

LLMOps-инструменты
• Опыт развертывания и поддержки inference серверов (vLLM, TGI, Triton Inference Server);
• Оркестрация LLM пайплайнов (LangChain, Haystack);
• Опыт развертывания и поддержки Langfuse, LLM backends; (включая настройку SSO, трейсинг цепочек вызовов, сбор обратной связи);
• Опыт работы с MLflow / Kubeflow (хотя бы концептуально);

Разработка и безопасность
• Опыт командной разработки на Python или других языках (code review, ООП, интеграционное/нагрузочное тестирование);
• Опыт отладки Python-приложений;
• Опыт работы в закрытых контурах и/или знакомство с банковскими стандартами информационной безопасности;
• Опыт интеграции с системами аудита, фильтрации контента, PII-маскирования, контроля доступа к моделям;
• Понимание угроз, специфичных для LLM (prompt injection, jailbreak, утечка данных, атаки на отказ);

Нагрузочное тестирование и мониторинг
• Опыт нагрузочного тестирования LLM-эндпоинтов;
• Углублённый опыт работы в стеке Grafana/Prometheus: написание PromQL-запросов, настройка алертов;

Администрирование и хранение артефактов
• Опыт администрирования Kubernetes-кластера (глубокое понимание работы компонентов и их связи с манифестами);
• Понимание жизненного цикла ML-модели: хранение артефактов в object storage, версионирование (Model Registry), A/B-тестирование или deploy стратегии для LLM.

Расположение

Remote work

тип работы

DevOps

Номер вакансии

VR-71379

язык

Russian: C1 Advanced

Опыт работы

Senior

откликнуться

Нажимая «Отправить», я подписываю соглашение об использовании простой электронной подписи для подписания документов, связанных с обработкой моих персональных данных.

Я даю согласие на обработку персональных данных в целях потенциального трудоустройства. С Политикой обработки персональных данных можно ознакомиться здесь.

Я даю согласие на обработку персональных данных в целях включения в кадровый резерв. С Положением о кадровом резерве можно ознакомиться здесь.

Я даю согласие ООО «ИТ1» и компаниям на направление мне маркетинговых материалов и коммерческих предложений. Проставляя галочку, я также даю согласие на обработку персональных данных в указанных целях.

Работа у нас — это:

ДМС и страхование жизни

Корпоративные мероприятия

Культура обратной связи

Внутренняя ротация и ежегодная оценка

наставничество
и менторство

обучение, повышение квалификации

Индивидуальный план развития

Реферальная программа

Внутренние IT-сообщества

Похожие вакансии

Старший DevOps инженер

DevOps Remote work

Мы набираем IT специалистов в большую команду для работы на проектах для крупного и динамичного российского банка. Команда будет занимать разработкой инструментов и процессов для реализации единой платформы для разработки, развертывания и эксплуатации р...

Техлид DevOps

DevOps Moscow

У нас амбициозная цель - стать самым инновационным Банком России, и мы быстро движемся в этом направлении. Наше Управление строит единую платформу для обработки BigData. Многое уже сделано, но впереди еще много интересных задач. Мы уже набрали некоторы...

Старший DevOps инженер

DevOps Remote work

Приглашаем на работу IT специалистов в нашу большую команду для работы на проектах для крупнейшего российского банка из списка топ-3. Основной проект: Доработанная коробочная версия CRM Infor, для которой build и deploy возможен только утилитами «короб...

Возврат к списку