Мы набираем IT специалистов в большую команду для работы на проектах для крупного и динамичного российского банка.
Команда будет занимать разработкой инструментов и процессов для реализации единой платформы для разработки, развертывания и эксплуатации решений на основе LLM, а так же агентской платформы для работы с ИИ-агентами.
Проект направлен на создание единой технологической платформы для разработки, развертывания и эксплуатации решений на основе больших языковых моделей с использованием инфраструктуры АС «Суперкомпьютер». Ключевая задача – переход от точечных пилотов к промышленному внедрению ИИ с централизацией управления безопасностью, качеством и стоимостью, а также настроить приоритизацию клиентских запросов. Архитектура платформы четырехуровневая: инфраструктурный слой (GPU-кластер), слой оркестрации и LLMOps, слой знаний (RAG), агентская платформа.
Обязанности
• Обеспечение доступности и надёжности open source приложений, развернутых в Kubernetes на всех средах (от dev до prod) в закрытых контурах банка (LLMOps процессы / инфраструктура);
• Работа с инцидентами в рамках дежурств в рабочее время (реагирование, эскалация, post-mortem);
• Создание и изменение CI/CD пайплайнов (TeamCity, ArgoCD);
• Создание и изменение крупных umbrella Helm-чартов;
• Создание и изменение Docker-образов;
• Поиск причин неисправностей при развертывании и эксплуатации поддерживаемых приложений;
• Консультация и помощь пользователям в решении проблем эксплуатации;
• Создание и реагирование на алёрты от систем мониторинга и логирования (Grafana / Prometheus stack);
• Автоматизация рутинных операций и рутинных задач (toil);
• Исследование и внедрение нового функционала (R&D) существующих приложений;
• Исследование и внедрение новых приложений;
• Участие и внесение доработок по результатам проведения приёмо-сдаточных испытаний с отделами информационной безопасности.
Обязательные требования
• Уверенное понимание архитектуры Kubernetes, основных компонентов и типов манифестов;
• Опыт прикладного использования Kubernetes — от 2 лет;
• Опыт отладки приложений, запускаемых в кластерах Kubernetes, и поиска проблем в инфраструктуре Kubernetes кластера;
• Понимание принципов контейнеризации и технологий, на которых она основана;
• Опыт сборки контейнерных образов и знание best practices сборки;
• Опыт работы с Helm — от 1 года;
• Опыт работы с мониторингом приложений и инфраструктуры, понимание принципов RED / USE / 4 Golden Signals;
• Опыт командной работы с Git (GitFlow);
• Опыт написания скриптов автоматизации на bash и Python для администрирования/мониторинга;
• Опыт создания и изменения CI/CD пайплайнов;
• Хорошее знание Linux.
Будет плюсом
LLMOps-инструменты
• Опыт развертывания и поддержки inference серверов (vLLM, TGI, Triton Inference Server);
• Оркестрация LLM пайплайнов (LangChain, Haystack);
• Опыт развертывания и поддержки Langfuse, LLM backends; (включая настройку SSO, трейсинг цепочек вызовов, сбор обратной связи);
• Опыт работы с MLflow / Kubeflow (хотя бы концептуально);
Разработка и безопасность
• Опыт командной разработки на Python или других языках (code review, ООП, интеграционное/нагрузочное тестирование);
• Опыт отладки Python-приложений;
• Опыт работы в закрытых контурах и/или знакомство с банковскими стандартами информационной безопасности;
• Опыт интеграции с системами аудита, фильтрации контента, PII-маскирования, контроля доступа к моделям;
• Понимание угроз, специфичных для LLM (prompt injection, jailbreak, утечка данных, атаки на отказ);
Нагрузочное тестирование и мониторинг
• Опыт нагрузочного тестирования LLM-эндпоинтов;
• Углублённый опыт работы в стеке Grafana/Prometheus: написание PromQL-запросов, настройка алертов;
Администрирование и хранение артефактов
• Опыт администрирования Kubernetes-кластера (глубокое понимание работы компонентов и их связи с манифестами);
• Понимание жизненного цикла ML-модели: хранение артефактов в object storage, версионирование (Model Registry), A/B-тестирование или deploy стратегии для LLM.