Мы набираем IT специалистов в большую команду для работы на проектах для крупного и динамичного российского банка. Мы разрабатываем высокотехнологичную внутреннюю платформу для крупного банка, которая является фундаментом для работы команд Data Science. Наш продукт позволяет специалистам создавать, обучать и внедрять модели искусственного интеллекта, объединяя в едином интерфейсе бэкенд-сервисы, инструменты разработки и интеграции с внешними банковскими системами.
Обязанности
Поддержка ML-платформы и Kubernetes (Основной фокус):
• Эксплуатация платформы:
o Мониторинг состояния сервисов инференса в Kubernetes (доступность подов, потребление ресурсов, перезапуски).
o Диагностика проблем с запуском контейнеров моделей (ошибки инициализации, нехватка памяти, проблемы с зависимостями).
• Мониторинг и инциденты:
o Настройка дашбордов для отслеживания метрик качества сервисов;
o Первичная реакция на инциденты: сбор логов, анализ трассировок, эскалация разработчикам (L3) при невозможности устранения в течение 15-30 минут;
o Анализ причин деградации производительности моделей (дрейф данных, проблемы инфраструктуры);
• Поддержка пользователей (Data Scientists / Разработчики):
o Консультирование по использованию API платформы для деплоя и управления моделями;
o Обучение работе с инструментами платформы (CLI, SDK, веб-интерфейс);
o Создание инструкций и FAQ по типовым задачам развертывания;
• Безопасность и доступы:
o Управление доступом к функциям платформы согласно политикам безопасности;
o Контроль соблюдения регламентов при работе с данными;
Поддержка векторной БД Milvus (Опционально ):
• Управление доступом:
o Создание баз данных и ролей в Milvus и назначение прав;
• Мониторинг Milvus:
o Поддержка дашбордов Grafana для векторной БД (метрики: задержка поиска, загрузка CPU узлов query, использование диска, статус лидера etcd, отставание Kafka);
o Реагирование на алерты (критические: остановка узлов, потеря лидера etcd, место на диске < 10%; предупреждения: задержка поиска > 5с, лаг Kafka > 1000).
Обязательные требования
• Опыт использования Kubernetes (диагностика подов, работа с kubectl, понимание networking и storage);
• Понимание принципов работы ML-моделей (инференс, API моделей, форматы данных);
• Опыт настройки мониторинга и алертинга (Prometheus, Grafana, ELK);
• Навыки скриптования (Python/Bash) для автоматизации рутинных задач;
• Умение работать с пользователями и писать техническую документацию.
Будет плюсом
• Опыт поддержки MLOps-платформ (MLflow, Kubeflow или самописные решения);
• Знание практик информационной безопасности при эксплуатации ML-систем;
• Опыт работы с векторными базами данных (Milvus, Qdrant, Weaviate);
• Понимание архитектуры Milvus (query node, index node, etcd, kafka);
• Знание специфических метрик и процедур поддержки Milvus (например, настройка параметров поиска, работа с бэкапами).