Мы набираем IT специалистов в большую команду для работы на проектах для крупного и динамичного российского банка.
Команда будет занимать разработкой инструментов и процессов для реализации единой платформы для разработки, развертывания и эксплуатации решений на основе LLM, а так же агентской платформы для работы с ИИ-агентами.
Проект направлен на создание единой технологической платформы для разработки, развертывания и эксплуатации решений на основе больших языковых моделей с использованием инфраструктуры АС «Суперкомпьютер». Ключевая задача - переход от точечных пилотов к промышленному внедрению ИИ с централизацией управления безопасностью, качеством и стоимостью, а также настроить приоритизацию клиентских запросов. Архитектура платформы четырехуровневая: инфраструктурный слой (GPU-кластер), слой оркестрации и LLMOps, слой знаний (RAG), агентская платформа.
Мы ищем инженера на стыке DevOps и backend-разработки для форка, доработки и production-развёртывания векторной БД Milvus в банковской инфраструктуре. Ключевая особенность роли — необходимость не только эксплуатировать решение, но и модифицировать исходный код (Go) под требования ИБ регулятора, проходить аудиты и защищать архитектурные решения перед службой безопасности банка.
Это не классический DevOps: примерно 40% времени — работа с кодом Milvus, 40% — инфраструктура и CI/CD, 20% — документация и взаимодействие с ИБ.
Обязанности
• Модификация исходного кода Milvus (Go) под требования ИБ: расширение модулей аутентификации, авторизации, аудита и логирования. Реализация механизмов парольной политики на уровне кода — сложность паролей, история последних 5–10 паролей, срок жизни (90 дней), блокировка учётной записи при N неудачных попытках входа. Доработка REST/gRPC API (в частности /user/info) с возвратом полей last_login, password_expiry_date, account_locked, failed_login_attempts. Заведение и сопровождение PR/issues в upstream-репозиторий Milvus на GitHub, поддержка собственного форка с регулярным rebase на master;
• Сборка и подпись Docker-образов модифицированного Milvus, публикация во внутренний registry. Поддержка и развитие Helm-чартов: версионирование, параметризация values.yaml, работа с секретами (Vault / Sealed Secrets / External Secrets). Построение CI/CD пайплайнов для автоматической сборки, статического анализа (SAST), сканирования образов (Trivy / Grype), интеграционного тестирования и выкатки в dev/staging/prod. Внедрение GitOps-подхода (ArgoCD / Flux);
• Настройка экспорта метрик через /metrics endpoint Milvus в Prometheus, разработка дашбордов в Grafana и алертов в Alertmanager. Интеграция OpenTelemetry SDK непосредственно в код Milvus, настройка экспорта трасс в Jaeger через OTel Collector. Реализация структурированных аудит-логов (поля: timestamp, user, action, resource, status, src_ip, client_id) и их доставка в корпоративную SIEM (СВОИ) по Syslog / TLS / HTTPS. Автоматический сбор panic-логов с алертингом, поддержка CPU/memory profiling через pprof;
• Развёртывание и поддержка Milvus в кластерах Kubernetes (предпочтительно managed или OpenShift). Сопровождение зависимостей Milvus: Kafka / Pulsar, etcd, MinIO / S3-совместимое хранилище. Capacity planning, тюнинг под нагрузку (шардирование коллекций, индексы IVF/HNSW/DiskANN), отработка failover-сценариев;
• Разработка механизма бэкапов как отдельного компонента: согласованные снапшоты etcd, дамп MinIO buckets, метаданные коллекций. Web-интерфейс (или интеграция с существующим внутренним порталом) для запуска бэкапов, просмотра истории и восстановления. Регулярное тестирование восстановления в staging, документирование RTO/RPO.
Обязательные требования
• 5+ лет опыта в DevOps / SRE / Platform Engineering, из них минимум 2 года — глубокая работа с Kubernetes в production (не только kubectl apply, а написание операторов или серьёзная работа с CRD, Helm, kustomize);
• Уверенное знание Go на уровне модификации чужого кода: умение разобраться в архитектуре крупного opensource-проекта, написать тесты, пройти code review мейнтейнеров. Python — как дополнительный язык для скриптов и тулинга;
• Опыт работы с stateful-системами в Kubernetes: StatefulSets, PV/PVC, операторы для БД;
• Опыт построения CI/CD: GitLab CI / Jenkins / GitHub Actions, GitOps через ArgoCD или Flux;
• Глубокое понимание observability stack: Prometheus (PromQL, recording rules), Grafana, Jaeger / Tempo, OpenTelemetry (как минимум SDK + Collector);
• Опыт работы с очередями и распределёнными системами: Kafka или Pulsar, etcd, объектные хранилища (S3 / MinIO);
• Понимание принципов ИБ в регулируемых отраслях: разграничение доступа (RBAC/ABAC), аудит, парольные политики, шифрование данных at rest и in transit (TLS, mTLS), управление секретами;
• Опыт написания технической документации для согласования с ИБ: архитектурные схемы, модели угроз, регламенты эксплуатации.
Будет плюсом
• Практический опыт с Milvus, Weaviate, Qdrant или другими векторными БД на уровне production-эксплуатации или модификации кода
• Опыт работы в банке, финтехе или другой регулируемой отрасли (телеком, госсектор) с высокими требованиями ИБ.
• Опыт прохождения аудитов: ПСИ, РАИБ, ПМИ, ФСТЭК, PCI DSS.
• Понимание принципов работы embedding-моделей и ANN-индексов (HNSW, IVF, DiskANN) — для осознанного тюнинга Milvus.
• Контрибьюции в opensource-проекты на Go.
• Опыт с service mesh (Istio / Linkerd) и сетевыми политиками в Kubernetes.