Match score not available

Engenheiro de Infraestrutura em Machine Learning (Oracle OCI)

Remote: 
Full Remote
Work from: 

Offer summary

Qualifications:

Experience in cloud environments., Advanced skills with Docker and Kubernetes., Knowledge of observability and monitoring tools., Familiarity with CI/CD and Terraform..

Key responsabilities:

  • Maintain and optimize infrastructure for Machine Learning pipelines.
  • Ensure high availability, scalability, and security of cloud infrastructure.
  • Monitor and resolve issues in production systems.
  • Collaborate with multidisciplinary teams to operationalize solutions.
Jump Label Solutions logo
Jump Label Solutions SME https://www.jumplabel.com.br/
51 - 200 Employees
See all jobs

Job description

Especialista de Infraestrutura com vasta experiência em ambientes produtivos em nuvem para trabalhar em colaboração com o Engenheiro de Machine Learning, formando um par essencial para a operação e manutenção de sistemas de Machine Learning em produção. Esse profissional será responsável por garantir a robustez e a confiabilidade da infraestrutura que suporta modelos de Machine Learning, além de responder rapidamente a incidentes em produção quando necessário.


Responsabilidades

  • Manter e otimizar a infraestrutura necessária para pipelines de Machine Learning em ambientes produtivos.
  • Garantir a alta disponibilidade, escalabilidade e segurança da infraestrutura em nuvem.
  • Monitorar e corrigir problemas em sistemas de modelos em produção, garantindo uma operação contínua e confiável.
  • Trabalhar com equipes multidisciplinares (Engenharia de ML, Data Science e DevOps) para operacionalizar soluções.
  • Gerenciar e manter ambientes com Docker e Kubernetes.
  • Responder rapidamente a incidentes críticos, garantindo a estabilidade do ambiente produtivo.


Requisitos

Experiência em Nuvem:

  • Domínio em pelo menos duas das principais plataformas de nuvem: Oracle OCI, AWS, Azure ou GCP, com preferência por Oracle OCI devido à sua utilização no projeto em questão.
  • Configuração, monitoramento e manutenção de infraestrutura em nuvem.


Contêineres e Orquestração:

  • Experiência avançada com Docker e Kubernetes para ambientes de produção.


Monitoramento e Manutenção:

  • Conhecimento em ferramentas de observabilidade e monitoramento como o Dynatrace.
  • Experiência com Jira para acompanhamento de tarefas e chamados.
  • Experiência com incidentes em produção e resolução de problemas críticos.


Ciclo de Vida de Modelos de Machine Learning:

  • Entendimento básico sobre o ciclo de vida de modelos de Machine Learning (treinamento, implantação, monitoramento e retreino).


Automação e CI/CD:

  • Experiência com Terraform aplicado a pipelines de infraestrutura.
  • Experiência básica com ferramentas de automação como Jenkins, GitHub Actions.

Required profile

Experience

Spoken language(s):
Portuguese
Check out the description to know which languages are mandatory.

Other Skills

  • Collaboration
  • Problem Solving

Machine Learning Engineer Related jobs