




Resumo: Procuramos um Engenheiro de ML Aplicado para gerenciar o pipeline de ingestão semântica, transformando PDFs brutos em conteúdo B2B rotulado, resumido e pesquisável. Pontos principais: 1. Gerenciar o pipeline de ingestão semântica para conteúdo B2B 2. Transformar dados não estruturados em ativos claros e valiosos 3. Definir relevância e atualidade para milhões de recursos **NOSSO PROCESSO DE CONTRATAÇÃO:** * Analisaremos sua candidatura com base em nossos requisitos para a vaga. Não utilizamos tecnologias de aprendizado de máquina nesta fase, pois acreditamos que todo ser humano merece atenção de outro ser humano. Não acreditamos que máquinas possam avaliar sua candidatura tão bem quanto nossos profissionais experientes de recrutamento — cada pessoa é única. Prometemos avaliar sua candidatura de forma justa e detalhada. * Em seguida, poderemos convidá-lo a enviar uma entrevista em vídeo para avaliação do gestor de contratação. Essa entrevista em vídeo é frequentemente seguida por um teste ou projeto curto que nos permite determinar se você será um bom encaixe para a equipe. * Neste ponto, convidaremos você para uma entrevista com nosso gestor de contratação e/ou equipe de entrevistas. Observe: não realizamos entrevistas por mensagem de texto, Telegram etc., e nunca contratamos ninguém em nossa organização sem tê-lo conhecido pessoalmente (ou via Zoom). Você será convidado a participar de uma reunião ao vivo ou via Zoom, onde conhecerá nossa equipe INFUSE. * A partir daí, é hora de tomar uma decisão! Se você ainda estiver entusiasmado em se juntar à INFUSE e também formos favoráveis à sua contratação, teremos uma conversa sobre sua oferta. Não fazemos ofertas sem lhe dar a oportunidade de conversar conosco ao vivo. A INFUSE compromete-se a cumprir as leis e regulamentos aplicáveis em matéria de privacidade e segurança de dados. Para mais informações, consulte nossa Política de Privacidade **INKHUB** está ingerindo 10 milhões de PDFs brutos para construir o catálogo mais rico da internet de conteúdo B2B de qualidade para marketing — rotulado, resumido e pesquisável por tópico, empresa ou intenção. Estamos procurando um **engenheiro de ML aplicado** para gerenciar o pipeline de ingestão semântica, desde PDFs brutos até ativos rotulados, resumidos e incorporados. ### **Suas responsabilidades** * Gerenciar o pipeline ETL desde PDFs brutos (ingeridos via S3) até recursos estruturados * Finalizar nosso fluxo de resumo e classificação usando modelos de código aberto com fallback para GPT-4o * Aplicar lógica de filtragem (ex.: idade máxima de 3 anos, limite de 100 páginas etc.) para garantir a qualidade dos recursos * Mapear cada ativo à taxonomia específica de tópicos (10+ por tópico em aproximadamente 9.000 tópicos) * Gerar incorporações densas usando sentence-transformers * Carregar e consultar incorporações usando Milvus ou pgvector * Implementar lógica de "atualidade" para identificar e indexar apenas conteúdos novos ou atualizados, com base em comparação de arquivos, carimbo de data/hora da coleta ou hash do documento * Construir um ambiente de QA/avaliação: conformidade de formato, recall@5, monitoramento de desvio * Expor */v1/semantic-search* via FastAPI, com filtros e fusão de classificação * Colaborar de perto com nosso Líder Técnico na integração com a experiência do usuário (UX) e na geração de trechos ### **Suas ferramentas** * Python, PyTorch, sentence-transformers, APIs da OpenAI ou modelos LLM pré-treinados similares. * FastAPI, Milvus ou pgvector, PyPDF/Tika, Airflow ou Lambda para orquestração * Docker, agendamento de GPUs, Athena/Redshift SQL ### **Você pode ser um bom encaixe se...** * Já construiu pipelines de ML que atingiram usuários reais, não apenas notebooks * Já trabalhou com busca semântica, incorporações ou rotulagem em larga escala * Já lidou com dados não estruturados e adora transformar o caos em clareza * Gosta de trabalhar rapidamente, iterar com base em feedback e acompanhar métricas relevantes ### **Por que essa função é importante** Seus modelos definem o que será encontrado, como será rotulado e quais conteúdos e empresas se destacarão. Você ajudará a definir o que significam "relevância" e "atualidade" para mais de um milhão de recursos e mais de 50.000 páginas de empresas — e garantirá que a INKHUB continue à frente do mercado.


