El Científico de Datos será responsable de diseñar, desarrollar, entrenar y optimizar modelos, orientados a resolver problemas de relación e identificación de similitudes entre distintas entidades de texto e imagen, dentro de grandes volúmenes de datos. El rol demanda una comprensión avanzada de técnicas de machine learning y deep learning aplicadas a problemas de emparejamiento y búsqueda semántica, así como la capacidad de traducir requisitos de negocio en soluciones robustas y escalables.
Experiencia Profesional :
~5 años de experiencia en roles relacionados con ciencia de datos, análisis estadístico o investigación aplicada.
~ Experiencia liderando proyectos de ciencia de datos de principio a fin, desde la definición del problema hasta la implementación de soluciones.
~ Experiencia trabajando con grandes volúmenes de datos y en entornos de computación distribuida.
Herramientas : Python (avanzado).
Bibliotecas de Ciencia de Datos y ML : NumPy, Pandas, Polars, Scikit-Learn, TensorFlow, PyTorch, Statsmodels, XGBoost, LightGBM, Sentence Transformers, Hugging Face, FAISS.
Análisis Estadístico y Modelado : SPSS, SAS, MATLAB.
Visualización de Datos : Matplotlib, Seaborn, Plotly, Tableau, Power BI.
Big Data y Procesamiento Distribuido : Spark, Dask, Hadoop.
Bases de Datos : SQL, NoSQL (MongoDB, Cassandra), PostgreSQL, Milvus, Qdrant, Pinecone.
ETL y Orquestación : Apache Airflow, Luigi.
Infraestructura y MLOps : Docker, Kubernetes, MLflow, Kubeflow.
Computación en la Nube : AWS, GCP, Azure.
Habilidades Técnicas Requeridas :
Dominio en desarrollo y entrenamiento de modelos de Deep Learning (modelos Transformers de texto e imágenes, en un contexto supervisado y seimi-supervisado).
Conocimiento de técnicas de GenAI y prompt engineering son deseables.
Amplia experiencia en el manejo de frameworks de machine learning y deep learning.
Experiencia en el manejo de bases de datos vectoriales.
Conocimientos sólidos en procesamiento y limpieza de datos, uso de regex y data wrangling. Conocimiento en técnicas avanzadas de feature engineering son deseables.
Experiencia práctica en evaluación de modelos supervisados.
Experiencia trabajando con grandes volúmenes de datos y optimización de pipelines de modelado.
Deseable : experiencia implementando modelos en ambientes cloud
Datos Ciencia Datos • Ciudad de México, México