El Científico de Datos será responsable de diseñar, desarrollar, entrenar y optimizar modelos, orientados a resolver problemas de relación e identificación de similitudes entre distintas entidades de texto e imagen, dentro de grandes volúmenes de datos. El rol demanda una comprensión avanzada de técnicas de machine learning y deep learning aplicadas a problemas de emparejamiento y búsqueda semántica, así como la capacidad de traducir requisitos de negocio en soluciones robustas y escalables.
Experiencia Profesional :
- 5 años de experiencia en roles relacionados con ciencia de datos, análisis estadístico o investigación aplicada.
- Experiencia liderando proyectos de ciencia de datos de principio a fin, desde la definición del problema hasta la implementación de soluciones.
- Experiencia trabajando con grandes volúmenes de datos y en entornos de computación distribuida.
Herramientas :
Python (avanzado).Bibliotecas de Ciencia de Datos y ML : NumPy, Pandas, Polars, Scikit-Learn, TensorFlow, PyTorch, Statsmodels, XGBoost, LightGBM, Sentence Transformers, Hugging Face, FAISS.Análisis Estadístico y Modelado : SPSS, SAS, MATLAB.Visualización de Datos : Matplotlib, Seaborn, Plotly, Tableau, Power BI.Big Data y Procesamiento Distribuido : Spark, Dask, Hadoop.Bases de Datos : SQL, NoSQL (MongoDB, Cassandra), PostgreSQL, Milvus, Qdrant, Pinecone.ETL y Orquestación : Apache Airflow, Luigi.Infraestructura y MLOps : Docker, Kubernetes, MLflow, Kubeflow.Computación en la Nube : AWS, GCP, Azure.Habilidades Técnicas Requeridas :
Dominio en desarrollo y entrenamiento de modelos de Deep Learning (modelos Transformers de texto e imágenes, en un contexto supervisado y seimi-supervisado).Conocimiento de técnicas de GenAI y prompt engineering son deseables.Amplia experiencia en el manejo de frameworks de machine learning y deep learning.Experiencia en el manejo de bases de datos vectoriales.Conocimientos sólidos en procesamiento y limpieza de datos, uso de regex y data wrangling. Conocimiento en técnicas avanzadas de feature engineering son deseables.Experiencia práctica en evaluación de modelos supervisados.Experiencia trabajando con grandes volúmenes de datos y optimización de pipelines de modelado.Deseable : experiencia implementando modelos en ambientes cloud