El Data Scientist "Full Stack"

Admond Lee
Apr 04, 2020

Contents Outline

El Data Scientist "Full Stack"

Apr 04, 2020 3 minutes read

Lo que un científico de datos debe saber para construir soluciones integrales de ciencia de datos

Stack Overflow publicó recientemente su encuesta sobre desarrolladores en 2019. Ésta encuesta está llena de interesantes insights sobre desarrolladores, desde las tecnologías preferidas hasta el optimismo de cara al futuro.

Me hizo pensar en el papel de la ciencia de los datos en la tecnología y las habilidades necesarias para tener un rol íntegro como data scientist en un ecosistema más amplio.

Los desarrolladores han acuñado el término "full-stack" para un desarrollador que se siente cómodo trabajando en todos los aspectos del desarrollo web.

¿Cuál sería el equivalente para la ciencia de los datos?

La mayoría de los encuestados (51,9%) identifican sus roles como "desarrolladores full-stack", mientras que "científico de datos o especialista en machine learning" ocupa el 7,9% de las respuestas.

Otros roles relacionados con los datos incluyen el de analista de datos o de negocios (7,7%), el de ingeniero de datos (7,2%) y el de científico (4,4%).

Stack Overflow survey 2019 ‘Developer Types’



Dado que muchos científicos de datos no pueden darse el lujo de contar con el apoyo de grandes equipos de desarrolladores, deben ser capaces de construir cosas y realizar tareas que tradicionalmente no se consideran parte de su función.

Esto podría relacionarse con el análisis de negocios, ingeniería de datos, DevOps, administración de bases de datos y desarrollo web.

Yo consideraría que un científico de datos que es capaz de actuar en todas estas áreas es un científico de datos full-stack. Ésta no es una opción en la encuesta de StackOverflow, aún... :)

La capacidad de construir soluciones integrales es la mejor manera de prepararse para cualquier función o proyecto, trabajar con una variedad de equipos y asegurar que sus conocimientos aporten valor al negocio.

Creo que para hacer esto, debes tener un buen conocimiento en cada una de estas áreas:

💼 Análisis de negocios. Un buen conocimiento de los requisitos, datos disponibles y objetivos de un proyecto.

🏛 Infraestructura. La capacidad de diseñar, desplegar y trabajar eficientemente con una amplia gama de tecnologías y sistemas de gestión de datos.

🚂 ETL. Los científicos de datos deben ser capaces de construir tuberías (pipelines) de procesamiento de datos eficaces para que sus modelos y análisis sean fáciles de mantener.

💡Machine Learning. Amplio conocimiento de las técnicas para construir sistemas inteligentes.

🖥 DevOps. El control de la fuente, el despliegue y las soluciones de monitoreo se facilitan con herramientas como Git, Docker y Airflow.

📱 Desarrollo web y APIs. La creación de aplicaciones web y APIs sencillas facilitará la integración de los conocimientos en otras aplicaciones.

📊Data visualización. Crea visualizaciones intuitivas utilizando una variedad de herramientas.

El objetivo de esta serie es cubrir cada una de estas áreas. Si estamos mostrando una herramienta en particular, el post caminará a través de un repositorio Github.

La primera parte de la serie ya está en directo! Echa un vistazo a la primera parte de The Full Stack Data Scientist: Producir tus modelos con las API de Django.
Join our private community in Discord

Keep up to date by participating in our global community of data scientists and AI enthusiasts. We discuss the latest developments in data science competitions, new techniques for solving complex challenges, AI and machine learning models, and much more!