3 Maneras De Obtener Experiencia En La Vida Real De Ciencia De Datos Antes De Su Primer Trabajo

Terence Shin
Oct 19, 2020

3 Maneras De Obtener Experiencia En La Vida Real De Ciencia De Datos Antes De Su Primer Trabajo

Oct 19, 2020 6 minutes read

Cómo puedes desarrollar tus habilidades en ciencias de la información con proyectos prácticos

Introducción

“Conseguir mi primer trabajo de ciencia de datos fue difícil.”
Es especialmente difícil entrar en la ciencia de datos cuando las empresas suelen exigir un máster y un mínimo de 2-3 años de experiencia. Dicho esto, hay una serie de grandes recursos que encontré y que quiero compartir con ustedes.

En este artículo, les daré tres maneras en las que pueden obtener experiencia práctica en ciencia de los datos por su cuenta. Completando estos proyectos, desarrollará una fuerte comprensión de SQL, Pandas y el modelado de aprendizaje automático.

  1. En primer lugar, le proporcionaré casos de estudio de SQL en la vida real en los que se le plantea un problema empresarial y se le pide que consulte las bases de datos para diagnosticar el problema y formular una solución.

  2. En segundo lugar, voy a proporcionarles docenas de problemas prácticos para Pandas, una biblioteca en Python destinada a la manipulación y el análisis de datos. Esto le ayudará a desarrollar las habilidades necesarias para la manipulación y limpieza de datos.

  3. Por último, voy a proporcionarles una variedad de problemas de aprendizaje de máquinas donde pueden desarrollar un modelo de aprendizaje automático para hacer predicciones. Al hacerlo, aprenderás cómo abordar un problema de aprendizaje automático, así como los pasos fundamentales necesarios para desarrollar un modelo de aprendizaje automático de principio a fin.
    Vector infográfico creado por stories — www.freepik.com

Dicho esto, ¡vamos a sumergirnos en ello!

1. Casos de estudio de SQL


Si quieres ser un científico de datos, tienes que tener fuertes habilidades SQL. Mode, ofrece tres casos prácticos de SQL que simulan problemas empresariales de la vida real, así como un editor de SQL en línea donde puedes escribir y ejecutar consultas.

Para abrir el editor SQL de Mode, ve a este enlace y haz clic en el hipervínculo donde dice "Open another window to Mode".

Aprendiendo SQL
Si eres nuevo en SQL, primero comenzaría con los tutoriales de Mode de SQL donde puedes aprender técnicas básicas, intermedias y avanzadas de SQL. Siéntase libre de omitir esto si ya tiene un buen entendimiento de SQL.

Caso de estudio 1: Investigación de un descenso en el compromiso (engagement) de los usuarios


El objetivo de este caso es determinar la causa de la disminución del compromiso  de los usuarios del proyecto Yammer. Antes de sumergirte en los datos, deberías leer el resumen de lo que hace Yammer aquí. Hay 4 tablas con las que deberías trabajar.

El enlace al caso te proporcionará muchos más detalles sobre el problema, los datos y las preguntas que deben ser respondidas.

Revisa cómo abordé este caso de estudio aquí si quieres orientación.

Caso de estudio 2: Comprender la funcionalidad de búsqueda

Este caso está más enfocado en la analítica de productos. Aquí, se le pedirá que se sumerja en los datos y determine si la experiencia del usuario es buena o mala. Lo que hace que este caso sea interesante es que depende de ti determinar qué significa "bueno" y "malo" y cómo se evaluará la experiencia del usuario.

Caso de estudio 3: Validación de los resultados de la prueba A/B

Una de las aplicaciones más prácticas de la ciencia de los datos es la realización de pruebas A/B. En este estudio de caso, te sumergiras en los resultados de una prueba A/B en la que hubo una diferencia del 50% entre el grupo de control y el de tratamiento. Su tarea para este caso es validar o invalidar los resultados después de un análisis completo.

Lea también: 

2. Problemas de práctica de pandas

Cuando empecé a desarrollar modelos de aprendizaje automático, descubrí que mi falta de habilidades en Pandas era una gran limitación para lo que podía hacer. Desafortunadamente, no hay muchos recursos en Internet que te permitan practicar tus habilidades de Pandas, a diferencia de Python y SQL…

Hace unas semanas, sin embargo, me encontré con este recurso - es un repositorio lleno de problemas de práctica específicamente para Pandas. Completando estos problemas de práctica, sabrás cómo:
  • Filtrar y ordenar tus datos
  • Agrupar y agregar datos
  • Usar .apply() para manipular los datos
  • Fusionar conjuntos de datos
  • Y mucho más.
Si puedes completar estos problemas de práctica, deberías poder decir con confianza que sabes cómo usar Pandas para proyectos de ciencia de datos. También te ayudará significativamente para la siguiente sección.

Lea también: 

3. Modelado de aprendizaje automático

Una de las mejores maneras de obtener experiencia en ciencias de la información es creando sus propios modelos de aprendizaje de máquinas. Esto significa encontrar un conjunto de datos públicos, definir un problema y resolver el problema con el aprendizaje automático.

A continuación hay un par de ideas que puedes usar para empezar.

Predecir la calidad del vino


Este conjunto de datos contiene datos sobre varios vinos, su composición y su calidad. Esto puede ser un problema de regresión o de clasificación, dependiendo de cómo lo enmarques. Vea si puede predecir la calidad de un vino tinto con 11 entradas (acidez fija, acidez volátil, ácido cítrico, azúcar residual, cloruros, dióxido de azufre libre, dióxido de azufre total, densidad, pH, sulfatos y alcohol.)

Si quiere que le guíe en la creación de un modelo de aprendizaje de la máquina para este conjunto de datos, vea mi enfoque aquí.

Lea también: 


Estimador de precios de carros usados


Craigslist es la mayor colección del mundo de vehículos usados en venta. Este conjunto de datos está compuesto por datos scrapeados de Craigslist y se actualiza cada pocos meses. Usando este conjunto de datos, mira si puedes crear un conjunto de datos que prediga si un coche de la lista está sobre o subvalorado

Si ya tienes suficiente experiencia, puedes aplicar a un trabajo como cientifico de datos aqui.

Gracias por leer!
Espero que encuentres estos recursos e ideas útiles en tu viaje a la ciencia de los datos. :)

Terence Shin
Si te gusta esto, deberías revisar mi recurso gratuito de ciencia de datos con material nuevo cada semana!
Fundador de ShinTwin | Conectémonos en LinkedIn | El portafolio de proyectos está aquí.
Join our private community in Discord

Keep up to date by participating in our global community of data scientists and AI enthusiasts. We discuss the latest developments in data science competitions, new techniques for solving complex challenges, AI and machine learning models, and much more!