No Te Preocupes, Excel Es Sorprendentemente Eficaz

Tyler Folkman
May 02, 2020

Contents Outline

No Te Preocupes, Excel Es Sorprendentemente Eficaz

May 02, 2020 4 minutes read

Es común que los científicos de datos menosprecien Microsoft Excel. Comparado con un lenguaje de programación como Python, parece una herramienta de la edad de piedra. No se escala bien, es difícil reproducir los resultados, y una vez que empiezas a escribir macros de VBA, en su lugar podrías estar usando Python.

Dado todo eso, sin embargo, Excel ha sobrevivido. No puedo pensar en un negocio que no utilice algún tipo de software de hoja de cálculo para ayudar a analizar los datos. Como dijo Joe Reis:

“Excel sigue siendo el pilar del mundo de los negocios. Después de la Tercera Guerra Mundial, las cucarachas y Excel sobrevivirán.”

Foto por  Mika Baumeister on Unsplash

Un sobreviviente
Tal vez te preguntes, ¿por qué ha sobrevivido Excel en un mundo de grandes datos y herramientas sexys como Spark y Snowflake? ¿Cómo es posible que la humilde hoja de cálculo no se haya sufrido una disrupción?

Creo que es porque Excel es una de las formas más fáciles de ver y analizar datos. Excel es un producto del tipo "lo que ves es lo que obtienes" (WYSIWYG). Entras a Excel con una vista tabular de tus datos y puedes empezar a editar, agregar fórmulas y crear tablas dinámicas. A medida que haces estos cambios, lo que ves se actualiza automáticamente. Esto es increíblemente poderoso y hace que Excel sea mucho más accesible.

Además, Excel hace que sea muy fácil e intuitivo hacer análisis básicos. ¿Quieres tomar el promedio de una columna? Sólo tienes que usar la fórmula del PROMEDIO. ¿Quieres un gráfico de dispersión de tus datos? Sólo resalta tus datos y haz clic en "gráfico de dispersión". Esta facilidad de uso es un beneficio increíble. Una que permite a las empresas aprovechar a los no programadores para analizar y visualizar los datos. En mi opinión, Excel es una de las mejores herramientas que existen para ayudar a una compañía a tener una cultura basada en los datos.



¿Deberían los científicos de datos usar Excel?
Creo que todos pueden estar de acuerdo con los puntos anteriores. Excel es una herramienta útil para ayudar a la gente a realizar un procesamiento y análisis de datos básicos de forma fácil e intuitiva.

Pero, ¿debería ser una herramienta para los científicos de datos?

O - ¿estamos demasiado avanzados? ¿Demasiado sofisticados para los gustos de Excel? ¿Deberían todos los problemas ser ejecutados a través de Python o R?

Yo diría que cada científico de datos debería tener un confort básico con Excel y no sentir vergüenza de usarlo como herramienta.

Digo vergüenza porque encuentro muy fácil que los científicos odien Excel. Definitivamente no es una herramienta para todos los problemas. Probablemente ni siquiera para la mayoría de los problemas de la ciencia de los datos. Pero eso no significa que no tenga su lugar. He encontrado que Excel es muy útil en las siguientes situaciones:

  • Tengo una pequeña cantidad de datos tabulares para los que quiero hacer unos cuantos cálculos rápidos. Por ejemplo, tal vez tengas las vistas de unos cientos de videos de YouTube en una hoja de cálculo. Es mucho más fácil y rápido abrirlo y calcular algunas estadísticas básicas.
  • Necesito compartir los resultados personas que no son científicos de datos, mientras que les hago fácil al mismo tiempo hacer algunos de sus propios análisis.
  • Quiero hacer algunos gráficos muy rápidos de datos tabulares limpios.

Nota: En todos los ejemplos anteriores, se trataría de peticiones ad-hoc que no se esperaba que se repitieran. Una vez que empiece a tener que crear un proceso repetible, me movería a un lenguaje de programación aunque los análisis sean simples. Haciendo esto, será mucho más fácil reproducir y escalar el proceso analítico si es necesario. La reproducibilidad y el escalado son dos de los mayores inconvenientes de Excel.

Ve y aprende
Esperemos que este breve artículo te haya convencido de que Excel tiene un lugar en tu caja de herramientas de ciencia de datos. Si no has hecho mucho con Excel, te invito a que abras un CSV en Excel y explores la funcionalidad. Es bastante fácil empezar.

Si quieres ayuda para empezar, Microsoft tiene algunos tutoriales gratuitos muy buenos.

Por último, recuerda también que Excel no es una buena herramienta para muchos proyectos de ciencias de datos. Si se encuentra con conjuntos de datos más grandes, necesidades más avanzadas de aprendizaje  automático, o necesita crear un proceso reproducible, no use Excel. Vuelve al lenguaje de programación de tu preferencia

Si necesitas un recurso que te ayude a iniciarte en Python con la analítica y la visualización, puedes consultar un curso que he creado para hacer justamente eso.

Ahora, ve y añade otra herramienta a tu caja de herramientas de ciencias de datos (si no lo has hecho ya).


Join our private community in Discord

Keep up to date by participating in our global community of data scientists and AI enthusiasts. We discuss the latest developments in data science competitions, new techniques for solving complex challenges, AI and machine learning models, and much more!