Medidas Estadísticas De Tendencia Central

Mahbubul Alam
Aug 19, 2020

Medidas Estadísticas De Tendencia Central

Aug 19, 2020 8 minutes read

Introducción

En estadística, las medidas de tendencia central son un conjunto de valores "medios" representativos de los puntos de datos. La tendencia central describe la distribución de los datos concentrándose en la locación central en torno al cual se agrupan todos los demás datos. Es lo contrario de la dispersión que mide cuán dispersas están las observaciones con respecto al valor central.

Como veremos más adelante, la tendencia central es un concepto estadístico elemental, pero muy utilizado. Entre las medidas de la tendencia central, la media, la mediana y la moda son las más frecuentemente citadas y utilizadas. A continuación veremos por qué son importantes en el campo de la ciencia y el análisis de datos.

Figura: Conceptualización de las medidas de la tendencia central

1. Media aritmética

La media es el promedio de algunos puntos de datos. Es la medida más simple de tendencia central que toma la suma de las observaciones y divide la suma por el número de observaciones.
En notación matemática la media aritmética se expresa como:



Donde Xi son observaciones individuales y N es el número de observaciones
En un ejemplo más práctico, si el salario de 3 empleados de restaurante es de 12, 14 y 15 dólares por hora, entonces el salario medio es de 13,6 dólares por hora. Tan simple como eso.

Aplicación de la media
  • Hacemos todo tipo de promedios en nuestra vida cotidiana. Preguntamos a los amigos sobre el alquiler medio de las casas en sus barrios; calculamos los gastos mensuales antes de mudarnos a una nueva ciudad. Utilizamos la media aritmética todos los días, en todos los contextos.
  • Los negocios usan las medias para comparar el promedio de ventas diarias de un producto entre enero y febrero.
  • En la ciencia de los datos, la media es una métrica esencial en el análisis exploratorio de datos (EDA) y es una entrada para todo tipo de modelación avanzada. La media funciona entre bastidores para calcular la métricas de precisión RMSE (Root Mean Squared Error, Raíz del error cuadrático medio), MAE (Mean Absolute Error, error cuadrático medio) en los algoritmos de clasificación o regresión.
Lea también: 

Tipología
Hay algunas variantes de la media. Éstas no se utilizan con tanta frecuencia pero son instrumentos útiles en casos de usos especializados. A continuación se presentan algunos ejemplos:

Media ponderada: En la media ordinaria, todos los puntos de datos se tratan por igual y se asignan (implícitamente) pesos iguales a todos los puntos de datos. En la media ponderada, a algunos datos se les asigna un peso mayor (o menor) en función de los objetivos.

Media geométrica: A diferencia de la media ordinaria, la media geométrica multiplica los N valores y toma la N-ésima raíz del producto. Por lo tanto, para dos valores 2 y 8, la media geométrica sería 4. (Raíz cuadrada de 16)

Media armónica: Es otro tipo de media que se calcula tomando recíprocos de puntos de datos, luego tomando su excedente y finalmente tomando los recíprocos del resultado.

Limitaciones de la media
Aunque la media aritmética es la medida más conocida de la tendencia central, no es una métrica robusta; puede ser muy sensible a los valores atípicos.

Consideremos los siguientes dos casos. A la izquierda, la media de los cuatro valores está perfectamente en el centro del conjunto de datos. Sin embargo, a la derecha, sólo un dato atípico (16) cambió el "centro de gravedad" y arrastró la media hacia la derecha. Para superar esta limitación de la media aritmética, tenemos otra medida de la tendencia central - la Mediana.


Figura: Impacto de un valor atípico en la media aritmética de un conjunto de datos (ilustración: autor)

2. Mediana

¿Qué número está en el centro de la lista [2, 3, 4]? La respuesta es, por supuesto, 3. Y esa es la mediana. ¿Y si los mismos números se ordenan de forma diferente, digamos [2, 4, 3]? ¿La mediana es ahora 4? No, sigue siendo 3. Entonces la mediana es el número en el centro de una serie después de que se ordenan (ascendiendo o descendiendo).

Digamos que tenemos una lista de cinco números [4, 6, 2, 10, 7] y queremos encontrar la mediana. El proceso es simple:

  1. Los datos: [4, 6, 2, 10, 7]
  2. Ordene la lista: [2, 4, 6, 7, 10]
  3. Encuentra el número en el centro: 6 (mediana)



¿Pero qué pasa si tenemos números pares en la lista [4, 7, 6, 2, 10, 8]? Ahora hay dos valores en el medio, así que en este caso la solución es tomar un promedio de ellos:
  1. Datos: [4, 7, 6, 2, 10, 8]
  2. Ordene la lista: [2, 4, 6, 7, 8, 10]
  3. Encuentra dos números en el centro: [6, 7]
  4. Toma un promedio: 6,5 (mediana)
Ventajas y desventajas de la mediana

¿Por qué la mediana y cuál es el beneficio de usarla como medida de la tendencia central? Una gran razón es que, a diferencia de la media, no es sensible a los valores extremos. Por ejemplo, en la lista [2, 3, 4] el último valor podría haber sido 400 en lugar de 4, pero la mediana seguirá siendo la misma 3.

El otro buen caso de la mediana es la interpretación de los datos. La mediana divide los datos perfectamente en dos mitades, de modo que si el ingreso mediano en el condado de Howard es de 100.000 dólares por año, se podría decir simplemente que la mitad de la población tiene un ingreso mayor y la otra mitad tiene un ingreso menor a 100.000 dólares en el condado.

Sin embargo, hay una desventaja obvia. La mediana utiliza la posición de los puntos de datos en lugar de sus valores. De esta manera se pierde alguna información valiosa y tenemos que confiar en otro tipo de medidas como las medidas de dispersión (siguiente sección) para obtener más información sobre los datos.

Lea también: 

Casos de uso
Algunas aplicaciones de la mediana son bien conocidas. ¿Ha notado que la Oficina del Censo de los EE.UU. reporta el ingreso familiar como "Ingreso familiar mediano"? ¿O que la Oficina de Estadísticas Laborales reporta los salarios de los americanos como "salario medio"? Eso es porque el gran número de datos recogidos a través de encuestas o censos están muy dispersos teniendo tanto valores extremadamente pequeños como grandes. En tales casos, la mediana es una mejor medida del centro de las distribuciones que la media.



Imagen: Salarios medios y medianos en los Estados Unidos. (Fuente: Administración de Seguridad Social; consultado el 19 de julio de 2020)

3. Moda

En una lista de números - digamos, [2, 3, 4, 4] - el más frecuente es el 4; esa es la moda. También puede aplicarse a los datos de texto, por ejemplo, el modo del conjunto {"John", "Kelly", "Nadia", "John", "Michael"} es "John", porque aparece dos veces en este conjunto de nombres.

Una distribución puede tener más de una moda como en la lista [2, 2, 3, 4, 4]; se llama distribución bimodal de una variable discreta. Según esta lógica, una distribución con más de dos modas se llama distribución multimodal.

Casos de uso
  • Es importante entender la moda de una distribución porque es más probable que los valores que se producen con frecuencia se obtengan en una muestra aleatoria.
  • ¿Cuál es el primer nombre más frecuente en una ciudad? La moda tiene la respuesta. Entender la moda ayuda con muchos más problemas de este tipo en el campo del Procesamiento del Lenguaje Natural (NLP).
  • La moda puede ayudar a una cadena de supermercados a averiguar qué producto se vende más en diferentes días de la semana, mes o año.

Resumen
En resumen, la tendencia central es un importante conjunto de conceptos de la estadística y la ciencia de los datos que mide cómo algunas observaciones se sitúan en torno a un valor central. La media aritmética es simplemente un promedio de puntos de datos, la mediana es el valor en el centro de un conjunto de datos y la moda devuelve el valor más frecuente (numérico o de texto). Estas medidas tienen un amplio número de casos de uso en la ciencia de los datos, desde el análisis exploratorio de datos hasta la medición de métricas de precisión en los algoritmos de clasificación y el procesamiento del lenguaje natural.

Join our private community in Discord

Keep up to date by participating in our global community of data scientists and AI enthusiasts. We discuss the latest developments in data science competitions, new techniques for solving complex challenges, AI and machine learning models, and much more!