La Recopilación De Datos Podría No Ser Tan Fácil Como Parece

Karan Bhanot
Jun 08, 2020

La Recopilación De Datos Podría No Ser Tan Fácil Como Parece

Jun 08, 2020 6 minutes read

Exploración a fondo de los procesos de recopilación de datos.

Algunos de mis repositorios más populares en GitHub han sido sobre la recolección de datos, ya sea a través de web scraping o usando una Interfaz de Programación de Aplicaciones (API). Mi enfoque siempre ha sido encontrar un recurso de donde pueda obtener los datos y luego directamente empezar a buscarlos. Después de recopilar los datos, simplemente los guardo, saco conclusiones y eso es todo.

¿Pero qué pasa si quieres compartir los datos? ¿Qué pasa si alguien está buscando este conjunto de datos y no sabe cómo hacerlo? ¿Qué pasa si tienen este conjunto de datos pero no saben lo que significa cada columna o dónde buscar si necesitan más información? Estas preguntas surgen porque el intercambio de datos y la facilidad de uso es importante, pero casi nadie intenta hacer un esfuerzo para que sea reproducible y fácilmente accesible.

Aquí es donde surgen las mejores prácticas de recopilación de datos. Los metadatos junto con sus datos son casi tan importantes porque sin ellos sus datos podrían ser inútiles. Vamos a explorar en profundidad, lo que esto es y lo que todo el mundo debe hacer para hacer el proceso de recopilación de datos correcto!

Lea También: ¿Cómo Construir Su Portafolio Definitivo De Data Science?



Photo by Milan Seitler on Unsplash





Empieza por averiguar qué hay que recolectar


Photo by Edho Pratama on Unsplash



El primer paso, como siempre, es buscar los datos que ya existen. Alguien podría haber recogido un dato similar o el mismo que querías recoger para su problema. Si encuentra un dato de ese tipo, tómelo (si lo pone a disposición) y cite adecuadamente su fuente donde y cuando utilice ese dato para cualquier análisis. Eso es todo!

Sin embargo, si no encuentras los datos que necesitas, tendrás que recopilarlos tú mismo. Podría ser una lista de páginas de Wikipedia que saques de su sitio web, información de repositorios que quieras coger para tu cuenta GitHub usando la API de GitHub o datos recogidos de un sensor. Las cosas que puedes recolectar son casi ilimitadas.

Lea También: 10 Trucos En Pandas Que Hacen Su Trabajo Más Eficiente.


Recopilacion de los datos

Photo by Markus Spiske on Unsplash


Sea lo que sea que decidas recolectar, comienza a recolectar propios tus datos. Puedes usar BeautifulSoup para extraer información de páginas HTML, acceder a APIs según sea necesario usando su documentación o tal vez crear una aplicación para Android que lea los datos de un sensor y los guarde en un archivo CSV.

Una vez que tenga los datos que desea, es posible que desee compartir su trabajo con otros. Querrás que los demás entiendan lo que has recopilado, por qué lo has hecho y tal vez utilizar tus datos citando adecuadamente tu trabajo. Entonces se vuelve esencial tener los datos en un formato apropiado que otros puedan entender y usar.


Datos sobre sus datos – Metadatos

Ahora, te diré algo que siempre usamos pero que a menudo pasamos por alto como parte esencial de los datos. Sí, estoy hablando de los metadatos. La información que te dice lo que significa cada columna, cuáles son las unidades de medida, cuándo se recogieron los datos y mucho más.

Entendamos la importancia de los metadatos con un ejemplo. El repositorio de la UCI Machine Learning incluye una larga lista de conjuntos de datos que puedes utilizar para tu análisis y predicción. Elijamos el conjunto de datos sobre el cáncer de mama. Así es como se ve el conjunto de datos:

Breast Cancer Data Set (Data)— UCI Machine Learning


Con sólo mirar los datos y sin información adicional, no podemos averiguar lo que significa cada columna, y mucho menos hacer un análisis de la misma. Pero justo cuando muestro la siguiente imagen que tiene la descripción de la columna, podemos usar el conjunto de datos, extraer información, realizar análisis exploratorios y hacer predicciones.

Breast Cancer Data Set (Attributes) — UCI Machine Learning


Por eso la información sobre los datos es realmente importante. Este paso esencial puede hacer o deshacer su conjunto de datos.


¿Pero qué es lo que debemos recoger?

Photo by Phad Pichetbovornkul on Unsplash



Si lo piensas, verás que hay muchas cosas que puedes recopilar como metadatos, como la fecha de recopilación, la ubicación, la descripción de la columna y más. Por lo tanto, existe una colección unificada de estándares de metadatos que uno puede elegir de manera que otros puedan obtener información completa. Algunos de los más comunes son los siguientes:

Dublin Core

El Dublin Core incluye una lista de elementos que hay que especificar sobre los datos como la fecha de creación, el creador y otra información.


Norma de codificación y transmisión de metadatos

Las normas de codificación y transmisión de metadatos (METS) son una norma de metadatos para datos descriptivos y estructurales representada como el eXtensible Markup Language (XML).

Organización Internacional de Normalización (ISO)

La ISO define una lista de normas que se siguen en todo el mundo. Las normas pueden variar según el uso y la zona. Por ejemplo, para una forma estándar de representar el tiempo - existe la norma ISO 8601 que significa cómo escribir la fecha y la hora en un patrón comúnmente entendido.

Hay otros estándares que también existen, pero el uso depende de los datos que se intentan recoger. El punto básico general cuando se recogen metadatos es que si alguien hoy o en algún momento en el futuro, decide trabajar en sus datos, los datos y metadatos deben ser autosuficientes para describirlo todo.

Sin embargo, para hacerlo, hay otra información esencial junto con los metadatos: la procedencia.

La procedencia incluye información sobre el proceso de recopilación de datos y si se han realizado transformaciones en esos datos. Mientras se recogen los datos, hacemos un seguimiento de cuándo y cómo se recogieron los datos, los dispositivos de medición, el proceso, el recolector de datos, cualquier limitación, y todo lo relacionado con el proceso de procesamiento de datos (si se hizo).


Conclusión

El paquete completo de datos, junto con los metadatos y la procedencia, hace que los datos sean a prueba de futuro en un formato utilizable.
Join our private community in Discord

Keep up to date by participating in our global community of data scientists and AI enthusiasts. We discuss the latest developments in data science competitions, new techniques for solving complex challenges, AI and machine learning models, and much more!