Five Tips for Working with Data Before Processing: Pre-Data Analysis

No hay nada más desalentador que iniciar un análisis y encontrarse con un conjunto de datos no organizados. Pueden ser archivos con muchas hojas de cálculo y columnas sin un patrón bien definido, bases de datos con una gran cantidad de tablas con nomenclatura indescifrable o registros mismos sin una estructura estandarizada.

No importa qué forma adopte la desorganización, mirar datos sin procesar y sin un buen formato siempre presenta un desafío único para descifrar, organizar y extraer lo que es más útil para sacar a la luz las respuestas al caso.

O puede ser que los datos ni siquiera estén desestructurados, sino que la cantidad de archivos, hojas de cálculo y tablas sea tan grande que identificar qué será realmente útil sea un desafío de igual proporción.

Lamentablemente, todavía no disponemos de ninguna herramienta mágica, ni siquiera en la era de la inteligencia artificial, que pueda descifrar la estructura de los datos y proporcionar un mapa de aquellos que serán más útiles para las intersecciones que debemos realizar.

La parte alentadora es que, a menos que los datos sean realmente ilegibles, siempre hay una manera de identificar la ubicación de la información más importante para la investigación y una manera de formatearla y transformarla en diagramas de análisis de enlaces que brinden respuestas a las preguntas de investigación. .

De acuerdo, el mundo no suele ser un caos total y los datos no siempre están completamente desestructurados. Puede que estemos hablando de datos que sólo necesitan pequeños ajustes o que necesitan ser observados de la forma adecuada para que queden perfectamente cruzados.

Por eso, en este artículo traigo algunos consejos que pueden ayudar a estructurar los datos que se analizarán, ya sea que estén muy desorganizados o solo un poco desorganizados.

1. Tenga en cuenta las preguntas clave

Saber claramente de antemano lo que se busca es un factor clave para ayudar a organizar los datos. Cuando tiene una pregunta clara en mente, resulta más fácil observar los datos sin procesar y encontrar la ubicación de la información que se utilizará en el análisis.

Por ejemplo, si estoy buscando datos de relaciones entre personas y empresas en una base de datos de un sistema tributario grande, buscar aquellos que se relacionan con el registro del contribuyente, sus socios, contadores, etc., me ayudará a filtrar las tablas que no se relacionan con el tema principal del análisis.

Por lo tanto, tómate siempre unos minutos antes de comenzar a explorar los archivos para estudiar el problema y elaborar las principales preguntas que deben responderse.

2. Elaborar mentalmente la estructura de relaciones del análisis.

Siempre digo en mi formación que debemos desarrollar la capacidad de mirar una hoja de cálculo y ver un diagrama de análisis de enlaces en ella.

¿Qué significa esto en la práctica?

Imagina que estás frente a una hoja de cálculo compleja con datos de un extracto telefónico con decenas de columnas con información de números telefónicos, IMEI, llamadas telefónicas, antenas, direcciones, titulares, entre otros.

Esta hoja de cálculo debe transformarse en un diagrama analizable. Para hacer esto, debemos centrarnos en qué objetos se pueden crear en cada registro de la hoja de cálculo, cómo se relacionan entre sí y qué información va a dónde.

¿Quién es el número de teléfono de origen?

¿Quién es el teléfono objetivo?

¿Cuáles son los detalles de la llamada telefónica?

¿Qué antenas utilizó cada teléfono?

¿Cuál es la dirección de cada antena?

¿A quién pertenecen las líneas telefónicas?

¿Qué columnas son atributos de qué entidades y enlaces?

Poder mirar un registro y ver entidades, conexiones y atributos ayuda mucho en el proceso de organización de fuentes de datos.

3. No te distanciarías de datos que no forman parte del contexto

Una vez identificados los objetos, ¿cuáles son realmente importantes para las preguntas que quiero responder?

En este punto lo importante es poder ignorar (al menos inicialmente) aquellos datos que no forman parte de la pregunta principal y aquellos que no forman parte de los objetos que serán analizados.

¡Resiste la tentación de analizar todo a la vez!

En el ejemplo anterior, imagine que la pregunta es «averigüe con quién se comunica más a menudo el teléfono objetivo». Para ello sólo será necesario analizar las llamadas telefónicas y los propietarios de las líneas telefónicas, no siendo necesario en esta etapa ningún dato adicional como IMEI, antena, dirección, etc.

Así que simplemente no los mires y sigue tu análisis hasta que se te ocurra una pregunta para la que podrían ser útiles.

El problema aquí es que demasiada información puede crear más confusión visual que ayudar a llegar a las respuestas.

4. Centrarse en el patrón de datos

Una vez que la estructura está más clara, llega el momento de mirar los datos en sí, y uno de los factores que suele generar confusión en el análisis es la falta de redacción y formato estándar.

Volviendo a los datos telefónicos, es muy habitual que un mismo número de teléfono se escriba de varias formas en un mismo extracto telefónico, como en el siguiente ejemplo.

+1 809 99988-7766

1 809 99988-7766

809 99988-7766

809 99988-7766

99988-7766

Lo mismo puede ocurrir con números de documentos, nombres de personas, números de cuentas bancarias, fechas, horas o cualquier otra información que se repita a lo largo de los registros.

Por lo tanto, siempre es importante realizar una inspección visual de los datos antes de realizar transformaciones en los diagramas, porque los datos escritos de diferentes maneras terminarán convirtiéndose en objetos diferentes en los diagramas, lo cual es muy indeseable.

La simple acción de organizar columnas alfabéticamente en Excel, por ejemplo, puede ayudar a identificar el patrón (o la falta del mismo) en los datos e indicar qué columnas necesitan atención especial cuando se usan.

Por supuesto, buenas herramientas de análisis de enlaces como Caseboard tienen la capacidad de identificar identidades similares, y esto puede ahorrar mucho tiempo de análisis incluso después de que los datos se hayan transformado en diagramas.

5. Tenga cuidado con varios archivos

Otro punto de especial atención es cuando el análisis debe realizarse con archivos de diferentes fuentes, como datos de extractos telefónicos o bancarios, ya que pueden tener distintos formatos.

Cuando digo formateado no me refiero solo al nombre y orden de las columnas, sino también al formato de los datos en los registros, como se señaló en el punto anterior, además de diferentes formatos de fecha y hora, que es muy común.

Una vez, un investigador estaba analizando datos de dos compañías telefónicas diferentes y estaba seguro de que había una correlación entre los objetivos; sin embargo, sus diagramas creaban dos grupos separados.

Al observar más detenidamente los datos, se detectó una pequeña diferencia de patrón entre la escritura de los números de teléfono, y el diagrama creó los “mismos teléfonos” más de una vez, porque sus discriminadores terminaron siendo diferentes.

Por lo tanto, siempre es importante estar consciente de la forma en que cada fuente utiliza estándares para sus datos.

Conclusión

El análisis de vínculos trae consigo una serie de desafíos, y el primero de ellos puede radicar precisamente en los datos brutos. Por tanto, tener una buena estrategia y adoptar buenas prácticas para trabajar con datos iniciales contribuye significativamente no sólo a la calidad de los diagramas que se quieren realizar, sino también al tiempo de trabajo en su conjunto, y evita perder tiempo en información que no se tiene. No es necesario utilizarlo.

en_USEnglish