Five common mistakes, examples and solutions in data analysis

When we analyze data we must be careful not to make these common mistakes that even the most experienced analysts run the risk of making.

Some are quite obvious, but others depend on having a trained mind and good Quality Control practices to ensure that our conclusions are error-free and unbiased.

Error #1: non-representative data

This occurs when your data extract is not representative enough, that is, there is an insurmountable problem and your data will not represent reality and therefore your results will be useless.

Example:

I am analyzing the favorite food of the inhabitants of Mexico City, to reach this conclusion I take data from the Zona Rosa neighborhood. With this set of data you will invariably come to the conclusion that Japanese food is the favorite food, with a huge margin of “certainty.”

Solution:

Plan what data sources are available and what minimum scope is necessary to have a reliable result.

In this sense, having the right analysis tools and the right practices will make the difference.

Mistake #2: Lack of familiarity with the data

This problem is common when we do not have mastery of a certain area of knowledge. Lack of knowledge will surely lead to analysis errors that will make your conclusions wrong.

Example:

I remember that as soon as I arrived at the BanK of State working group, I did an analysis of current account data and in the end there was an absurdly high number of accounts that exceeded the cut-off value, that is, whose total transaction values were High and it stood out. , it seemed that he had found a large number of mother accounts that are used for money laundering.

My mistake was not knowing that for that data set there was a duplication and that each trade had a counter-trade and not knowing the data simply led me to doubling the total value of the trades.

Solution:

Look for professionals and companies who can help you understand the available data and its relationships and special details that could lead you to make a mistake.

No one is required to know every detail in every area, but a lack of knowledge could ruin your analyses.

Mistake #3: Picking cherries

La selección ocurre cuando comenzamos con una hipótesis que queremos probar y simplemente no podemos resistir la tentación de «intentarlo» eligiendo los datos que corroboran nuestra idea preconcebida. No sólo es poco ético, sino que invariablemente no sobrevivirá a una revisión, sino que puede tener consecuencias muy malas, especialmente en las áreas más sensibles como la seguridad y la salud públicas.

Example:

Estamos seguros de que un determinado individuo está involucrado en algo ilegal y por ello elegimos sólo los datos que son relevantes para llegar a la conclusión deseada.

Solution:

Al analizar tu información, deshazte de tus prejuicios y sé frío con los datos que tienes, sé fiel a los hechos que los datos te muestran.

Error #4: Falso positivo

El falso positivo suele estar relacionado con una revisión de datos deficiente o inexistente, sin confirmación de una segunda recopilación de datos, sin aplicación de mejores prácticas, sin herramientas correctas y sin buenos métodos de revisión.

Example:

Recuerdo que en una investigación por fraude en licitaciones públicas se detuvo a algunas personas por su participación en el crimen, entre ellas se detuvo a una persona completamente inocente y sin relación con la pandilla.

Lo que ocurrió cae dentro de las categorías de problemas de buenas prácticas mencionadas anteriormente: no hubo revisión y no había un conjunto de datos para contrapruebas en el momento de la recopilación de datos. Hubo un error y el registro del propietario del número era antiguo y no estaba actualizado.

Solution:

Revisa tu trabajo y trata siempre de cruzar datos de diversas fuentes, analizando varios ángulos diferentes del problema, algunas herramientas específicas te ayudarán en esta tarea.

Error nº 5: problema del martillo

Mi padre era mecánico y entendía bien la necesidad de utilizar la herramienta correcta para cada fase de su trabajo; Usó una frase que siempre me hizo mucha gracia: “Para los que sólo saben de martillos, todo es un clavo”.

Tu trabajo de análisis no tendrá calidad si no utilizas la herramienta adecuada, es decir, las herramientas para extraer, consolidar y generar inteligencia a partir de tu información son fundamentales y conocer la herramienta adecuada para el tipo de análisis es una parte importante del trabajo del analista. .analista.

Example:

MS Excel puede ser tu amigo y una herramienta muy útil, pero es posible que estés usando tus hojas de cálculo como un martillo.

Solution:

Mantente actualizado y conoce las mejores herramientas disponibles en el mercado y busca activamente obtenerlas, la calidad de tu trabajo es importante, al igual que tu reputación.

en_USEnglish