1. Distinguir entre causalidad y casualidad en el análisis de datos

1. Correlación no significa causalidad.

El azar y la casualidad que se encuentran tras una noticia

1.- Correlación no significa causalidad.
La causa implica un orden determinado. Sabemos que los deslaves son causados por la deforestación, esto es un hecho que ha sido demostrado que es así y no al contrario, mientras que la correlación implica que dos hechos o circunstancias están unidas pero no se puede determinar con claridad cuál de ellos es la causa. Por ejemplo, se sostiene que las personas con temperamentos alegres tienen más éxito en sus relaciones sociales. Eso es una correlación demostrada. Sin embargo no se puede afirmar que haya causalidad, esto es, que el temperamento alegre sea la causa del éxito en las relaciones sociales, pues se puede afirmar que el éxito en las relaciones sociales también puede ser la causa del temperamento alegre.

De esta manera, sí bien la correlación puede estar demostrada, la causalidad no siempre se deduce de ella.

Causalidad es una relación, no una función. Dados dos eventos, puedo preguntarme si un evento es causa del otro o si no están relacionados. Pero dado un evento, la pregunta de cuál es la causa es vaga y ambigua, o en otras palabras, está mal hecha. No existe una causa para cada efecto. A veces, mejor que considerar causas, es hablar de factores. El agua hierve bajo ciertos factores como temperatura, presión atmosférica, estado actual, etc. Podemos hablar de factores necesarios y de factores suficientes. Cada factor puede ser una causa, pero ninguno es «la causa».

Distinguir entre causalidad y casualidad es fundamental en el análisis de datos para evitar interpretaciones erróneas y tomar decisiones informadas. Aquí detallamos su importancia:

Precisión en las Conclusiones: La confusión entre causalidad y casualidad puede llevar a conclusiones incorrectas. Solo porque dos fenómenos estén correlacionados no significa que uno cause el otro. Es vital analizar cuidadosamente los datos y considerar otros factores que podrían influir.
Toma de Decisiones Informada: Si asumimos causalidad cuando solo hay casualidad, podríamos tomar decisiones basadas en información incompleta o incorrecta. Por ejemplo, podría llevar a políticas públicas ineficaces o estrategias comerciales fallidas.
Validación de Hipótesis: En la investigación científica, distinguir entre causalidad y casualidad es esencial para validar hipótesis. Es necesario realizar experimentos controlados para establecer relaciones causales de manera confiable.
Desarrollo de Modelos Predictivos Precisos: Los modelos predictivos deben basarse en relaciones causales genuinas para ser efectivos. Si se confunden causalidad y casualidad, los modelos pueden generar predicciones inexactas y poco confiables.
Evitar Correlaciones Espurias: Las correlaciones espurias son asociaciones aparentes entre variables que no tienen una relación causal real. La distinción entre causalidad y casualidad ayuda a identificar y evitar estas correlaciones engañosas.
Mejora en la Investigación Científica: En la ciencia, la distinción entre causalidad y casualidad promueve una comprensión más precisa de los fenómenos naturales y sociales. Facilita la construcción de teorías sólidas y la generación de conocimiento confiable.

Resumimos unos ejemplos de este tipo de errores:
Tendencias de gripe por Google (Google Flu Trends): Google intentó predecir brotes de gripe analizando patrones de búsqueda relacionados con la gripe. Aunque inicialmente fue promocionado como un éxito, con el tiempo se descubrió que el modelo sobreestimaba significativamente la prevalencia de la gripe. Este error se debió, en parte, a no distinguir correctamente entre las búsquedas causadas por la preocupación o el interés en la gripe y las búsquedas realizadas por personas que realmente tenían gripe.
Redes Sociales y Ventas: Varias empresas han aumentado su presupuesto en publicidad en redes sociales después de observar una correlación entre el aumento de la actividad en estas plataformas y un incremento en las ventas. Sin embargo, algunas de estas empresas no consideraron otros factores, como campañas de marketing offline simultáneas, que podrían haber sido los verdaderos impulsores del aumento de ventas, llevando a una sobrestimación del impacto de las redes sociales.
Negocios de Ropa y Clima: Algunas marcas de ropa han cambiado sus estrategias de inventario y marketing basándose en la correlación entre el clima y las ventas de ciertos tipos de ropa, como abrigos o trajes de baño. Sin embargo, no tomar en cuenta otros factores, como las tendencias de moda o las actividades promocionales, puede llevar a decisiones erróneas sobre qué productos promocionar o almacenar.
Inversiones Financieras: En el ámbito financiero, algunos inversores han cometido el error de invertir en acciones basándose en correlaciones históricas, como el "Efecto Enero", donde las acciones tienden a subir en enero. Sin un análisis causal más profundo, estos inversores pueden sufrir pérdidas significativas cuando las condiciones del mercado cambian o cuando la correlación histórica no se mantiene.

2.- Correlaciones espúreas.
Veamos a continuación algunas situaciones ficticias elaboradas a partir de estudios científicos que saltan del campo científico al periodístico porque ayudan así a crear narraciones fáciles y divertidas. Pero, como bien sabemos, una cosa no tiene por qué estar relacionada con la otra, o como deberíamos decir, la correlación no implica causalidad. Para ello tenemos la página web de Tyler Virgen, abogado de Harvard que desde hace años mantiene un experimento estadístico y de datos llamado Spurious Correlations, o correlaciones espurias. Su título es bastante explicativo, así que vamos con algunos de los ejemplos recientes:
2.1.- Número de apariciones en películas de Penélope Cruz y el índice de polución del aire en Palm Beach, Florida.

Gráfica que muestra la correlación entre los peores porcentajes de contaminación en Palm Beah y el número de apariciones de Penélope Cruz en películas.
Material de elaboración propia. Correlación entre los peores porcentajes de contaminación en Palm Beah y el número de apariciones de Penélope Cruz en películas. (CC BY-NC-SA)

Esta gráfica se corresponden con los datos de la tabla (Haz clic sobre ella):

Tabla elaborada por el autor
Tabla con los datos de la gráfica anterior.
Material de elaboración propia. Tabla con los datos de la gráfica anterior.
(CC BY-NC-SA)

Esta noticia representa a través de los años la relación existente entre la contaminación del aire en la zona de Palm Beach (Florida) y el número de películas realizadas por nuestra actriz Penélope Cruz. La correlación es clara. Cuantas más películas hace Penélope más polución existe en dicha zona. Lo mejor será que nuestra actriz coja unos años sabáticos para que así disminuya la contaminación. Resulta difícil creer que la carrera de actriz de Penélope Cruz determine el grado de contaminación en una zona concreta. Podemos concluir que estas correlaciones no implican que una cosa sea la causa de la otra. Veamos entonces una explicación a estas gráficas. Que dos fenómenos se den a la vez, o que uno preceda al otro, no implica que uno sea la causa del otro. Aunque observamos una correlación entre A (películas de Penélope) y B (polución atmosférica) eso no significa que las películas de ella provoquen dicha contaminación. ¿Y, si no es A la causa de B, por qué se dan los dos fenómenos a la vez de forma repetida? En general, si existe una fuerte correlación entre los fenómenos A y B, tenemos cuatro posibilidades:

Que A cause B. Que B cause A. Que haya un tercer fenómeno C, que provocara tanto A como B. Y la cuarta posibilidad, que es la más razonable, la del puro y duro azar, la casualidad. Hay muchos datos en el mundo, así que si los comparamos todos más tarde o más temprano encontraremos este tipo de correlaciones que no significan nada.

¿QUÉ ES UN DESLAVE? Es la caída de rocas o tierra desde una ladera, en forma lenta o rápida, que se produce en épocas de lluvia o a causa de un sismo. La mayoría se presenta durante las estaciones lluviosas. Cuando el suelo recibe una gran cantidad de agua, la tierra se ablanda y se desprende formando flujos de lodo, que se precipitan pendiente a bajo. Algunas personas contribuyen a que ocurran deslizamientos, cuando construyen con materiales pesados en terrenos débiles, o cuando realizan excavaciones que desestabilizan las laderas. La deforestación también es una causa de los deslizamientos, porque el suelo queda desprotegido.

2. Brecha digital

1.- La Brecha Digital se refiere a la diferencia socioeconómica y cultural entre aquellos que tienen acceso efectivo a la tecnología de la información y la comunicación (TIC) y aquellos que no lo tienen. Esta disparidad puede manifestarse en varios aspectos:

Acceso a la Tecnología: La brecha digital implica que algunas personas no tienen acceso a computadoras, internet de alta velocidad u otros dispositivos tecnológicos necesarios para participar plenamente en la sociedad digital.
Habilidades Digitales: Incluso si se dispone de acceso a la tecnología, muchas personas pueden carecer de las habilidades necesarias para utilizarla de manera efectiva. Esto puede incluir habilidades básicas de computación, navegación en internet, búsqueda de información en línea y seguridad cibernética.
Contenido y Recursos Digitales: La brecha digital también se refiere a la disparidad en el acceso a contenido y recursos digitales relevantes y de calidad. Esto puede incluir información educativa, servicios gubernamentales en línea, oportunidades de empleo y contenido cultural.
Participación Digital: Aquellos que están en el lado equivocado de la brecha digital pueden experimentar dificultades para participar plenamente en la vida cívica, económica y cultural en la era digital. Esto puede afectar su capacidad para buscar empleo, acceder a servicios de salud, participar en la educación en línea y ejercer sus derechos civiles.
Desigualdades Sociales y Económicas: La brecha digital tiende a reflejar y perpetuar desigualdades sociales y económicas preexistentes. Las personas y comunidades marginadas o desfavorecidas tienen más probabilidades de enfrentar barreras para acceder a la tecnología y beneficiarse de ella.
Impacto en el Desarrollo Personal y Profesional: Para las personas en el lado equivocado de la brecha digital, la falta de acceso y habilidades digitales puede limitar su capacidad para aprender, comunicarse, trabajar y participar plenamente en la sociedad contemporánea.

La reducción de la brecha digital es crucial para garantizar la equidad y la inclusión en la sociedad digital actual. Esto requiere esfuerzos para proporcionar acceso asequible a la tecnología, ofrecer capacitación en habilidades digitales, desarrollar contenido y recursos digitales accesibles y promover la participación digital inclusiva en todos los ámbitos de la vida.

2.- Causas y tipo de brecha digital 
La brecha digital se atribuyó en un primer momento al subdesarrollo y se percibió como algo pasajero que desaparecería con la popularización de la tecnología. En cambio, la fractura persiste hoy a pesar de la comercialización masiva de dispositivos electrónicos con acceso a Internet. Las causas pueden ir desde el alto precio de los dispositivos mencionados a la falta de conocimientos sobre su uso o al déficit de infraestructuras para su acceso. Al hilo de esto, los tipos de brecha digital podrían ser:

* Brecha de acceso. Se refiere a las posibilidades que tienen las personas de acceder a este recurso. Aquí entran en juego, entre otras, las diferencias socioeconómicas entre las personas y entre los países, ya que la digitalización requiere de inversiones e infraestructuras muy costosas para las regiones menos desarrolladas y para las zonas rurales.
* Brecha de uso. Hace referencia a la falta de competencias digitales que impide el manejo de la tecnología. En este sentido, y por poner un ejemplo, la Unión Internacional de Telecomunicaciones (UIT), señala que hay 40 países en los que más de la mitad de sus habitantes no saben adjuntar un archivo a un correo electrónico.
* Brecha de calidad de uso. En ocasiones, se poseen las competencias digitales para manejarse en Internet, pero no los conocimientos para hacer un buen uso de la red y sacarle el mayor partido posible. Por ejemplo, en lo relativo al acceso a información de calidad.
La UIT estableció hace unos años el Índice de Acceso Digital (IAD), que mide la capacidad global de los ciudadanos de un país para acceder y utilizar las TIC. Este índice tiene en cuenta diversas variables agrupadas en torno a cinco categorías, que son las siguientes: calidad, infraestructura, conocimiento, accesibilidad y utilización.

3.- Consecuencias de la brecha digital
La discriminación tecnológica constituye una forma de pobreza y exclusión social, al privar a una parte de la ciudadanía de recursos esenciales para desarrollarse y generar riqueza. Lo hemos visto con frecuencia durante la pandemia de COVID-19, al encontrarse numerosos estudiantes y trabajadores con dificultades para teletrabajar y seguir las clases online. A continuación, repasamos los principales efectos de la brecha digital:

* Incomunicación y aislamiento. Los habitantes de áreas remotas a las que no llega Internet están incomunicados. Algo parecido les ocurre a los residentes de zonas urbanas que viven desconectados al provocar aislamiento social.
* Barrera al estudio y al conocimiento. La crisis del coronavirus ha mostrado los efectos de la brecha digital en la educación: profesores y alumnos en fuera de juego por carecer de la tecnología y las competencias digitales suficientes. Aumenta así la ignorancia, al limitar el acceso al conocimiento.
* Acentúa las diferencias sociales. El analfabetismo digital disminuye las opciones de encontrar trabajo o de acceder a un empleo de calidad, lo que repercute negativamente en la economía de los trabajadores.
* Discriminación sexual. La brecha digital perjudica más a las mujeres que a los hombres, lo que vulnera los principios de igualdad de género.

4.- Estrategias para disminuir la brecha digital
La ONU contempla en sus Objetivos de Desarrollo Sostenible (ODS 9) la reducción de la brecha digital. Por ello, en muchos lugares, se han puesto en marcha iniciativas para facilitar el acceso a la tecnología. Aquí mencionamos algunas de las más relevantes:
* Programas de alfabetización digital. Instruyen a los habitantes de las zonas menos favorecidas en el uso de Internet para mejorar su bienestar personal.
* Alianza para un Internet Asequible (A4AI). Este proyecto, liderado por una coalición internacional de gobiernos, empresas y sociedad civil, persigue abaratar el coste de la banda ancha en zonas concretas de África, Asia y Latinoamérica.
* Free Basics. Esta iniciativa, impulsada por Facebook y otras seis compañías tecnológicas, pretende dar acceso gratuito a una serie de webs a través de una aplicación móvil.
* Starlink. Este proyecto, promovido por el magnate Elon Musk, está lanzando satélites al espacio para ofrecer Internet de alta velocidad y cobertura global a precios asequibles.

Uso de Internet en el mundo
Mapamundi con datos acerca del uso de internet en el mundo.
Material de elaboración propia elaborado a partir de los datos de Iberdrola.com. Uso de Internet en el mundo. (CC BY-NC-SA)

3. Planteamos el reto: Estudio y análisis de la Brecha Digital

El Reto que te proponemos en este tema tendrá un doble contenido:
Reto_1: Brecha digital. Propuesta relacionada con la realidad de esta situación.
Reto_2: Número de cigüeñas y el número de nacimientos. Propuesta de correlación espúrea.

Reto_1. Por una parte, consistirá en la propia búsqueda de información relacionada con la Brecha Digital en España para poder así realizar un estudio analítico y estadístico. Tendrás que aplicar tus conocimientos estadísticos para analizar e interpretar esta información. El reto que te proponemos es muy ambicioso pues abarcaría muchos campos de aplicación. Aún así, merece la pena intentar su desempeño. A modo de ejemplo, te presentamos un primer apunte sobre la forma en que pretendemos sea el protocolo de actuación. A partir de una información relevante sobre determinados aspectos de la Brecha Digital, deberás analizar numérica y gráficamente los datos estadísticos que se derivan de ella.

Encuesta sobre Equipamiento y Uso de Tecnologías de Información y Comunicación (TIC) en los Hogares Españoles. Año 2023.
Instituto Nacional de Estadística (INE). Encuesta sobre Equipamiento y Uso de Tecnologías de Información y Comunicación en los Hogares (año 2023). (CC BY)
Brecha digital generacional
Video de: RTV Manilva. Contra la brecha digital generacional (Licencia estándar de YouTube)

Reto_2. Correlación entre el número de cigüeñas y el número de nacimientos. A simple vista puede parecer que no están relacionadas, pero ambas dependen de una tercera variable: el número de habitantes. Cuantos más habitantes hay, la construcción de edificios (iglesias, campanarios, pisos…) es mayor y por lo tanto aumenta la cantidad de cigüeñas. A su vez, al haber más habitantes, también se incrementa el número de nacimientos. Ahora vamos a explicar esta correlación con un grafo:

Ejemplo de correlación espúrea
Ejemplo de correlación espúrea.
Material de elaboración propia. Ejemplo de correlación espúrea. (CC BY-NC-SA)

4. ¿Qué herramientas matemáticas necesitarás?

Para enfrentarte al reto planteado, será necesario el conocimiento en:

  • Aritmética básica: Muchos conceptos estadísticos se basan en manipulaciones aritméticas simples como el uso de sumatorios, cálculo de porcentajes, uso de números grandes y cálculo con decimales.
  • Estadística descriptiva: Conceptos como media, mediana, moda, desviación típica, cuartiles, percentiles y otros más, son fundamentales para resumir y describir conjuntos de datos. Aprenderemos a realizar los cálculos de un modo directo y también de una forma algorítmica.
  • Software específico: El uso del Modo Estadístico (SD) en una calculadora científica resulta muy indicado en este contexto. Y aunque no es estrictamente una herramienta matemática, el dominio de herramientas de carácter gratuito y de código libre como Calc (Hoja de Cálculo) es crucial para aplicar métodos estadísticos. También practicaremos con GeoGebra, usando sus prestaciones de Vista Gráfica y Vista Hoja de Cálculo que nos proporcionan una base sólida para realizar un Análisis de Datos, gráfico y numérico, de una manera efectiva. El indicativo del modo estadístico depende del tipo de calculadoras, en algunas es SD y contienen tanto la estadística unidimensional como la bidimensional, que nos ocupa en en esta situación de aprendizaje, pero en otras está separado, siendo SD o STAT u otros indicativos para variable unidimensional y LR o REG u otros para la estadística bidimensional.

5. Estos serán tus logros

A lo largo de esta Situación de Aprendizaje, aplicarás habilidades matemáticas en un contexto real y relevante y aprenderás a :

  • Reconocer la importancia de los distintos lenguajes matemáticos: numérico, gráfico y tabular. 
  • Interpretar críticamente, expresando tus ideas y conclusiones en un lenguaje estadístico en distintos escenarios: escrito, tabular y gráfico.
  • Recordar, aplicar e interpretar el conocimiento matemático en el contexto de situaciones cotidianas.
  • Aplicar estrategias matemáticas a situaciones cotidianas, operar con porcentajes, números decimales y números grandes.
  • Justificar los resultados obtenidos haciendo deducciones lógicas a partir de un conjunto de datos estadísticos.
  • Buscar y filtrar información en distintos soportes.
  • Utilizar las Tecnologías de la Información y la Comunicación como herramientas específicas para el análisis de datos estadísticos.
  • Interpretación critica de gráficas detectando cuando algunas de ellas son representaciones tendenciosas.
  • Valorar la Estadística como herramienta que posibilita la toma de decisiones.
  • Conocimiento y toma de conciencia crítica sobre el abundante número de temas transversales que la Estadística puede abarcar.

6. Mapa conceptual

En la siguiente imagen tienes el mapa conceptual de la Situación de Aprendizaje. Puedes ampliar la imagen pulsando sobre ella y aún más pulsando en la X que aparece en la parte superior izquierda, además puedes descargar directamente este mapa.

Mapa conceptual del estudio de la Estadística Bidimensional
Estadistica bidimensional
Material de elaboración propia. Mapa conceptual SdA 3.2 (CC BY-NC-SA)
Vídeo conceptual sobre el estudio de la Estadística Bidimensional
Video de Camilo Quijada. ESTADÍSTICA BIDIMENSIONAL. PARÁMETROS ESTADÍSTICOS. (Licencia estándar de YouTube)

Página 2 de 12

Obra publicada con Licencia Creative Commons Reconocimiento No comercial Compartir igual 4.0

Creado con eXeLearning (Ventana nueva)