la era de la causalidad

¿Cómo entender desde la filosofía
la causalidad y la correlación?

Black box

Slider

La era de la causalidad y la decadencia de la correlación

Modelos de atribución y de inferencia causal [2/5]

¿X causa Y? Si X causa Y, ¿qué tan grande es el efecto de X en Y?, ¿es el tamaño de este efecto mayor en relación con los efectos de otros causantes de Y? Estas preguntas son resueltas por el trabajo empírico de las ciencias sociales, con métodos científicos y estadísticos de causalidad.

Para entender los procesos que yacen tras lo que pareciera “sacar un conejo del sombrero”, es necesario crear bases metodológicas claras en torno al amplio mundo de la inferencia causal.

Conejo en el sombrero

Principios filosóficos

Un interés por las causas y explicaciones impregna nuestras vidas. Nos preguntamos por qué el carro no arranca, por qué el maíz crece mejor en un campo que en otro, por qué un amigo parecía particularmente feliz o sombrío ayer. Los científicos se preguntan por qué las partículas elementales tienen la masa que tienen, por qué hay tantas regiones no codificantes en el genoma humano o por qué los dinosaurios se extinguieron.

Dada la centralidad de estos intereses, no es sorprendente que haya muchos intentos de teorizar sobre la causalidad y la explicación, tanto dentro como fuera de la filosofía. La preocupación filosófica con estos temas se remonta a Platón y Aristóteles, como nos recuerda David Rubén. 

Las afirmaciones sobre la causalidad, desempeñan un papel central en las doctrinas de prácticamente todos los filósofos, desde Descartes y Locke hasta Hume y Kant. Más recientemente, el desarrollo del modelo de explicación deductivo-nomológico (DN) de Carl Hempel y la elaboración de alternativas detalladas de este modelo, por escritores como Wesley Salmon y Philip Kitcher, que han hecho de la explicación un tema central en la filosofía de la ciencia.

Fuera de la filosofía, uno encuentra menos teorías conscientes acerca de la explicación, pero existen literaturas extensas en estadística, econometría, psicología cognitiva y ciencias de la computación sobre problemas de inferencia causal y la mejor manera de entender la noción de causalidad.

A pesar de esta discusión, es justo decir que hay menos consenso sobre los temas de explicación y causalidad en filosofía que hace tres o cuatro décadas, cuando el modelo DN fue ampliamente aceptado. De hecho, como en otras partes de la filosofía, las últimas décadas de trabajo sobre la causalidad y la explicación se han caracterizado por una proliferación de escuelas autónomas con una influencia sorprendente.

Contrafactuales

Consideremos, por ejemplo, la cuestión del papel de los contrafactuales en la caracterización de la causalidad y la explicación. Aunque los análisis contrafactuales de la causalidad desarrollados por David Lewis y sus estudiantes (Lewis, 1973, [1979] 1986c, 2000) han sido influyentes en algunas áreas de la filosofía como la metafísica; han tenido relativamente poco impacto en la filosofía de la ciencia. 

Además, la tradición lewisiana ha ignorado el trabajo relacionado en estadística y econometría que también se basa en ideas sobre la conexión entre causalidad y contrafactuales.

Muchos filósofos de la ciencia, a su vez, han descartado los tratamientos de causalidad y explicación que se basan en contrafactuales como poco claros o no científicos, a pesar de la existencia de una literatura matemáticamente sofisticada, fuera de la filosofía que adopta esta forma.

Teorías probabilísticas de causalidad

Dentro de la filosofía de la ciencia, encontramos escritores que trabajan en lo que llaman teorías probabilísticas de causalidad. Escritores que piensan que la causación implica la transmisión de cierta cantidad física como energía, y escritores que proponen analizar la noción de causalidad en términos de una ley de la naturaleza, de nuevo con relativamente poca interferencia. Toda esta discusión ha tenido un impacto sorprendentemente pequeño en los filósofos que no son especialistas en causalidad / explicación, pero que recurren a ideas sobre estos temas en su propio trabajo.

En estadística y econometría encontramos una distinción muy paralela entre “estadísticas descriptivas”, que incluyen por una parte información sobre correlaciones e información sobre relaciones causales y explicativas. 

Los problemas que involucran la inferencia “inductiva” de correlaciones en muestras con correlaciones de población, se consideran muy diferentes de los problemas de inferencia causal. Una suposición es que una teoría adecuada de causalidad y explicación debería dar sentido a tales distinciones, debería aclarar cómo la información causal y explicativa difiere de la mera descripción.

Explicación causal

Algunos escritores sostienen que toda explicación (o al menos del por qué se produce algún resultado) debe ser causal, y otros escritores lo niegan, sosteniendo en cambio que existen formas no causales de (por qué) explicación. Los escritores también difieren acerca de lo que cuenta como una “explicación causal”, por lo cual, Wesley Salmon (1984) adopta una noción de explicación causal según la cual esto implica rastrear procesos causales e intersecciones espacio temporalmente continuas de tales procesos, y también sostiene que toda explicación genuina debe ser causal en este sentido.

Según Salmon, una cuenta que rastrea el movimiento subsiguiente de dos bolas de billar a su colisión anterior, contaría como una explicación causal, mientras que una derivación de la presión de equilibrio de un gas a partir de la ley del gas ideal y las condiciones iniciales anteriores, no contaría como explicativa , porque no logra rastrear procesos causales individuales. 

Graham Nerlich (1979), por el contrario, está en un acuerdo aproximado con Salmon acerca de lo que cuenta como una explicación causal, pero sostiene que existe una forma de explicación no causal importante, que él llama explicación geométrica. Ofrece como ejemplo la explicación de las trayectorias de las partículas libres en el campo gravitatorio, en referencia a la estructura afín del espacio-tiempo. Salmon, presumiblemente, negaría que tales apelaciones a la estructura del espacio-tiempo sean explicativas. 

Explicación de equilibrio

Otra distinción entre las formas de explicación causales y no causales se debe a Elliott Sober (1983); contrasta explicaciones que rastrean la secuencia real de eventos que conducen a algún resultado, que él considera como causal, con lo que él llama explicaciones de equilibrio, en las que se explica un resultado al mostrar que un gran número de estados iniciales de un sistema evolucionado, de tal manera que termine en el estado de resultado que deseamos explicar, pero en el que no se hace ningún intento de rastrear la secuencia real de eventos que conducen a ese resultado.

Por lo tanto, una explicación que rastrea la secuencia real de colisiones moleculares que conducen al estado termodinámico actual de un gas, tal como se caracteriza por variables macroscópicas como la temperatura y la presión, cuenta como una explicación causal, mientras que una demostración de que casi todas las configuraciones moleculares son compatibles con la temperatura y presión iniciales del gas, darían como resultado su estado macroscópico actual, contando como una explicación de equilibrio no causal.

Es necesario tener una noción amplia de explicación causal, según la cual cualquier explicación que se desarrolle, mostrando cómo depende un resultado de otras variables o factores, cuenta como causal. 

La característica distintiva de las explicaciones causales, así concebidas, son explicaciones que proporcionan información que es potencialmente relevante para la manipulación y el control: nos dicen cómo, si pudiéramos cambiar el valor de una o más variables, podríamos cambiar el valor de otras variables. De acuerdo con esta concepción, ambas derivaciones que involucran la ley del gas ideal y las explicaciones de equilibrio de Sober, cuentan como explicaciones causales.

Esta concepción “manipulacionista” de la explicación causal tiene la ventaja de encajar en una amplia gama de contextos científicos, especialmente en las ciencias sociales y del comportamiento, donde los investigadores piensan que ellos mismos descubren relaciones causales y construyen explicaciones causales, pero donde hay nociones más estrechas de explicación causal como las de Salmon.

Principios formales y estadísticos

La obtención de inferencias causales sólidas a partir de datos observacionales, es un objetivo central en las ciencias sociales. Los enfoques técnicos basados ​​en modelos estadísticos (modelos gráficos, modelos de ecuaciones estructurales no paramétricas, estimadores de variables instrumentales, modelos bayesianos jerárquicos, etc.) abundan. 

Se ha argumentado durante mucho tiempo que estos métodos no son confiables, algunos incluso han demostrado repetidamente que es mejor confiar en la experiencia de la materia, explotar la variación natural para mitigar la confusión y descartar explicaciones que compitan entre sí.

Esta afirmación causa muchísimo escepticismo, es difícil creer que un estadístico probabilista y matemático favorezca los enfoques de “baja tecnología”. Pero la marea está cambiando. Un número cada vez mayor de científicos sociales está de acuerdo en que la técnica estadística no puede sustituir al buen diseño de investigación y al conocimiento de la materia. Esta visión es particularmente común entre aquellos que entienden las matemáticas y tienen experiencia en el terreno.

El conejo en el sombrero

Históricamente, la “epidemiología de la piel de zapato” se resume en un estudio intensivo de puerta a puerta que desgasta los zapatos de los investigadores. En contraste, los defensores de los modelos estadísticos, a veces afirman que sus métodos pueden salvar un diseño de investigación deficiente o datos de baja calidad.

epidemología de la piel de zapato

 Algunos sugieren que sus algoritmos son motores de inferencia de propósito general: ingresan datos, cambian el rumbo, surgen relaciones causales cuantitativas y no se requiere conocimiento del tema. Esto es equivalente a sacar un conejo de un sombrero. El principio de la conservación de conejos de Freedman dice que:

“para sacar un conejo de un sombrero, primero se debe colocar un conejo en el sombrero”. En el modelo estadístico, las suposiciones ponen al conejo en el sombrero.

Los supuestos de modelado se hacen principalmente por conveniencia matemática, no por verosimilitud. Las suposiciones pueden ser verdaderas o falsas, generalmente falsas. Cuando las suposiciones son ciertas, los teoremas sobre los métodos se mantienen, cuando las suposiciones son falsas, los teoremas no se aplican. 

Siendo así, ¿qué tan bien se comportan los métodos? Cuando las suposiciones son “un poco incorrectas”, ¿los resultados son “un poco incorrectos”? ¿Pueden los supuestos ser probados empíricamente?, ¿violan el sentido común? Freedman hizo y contestó estas preguntas, una y otra vez. Demostró que los problemas científicos no se pueden resolver con métodos de “talla única”.

Más bien, requieren un calzado de cuero fino: trabajo empírico cuidadoso adaptado al tema y la pregunta de investigación, informados tanto por el conocimiento del tema como por los principios estadísticos.

Sin embargo, no se pueden establecer reglas mecánicas para la actividad. Desde Hume, eso es casi un tópico, en cambio, la inferencia causal parece requerir una enorme inversión de habilidad, inteligencia y trabajo duro. Se deben desarrollar muchas líneas de evidencia convergentes. La variación natural necesita ser identificada y explotada, los datos deben ser recogidos, los confusores deben ser considerados y las explicaciones alternativas tienen que ser probadas exhaustivamente.

¿Cúal es la pregunta correcta?

Antes que nada, la pregunta correcta necesita ser enmarcada. Naturalmente, hay un deseo de sustituir el capital intelectual por el trabajo, es por eso que los investigadores tratan de basar la inferencia causal en modelos estadísticos. La tecnología es relativamente fácil de usar y promete abrir una gran variedad de preguntas al esfuerzo de investigación y los propios modelos exigen un escrutinio crítico. 

Las ecuaciones matemáticas se utilizan para ajustar la confusión y otras fuentes de sesgo y estas ecuaciones pueden parecer formidablemente precisas, pero típicamente, se derivan de muchas elecciones un tanto arbitrarias. 

¿Qué variables introducir en la regresión?, ¿qué forma funcional utilizar?, ¿qué supuestos hacer sobre los parámetros y los términos de error? Estas elecciones rara vez son dictadas por los datos o el conocimiento científico previo, es por eso que el juicio es tan crítico, la oportunidad de error tan grande y la cantidad de aplicaciones exitosas tan limitada.

De observación a experimentos

La inferencia causal de experimentos controlados aleatorios que utilizan el principio de intención no es controvertida, siempre que la inferencia se base en el modelo de probabilidad subyacente en la aleatorización. Pero algunos científicos ignoran el diseño y en su lugar utilizan la regresión para analizar datos de experimentos aleatorios.

Para evaluar qué tan cerca está un estudio observacional de un experimento, se requiere mucho trabajo y conocimiento de la materia. Incluso sin un experimento real o natural, un científico con suficiente experiencia en el campo puede combinar estudios de casos, y otros datos de observación, para descartar posibles factores de confusión y hacer inferencias sólidas.

El número de inferencias causales sólidas, a partir de datos observacionales en epidemiología y ciencias sociales, está limitado por la dificultad de eliminar la confusión. 

Todo se debe soportar en pruebas

Solo el cuero y la sabiduría de los zapatos pueden distinguir los buenos supuestos de los malos o descartar el ruido sin intervenciones deliberadas. Estos recursos son escasos, por lo cual los investigadores que se basan en datos de observación necesitan pruebas cualitativas y cuantitativas. También deben tener en cuenta los principios estadísticos y estar atentos a las anomalías, lo que puede sugerir preguntas de investigación agudas. 

Ninguna herramienta individual es la mejor, es necesario encontrar una combinación adecuada de modelos, expertos sobre el tema y científicos de datos rigurosos.

El objetivo es superar la era donde solo nos aventuramos a hablar de correlación y trabajar de la mano de nuestros clientes, para lograr dar una explicación causal al desempeño de sus campañas, piezas, medios y segmentos de clientes.

En nuestra siguiente entrega estaremos hablando acerca de los diferentes tipos de modelos que aplicamos en Grupodot para disminuir el ruido y lograr una causalidad real de manos de expertos.