Durante años la actividad de los científicos se ha caracterizado por la fe. Hemos confiado en que la ciencia ofrecía el mejor reflejo posible de la realidad. La imagen podía salir distorsionada por momentos, pero el sistema científico permitía la autocorrección. La acumulación de múltiples fotos parcialmente movidas –y así han de salir, porque todo estudio es necesariamente limitado– tenía que acabar llevándonos a un retrato ajustado. El modelo de ciencia que subyace es el de puzzle que se va resolviendo con muchas piezas pequeñas.
Cuando leo un artículo, en gran medida, hago un acto de fe. Confío en que el equipo de investigación responsable del mismo está presentándome los resultados de su trabajo, no una selección o invención de los mismos; confío en que las que se presentan como hipótesis surgieron antes de analizar los resultados y no después; confío en que los análisis estadísticos están bien ejecutados… Hay quien considera, desde mi punto de vista con cierta ingenuidad, que en los artículos científicos podemos escuchar hablar directamente a la ciencia y no a los científicos.
Desde hace un cierto tiempo esta confianza en la ciencia se está erosionando. Al menos algunas ramas de la ciencia se parecen más a las fotos de portada del ‘Hola’ que a la captación fidedigna de lo real. Pese a que Isabel Preysler se manifieste como contraria al Photoshop, hay quienes sospechamos que en el semanario rosa le dan con alegría al retoque gráfico. Lo que vemos, tanto en las portadas como en las revistas científicas, no acaba de encajar con lo que hay. Las prácticas de investigación cuestionables, aquellas que alteran la capacidad de acercanos a la realidad con la práctica investigadora, son más la norma que la excepción (John, Loewenstein & Prelec, 2012).
Si lo prefieren, la ciencia –y me centraré en la Psicología, aunque esta disciplina comparte métodos con otras muchas– se parece mucho a deshojar la margarita en el juego del «me quiere, no me quiere».
Deshojar la margarita en Psicología
Volvamos al momento del primer amor. Toda la ilusión se acumula, junto con un punto de ansiedad por el temor de no ser correspondidos. Estamos en mitad de cientos de flores, todas a nuestra disposición, y nos repetimos: «Si sale ‘me quiere’, todo irá bien. Por favor, por favor, por favor, que no salga ‘no me quiere'». En este momento íntimo estamos solos, no hay nadie cerca de nosotros, nadie controla qué hacemos. ¿Cuál es el resultado que creen que obtendremos?
Yo tengo claro que me voy a casa con un «me quiere» bien grande, de esos que se miden en campos de fútbol. Porque, claro, si con la primera margarita no sale, en ningún lugar está claramente establecido que no lo pueda intentar con otra más. Las reglas del juego establecen que hay que deshojar margaritas, no cuántas. ¿Y quién dijo que tuvieran que ser margaritas? Quien dice eso, dice flores. No me sean literales con eso de «deshojar la margarita», que la inflexibilidad es un factor de riesgo para mucha patología mental. Ya veremos con cuántas flores arraso, pero el resultado está claro. Como que está determinado a priori.
De forma algo parecida funciona la investigación en Psicología. Al igual que hay muchas flores que se pueden deshojar, hay muchos posibles modos de concretar nuestras hipótesis y de llevar adelante nuestra investigación. Si especulo que el malestar emocional del cuidador principal de un niño guarda relación con los problemas de conducta de ese niño, el malestar emocional lo puedo evaluar como:
- Un diagnóstico clínico: diagnóstico clínico que puede ser informado por las propias personas que participan en el estudio o que puede ser asignado por clínicos que los evalúan ex profeso. Diagnóstico clínico que se puede referir a al menos un episodio depresivo o de ansiedad en la vida, en los últimos doce meses, en el momento presente…
- Una puntuación en una escala habitual de medición como puedan ser la Beck Depression Inventory, Hospital Anxiety and Depression Scale, Depression Anxiety Stress Scales, General Health Questionnaire… entre otras muchas. De cada una de todas estas escalas hay varias versiones y para algunas varios modos de puntuarlas. Solo del GHQ hay versiones con 12, 28, 30 o 60 ítems y tres modos diferentes de puntuarlo.
Para la casi totalidad de dimensiones que queramos estudiar en Psicología hay multitud de modos aceptados de evaluarlas. Y, como señala Neurosekptic, las medidas flexibles son un problema en la ciencia. Cuando yo leo un estudio no tengo ninguna garantía de que no se hayan probado varias opciones de medir las variables de interés, se hayan realizado los análisis con todas ellas y los investigadores nos estén informando exclusivamente de aquellas que mejor les cuadran.
Imaginemos que estamos ligando por internet y la persona con la que estamos hablando nos envía una foto en la que sale atractiva. ¿Nos creemos que lo es? Teniendo en cuenta lo barato que es ahora mismo sacarse una foto, yo tendería a pensar no tanto que es atractivo como que en al menos una foto sale bien, que no es lo mismo. Les aseguro que yo al contraluz tengo mi punto.
Tampoco en ningún lugar aparece escrito con cuánta gente ha de contar nuestro estudio. Podemos empezar por una muestra pequeña y, en el caso de quedar satisfechos con el resultado, interrumpir la investigación ahí. Si no es así, ampliamos un poco más. Si cuando nos envían el selfie vemos que pone ‘prueba 498 de 500’ no opinaremos lo mismo que si pone ‘prueba 1 de 1’. Pero cuando leo un artículo solo veo una foto, una pieza del puzzle, una única margarita, sin saber cuántos intentos previos ha habido.
Los motivos para este problema son claros y se pueden resumir en dos:
- A los científicos no nos pagan por descubrir cómo funciona el mundo, sino por publicar, y es mucho más fácil publicar ‘fotos bonitas’ que una sola pieza más de un puzzle que iremos completando con esfuerzo entre todos.
- Los científicos tenemos, en general, un alto compromiso personal con nuestro trabajo. Si estudio la relación entre X e Y, tengo sólidas expectativas de que cuál va a ser esta y, querer –a veces y retorciendo un poco los datos– es poder. No es necesariamente mala voluntad, también son sesgos. Muchos investigadores desconocen que su modo habitual de investigar conlleva reducir la validez de sus conclusiones.
Lo que sabemos de las distorsiones en Psicología
Lo que por el momento tenemos bastante claro es que los tamaños del efecto (correlaciones, diferencias de medias…) de los estudios publicados son más grandes que los de los estudios no publicados (Polanin, Tanner-Smith, & Hennessy, 2016). Lo veíamos hace poco con el mindfulness (Coronado-Montoya et al., 2016): para el tamaño muestral de los estudios, para el efecto que suele haber, hay un exceso de resultados positivos publicados. No solo con esta aproximación terapéutica, sino en general, estamos intentando montar el puzzle de la Psicología cogiendo solos las piezas del borde, que son más fáciles de manejar.
¿Qué más tenemos claro? Nos hacemos trampas al solitario. Si uno mira la investigación tal y como aparece en las tesis doctorales y la compara con cómo sale finalmente en artículos científicos, encuentra que en los artículos todo va mucho ‘mejor’ (O’Boyle, Banks, & Gonzalez-Mulé, 2014): mayor proporción de hipótesis reciben apoyo, la capacidad explicativa de las teorías aumenta… Las revistas científicas son ‘Un Mundo Feliz’.
¿Qué más tenemos claro? Efectos que tomábamos como consolidados, robustos, en Psicología se están desmoronando. Es lo que han dado en llamar la crisis de replicabilidad.
Ilustrando el problema
Tenemos un problema: no sabemos en qué medida los artículos que se publican son el resultado de forzar los resultados para que resulten interesantes. Si uno prueba y prueba, por puro error aleatorio, es posible acabar encontrando algo brillante que tomar por oro donde no hay nada. Esto quedó magníficamente ilustrado en el artículo Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant de Simons, Nelson, y Simonsohn (2011). Aquí voy a presentar una pequeña extensión de sus resultados.
A través del software de análisis estadístico R he simulado datos con las siguientes condiciones:
- Correlación real: La correlación real, la poblacional, entre la variable dependiente y las variables independientes varía desde 0 hasta 0.50 con incrementos de 0.05. Tenemos control, pues, de cuál es el valor real que, si todo va bien, nuestros estudios (o la acumulación de múltiples estudios) tendrían que reproducir.
- Variables independientes: O bien trabajo con una sola variable independiente o bien trabajo con tres variables independientes correlacionadas entre sí 0.70. En el caso de tener tres variables, me quedaré con únicamente la correlación más alta con la variable dependiente. Sería como si tras haber administrado tres medidas de malestar emocional de entre las muchas disponibles, correlacionara todas ellas con problemas de conducta y, por un lado, no informara a nadie de que tenía tres medidas disponibles, y, por otro lado, me quedara con la relación más alta.
- Análisis secuencial: O bien trabajo con un tamaño muestral fijo de 90 participantes o realizo un análisis secuencial con 30, 60 y 90 participantes. En este proceder, que se llama análisis secuencial:
(i) Pruebo con 30 de muestra si la correlación (si solo hay una, esa; si hay tres, la mayor de ellas) es estadísticamente significativa, p < 0.05. Si es así, paro de reclutar participantes y me quedo con ese resultado.
(ii) Si no es así, amplío a 60 de muestra y vuelvo a probar con la misma lógica del punto anterior.
(iii) Si no es estadísticamente significativa la correlación, llego a los 90 participantes. - Sesgo de publicación: Vamos a analizar los resultados suponiendo que tenemos acceso a todos los estudios realizados por simulación o solamente a aquellos que han ofrecido resultados estadísticamente significativos. Por una mala comprensión de qué se hace con los contrastes de hipótesis, todavía se sigue asumiendo que resultados estadísticamente no significativos son de menos interés científico. Por ello, o bien los autores intentan publicar en menor medida este tipo de resultados con lo que valora como triste ‘p > 0.05′ o bien las revistas los aceptan en menor proporción.
Este proceso lo hemos repetido 10000 veces y hemos efectuado un meta-análisis (combinación estadística de varios estudios) de los resultados de los diferentes estudios para ver cuál es la correlación tras agregar resultados. Si todo fuera bien, donde la correlación real era de 0, tendríamos que llegar a una correlación con nuestras múltiples muestras de 0; donde un 0.50 real, tendríamos que observar el mismo valor con tal cantidad de muestras.
Veamos, primero, los resultados cuando tenemos acceso a la totalidad de los estudios efectuados:
Hay buenas y malas noticias. Las buenas:
- Cuando empleamos una sola variable independiente en lugar de la ‘mejor’ de entre tres, apenas hay diferencia entre la correlación observada y la real. Recuerdo que esto no implica que cada estudio individual recupere casi a la perfección el valor poblacional, sino que el conjunto de los 10000 estudios lo hace. Las líneas verdes son casi coincidentes entre sí y van del punto (0, 0) al (0.5, 0.5).
- Con una sola variable independiente, el análisis secuencial (ir haciendo probaturas con menos personas de las previstas e ir decidiendo en según qué casos acabar antes de tiempo) infla, pero de forma apenas perceptible, la correlación muestral. La línea verde de puntos está muy ligeramente por encima de la línea verde continua.
Las malas noticias se centran cuando trabajamos con tres variables independientes:
- Tanto con análisis no secuencial como con análisis secuencial, creemos estar delante de relaciones más estrechas de lo que realmente son. Las líneas azules están por encima de las verdes, mostrando que hay un sesgo positivo.
- Esta distorsión es más marcada cuando el análisis es secuencial. Este tipo de análisis pasa de prácticamente inocuo con una sola variable a tener impacto con tres variables. La acumulación de prácticas de investigación inadecuadas aumenta su impacto negativo.
En la siguiente gráfica vemos la probabilidad de encontrar correlaciones estadísticametne significativas en cada estudio. Cuando la correlación poblacional es de cero, si p < 0.05 estaremos viendo un efecto donde no lo había. Eso se llama error Tipo I. Si la correlación es distinta de cero, un resultado estadísticamente significativo implica haber detectado un efecto donde realmente lo había, y esto es la potencia estadística. Tal y como está planteada la simulación, la probabilidad de error Tipo I debería ser igual a 0.05.
Estos son los resultados principales:
- Cuando el análisis es único (una sola variable, solo un tamaño muestral) y la correlación es nula, la probabilidad de encontrar un resultado estadísticamente significativo coincide con la esperada, 0.05.
- A mayor correlación poblacional, más probable es acabar concluyendo que la correlación muestral es indicativa de correlación poblacional no nula. Esto es, a mayor correlación, mayor potencia.
- Con análisis de más de una variable y más de una muestra, la probabilidad de detectar efecto donde no lo había se dispara por encima del valor de referencia de 0.05.
- Con análisis de más de una variable y más de una muestra, la probabilidad de detectar efecto donde sí lo había aumenta notablemente.
Como señalaba anteriormente, en general cuando un investigador ve en su pantalla, al ejecutar un análisis, ‘p < 0.05′ se le ilumina una sonrisa. Encontramos que con estas prácticas cuestionables es mucho más probable obtener esos valores. Eso ayuda a explicar por qué se mantienen. Eso sí, al mismo tiempo estamos viendo que, en general, estamos sobrestimando la relación entre variables. Pero todos sabemos que en esta vida no se puede tener todo. Sacrificamos precisión por publicaciones.
Para acabar con los resultados de la simulación, veamos ahora qué ocurre si únicamente informamos de aquellos resultados estadísticamente significativos.
Varias son las ideas a extraer:
- Cuando la correlación es nula, en cualquier caso la correlación observada coincide con ese valor. Los resultados estadísticamente significativos serán unos de signo positivo y otros de signo negativo y se cancelan.
- Como cabía esperar, el mayor impacto se concentra en valores de correlación bajos. Si la correlación real es de, por ejemplo, 0.1, la potencia estadística es baja, según se ve en el gráfico previo. Las correlaciones marcadas como significativas son las que, por azar, están sobrestimando la relación entre variables. Por tanto, cuando combinamos un conjunto de efectos sobrestimados, el resultado final, de modo poco sorprendente, también está hinchado.
- Para valores de correlación altos, apenas hay diferencias entre informar de únicamente los significativos o de todos los resultados. Para correlaciones altas, la potencia estadísticamente es muy alta, casi todos los resultados son marcados como estadísticamente significativos. Por ello, el subconjunto de los resultados donde p < 0.05 coincide casi por completo con el conjunto completo de resultados.
- Al igual que en condiciones previas, la mayor sobrestimación proviene de combinar análisis secuencial y tres variables.
Eso sí, hay que considerar para esta última gráfica hemos tomado una condición extrema: saldrían publicados todos los significativos y ni un solo efecto no estadísticamente significativo. Es probable que la realidad se encuentre entre esta gráfica y la primera que mostrábamos, donde todos los estudios tenían la misma probabilidad de salir a la luz.
Con este pequeño estudio de simulación no pretendemos agotar las prácticas de investigación que pueden distorsionar los resultados. El objetivo era mostrar que modos muy extendidos, que muchos investigadores no son conscientes de que suponen un problema, alteran la capacidad para acercarnos a la realidad.
¿Qué implica esto y cómo se puede solucionar?
Si bien la ciencia sigue siendo el mejor modo de aproximarnos a la realidad e intentar tomar control sobre ella, es muy dudoso que el modo presente de actuar de los científicos sea el más adecuado. El sistema de controles e incentivos no ayuda.
Imaginen que yo publico un resultado especialmente llamativo. Por necesidad, lo llamativo suele ser lo que en mayor medida está cargado de error de medida. Por ejemplo, publico que es posible pronosticar acontecimientos aleatorios futuros. Y lo hago en una buena revista (Bem, 2011). A saber cómo he llegado a ese resultado, pero ahí está. Ustedes, sorprendidos por el resultado, intentan replicarlo. No lo logran y lo envían a la misma revista. ¡Sorpresa! La revista no publica réplicas, solo estudios originales. Tendrán que intentarlo en otra revista de perfil más bajo, donde, si publican, es menos probable que los lean. El editor, probablemente, me pondrá a mí como revisor de su artículo. ¿Qué pasará?
Está claro que el sistema presenta fallos. La conciencia de los mismos es cada vez mayor y, con ello, la propuesta de soluciones. En el artículo que comentaba, y vuelvo a recomendar, de Simons et al. (2011) encontrarán un buen resumen. En general, pasa por transparencia y capacitación:
- Transparencia: antes de comenzar un estudio, escriba y haga público qué va a medir, cómo, con cuántas personas, qué espera encontrar, cómo lo va analizar, etc. Una vez recogidos los datos, haga pública la base de datos y el código de análisis.
- Capacitación: hay que saber que hay un problema, que parte de nuestro modo de sacar adelante la investigación conlleva problemas. Manejar las herramientas de transparencia supone incorporar habilidades nuevas y los investigadores, como todos, tenemos inercia y nos cuesta hacernos a prácticas nuevas. Los modos cuestionables de investigación que he incorporado en la simulación (varias variables a elegir, análisis secuencial), con el correcto análisis de datos, no dan problemas. En el caso de aplicar análisis incorrectos, los resultados anómalos dejan rastro que puede ser detectado con suficientes conocimientos de estadística. Pero eso supone aprender más de estadística o incorporar a nuestros equipos de trabajo a gente que sepa más.
El cómo intentar mejorar la investigación en Psicología, y la extensión del problema, son temas candentes. Intentar mantenerse al día de los avances y propuestas es un reto. Se investiga y se propone sobre cómo cuantificar el problema, cómo prevenirlo, cómo detectarlo y cómo remediarlo. En los próximos años veremos, seguro, avances muy notables. Al menos, eso espero. Quedará por ver si serán avances teóricos o avances que pasen a aplicarse.
La ciencia no habla. Nunca lo ha hecho: hablamos y escribimos los científicos. Esto supone que los consumidores de ciencia hemos de ser conscientes de las limitaciones de aquello que leemos; los generadores de ciencia hemos de dar un paso adelante incorporando mejores prácticas y evitando las que distorsionan resultados; los divulgadores de ciencia hemos de ser más cuidadosos en cómo diseminamos conocimiento, evitando centrarnos en resultados poco consolidados, pero llamativos.
El ‘Hola’ photoshopea a Isabel Preysler porque así vende más, porque la Preysler que queremos ver no es la Preysler real, sino una ficción entrañable. Nos hacemos trampas deshojando la margarita porque la ilusión nos puede y, total, en realidad es un juego que no va a ninguna parte. Enviamos la foto donde mejor salimos porque sabemos que así lo mismo conseguimos una cita y mentalmente todos aplicamos un ‘descuento de atractivo’ cuando recibimos una foto. En el caso de la investigación, nos estamos jugando algo más importante.
Jaume dice
¿Acabarán los científicos con la ciencia? El sistema es tentadoramente perverso. Y la humanidad demasiado fàcil. Claro que tenemos la capacidad de elegir. O eso dicen. Aunque a menudo se reduzca entre optar por devenir un riguroso investigador, anónimo y parco en palabras, o ser en cambio un científico cuyo prestigio nada tiene que ver con el efecto cientificida de su bien publicada elocuencia. Sin duda, la solución pasa, al menos en parte, por lo que se apunta en este post ¡Enhorabuena Juan Ramón!
Jesus Garcia Mingorance dice
Juanra. Enhorabuena por el artículo. Realmente interesante.
En el mundo de las organizaciones ocurren cosas, todavia, mucho peores. Pero en mi opinion es muy importante la divulgacion que llevas a cabo.
Sinceramente, el deseo de validar aquello que se hace esta implicito a cualquier accion humana.
Efrén dice
Muy interesante, gracias.
Guillermo de Haro dice
Magnífico artículo Juan Ramón. Efectivamente hay iniciativas por una ciencia más abierta dónde el sistemas de publicaciones no sea un oligopolio de unos pocos grandes editores que desvirtúan el sistema de recompensas y por tanto las motivaciones. Si todos tuviéramos que publicar los datos brutos la transparencia facilitaría la replicabilidad y forzaría menos y mejores resultados.
Sin embargo también es cierto que es complicado: conseguir los datos en muchos casos cuesta. Leyendo a Laszlo Bock uno intuye la increíble cantidad de datos e investigación que ciertas empresas pueden hacer y que nunca relevarán porque es parte de su ventaja competitiva. Nosotros no podemos llegar a eso ni de lejos
https://www.amazon.com/Laszlo-Bock/e/B00MRIKDZ0
Casos como el Hofstede, entrando en IBM con recursos y tiempo para desarrollar un estudio tan grande empiezan a ser cada vez más complicados.
Pero si hay un momento dónde ese sistema puede tener opciones de cambio es este. Poco a poco voces como la tuya e iniciativas de diverso tipo van enfocadas en esta línea.
luis Chamorro Rodelo dice
Excelente articulo está muy asosiado a conceptos de matemáticas; se evidencia un perfil académico de alto conocimiento en el autor. Fue gratificante leer la psicología con paridad de conceptos matemáticos.