Bienvenido una semana más. Hasta ahora hemos visto cómo hacer las operaciones básicas de limpieza de datos con Stata, ahora toca hablar de lo verdaderamente importante: ¿Cómo se hace una investigación en Ciencias Sociales? Para responder a esa pregunta es necesario hablar brevemente de qué es la ciencia y de cuál es la relación entre la ciencia y la sociedad. Esta sesión va a ser larga, así que, ¡vamos allá!
El Método Científico y las Ciencias Sociales
Existen distintas definiciones de ciencia y, no en balde, existen distintas ciencias, desde las naturales hasta las humanas. No son todas iguales y las razones de estas diferencias son relevantes para entender cómo se hace cada una de ellas. Lo que a nosotros nos ocupa son las ciencias sociales, un tipo de ciencia particular dentro del conjunto de ciencias humanas (economía, ciencia política, sociología, etc.). Sin embargo, todas ellas tienen algo en común: tienen por objeto comprender la realidad. Pero la realidad es algo complejo y este tipo de conocimiento no es el único que tiene este objetivo, así también la filosofía o la teología tratan de entender la realidad pero desde perpectivas y, sobre todo, con metodologías distintas.
Las ciencias dan una importancia central al método, por eso se habla normalmente de Método Científico antes incluso que de Ciencia. Y podemos decir que existen dos corrientes que desde -al menos- el slglo XVII han pugnado por otorgar a la ciencia su método. Estas corrientes son la deductivista que encuentra su origen en Descartes y otros filósofos racionales y la inductivista que tiene sus raices en el empirismo de Bacon, Hume y otros filósofos británicos de esta época.
Mientras el racionalismo propone el uso de la razón para deducir las leyes que explican la realidad, el empirismo propone el uso de la experiencia. Si el primero cree que se pueden deducir de axiomas conclusiones generales, el segundo cree que de los casos concretos se pueden inducir las reglas generales. Pues bien, estas corrientes quedan -simplificando mucho- sintetizadas por el filósofo de la ciencia Karl Popper en el siglo XX. Desde Popper, cualquier ciencia, para obtener tal estatus, debe basar su proceder en el Método Hipotético-Deductivo. Según Popper no es posible deducir a priori todas las conclusiones sobre los fenómenos de la realidad, sin embargo, tampoco es posible llegar a un conocimiento verdadero por medio de la inducción. Esta síntesis se conoce como la síntesis falsacionista pues según Popper las teorías científicas no son nunca “verdaderas”, las hipótesis no pueden verificarse, sino, como mucho, falsarse.
¿Se puede conocer la realidad mediante la pura observación?
La respuesta de Popper a esta pregunta es la siguiente: “no es posible afirmar algo universal a partir de los datos particulares que ofrece la experiencia. Esto se conoce como el problema del verificacionismo y el ejemplo más famoso es el de los cisnes. Afirmaciones como esta: “todos los cisnes son blancos” no son científicas. La razón es que esta afirmación no puede verificarse. Es imposible comprobar mediante la experiencia si es o no verdadera pues no podemos conocer a todos los cisnes blancos del planeta. Incluso, en el caso de conocerlos a todos, no podríamos asegurar “a ciencia cierta” que no exista ninguno que no sea blanco. Es por esta razón que las teorías científicas no son verdaderas sino que se dice que están “no refutadas”. Sin embargo, por esta misma razón, los hallazgos científicos siempre pueden cuestionarse. La ciencia avanza, de hecho, mediante la refutación o la falsación de las teorías antigüas, que dan paso a otras nuevas. Los discípulos de Popper criticarían esta idea desde distintos puntos. Así Thomas Kuhn hablaría de paradigmas científicos y de ciencia normal para hacer notar que la ciencia realmente cambia sólo si se producen revoluciones científicas y que -simplificando de nuevo- no es tan sencillo refutar las teorías aceptadas por una comunidad científica. Otros discípulos de Popper, como Paul Feyerabend, irían tan lejos como para afirmar que el método científico carece de validez.
Pero nuestro objetivo no es analizar la historia o la filosofía de la ciencia. Basta para el propósito del curso saber que, a pesar de las críticas que han recibido las ideas de Popper, la forma en la que se hace la ciencia sigue siendo a día de hoy deudora de estas ideas. Por tanto, tu trabajo debe plantear una hipótesis falsable. En los siguientes apartados hablaremos del proceso de la investigación científica y veremos consejos para formular dichas hipótesis.
¿Son científicas las Ciencias Sociales?
La respuesta a esta pregunta consiste en saber si, de acuerdo con el criterio de demarcación de la ciencia postulado por Popper, las ciencias sociales caen dentro o fuera. Pues bien, para que sea científica una investiación debe reunir los siguientes rasgos:
- Su objetivo debe ser la inferencia
- Sus procedimientos deben ser públicos
- Sus conclusiones son inciertas
- Su contenido es el método
Si una investigación cumple con estos requisitos, podríamos afirmar que es una investigación científica en el sentido popperiano.
El proceso de la investigación social
Una investigación social siempre sigue los siguientes pasos y habitualmente (aunque no siempre) en el siguiente orden:
- Encontrar el problema de investigación
- Formular la pregunta de investigacion
- Elaborar el marco teórico
- Plantear hipótesis falsables que den una respuesta tentativa a dicha pregunta
- Testar las hipótesis empíricamente (someterlas a contrastaicón)
1. El problema de investigación
Debemos limitar el objeto de estudio, concretar nuestros intereses, básicamente definir el QUÉ de la investigación.
2. La pregunta de investigación
Es esencial para poder arrancar con la investigación. Una vez hemos delimitado la parte de la realidad por la que queremos preguntarnos es imprescindible plantear una pregunta que sintetice ese QUÉ. Una pregunta de investigación debe reunir -idelamente- las siguientes características:
- Sintetizar el QUÉ de la investigación
- Ser original
- Estar justificada
- Tener relevancia
En este nivel es imposible exigir a tu pregunta de investigación que cumpla todos estos requisitos, pero es un buen horizonte y puede guiarte en el proceso de pensar la pregunta para el trabajo. A continuación, tienes una lista (Santana, 2013: 27,35) con consejos sobre cómo formular tu pregunta y consejos sobre cómo NO hacerlo:
Consejos sobre cómo formularla
- Buscar pruebas a favor o en conta de una hipótesis importante pero no analizada sistemáticamente.
- Buscar pruebas a favor o en contra de uno de los bandos de una polémica.
- Analizar algo importante que no ha sido suficientemente estudiado.
- Investigar si una hipótesis comúnmente aceptada es falsa.
- Estudiar premisas no cuestionadas de una hipótesis comúnmente aceptada.
- Aplicar teorías o pruebas a un ámbito aparentemente alejado de aquel en el que se formularon inicialmente.
Consejos sobre cómo NO formularla
- Evita preguntas del tipo “existe la posibilidad de que?”, “es posible…?”
- Evita preguntas sobre la existencia de tal o cual cosa
- Evita preguntas o propuestas que sólo se pueden expresar mediante un sintagma nominal
- Evita propuestas de aplicación efectiva de modelos, soluciones o mejoras
3. El marco teórico
Toda investigación debe estar basada en una o varias teorías. Estas teorías, que pueden ser elaboradas por el mismo o distintos investigadores, conforman el marco teórico, es decir, los fundamentos de las posteriores hipótesis. Para elaborar el marco teórico el investigador debe hacer un trabajo previo de lectura y repaso de la literatura académica sobre el tema en cuestión. Conectar las ideas que encuentre en los distintos trabajos sobre esa materia y, de alguna manera, resumir el “estado de la cuestión” para poder construir sobre él su trabajo. Para hacer esto (que debes hacer de cara a tu trabajo) hoy en día existen lugares que contienen literatura académica de acceso libre. A continuación tienes una lista con algunos:
Google Académico
JSTOR
Elsevier
En todos estos lugares puedes encontrar artículos académicos sobre el tema que te interese usando palabras clave en sus buscadores.
4. La hipótesis científica
Una vez que tienes una pregunta de investigación y has hecho una revisión de la literatura, llega el momento de plantear una hipótesis que dé una respuesta potencial a tu pregunta. Para que una hipótesis sea científica debe cumplir -idealmente- los siguientes requisitos:
- Ha de ser posible someterla a contrastación empírica
- Desde un punto de vista lógico debe ser falsable
- Debe estar fundamentada en la teoría
- Debe ser positiva (no normativa) y puede ser descriptiva o explicativa (serán las que más nos interesen)
5. El contraste de hipótesis
Una vez has sido capaz de plantear una o varias hipótesis que den respuesta a tu pregunta de investigación debes ser capaz de contrastarla(s) empíricamente. Pero ¿en qué consiste esto exactamente?
Cuando enunciamos hipótesis sobre la realidad social tratamos de dar respuesta a una pregunta que, por ejemplo, suele contener una afirmación sobre una característica de la realidad. Ya sea nuestro objeto de estudio el Estado o lo sean las personas, nuestra hipótesis suele referirse al conjunto de Estados o personas, es decir, suelen ser enunciados generales. Dado que la ciencia es un saber que no otorga respuestas verdaderas, sino sólo falsables (recuerda la síntesis popperiana) como mucho podemos aspirar a decir algo plausible sobre la realidad pero siempre sujeto a refutación o falsación. Por tanto, cuando contrastamos nuestras hipótesis lo que hacemos es tratar de inferir algo sobre ese conjunto de personas o Estados (lo que denominamos población).
Sin embargo, por desgracia para nosotros, normalmente no tenemos acceso a la población objeto de estudio (a veces es físicamente imposible y otras es, simplemente, muy costoso). Lo que hacemos normlamente es recurrir a una parte de esa poblacion que sea representativa, esto es lo que denominamos una muestra. Pero te estarás preguntando: si no tengo acceso a la población entera ¿puedo saber algo sobre ella? Pues bien, en esto consiste, básicamente, la estadística inferencial. Por tanto, nuestro objetivo al testar nuestras hipótesis consistirá en inferir, con los datos de nuestra muestra, cómo es esa característica de la población. Pues bien, la característica que estudiamos se denomina parámetro poblacional y es por definición imposible de conocer. A lo que podemos aspirar como mucho es a estimar dicho parámetro. Por tanto, se dice que estimamos parámetros poblacionales a través de estadísticos de la muestra.
Ejemplo de mini-investigación social
Por ejemplo, imagina que quiero saber si el hecho de que un territorio fuese colonizado en el pasado hace que el Estado que una vez independizado se forma en dicho territorio es más debil que en aquellos lugares donde no hubo un proceso de colonización. Aquí estoy ya planteando un problema de investigación. Mi objetivo será coger una muestra de Estados que contenga estados colonizados y no colonizados en el pasado y, a partir de esos datos, tratar de inferir resultados válidos para cualquier Estado con esas características. Resumamos a continuación el proceso que seguiría mi investigación a modo de ejemplo:
- Problema de investigación: La debilidad del Estado puede estar relacionada con el pasado colonial de dichos Estados.
- Pregunta de investigación: ¿Un pasado colonial determina la fragilidad del Estado?
- Hipótesis: Aquellos países con un pasado colonial son sistemáticamente más débiles que aquellos que no fueron colonizados.
- Contraste de hipótesis: Existen multitud de formas de testar esta hipotesis. Hoy nos centraremos en la más sencilla para este tipo de hipótesis.
Antes de empezar con el ejemplo, debemos abordar una cuestión esencial y ciertamente compleja del contraste de hipótesis, a saber, la operacionalización. Esta consiste en traducir los conceptos o ideas en indicadores que se puedan medir. Es decir, el concepto “país colonizado” es algo que debe poder operacionalizarse antes para poder medirlo y así contrastar nuestra hipótesis. Asimismo, la “fragilidad del Estado” no es algo que venga a nuestra mente de forma automática, debe ser previamente operacionalizado. ¿Cómo hago esta operacionalizacion para poder contrastar mi hipótesis? A este nivel, lo más sencillo sería confiar en las operacionalizaciones que se han hecho a la hora de construir las variables de las bases de datos, en nuestro caso, Quality of Government (QoG). Así que nos limitaremos a seleccionar las variables adecuadas en la base de datos.
Una posible estrategia sería buscar una variable que capture la fragilidad del Estado. Esta variable es la que quiero explicar, es decir, mi intención es explicar si esta variable cambia como consecuencia de otra. A la variable que quiero explicar se le llama variable dependiente porque depende de los valores que toman el resto de variables. Al resto de variables se les suele llamar variables explicativas o independientes, ya que son las que uso para explicar la variable dependiente. Además de estas dos variables existe un tercer tipo que son las variables de control que veremos más adelante. Por tanto, resumiendo: en mi investigación tengo como variable dependiente o explicada la fragilidad del estado y como variable explicativa o independiente el pasado colonial del mimso.
En QoG existe una variable que captura exactamente lo que queremos medir en la variable dependiente y es la variable cspf_sfi que es un índice de fragilidad del Estado. Bien, si pudiera agrupar los países según su pasado colonial podría comparar el valor de este índice para cada grupo y así testar mi hipótesis. Resulta que en QoG hay una variable que mide si un país fue colonizado y por qué potencia colonial; esta variable es ht_colonial y es una variable categórica que asigna 0 a los países que no fueron colonizados nunca por una potencia colonial y distintos valores según la potencia colonizadora que los colonizó. Esta será nuestra variable independiente. Así, lo primero será construir una variable dummy (dicotómica con valores 0 o 1) que tome valor 0 si el país no fue colonizado y 1 en el resto de casos.
** Recodifico la variable del pasado colonial para hacerla dicotómica. Así podré comparar estos dos grupos de países. recode ht_colonial (0=0 "No colonizados") (else = 1 "Colonizados"), into("colonizado") label variable colonizado "Países colonizados" // Aprovecho para etiquetar la variable // Compruebo que la recodificación salió bien: tab colonizado
Resultado:
Lo siguiente sería limpiar y recodificar mi variable dependiente pero al ser un índice lo único que necesito es calcular la media. Antes de contrastar mi hipótesis, lo primero es interesante hacer es un análisis descriptivo de la variable. Así, sería buena idea ver la media de cada grupo (ESTO NO ES EL CONTRASTE DE HIPÓTESIS TODAVÍA)
summarize cspf_sfi if colonizado // Al ser dummy, es suficiente con decir "si colonizado". Stata entiende que me refiero al valor 1 o "verdadero" de la variable sum cspf_sfi if !colonizado // Igualmente, con negar la variable con el símbolo "!" Stata entiende que me refiero al valor 0 o "falso" de la variable
Resultados:
Países colonizados
Países no colonizados
Parece que las medias son distintas y claramente mayor en el caso de los países colonizados. Recuerda que estamos midiendo la fragilidad del Estado. Cuanto más alta sea esta media, más frágil es.
Pero esto no es suficiente, estamos -por así decir- comparando a “ojímetro”. Es necesario usar una prueba estadística rigurosa para poner a prueba nuestra hipótesis. La prueba que veremos es la primera que veremos en este curso y sirve para comparar la media de dos grupos dentro de nuestra muestra, es decir, comprobar si las diferencias entre estas medias son estadísticamente significativas. La prueba en cuestión se llama prueba T o T-Test (en inglés) y el comando de Stata es muy sencillo:
ttest cspf_sfi, by(colonizado) // Observa que agrego la variable que contiene los grupos que quiero comparar en la opción "by"
Resultado:
El output (o salida) de Stata parece muy difícil de interpretar pero no lo es tanto. Recuerda que nuestro objetivo es comparar dos medias, si te fijas en la parte superior de la tabla las dos primeras filas no son más que sendos resúmenes estadísticos de los grupos de la variable dummy que creamos (nuestra variable independiente). En ellos vemos el número de casos en cada grupo, el valor de la media, el error estándar, la desviación típica y un intervalo de confianza al 95% para esa media. A continuación, Stata calcula un resumen estadístico para la variable combinando los grupos (que no es interesante para nuestro objetivo) y en la siguiente línea simple y llanamente las difernecias (la resta aritmética) de los valores de la media, etc.
Lo que verdaderamente nos interesa está debajo. Todo lo que aparece bajo la tabla es el verdadero contraste de hipótesis. Entonces, ¿cómo se interpreta? Pues bien, lo que hacemos cuando hacemos un contraste de hipótesis es comparar nuestra hipótesis con otra. A la hipótesis de referenicia se le llama hipótesis nula y suele denominarse $H_0$ y a la nuestra (esto es, a la hipótesis de investigación) se le llama hipótesis alternativa. Pues bien, el objetivo del contraste es determinar si existe evidencia suficiente en contra de la hipótesis nula y, por tanto, a favor de nuestra hipótesis. En tal caso se dirá que rechazamos la hipótesis nula.
¡Atención!: Recuerda el postulado de Popper, no se puede obtener un resultado verdadero contrastando una hipótesis científica. Lo que hacemos en comprobar si en los datos de la muestra hay indicios que nos llevan a rechazar la hipótesis nula y, por tanto, inferimos algo de la población gracias a la evidencia en los datos a favor de nuestra hipótesis, pero nunca concluímos que ésta sea verdadera.
Pero entonces para saber intepretar el contraste de hipótesis es imprescindible saber cuál es la hipótesis nula.
Bien, esto depende exclusivamente del test o la prueba que estemos usando. Es decir, cada prueba estadística lleva asociada su hipótesis nula. Por ejemplo, como el objetivo de la T-Test es comprobar si hay diferencias estadísticamente significativas entre dos medias la hipótesis nula asociada a esta prueba es que no existe diferencia, es decir, que las medias que estamos comparando son iguales. Por eso, verás que en la salida de Stata aparece Ho: diff = 0, es decir, que no hay diferencia entre las medias. Esto quiere decir que partimos de la suposición de que la hipótesis nula es cierta y tratamos de proponer una hipótesis alternativa a esta (de ahí el nombre).
La hipótesis alternativa suele denotarse Ha, o H1 y pueden ocurrir tres cosas que se oponen a la hipótesis nula. Es decir, hay tres maneras de decir lo contrario a que las medias son iguales: o bien la media de los países colonizados es mayor que la de los no colonizados, o bien las medias son distintas en general, o bien la media de los países no colonizados es mayor que la de los países colonizados. De estas tres, obviamente, una de ellas no tiene sentido. Si recuerdas, nuestra hipótesis de investigación decía que los países con un origen colonial tendrían una fragilidad mayor que los que no fueron colonizados. Fíjate que Stata calcula la diferencia según el orden de las categorías de la variable. En este caso la diferencia la calcula en el siguiente orden:
diff = mean(No colon) - mean(Coloniza) // Es decir, la media de los no colonizados menos la media de los colonizados.
La hipótesis alternativa que nos interesa es aquella que propone que la media (la fragilidad del Estado) en los países colonizados es mayor que la de los países no colonizados y dado el orden de arriba, esto seria lo mismo que decir que la diferencia de medias es negativa (gana el término de los países colonizados, con signo negativo).
Pues bien, de los tres contrastes que hay en la línea de abajo, el que recoge nuestra hipótesis de investigación es el primero. Para no hacer eterno este post y esta sesión, vamos a interpretar el resultado del contraste de hipótesis de forma superficial, en clase o la semana que viene, explicaremos el por qué. El valor que aparece como resultado del contraste de hipótesis se denomina P-valor (p-value en inglés). Y puede interpretarse, por el momento, como la probabilidad de equivocarnos al rechazar la hipótesis nula cuando esta es cierta. Es decir, dado que hemos empezando asumiendo que la hipótesis nula de igualdad de medias era cierta, el p-valor no está indicando que la probabilidad de equivocarnos al rechazarla (en favor de nuestra hipótesis alternativa) es muy baja, de hecho, es prácticamente 0. En resumen, el contraste de hipótesis nos está diciendo que hay evidencia robusta para rechazar la hipótesis nula o, en otras palabras, evidencia a favor de nuestra hipótesis de investigación.
Este es sólo uno de los test o contrastes de hipótesis que existen y aprenderemos en este curso. La semana que viene veremos otros. Para ir abriendo el apetito, te dejo una tabla con un resumen con los posibles contrastes de hipótesis según qué tipo de variables estamos utilizando. ¡Hasta la semana que viene!
Variable independiente | ||||
---|---|---|---|---|
Numérica / ordinal | Nominal / categórica | Dummy | ||
Variable dependiente | Numérica / ordinal | Regresión / correlación | Análisis de varianza (oneway) | Comparación de medias (t-test) |
Nominal / categórica | Tabla de contingencia | Tabla de contingencia |