DiSEÑOS DE INVESTIGACIÓN Y AD
UNED, 2º CURSO, 1C
!!!!!
! 1 / 4
Diseños Raquel Lamuño de 141 ÍNDiCE
T1: ESTIMACIÓN DE PARÁMETROS Y CONTRASTE DE HIPÓTESIS 2
Distribuciones muestrales 2 La estadística inferencial 4
T2: CONTRASTE DE HIPÓTESIS EN LOS DISEÑOS DE UNA MUESTRA 11
- Contraste sobre la media poblacional 11
- Contraste sobre la proporción poblacional 12
- Contraste sobre la varianza poblacional 12
- Cálculo de la potencia del contraste 13
- Nivel crítico p y errores en los contrastes 13
- Resumen 14
Conocida la varianza poblacional 11 Desconocida la varianza poblacional 11
T3: ANÁLISIS DE DATOS PARA DISEÑOS DE DOS GRUPOS. MUESTRAS INDEP. 15
- Muestras indep. o relacionadas 15
- Contrastes de hipótesis sobre dos medias en muestras indep. 15
- Contraste de hipótesis sobre dos varianzas en muestras indep. p108, solo ejemplo 16
- Contrastes de hipótesis sobre dos proporciones en muestras indep. 16
- Tamaño del efecto 16
- Resumen 16
T4: ANÁLISIS DE DATOS PARA DISEÑOS DE DOS GRUPOS. MUESTRAS RELACIONADAS 19
- Contraste de hipótesis sobre dos medias en muestras relacionadas 19
- Resumen 20
T5: DISEÑOS DE +2 GRUPOS INDEP. 22
- Conceptos básicos del análisis de varianza 22
- Fundamentos del análisis de varianza 22
- Análisis de varianza de un factor 23
- Comparaciones múltiples 25
- Supuestos del análisis de varianza 26
Modelo de Efectos fijos 23 Modelo de Efectos aleatorios 25 Cálculo del ANOVA mediante el método clásico 25 Cálculo del ANOVA mediante las razones básicas 25
Comparaciones planificadas o apriori 25 Comparaciones no planificadas, a posteriorio post hoc / simplemente múltiples para algunos autores 25
T6: DISEÑOS DE +2 GRUPOS CON MUESTRAS RELACIONADAS 27
- Diseños de un factor intra-sujetos 27
Análisis de datos mediante razones básicas 29
T7: DISEÑOS DE +2 GRUPOS INDEP. ANÁLISIS DE LA VARIANZA DE 2 FACTORES 31
- ¿Qué inf. proporciona un diseño factorial? 31
- Reglas para el cálculo de los efectos principales y del efecto de interacción 32
- El modelo estadístico 34
- Análisis de la interacción 34
- Resumen 35
Diseño y notación 32 Variabilidad del sistema 32 Proceso de cálculo del ANOVA de dos factores 33 Desarrollo del ANOVA de 2 factores con un ejemplo numérico 33
¿Cómo se actúa cuando no es significativo el efecto de la interacción? 35
T8: ANÁLISIS DE REGRESIÓN 36
- Análisis de Regresión Simple 36
- Análisis de Regresión Múltiple 38
Coeficientes de la regresión lineal simple 36 Bondad de Ajuste de la Recta de Regresión 36 Inferencias sobre correlación y regresión 37
Regresión con dos VI 38 Ajuste del modelo. Medidas de asociación 39 Correlación Semiparcial y Parcial 39 2 / 4
Diseños Raquel Lamuño de 241
T1: ESTIMACIÓN DE PARÁMETROS Y CONTRASTE DE HIPÓTESIS
En la asignatura de 1º se han estudiado procedimientos para organizar, representar y describir un conjunto de datos: •Mediante creación de tablas, gráficos, calculando medidas q nos informan de su tendencia central, variabilidad, forma… = conocimiento eficaz de las carac. de la muestra.•Vamos a dar un paso adelante para utilizar esta inf. para q, mediante la inferencia y el contraste de hipótesis, podamos hacer generalizaciones referidas a la población a partir del análisis descriptivo de una, dos, o más muestras. Este conocimiento siempre será aprox. o, inferencias probabilísticas.En este 1er capítulo abordamos los fundamentos de la inferencia estadística, rama de la Estadística q permite realizar afirmaciones sobre una población a partir de datos en alguna de sus muestras. Hay q seguir unas pautas para q las afirmaciones y decisiones q tomemos, sean lo + racionales posibles: extracción de la muestra > medición de la(s) carac. de interés > cálculo del estadístico apropiado en la muestra para inferir el parámetro de la población > evaluación probabilística del error q podemos cometer.Distribuciones muestrales La inferencia estadística es una forma de razonamiento q va de lo concreto a lo general. El investigador, para confirmar o refutar las hipótesis teóricas q maneja, extrae una muestra representativa de la población objeto y sobre ella realiza las mediciones de las carac.relevantes para él. Para cada cara. se obtiene 1/+ valores numéricos, estadísticos = cualquiera (medidas de tendencia central, de posición, de variabilidad, de asimetría, de relación, de regresión, etc.). Y es a partir de ellos, obtenidos en la muestra (lo concreto) q tiene q realizar afirmaciones sobre los valores de los parámetros de la población (lo general). Pero ¿cómo se realiza ese saltσ? Hay q situarse en un plano hipotético en el q pudiéramos trabajar con todas las posibles muestras del mismo tamaño, n, q se pueden extraer de una población de tamaño N (siendo, obviamente, N >n).Razonando en el q pudiéramos extraer todas las muestras de la población, en cada una se realizaría la medición de la o las V y se obtendría un estadístico (media, proporción, varianza, correlación…) cuyo valor será dif. (o igual) al obtenido en cualquiera de las otras posibles muestras ya q, depende de los datos q la componen. Es decir, el estadístico en cada muestra se comporta como una V aleatoria, y sus dif. valores forman una distribución de probabilidad = distribución muestral. Como en toda distribución de probabili- dad, tb de la distribución muestral de uno de estos estadísticos obtenido para todas las muestras posibles, podemos obtener su media y desviación típica. Esta última, al estar referida a la distribución muestral de un estadístico = error típico del estadístico.De modo q el concepto de distribución muestral hay q distinguirlo de otros tipos de distribuciones; -Poblacional: se refiere a la distribución de los datos indiv. en la población,
-En la muestra: distribución de los datos indiv. q constituyen la muestra.
Vamos a abordar cómo son las distribuciones muestrales de 3 estadísticos muy utilizados en la investigación social: recordando q las
- primeras ya fueron tratadas. Veremos cómo la forma q adopta la distribución muestral depende de la forma q adopte la distribución
poblacional.Distribución muestral de la media Consideremos una población formada por todos los estudiantes universitarios de una det. comunidad de los q podemos conocer, a partir de sus datos de la matrícula, su edad. A partir de estos datos podemos calcular su edad media y la varianza de esta misma V (edad), valores q representamos por μ y σ 2, respectivamente (si dispusiéramos de +1 V, sería recomendable indicar, mediante subíndices, a qué V se corresponde cada media y varianza; μedad y σ 2 edad). De esta población podemos extraer una muestra de, 100 estudiantes y calcular su media (Y) y desviación típica (Sy) si representamos la V con la letra Y. Pero esta muestra no es la única posible. Se pueden extraer muchas otras dif., todas del mismo tamaño (n = 100), y en cada una calcular su media y desviación típica q pueden variar = q con las puntuaciones de todas las medias se origina otra distribución = distribución muestral de la media. Con el mismo procedimiento se obtendría la distribución muestral de la desviación típica o de cualquier otro estadístico, como la proporción, correlación de Pearson… y corresponde a la distribución de probabilidad de un estadístico q se obtiene al calcularlo en todas las posibles muestras del mismo tipo y tamaño, n, extraídas de una población N.Podemos suponer q la distribución muestral de la media es normal, o se aproxima suficientemente a la normalidad, cuando se cumple al menos 1 de las siguientes
condiciones:
•La V en la población se distribuye normalmente.•El tamaño de la muestra es =/> a 30 observaciones. En este caso, la forma de la distribución, puede ser normal o de otro tipo (Teorema Central del Límite).Si se desconoce la forma de la distribución poblacional de la V, la forma de la distribución muestral de la media depende del tamaño de la muestra. El Teorema Central del Límite (TCL) establece q sin importar la forma de la distribución poblacional, la distribución muestral de la media se aproximará a la normal a medida q ↑ el tamaño de la muestra. Y el tamaño q debe tener la muestra para q la distribución muestral se considere normal depende de la forma q tenga la distribución poblacional. Cuanto + se aleje ésta de la distribución normal mayor tendrá q ser el tamaño de la muestra. Por otro lado, si asumimos q la mayoría de las V q se utilizan en CCSS no se alejan en exceso de la distribución normal, vamos a considerar q una muestra es grande a partir de n > 30.Proceso de construcción de la distribución muestral para el estadístico media. A la izq; representación de una V en una población N. Esta es normal con media 100 y Sy=15. A la derecha; distribución muestral teórica del estadístico Media calculado en todas las muestras posibles de n. Ambas tienen la misma media pero la distribución muestral tiene una variabili- dad muy inferior a la variabilidad de la distribución poblacional. 3 / 4
Diseños Raquel Lamuño de 341 Cuando realizamos inferencia estadística sobre la media aritmética, siempre ha de cumplirse al menos 1 de las 2 condiciones, pero procederemos de forma dif. en función de si la varianza poblacional es conocida o desconocida.
1.Si conocemos la desviación típica poblacional o, y podemos asumir q la v en la población se distribuye normalmente, o bien n > 30, entonces consideramos q la distribución muestral del estadístico media es tb normal, cuya media y desviación típica
(o error típico de la media) son, respectivamente:
Para diferenciar los parámetros poblacionales (μy y σy ) de los de la distribución muestral de la media (μy y σy) hemos incluido en esta última un subíndice q señala el estadístico sobre el q se ha calculado la distribución muestral. Obviamente, si tipificamos el valor del estadístico media Y q se distribuye normalmente, obtenemos la V Z: cuya distribución será normal, N(0,1) = conocer mediante las tablas de la curva normal la probabilidad asociada a cada valor del estadístico Y en la distribución muestral, o la distancia, en términos probabilísticos, desde la media de una muestra concreta, Y, a la media de la población μ (q coincide con la media de la distribución muestral, μy). 2.Si, como es habitual en la práctica, se desconoce la varianza de la V en la población, pero podemos asumir q la distribución poblacional es normal o bien n > 30, los estudios por W.S. Gosset al final del sXIX demostraron q en estas circunstancias la distribución muestral de la media es una distribución dif. de la normal, distribución t de Student. La V sigue el modelo t de Student con n—1 grados de libertad, donde Sn-1 y 5, son, respectivamente, la cuasidesviación típica y la desviación típica de la muestra.Recuerde q en Introducción al AD, se describían las carac. de las distribuciones Z y t, indicando q la distribución normal estándar es simétrica con media
- y varianza 1 mientras q la distribución t de Student es tb simétrica con media 0 pero varianza igual a n/(n-2). A medida q ↑ el valor de n, la varianza de
la distribución t se va aproximando a 1 = t se irá aproximando a la normal Z. Podemos consultar valores para distribuciones t hasta 100 grados de libertad; para dichos grados los valores q nos ofrece la tabla son muy parecidos a los de la curva normal tipificados, por lo q, cuando los grados de libertad sean ↑ a 100, podemos utilizar los valores de la tabla de curva normal.
*Ej P9 y 10 del manual :)
Distribución muestral de la proporción En las CCSS es habitual dirigir nuestra atención a situaciones en las q no estamos interesados en la media de la muestra sino q queremos investigar la proporción de personas q votarán a un det. partido político, q presentan un det. síntoma… q cumplen una det.condición a la q genéricamente llamaremos «éxito» = tenemos q apoyarnos en la distribución muestral de la proporción, la cual se genera con la misma lógica q la distribución muestral de la media, con la única diferencia de q al extraer todas las posibles muestras n, el estadístico q se calcula en cada una es la proporción p = x/n (x = nº de datos de la muestra q cumplen la condición designada como «éxito» y n= tamaño de la muestra).Entonces, si llamamos π a la proporción de casos q cumplen una determinada condición en una población de tamaño N y extraemos todas las posibles muestras aleatorias n, en la q definimos la V p = «Proporción de aciertos», la distribución muestral de la proporción es la distribución de probabilidad del conjunto de todas las proporciones, p, en todas las muestras posibles n, extraídas de una población N. La V aleatoria p, sigue el modelo de probabilidad binomial, cuya media y desviación típica son, respectivamente: Como sabemos, las probabilidades asociadas a cada valor de p se pueden buscar en las tablas de distribución binomial con parámetros n y π.Por otra parte, la distribución binomial —igual q χ², la t de Student o F de Snedecor-Fischer— se aproxima a la normal a medida q ↑ el tamaño de la muestra, y por tanto se puede generar una nueva V cuya distribución es la normal tipificada:
*Ej P12 y 13 del manual :)
Distribución muestral de la varianza La varianza es una medida de dispersión q permite determinar la variabilidad q presentan los datos para la V objeto de estudio.No obstante, el proceso de construcción de una distribución muestral de varianzas no es tan inmediato como el de la media o el de la proporción. Nos limitaremos a describir cuál es la V aleatoria, su distribución de probabilidad, sus medias —o valor esperado— así como su varianza y desviación típica.
- / 4