INTRODUCCIÓN AL ANÁLISIS DE

SENDEROS Gabriel Sotomayor

Mayo 2023

CONTENIDOS

Calendarización

Retroalimentación Prueba 1

Análisis de Senderos

1. Introducción

2. Conceptos Básicos

3. Descomposición de los efectos path

4. Supuestos del Path Analysis

CALENDARIZACIÓN

Fechas

Contenidos Evaluaciones

22 de mayo

Análisis de sendero Tarea de AFC

29 de mayo

Análisis de sendero

5 de junio

Modelos de ecuaciones

estructurales

12 de junio

Modelos de ecuaciones

estructurales

Tarea de Senderos

19 de junio

Modelos de ecuaciones

estructurales

26 de junio

Feriado

3 de julio

Repaso Trabajo Final

ÍTEM 1 –REGRESIÓN LINEAL MÚLTIPLE

a) Tipo de variable dependiente en RLM: Intervalo o de razón. Numérica es parcialmente

correcta.

b) Mínimos cuadraros ordinarios: Método de estimación del a Regresión. Busca minimizar la

suma del cuadrado de los residuos.

c) Ejemplos: Poca problematización sociológica. Exceso de variables demográficas. No se

hace referencia específica a la interpretación de coeficientes ni estadísticos de ajuste.

d) Problemas con la interpretación de coeficientes:

Escolaridad: El coeficiente para la variable escolaridad (87210.88) indica que, manteniendo

constantes las otras variables del modelo, por cada año adicional de escolaridad, se espera

un aumento promedio en los ingresos autónomos de $87210.88.

ÍTEM 2 –REGRESIÓN LOGÍSTICA

a) Diferencia entre RLM y RLG: Nivel de medida de la variable dependiente. Transformación

logarítmica de los odds. Se modelan las chances (logaritmo).

b) Ejemplo: Buena selección de variables. En general hay buen manejo de la intuición tras la

técnica, pero problemas en las tecnicidades esepcificas. No es necesario ajustar dos modelos.

c) Bien en la comparación de modelos, problemas en la interpretación de coeficientes. Ej:

La variable “Mujer” (ref.hombre) tiene un coeficiente de 0.39 (0.03)***, lo que indica que los hogares con

jefatura femenina tienen mayores probabilidades de encontrarse en situación de pobreza que los con

jefatura masculina. En concreto, las odds (razón de probabilidades) de pobreza para una hogar con jefatura

femenina son exp(0.39) = 1.48 veces mayores que las de uno con jefatura masculina, manteniendo

constantes el resto de variables.

La variable “Edad” tiene un coeficiente de -0.03 (0.00)***, lo que indica que a medida que aumenta la edad del

jefe de hogar, disminuyen las probabilidades de que el hogar se encuentre en situación de pobreza. En

concreto, las odds de pobreza disminuyen en un factor de exp(-0.03) = 0.97,es decir en un 3%, por cada año

de aumento en la edad del jefe de hogar, manteniendo constantes las demás variables.

ÍTEM 3 –ANÁLISIS FACTORIAL EXPLORATORIO

a) Supuestos

•Nivel de medición: En principio se espera que sean continuas. Se requiere al menos ordinalidad.

•Tamaño muestral: Cómo mínimo se esperan unos 200 o300 casos en total

•Normalidad (univariada y multivariada): Todas las variables observadas y sus combinaciones

lineales han de estar distribuidas normalmente.

•Multicolinealidad: Para la extracción de factores comunes debe existir varianza común entre las

variables, de lo contrario es poco probable encontrar estructuras latentes relevantes.

b) Ejemplo: Poco prolijo en la especificación de las variables y los factores comunes que se

podrían obtener.

c) Análisis: Poca consideración del ajuste general. Falta de claridad respecto a los términos

(autovalores, varianza acumulada, estructura simple).

1. ANÁLISIS DE SENDEROS (PATH

ANALYSIS)

INTRODUCCIÓN AL ANÁLISIS DE

SENDEROS

Análisis de Senderos: método que evalúa el ajuste de modelos teóricos con relaciones

de dependencia entre variables.

No prueba la causalidad sino que ayuda a seleccionar o inferir hipótesis causales.

Extensión del modelo de regresión múltiple, examina la contribución directa e

indirecta de variables.

Orígenes en estudios filogenéticos, introducido en ciencias sociales en el siglo XX.

Uso creciente en sociología, psicología, economía, ciencias políticas, ecología y otras

disciplinas.

EVOLUCIÓN Y APLICACIÓN DEL

ANÁLISIS DE SENDEROS

•Surgimiento de programas informáticos para Modelos de Ecuaciones Estructurales

(SEM) en 1980.

•Diferencia entre PA y SEM: SEM mide variables latentes usando múltiples medidas y

modela el error de medición.

•Aunque las variables observables pueden medirse directamente, no son reflejos

exactos de la variable, hay factores aleatorios e imprevisibles.

•Ventajas del SEM: estima el efecto adicional del error de medición, permite

establecer la validez de constructo de las variables latentes.

•A pesar de las ventajas del SEM, el PA sigue siendo útil y muy utilizado en la

investigación psicológica.

FUNCIONAMIENTO Y PROPÓSITOS

DEL ANÁLISIS DE SENDEROS

•El investigador realiza regresiones para analizar las relaciones entre variables, las

cuales pueden operar como variables independientes de otras variables en el

modelo.

•El PA evalúa el ajuste del modelo: el grado en que el modelo propuesto representa

las relaciones entre las variables bajo estudio.

•El PA permite detectar modelos poco ajustados a la realidad y provee estimaciones

de la magnitud y la significación de las relaciones hipotetizadas entre un conjunto

de variables.

•Se puede representar el modelo mediante la creación de un diagrama con flechas

que conectan las variables en estudio, estimando coeficientes path que son

análogos a los coeficientes beta del análisis de regresión múltiple.

2. CONCEPTOS BÁSICOS

CONVENCIONES EN EL ANÁLISIS

DE SENDEROS

•Diagramas son comunes para representar modelos hipotéticos en PA.

•Convenciones a tener en cuenta:

•Flechas indican la relación entre variables; su sentido indica la dirección de la relación.

•Flechas bidireccionales indican la covariación entre variables sin dirección especificada.

•Cada flecha tiene un coeficiente path que indica la magnitud del efecto de la relación entre las

variables.

•Variables que reciben influencia de otras se denominan endógenas, las que no reciben

influencia son exógenas.

•Variables observables se enmarcan en cuadrados, variables latentes en círculos.

•Los efectos directos operan directamente de una variable a otra.

•Los efectos indirectos ocurren cuando la relación entre dos variables es mediada por una o más

variables.

VARIABLES Y COEFICIENTES EN EL

ANÁLISIS DE SENDEROS

•Variables exógenas: sus causas son externas al modelo, su función es explicar las

otras variables internas del modelo.

•Variables endógenas: tienen sus causas en una o más variables del modelo, incluyen

variables dependientes e intervinientes.

•Términos de error o residuales: variables exógenas no medidas directamente,

reflejan causas inespecíficas de variabilidad en la variable dependiente o varianza no

explicada más cualquier error debido a la medición.

•Coeficientes path: indican la magnitud y el signo del efecto de una variable sobre

otra variable endógena, representan el efecto de una variable sobre otra,

controlando el resto de las variables.

APLICACIÓN PRÁCTICA DEL

ANÁLISIS DE SENDEROS

•Modelo del rendimiento académico en Lengua, formulado por Pérez, Medrano y

Ayllón (2010).

•Variables consideradas: aptitud cognitiva verbal, creencias de autoeficacia para la

escritura y rendimiento en Lengua, estructura de metas de aula de maestría.

•El modelo propone relaciones directas, indirectas y correlaciones entre estas

variables.

•El diagrama de este modelo representa las relaciones causales hipotetizadas.

APLICACIÓN PRÁCTICA DEL

ANÁLISIS DE SENDEROS

APLICACIÓN DE ECUACIONES EN

EL ANÁLISIS DE SENDEROS

•PA es una extensión del análisis de regresión múltiple y sigue sus supuestos: todas

las relaciones entre las variables son lineales, aditivas y causales.

•El modelo puede especificarse mediante un conjunto de ecuaciones estructurales

que describen las relaciones directas entre las variables.

•Ejemplo:

•Prom. Lengua = pPR + pPE + pPL + eP

•Ef. Lengua = pLE + pLM + eL

•Ef. Escritura = pER + pEM + eE

•Cada variable endógena tiene un término de error o path residual que representa la

variación no explicada por las variables predictoras.

3. DESCOMPOSICIÓN DE LOS

EFECTOS PATH

DESCOMPOSICIÓN DE EFECTOS PATH EN EL

ANÁLISIS DE SENDEROS

•Una contribución específica del PA es su capacidad para descomponer asociaciones

entre variables en efectos directos, indirectos y espurios.

•Efectos directos: influencia inmediata de una variable sobre otra.

•Efectos indirectos: influencia mediada por una o más variables intermedias.

Ejemplo: Ef. Escritura afecta al Prom. Lengua indirectamente a través de Ef. Lengua.

•Efectos espurios: relación entre dos variables endógenas es influenciada por una

tercera variable no contemplada en el modelo. Ejemplo: relación entre Ef. Escritura

y Ef. Lengua influenciada por Maestría.

ESTIMACIÓN Y SIGNIFICACIÓN DE LOS

EFECTOS EN EL ANÁLISIS DE

SENDEROS

•Los efectos de una variable sobre otra se estiman mediante coeficientes path

estandarizados.

•La magnitud de los efectos indirectos se estima al multiplicar los coeficientes path a lo largo

de la línea causal entre dos variables.

•Ejemplo: Efecto indirecto de Ef. Escritura sobre Prom. Lengua = (pLE x pPL) = (.52 x .13) = .07.

•Efecto total = efectos directos + efectos indirectos indirectos.

•Significación estadística de los efectos se calcula dividiendo los coeficientes no

estandarizados por el error estándar, obteniendo un valor z.

•Valores z superiores a ± 1,96 indican un efecto significativo a un nivel p<0,05 (Test de Radio

Crítico).

•Estos datos suelen ser proporcionados por programas estadísticos como R (paquete Lavaan).

ESTIMACIÓN Y SIGNIFICACIÓN DE LOS

EFECTOS EN EL ANÁLISIS DE

SENDEROS

4. SUPUESTOS DEL ANÁLISIS DE

SENDEROS

SUPUESTOS DEL PATH ANALYSIS (I)

•Path Analysis (PA) es una extensión del análisis de regresión múltiple y requiere el

cumplimiento de sus supuestos junto con otros adicionales.

•Exploración de datos: Detectar valores extremos (outliers) y valores perdidos

(missing) para evitar distorsiones en el análisis. Para los outliers, se pueden usar

puntajes Z (rango +-3) y la distancia de Mahalanobis (D²).

•Manejo de outliers: Recomendado removerlos o recodificarlos al puntaje extremo

más próximo.

•Valores perdidos: Su impacto depende de la cantidad y el patrón.

SUPUESTOS DEL PATH ANALYSIS

(II)

•Tamaño de la muestra: Se recomienda entre 10 y 20 casos por parámetro y al

menos 200 observaciones.

•Independencia de errores: El término de error de cada variable endógena no debe

correlacionarse con otras variables.

•Normalidad: Los datos deben seguir una distribución normal. Se puede verificar la

normalidad univariada y multivariada examinando los índices de asimetría y

curtosis, y el índice multivariado de Mardia.

SUPUESTOS DEL PATH ANALYSIS

(III)

•Linealidad y Multicolinealidad: Los datos deben tener una relación lineal y las

correlaciones bivariadas entre variables no deben ser demasiado altas (más de 0.85

indica posible multicolinealidad).

•Recursividad: Las influencias causales deben ser unidireccionales y sin efectos

retroactivos.

•Nivel de medición intervalar: Se asume para la mayoría de las variables, aunque a

veces se pueden usar variables nominales u ordinales.

•Confiabilidad: Los instrumentos de medición utilizados deben tener propiedades de

confiabilidad al menos moderadas.