¡Descarga Diseños experimentales y más Resúmenes en PDF de Psicología solo en Docsity!
Discúos experimentales
y cuasiexpcrimcntalcs
en la investigación social
Disenos experimentales
y cuasiexperimentales
en la investigaci{>n social
Donald T. Campbcll
J ulian ( :. Stanlcy
Amorrortu editores
Buenos Aires
l
·, 1'...
i "'セM ·'···.:! 1 セャ@ '• :!.J•.
l. Introducción
Examinaremos en esta obra 1 la v;llicle;,: de dieciséis diseiíos
experimentales respecto de dllCC amenazas corrientes rr la in-
ferencia válid,1. Pot «experimento» entendemos pal'te de la investigación en la cnal se manipulan ciertas variables y
se observan sus efectos sobre otras. C<'lWÍcne aclarar que el
propósito particular de este libto no es estudiar el diseño cx-
perimen tal dentro la tradición Fishcr 119 25, 19 3 5 l,
donde el experimentador, con pleno dominio de la sittución,
prognuna tratamientos y mediciones a fin de lograr la mejor eficiencia estadística, único objetivo al que obeckce la mayor o menor complejidad disefío. Los diseños aquí analizados
son tílnto más complejos cuanto mayor es la inflexibilidad del
ambiente; es decir, en h medida en que el experimentador
carece de control absoluto sobre la situación. Aunque hay
no pocos puntos de contacto entre nuestro tratamiento y el
de la corriente de Fisher, juzgamos apropL1do la ex- posición de esta última páta obras de mayor envergadura,
corno las Brownlee [1960], Cox [ 19 58], Edwards [ 1960],
Ferguson [1959], Johnson [1949], Johnson y Jackson
[1959], Lindquist [195 3], McNemar [ 1962] Winer
f 1962] (También puede consultarse Stanley, )
La preparación de esta obra, en la que colaboraron Keith N. Clayton
Paul C. Rosenblatt, contó con el auspicio del Proyecto Psicología-
de la Northwestern Univcrsity, bajo el patrocinio de lB '--"-"'"""' Corr;mation.
ma
!!JfcCall como
W /. 1\1cCall
m (
comenzaremos, pues, Decía McCall en su
us (^) entes
to
Y que exponen el
cxpcrlmentalcs, pero muy pocos acerca cómo obtener datos
<lclccuados y co_rrectos a los cuales aplicar el
mtento cstadfsttco». enunciado continúa siendo tan cíclto <.me ーオセ、・@ servirnos de leitmotiv. Aunque Ja inf:lucncia de (^11) ' co r (^) nen.e• (^) reme díó la situación en aspectos fundamentales, su efecto más ィ。セ・Qᄋ@ sidn c1 de afinar y perfeccionar el análisis estr.-
,. ". :nas que el ayudar a conseguir «datos adecuados y
セoエイ・」■Nosエ^N@ por su ッイゥ・セャエ。ZMゥョ@ práctica y sentido común, v porque
no pretende 」ッョウエエエセャャイ@ un aporte capital, el libro 、セ@ McC.lll
representa un. ;=lástco insuficientemente valorado todavía. aparcc1o: dos años antes de la primera edición de
. n;ethods for research workers (Métodos estadísticos
para mvesu¡_;ad?rcs), de Fisher [ 1925], no había nada com- parable cwtlrt?ttVéll1lcnte a él en el ámbito de la arrricultura ni en el la psicología. Se anticipó en varios ーオョエッセ@ fundamen- tales }1 セ。ウ@ metodologías ortodoxas de esas dos ciencias. Acaso la mas tmportantc de las contribuc1'or1es í ·:!" ¡
· ¡ f. " " · · nava s!t o a
le ca. ot?;urlar la Igualación preexperímental de gru¡;os por aleatortzGcwn. Esta .idea, Iセ@ el consecuente rechazo de Ja tentativa de lleaar
a エ。ャャァオ。Nャ。セエョ@ por equiparación (pese a su intuitiva atracclón
Y. ーッエ・ョ」Q。ィセ。、@ 、セ@ error), no mereció Lícilmente la aproba- cw,n de los スョカ・ウエjァ。、ッイセウ@ del セュ「■エッ@ educacional. En 1923, セ」セ。ャャ@ habla comprendtdo cuales eran Jos elementos cua-
. 1tat1vos fundamentales del problema. Dio, como primer mé-
todo para establecer grupos comparables, el de los «grupos
íguülados por azar». «Así como se puede lograr la representa- tivídad por el método aleatorio ( ... ) también se puede conseguir la equÍV<llencia por el mismo medio, siempre que el número de sujetos que havan de utilizarse sea lo suficien- temente grande,> ( P<Íg. 41). También en otro punto se anti-
cipó a Pishcr: la introducción del diseño del cuadrado latino
con el de «e:qx:rimcnto rotatorio», que por otra parte
habLm utilizado ya Thorndike, McCnll y Chapman [1916],
tanto en forma:; 5 >; 5 como 2 X 2, unos 10 años antes de que Fisher [ l 926] lo incorporase de modo sistemático a su esquema de diseí1o exp¡;rÍmental con aleatorización." La forma en que McClil utiliz,¡ el ,<C.'Xpcrimento rotatorim> ilustra muv bien el énfasis t<lnto de su obra como de la pre-
セ」ョエ」N@ El «experimento rotatorio» !;e introduce, no por razones
de cficienci,l, sino nüis bien para logr,¡r algún control cuando no es posible la a-;ign;lCÍÓn aleatoria grupos equivalentes. Con una intención similar examinaremos aquí las imperfec- ciones de ュオ」ィッセ@ programas experimentales, abogando no obstante por su aplicación en aquellas configuraciones en que no hav<l modo de recurrir a mejores diseños experimentales. En este sentido, b mayor pHrtc de los diseños analizados, in- cluso el <<experimento rotatorio» no aleatorizado, se denomi- nan discüo<; cuasíexpcrímentales.
La desilusión provocada por los experimentos llevados a cabo
en el campo de la educación
En esta obra nos declaramos partidarios del método experi- mental como único medio de zanj,u· las disputas relativas a la práctica educacional, única forma de verificar adelantos en el campo pedagógico y único método para acumular un saber
al cual puedan introducírsclc mejoras sin correr el peligro de
que se descarten caprichosamente los conocimientos ya adqui- ridos a cambio de novedades de inferior calidad. Sin embargo, con nuestra enérgica defensa de la experimentación no pre- tendemos significar que este énfasis sea nuevo. Como lo ma- nifiesta la existencia misma del libro de McCall, en tiempos de Thorndike una ola de entusiasmo experimental recorría el ámbito de la educación, alcanzando quizá su punto culminante
2 Kendall y Buckland [1957] afirman que el cuadrado latino fue in· ventado por el mattmático Euler en 1782. Thorndike, Chapman y セャ」c。ャャ@ no utilizan esta expresión.
de mayor Hctividad, la experimentación educacional avanzó empleando medios y procedimientos burdos.
McCall [ 1923] y sus contemporáneos realizaron investigacio-
nes en las cuales se estudiaba una sola variable por vez. Pam la enorme complejidad que caracteriza las situaciones de apren- diz,¡je humano, aquello resultaba demasiado lento. Hoy se sabe
la gnm importancia que pueden asumir diversas contingencias,
depen(Jíentcs de la «acción» conjunt« de dos o más カ。イゥ。ィャセウ@
experimentales. Stanlcy [1957a, 1960, 1961b, 196lc, 1962],
Stanlcy y \Viley [1962] y otros han dest<Kado la imperiosa necesidad evaluar tales interacciones. Los experimentos pueden incluir algunas variables en cual· quiem de dos sentidos o en ambos a la vez. Por eíemplo, in- corpoNndo al discüo más de una variable «independiente>? (sexo, grado escolar, método co11 que se enseña aritmética,
estilo y tamnfío de los tipos de írnprcnta, etc), y/ o emp1ean-
dn m!.s de un<l variable <<tlcpcnJientc» (número de errores,
velocidad, divcts<ls pruebas, etc.). Los procedimientos de
Físhcr son multivnriados en d primer sentido y univariados
en el st:gundo. Estadísticos matemáticos como Roy y Gnana .. desikan [ l éJ'l9] tratan de encontr<lr diseños y an,1lisis que unifiquen ambas formns de diseños multivariados. 'I\1l vez per- numcdemlo <lkttas a la evolución de tales diseí1os puedan los
investig<Kiores en el campo de la educación reducir la brecha,
por lo común demasindo étmplia, entre la exposición en la li-
tetatura cspeciaíizmla de un procedimiento estadístico y su aplicación práctica a investigaciones de envergndura. No cabe duda de qne una capacitación más a fondo de los
investigadorcs educacionales en técnicas modernas de estadís-
tica experimental permitiría elevar la calidad de la experimen- tación pedagógica.
Concepción evolutiva sob1·e la ciencia y la acumulación
de conocimientos
Como fundamento de lo expuesto en los párrafos precedentes y lo que se expondrá en los que siguen señalamos una con- cepción evolutiva del conocimiento [Campbell, 1959], según
la cunl la aplicación práctica y el conocimiento cíentifico son
el resultado de la acumulación de ciertas tentativas seleccio- nadas y remanentes del caudal de observaciones recogidas por la experiencia. Esta concepción inspira gran respeto por la エイセᆳ dición en la práctica pedagógica. Si en el trascurso de los s1-
se han ensayado muchos enfoques distintos, si de eilcs
. ィ。セA@ obtenido mejore:; resultados que otros y los que Junclonaban es de suponer que habtán los aplica· por
pm:s, neccsmimncnte con- con relación al tr,;dicional, sino más bien como rnccanismo de refinación superpuesto a las ncs prohablemen'lc valiosas de la práctica sensata. pues, una ciencia de la educación no
pudbr el saber
Algnnos lectores abrígadn tal vez la de que la ana-
セッァヲ。@ con el esquema evolutivo darwiníano se complique con
factores de carácter específicamente humano. Cunndo
Pérez, director de escuela, tiene que decidir entre adoptar un libro de texto modificado o continuar con la versión anterior, es probable que h<lga su elección fundándose en insu-
ficientes. Aparte de la eficiencia misma para la enseñanza y
el aprendizaje, son muchas las consideraciones que habrá de
tomar en cuenta. El director hará lo correcto en una de estas dos formas posibles: reteniendo el libro antiguo cuando sea tan
bueno o mejor que el revisado, o adoptando este último cuan-
do sea superior al primero. Pero puede equivocarse también de dos maneras: reteniendo el libro antiguo cuando el nuevo es mejor, o adoptando este cuando no es superior al primero. En cada una de las dos elecciones erróneas es de suponer que se producirán inconvenientes diversos: 1) mayor costo finan· ciero y de gasto de energías; 2) costo para el director, en for- ma de quejas de los maestros, padres y miembros del consejo escolar; 3) costo para los maestros, los alumnos y la sociedad a causa de una peor instrucción. Estos costos, evaluados en términos de dinero, energía, confusión, menor aprendizaje y mayor riesgo personal, deben sopesarse frente a la probabili· dad que se produzca cada una de dichas alternativas, así
como la de que se detecte el error mismo. Si el director toma
su decísión sin elementos ¡mc1o, fruto de una
investigación a fondo, sobre el costo 3 (peor instr?cción), es
posible los costos 1 v 2. T.os VIenen bara-
jad?s en un criterio 」ッQセウ」イカᄀᄀ、ッイZ@ mantener el libro
antumo un año más. Cabe, sin tratar de pre-
ー。イセセNᄋ@ un con ambos libros a In vez, de acuerdo
con un esquema de tcorL1 de la decisión [ Chernoff .Y 1'v1oscs,
1959], adoplar un :e resolución tome explícitamente en
encarar.
diversos costos Cómc conseguir
excelente administra-
de teoría de la
bien vale la pena
Factores que atc11lan contra la interna como externa
ta;zto
capítulos de esta
amc:nazan la validez varios cxpcrímen.
uno de dichos factores se con todo dcta11c
Pv<>r•"r•r los diseños a propósito los cuales constituye un
particular; diez de los diseños se presenta-
¡mtes de la lista. A fin de lograr una perspec-
tiva más seria sin embargo, que
una lista de dichos factores, así como una guía general acerca
de los cuadros 1, 2 y 3, que resumen parcialmente el anáiísis.
Es fnndmnental a este respecto distinguir bien entre validez
intcma y validez externa. Llamamos validez interna a la míni ..
ma imprescindible, sin la cual es ゥューッセゥ「ャ・@ iD:terpretar el セッᆳ
¿ Introducían, en realidad, una d1ferenc1a los tratamien-
en este caso concreto? Por su
externa plantea el interrogante de la posibili-
¿A poblaciones, situaciones, varía-
de tratamiento medición puede
zarse este efecto? criterios son sin duda importantes,
aunque con frecuencia se contrapongan, en el sentido de que
ciertos aspectos que favorecen a uno de ellos perjudican al
otro. Si bien la valíde.z interna es el sine qua non, y a la cues-
tión de la validez 」クエ・イュセL@ como a la de la inferencia
tíva, nunca se pHede responder plenamente, es obvio que nues-
3 Gran parte de esta exposición se funda en Campbell [1957]. En no harán referencias a esta fuente.
tm ideal lo la selección de diseños ricos en
otrcl vaíídez. Así ocurre, particularmente, respecto
vestigación sohrc de ensef:íanza, donde el
será la generalización a sítu.;Jeiones prácticas de carácter cono-
cido. T;mto las distiudoncs como las relaciones entre estos
dos tipos de consideraciones de validez irán
cxptíci tas a medida que se las ilustre durante
de el iscííos
Con relación
distintas de
1. Tiístoria, los acontecimientos específicos
primera y la adcm,.ís de expe-
rimentaL
2. Jvfi!cluracirín, procesos internos de los participantes, que
<1peran como resultado del rncro paso del tiempo (no son pe-
culiares de los acontecimientos en cuestíón), y que incluyen el
aumento de la el han:2brc, el cansancio y
- tests, el influjo la administración
de un test otro
4. me-
dición o en los observadores o que
pueden variaciones en las mediciones que se obten-
g;:111.
'5. opera alli donde se seleccionado
、セ@ sus puntajes extremos.
(J. Sesgos en una selección de partici-
pantes para los grupos de comparación.
- expetímental, o diferencia en la pérdida de
particípantes los grupos de comparación.
8. Interacción entre la selección y la
gunos 、セ@ los diseños cuaslexperimentales
como el se con el efecto de la
mental (es que podría tomarse por él).
Los factores que amenazan la validez externa o representati-
uiclad, y que vamos a analizar aquí, son:
9. El efecto reactivo o de interacción las pruebas, cuando
aumentar o disminuir la sensibilidad o la
reacción del participante a la experimen-
el esfuerzo ahorrado al estudio igualmente cuidadoso de un apropiado caso de comparación! Parece hasta casi falto de ética el aceptar hoy, como tesis de doctorado en el ámbito educa- cional, estudios de casos de esa índole (es decir, que implican un solo grupo observado una sola vez). En ellos, los tests «estandarizados» solo ofrecen una ayuda muy limitada, puesto que las fuentes antagónicas de diferencias (distintas de X) son tan <lbundantcs que tornan casi inútil el grupo «están- dan> de referencia como <<grupo de control». Por los mismos motivos, las muchas fuentes no controladas de diferencias en-
tre el estudio actual de un caso concreto y otros que, plan-
teándose en el futuro, pudieran compararse con aquel son tan- tas, que hacn tmnbién inútil su justificación como punto de referencia p.tra estudios posteriores. En general, sería mejor distribuir el esfuerzo descriptivo entre los dos miembros de una comparación interesante. Si se lo toma en conjunto con las comparaciones implícitas de «conocimiento común», el diseño 1 presenta la mayor parle de los inconvenientes de cada uno de los diseños posteriores.
Por eso dejaremos el estudio de esos inconvenientes para cuan-
do encaremos situaciones más específicas.
2. Diseño pretcst-postest de un solo grupo
Si bien este diseño continúa siendo de gran aplicación en la investigación ・、ョ」。」ゥッョイセャL@ y se lo considera tan superior al diseño 1 que se lo utiliza allí c1onde no cabe hacer nada mejor
(véase 1m'Ís adelante el イセョ£ャゥウゥウ@ de los diseños cuasiexperimen-
talcs), lo presentamos aquí como un «mal ejemplo» para ilus- trar algunas de las variables externas entremezcladas que pue-
den atentar contra la validez interna. Esas variables ofre-
cen hipótesis aceptables que explican una diferencia Üt - O:z, opuesta a la hipótesis de que X causó la diferencia:
La primera de estas hipótesis rivales no controladas es la his-
toria. Entre 01 y ッセ@ pueden haber ocurrido muchos otros acontecimientos capaces de determinar cambios, además de la
X sugerida por el experimentador. Si el pretest ( OI) y el
postest HッセI@ se administraron en días distintos, los aconteci- mientos intermedios pueden haber causado la diferencia. Para
convertirse en una hipótesis rival aceptable, tal acontecimiento
debería haber afectado a la mayor parte de los estudiantes que integran el grupo examinado (p. ej., en algún otro perío- do lectivo o por medio de una noticia periodística muy difun-
dida). En el estudio escolar realizado por Collicr en 1940,
sobre el cual informó en 1944, se produjo la caída de Francia
mientras los estudiantes leían abundante material de propa- ganda nazi; los cambios de actitud comprobados parecieron ser consecuencia, más probablemente, de ese suceso que de la pro-
paganda en sU La historia se convierte en una explicación rival
m<Ís aceptable del cambio cuanto más extenso es el lapso entre
;Ot y 0:!, y podría considerarse un detalle trivial en un ex-
perimento realizado dentro del breve lapso de una o dos horas, si bien mm en tal caso deben investigarse fuentes externas
como las risas, las distracciones, etc. La variable historia se
relaciona con la característica de aislamiento experimental,
que en muchos laboratorios de física suele conseguirse con tanta aproximación que el diseño 2 resulta aceptable a propó- sito de la mayor parte de sus investigaciones. Pero en el estudio de métodos de enseñanza casi nunca se puede suponer un aislamiento experimental tan completo. Por eso en el cuadro 1
el diseño 2 se ha marcado con un signo negativo bajo el títu-
lo Historia, en el que incluiremos un grupo de posibles efec-
tos estacionales o de programación de acontecimientos institu- cionales, aunque también estos podrían situarse al pie del tí-
tu.lo Maduración. Así, el optimismo podría variar con las
estaciones y la ansiedad producida por el programa de exáme-
nes semestrales [p. ej., Crook, 1937; Windle, 1954]. Tales
efectos acaso produjesen una variación 01- Oz confundible con el efecto de X. Una segunda variable o categoría de variables rivales recibe
el nombre de maduración. Tal como lo entendemos aquí, este
término abarca todos aquellos procesos biológicos o psicoló-
gicos que varían de manera sistemática con el correr del tiem-
po e independientemente de determinados acontecimientos ex- ternos. Así, es probable que entre 01 y ッセ@ los estudia;1tes hayan aumentado de edad, apetito, fatiga, aburrimiento, etc., y acaso la diferencia obtenida refleje ese cambio y no el de X. En educación correctiva, que se aplica a personas ex- cepcionalmente disminuidas, un proceso de «remisión espon- tánea», análogo al que se produce en la curación de heridas,
1 En realidad, Collier utilizó un diseño más adecuado que este, que en el presente sistema se denomina diset'ío 10.
Cuadro l. Fuentes de
" セ@
i
J)isnlos ¡;recxperimentales l. Estudio de caso COJI una sola mediciún
X o
Di:.:C'ño prde.st- pnste;-;t (^) de llTl solo grupo
o X o
- Comparaciún^ ctm (^) + un grupo estático
X o
o
Di1·1 ッセ@ cxperimentrtl(:s propiamente dichos
- Di.cwño de grupo (h•^ con troJ ーイ」ィᄋセエMーッN\^エHᄋZ[エ@
R o X o
1l. o o
- Diseño de cuatro t grupos de Snlmnoll
H ()^ X o
ll o o
R X^ o
R o
lí. Dist>fio de gniJHl f.1e control con postcst l'tnicnmentc
¡¡ X o
R o
invalidación para los diseños 1 a 6.
Fuf'ntcs de invalidación Tutnna
·O" •O·o^ " セ@ セ@
•O·¿; (^15) "' f:: (^) ·r: "'a^ Mセ@" .,:; セ@^ ·:::J ..::; s^ h^ セ@ "'^5
--. ..-,: cr;·:U
+ f-
v d..l (^0) en
Extnna
"':él"
E
D ;:::
qne hay iir.perfección defi- el int<'J'!Ot;ativo, la pr('sencla últinw, el espacio en blanco
confundirse con el de una X correctiva.
Ni que decir tiene que tal nc se considera
tánea >> en ningún sentido causal, sino que representa más
los acumulativos de los procesos aprendizaje y pre-
de la experiencia global diaria, que se pro-
aunque no se hubiese introducido ninguna X.)
Una tercera explicación rival entremezclada es el efecto de la
de pruebas, el efecto del prctest mismo. En prue-
rcndimiento e inteligencia, estudiantes a quienes se
somete a ellas por segunda カ・[セL@ o a untl de sus variantes,
etc., suelen desempci1arse mej0r l0s que las encaran por
vez primera [p. ej., Anastasi, 1 190-91; Cane y
1950]. Esos efectos, que alcanzan de 3 a 5 puntos
de en promedio para sujetos sin experiencia previa, se pro-
ducen aun sin haberles hecho comentario acerca de sus
errores en el test anterior. las pruebas de
se advierte un resultado en las segundas
en general, un mejor ajuste, aunque en ocasiones
se halla también un efecto altamente significativo en senddo
contrario [ \vindle, 19541. En cuanto a las actitudes hacia
grupos minoritm:ios, una segunda prueba suele indic,u un ma-
yor prcjnido, aunque los datos disponibles son todavía esca-
sos [Rankin y Campbell, 19'55]. Es obvio que el anonimato,
una mavor 」ッョ」ゥセ・ョ」ゥ。@ de qué respuesta es la socialmente
<lprobada, etc., influirían en general sobre la índole del resul-
tado. Para tests de prejuicio en condiciones anonimato, el
r:ivd de creado por las expresiones hostiles presen-
tadas modificar las apreciaciones del en lo
a la tolerancia que existe para actitudes de ma-
yor hostilidad. En un inventario de adaptación o de perso-
nalidad que lleva la firm<J del sujeto, la administra-
ción del test forma parte de una situación solución de pro-
hlcmas en que el estudiante trata de descubrir el propósito
oculto de la prueba. Si ya ha pasado por aquella experiencia
(o si habló con sus amigos sobre las respuestas que ellos die-
ron a algunos los puntos más destacados), sabe mejor có-
mo comportarse la segunda vez.
Con el problema los efectos del test se relaciona la distin-
ción entre las posibles mediciones de su reactividad, lo cual
constituirá un importante tema en todo este libro, así como
una exhortación general a que se hagan mediciones no reacti-
vas siempre que sea posible. Desde hace mucho tiempo ha
sido una verdad manifiesta en las ciencias sociales que el pro-
ceso mismo de medición puede hacer cambiar aquello que se
1, Regresión en la predicción de postest
pretest, y viceversa.
Pl!nlc!ÍI'S pOSl(',;ts
pretests g^ ')^ !O
u
L?
11 ,-,
lO 9
z^1
,.. ,.. ,....
00 \0^ \D^ o^ o^ >-' \Jl vo^ V. o V. o V.
de- qu<: indica predicción a pos test M edicto·> )'OSIC'SIS
ll,O
9,
Línea de regreslOn c. que indica la mejor predicción de postes! (a) a pretest
Predicción Ptedícción De grupos A ュ・、ゥセウ@ prercsts ---Jo- postcsls homo¡r1;neos
n ¡¿
11
g ... MMMMMMMMOセ@
7 /^ •
(b)
A medias De grupos pretests - postesl:s ィッョQョァHセョ」エ@ )S
n ..
12 11
10
.,.____________.,
R
(e)
Las inferencias causales más erróneas son las que se extraen
cuando la información se presenta en la forma indicada en
la figura 1 ( b) [o la parte superior o inferior de 1 ( b) l. Así
se da la impresión de que los alumnos más brillantes van
perdiendo su ventaja, y viceversa, como si fuese por el efecto
vulgarizador y homogeneízante del medio institucional. Aun-
que esta errónea interpretaci6n implica que la variabilidad po-
blacional en el postcst debería ser menor que en el pretest,
ambas son en realidad iguales. Más todavía: si se procede al
análisis con grupos puros de puntajes pos test [como en la lí-
nea de rcgresi6n ,e y la figura 1 (e) l, quizá se llegue a la con-
clusi6n contraria. Como lo señnló McNemar [ 1940], el uso
del análisis de control de tiempo invertido y el examen directo
en busca de cambios en las variabilidades poblacionales son
precauciones útiles contra dicho error de interpretación.
Cabe observar la regresión hada la medía en otra forma aná-
loga. Cuanto más desviado sea el puntaje, mayor será el pro-
bable error de medición. Así, en cierto sentido, el típico alum-
no habituado a la obtención de puntajes elevados se habrá
visto favorecido por una <<suerte» extraordinaria (gran error
positivo), al paso que la mala fortuna acompañ6 a quien
obtuvo puntaje muy bajo (gran error negativo). La suerte
es, sin embargo, caprichosa, por lo cual en tm postest se ;;s-
pera que quienes poseen puntajes elevados declinen algo en
el promedio, así como que los de puntajes bajos mejoren su
posición relativa. (Se aplica la misma lógica si se comienza con
los puntajes de postest y se procede hacia atrás, en dirección
al pretes t. )
La regresi6n hacia la media es un fenómeno general, que no
se limita a la administración del pretest y del postest con Ja
misma prueba o formas similares de ella. El director que ob-
serva que sus estudiantes de mayor CI suelen obtener pun-
tajes inferiores a los máximos (aunque muy elevados) en las
pruebas de rendimiento escolar, mientras los de menor CI no
suelen ocupar el extremo inferior en esas pruebas (aunque sí
puestos bastante bajos), sería culpable de falacia en la re-
gresión si dijese que su escuela subestimula a los alumnos más
brillantes y recarga de trabajo a los atrasados. Si seleccionase
a los que obtuvieron el mayor y el menor puntaje en la prueba
de rendimiento y analizara sus CI, la misma falta de lógica lo
forzaría a llegar a la conclusión opuesta.
Si bien hemos hablado aquí de la regresión a propósito de los
errores de medición, en general, ella depende más bien del
grado de correlación: cuanto menor sea esta, mayor será la
r<:gresión hacia la media. La falta de correlación perfecta puede
deberse a «error» y/ o a fuentes sistemáticas de variancia es-
pecífica propia de una o de otra medición.
Los efectos de la regresión son, pues, acompañamientos ine-
vitables de 1a correlación imperfecta de test-retest para grupos
seleccionados por su ubicación extrema. No son, sin embargo,
concomitantes necesarios de puntajes extremos dondequiera
que ellos se produzcan. Si un grupo seleccionado por razones
independientes resulta poseer una media extrema, hay una
menor expectación a priori ele que la media grupal regresione
en una segunda prueba, pues se ha permitido a las fuerzas
aleatorias o externas de variancia que influyan sobre los pun·
tajes iniciales en ambas direcciones. Pero no ocurre así en un
grupo seleccionado a causa de su extremidad en una variable
falible, pues ella es artificial y dicho grupo regresionará hacia
la media de la población de donde se lo seleccionó.
Efectos de regresión más indirectos pueden obedecer a la se-
lección de sujetos con puntos extremos en mediciones diferen-
tes del pretest. Consideremos un caso en el cual se eligen,
para recibir adiestramiento experimental, estudiantes que «fra-
casan» en pruebas tomadas en el aula. Como pretest, se les
administra el tipo A de un test estándar de rendimiento es-
colar, y como postest el tipo B de dicho test. Es probable
que la prueba tomada en clase tenga una correlación más alta
con la administración inmediata del tipo A que con la admi-
nistración del tipo B unos tres meses después (si en cada se-
sión toda la clase ha sido objeto de la prueba). Cuanto más
elevada sea la correlación, menor será la regresión hacia la
media. Por consiguiente, los fracasos de la clase habrán deter-
minado una regresión ascendente menor en el pretest que en
el postest, dando una seudoganancia que podría haberse con-
fundido con un conato afortunado de educación correctiva.
[Para más detalles sobre ganancias y regresión, véase Lord,
1956; McNemar, 1958; Rulan, 1941; R. L. Thorndike, 1942.]
Con ello se concluye la lista de inconvenientes del diseño 2
que podemos analizar en este momento. En el cuadro 1 apa-
rece otro signo negativo bajo el título «Validez interna», co-
rrespondiente a un factor que no analizaremos hasta exponer
el diseño 10 (véase página 93) en la sección de diseños
cuasiexperimentales, y dos signos negativos bajo «Validez ex-
terna», que no explicaremos hasta haber realizado el análisis
del diseño 4 (véase página 32).
'•. Comparación con un grupo estático
1 <] tercer diseño preexperimental necesario para nuestra expo-
sición de los factores de invalidación es la comparación con
nn grupo estático. Es un diseño en el cual un grupo que ha
experimentado X se compara con otro que no lo ha hecho, a
fin de establecer el efecto de X.
Ejemplos de esta clase de investigación son: la comparación
de sistemas escolares que requieren que los maestros tengan
título universitario (la X) con otros que no exigen esa con-
dición; la comparaci6n de alumnos de cursos アオセ@ reciben ins-
trucción en lectura veloz con otros que no la reoben; la com-
paración entre quienes presenciaron determinado programa de
televisión y los que no lo hicieron, etc. En marcado contraste
con el experimento del diseño 6 «propiamente 、ゥ」ィセᄏL⦅@ que
veremos m6s adelante, no hay en estos casos del d1seno 3
ningún medio explícito que permita asegurar que los gr_upos
habrían sido equivalentes de no ser por la X. La ausenCia de
un medio tal, indicada en el diagrama por las líneas punteadas
que separan ambos grupos, señala el próximo factor que re-
quiere control: la selección. Si hay diferencias entre 01 y Oz,
ello bien puede deberse al reclutamiento diferencial de las per-
sonas que componen los grupos: estos podrían haber diferido
aun sin la presencia de X. Como se verá más adelante en el
análisis ex post Jacto, la equiparación fundada en caracterís-
ticas que no sean O suele resultar ineficaz y conducir a ・イイッセL@
particularmente en los casos en que las personas que 」セョ_セャᆳ
tuyen el «grupo experimental» han procurado la exposlClon
a la X.
Una última variable entremezclada que, por ende, debe incluir-
se en esta lista es la llamada mortalidad experimental, o pro-
ducción de diferencias 01- Oz en grupos, al retirarse en
mayor o menor número personas pertenecientes a ellos. Así,
aunque en el diseño 3 ambos grupos habían sido algm:a vez
idénticos, quizá difiriesen ahora, no por haberse produodo un
cambio en los integrantes individualmente considerados, sino
más bien a causa del abandono selectivo de personas de uno
de los grupos. En el campo de la investigación educacional,
este problema suele encontrarse a menudo en los estudios so-
- Diseño a e grupo de control pretest- postest
Controles de validez i11terna
Algunas de las consideraciones anteriores indujeron a los in-
vestigadores psicológicos y educacionales, entre 1900 y 1920,
a agregar al diseño 2 un grupo de control, creando el actual
diseño ortodoxo con grupo de control. McCall [ 1923], Solo-
mon [ 1949] y Boring [ 1954] fueron en parte los protagonis-
tas de esta histol'ia, y una revisión del T eachers Coltege Re-
cord de aquel período implica más todavía, pues ya en 1912
se mencionaban grupos de control sin necesidad de mayores
explicaciones [p. ej., Pearson, 1912]. Los diseños con grupos
de control así introducidos se clasifican en esta sección bajo
dos encabezamientos: el presente diseño 4, en el que se em-
plean grupos equivalentes logrados por aleatorización, y el
diseño 1O cuasi experimental, en el que se utilizan grupos in-
tactos de comparación ya existentes, de equivalencia no ase-
gurada. El diseño 4 adopta la forma
Como el diseño controla en forma tan nítida las siete hipótesis
descritas, las presentaciones que de él se han hecho no han
establecido en forma explícita las necesidades de control que
satisfacía. En la tradición de las investigaciones del aprendi-
zaje, los efectos prácticos de la administración de pruebas pa-
recen ofrecer el primer reconocimiento de la necesidad con-
tar con un grupo de control. La maduración era a menudo el
punto crítico de los estudios experimentales en educación, así
como del problema naturaleza-cultura ( nature-nurture) en el
campo del desarrollo infantiL En la investigación de los cam-
bios actitudinales, como en los primeros estudios sobre los
efectos de las películas cinematográficas, la historia puede ha-
ber sido la consideración primaria de necesidad. De cualquier
manera, creemos conveniente analizar brevemente aquí la
forma en que se controlan esos factores, así como las con-
diciones en que se lo hace.
La historia se controla en la medida en que los acontecimien-
tos históricos generales que podrían haber producido una di-
ferencia del tipo 01 - 02 causarían también una diferen-
cia del tipo 03 - 0+. Adviértase, sin embargo, que mu-
32
supuestas utilizaciones del diseño 4 (o 5, o 6) 110
controlan la existencia de una historia intrasesional única. Si
a todos los estudiantes, elegidos al azar, que integran el grupo
se los trata en una sola sesión, haciéndose lo
con los controles, los únicos acontecimientos ocurridos
en cada una de esas sesiones y que carecen de importancia
(la broma exagerada, el incendio en la otra cuadra, los co-
mentarios introductorios del experimentador, etc.) se con-
vierten en hipótesis rivales que explican la diferencia d_e
contra 0:1 - 0 1• Este tto es un verdadero experi-
mento, aunque se lo presente como paradigma ilustrativo,
como en la prueba de Solomon [ 1949] sobre la enseñanza del
alfabeto. (Para ser exactos, tenemos que puntualizar que So-
loman lo eligió para ilustrar un aspecto diferente.) Medi-
tando sobre nuestras «mejores pr,ícticas» en relación con ese
aspecto, que ello carezca de importancia, pero nuestras
«mejores pr<ícticas» consisten en presentar experimentos que
con harta frecuencia son imposibles de repetir, y esa misma
fuente de diferencias «significativas» pero externas bien po-
dría ser una falla importante. Además, en los típicos experi-
mentos que describe el Journal of Experimental Psychology,
el control de la historia intrasesional, &e logra exponiendo a
estudiantes y animales a pruebas individuales, y sometiendo
aleatoriamente a los estudiantes y los períodos de prueba a
condiciones experimentales o de control. Obsérvese, no obs-
tante, que aun con sesiones individuales la historia puede
escapar al control si se trabaja con todo el grupo experimental
y no con el grupo de control, etc. El diseño 4 requiere que
las sesiones experimentales y de control sean simultáneas. Si
realizamos sesiones verdaderamente simultáneas, tienen que
emplearse distintos experimentadores, y las diferencias entre
ellos acaso se conviertan en una forma de historia intrasesío-
nal que se confunda con X.
La solución óptima es una aleatorización de las sesiones ex-
perimentales, aplicando las restricciones requeridas para lograr
una representación equilibrada de fuentes de sesgo tan pro-
bables como son los experimentadores, la hora, el día de la
semana, la parte del semestre, la proximidad de los exámenes,
etc. El recurso habitual de trabajar con sujetos experimentales
en pequeños grupos -en vez ·de hacerlo individualmente- es
inaceptable si se prescinde de ese agrupamiento en el análisi'>
estadístico. ( Cf. más adelante el examen de la asignación de
grupos intactos a diversos tratamientos.) Todos los que toman
parte en la misma sesión participan de la misma historia in-
re:mente
como para deberán ignorar de los distintos ese hecho no ウ・セァオ・@ sus al sesgo so1 causas
firma la
con un segundo
estudios イセtᅪ・ョエ・ウ@
y Uphoff, 1939;
de h1 interacción dan evaluar una serie dones pretest, postest, expennl1Cl1ta contribuye al perfecto control la instrumentación en
sobre la conducta escolar y la interacción
regresión se controla, en lo que a las diferencias de
concierne y por muy extremo que sea el grupo en ]os
pretest, si tanto el grupo :al como el de conttol se
al azar, tomándolos eRte 11ismo conjunto extremo.
va
control regresiona tanto como el en las condiciones vados interpretativos, a
Un experimentador
abandonarlo ュゥ・ョセ@ "",."'1tv·,c de puntaje n1ayores llega a la estimu- principio estaban e! mayor adela_nt;o, rnien· mao: elevada qwza no se asegura porque, en el grupo, el rnectmismo para los participantes a elinünarlo
Si en el
a dos efectos mu-
y el retroceso de
cᅪlセ@ evitar esos errores interpretación es de aquellos c¡ne en el grupo de control las interpreta- de los pun-
Se elimina selección como explicación la medida en que la aleatorízación haya B・GセBBBGB@
grupal en el momento medida que
nuestra estadíst íca muestreo. Así, ャセs@ mayor que para pequeñas naciones Este supuesto fallará en ocasiones en el grado sugerido por el término de error para la hipótesis de no diferencia. En el diseño 4, ello significa que a veces habrá una aparente «significativa» entre los puntajes pre- test. Por lo la aleatorización simple o estratifi.. cada asegura la no sesgada a los grupos de experimentales, constituye un medio muy imperfecto para ga-
rantizar la equivalencia inicial de dichos grupos. No obstante,
es la única forma de hacerlo. Lo decimos tan categóricamente, a causa una muy difundida y errónea pre-
los períodos de espera [p .. supuesto,, ウュ[」ゥエセQ@ a
abandono pot parte
ccJün,l con ーッセ[ーオ」ウエ[ZL@ Una aplicación no reactiva de un mccanisHJo de !olería pata o un
cui"'''O correctivo (le lccí ura
CXlL'YíUi
que, 1.1Ha vez dectos evidentes
sumarían los de X en el
propio del vanancws n:a[iza'Ción de , etc .. - se efectos principales, y como tales se ha con·· üoÍfKio en d diseñe- 4, dándole validez interna, Las mnenaz:as
a b validez externa, por otra parte, pueden considerarse efec-
tos ék interacción entre X y alguna otra variable. Constituyen,
1rna posible especificidad de los efectos de X respecto
conjunto de condiciones inconvenientemente limita- anticipo diremos que, hasta donde nosotros sabe- BY'''' 4 los efectos observados de X pueden ser 」ウ[[[ZセZゥヲゥ」ッウ@ de gmpos cuyo interés fue intensificado por d pretest. Corno es natural, no podemos extender nuestras con- clusiones al conjunto mayor no sometido a prctest, <lcerca del cmd desearíamos cxtmer conclusiones. En este capítulo cxnminaremos unas cu::mtas de esas amenazas
a la posibilidad de generalización, así como los procedimientos
para sortearías. Es decir que se prefieren estos diseños por ra-
zones de validez externa o posibilidad de generalización, dado
que hay diseños válidos que evitan el pretest y en muchas
situaciones (aunque no necesariamente en la investigación edu-
cacional) se desea generalizar precisamente con respecto a los
grupos no sometidos a pretest. En el campo de la docencia
constituyen juicios acerca de la validez externa las dudas que
con frecuencia se expresan sobre la aplicabilidad práctica de los resultados de ciertos experimentos muy artificiales. La in-
troducción de tales consideraciones en el análisis de los me-
イ・セ[@ u} LJ así atractiva a tiene cun セᄋッ、イ@ que se ha sos-
sin rnol ivo en el lJ':tl.amícnto formd cornún sobre rw.:tc
El análisis
bci6n en un
, ha
¡'(_;s¡ }Cctivas. :á lCtleEnos Qセᄋ@ dccto ;¡ucda.
m::' cspcnf1cas que el
1wn ¡..:u cornún, es decir, en rel:wión con prctcst, pero de determinada snci ucconóm ica, región 'iÓn csLcbr, orientación cam:Jo nivel de radiaciones g¡1mrna, ctci;lera punto vista no más ,,IJ:í de dichos límites; es que nu podemos generalizar er1 modo alguno. Pero tratamos de hacerlo conjeturando y verificando algunas de díchas generalizaciones en Otras mn·· dicioncs no menos específicas pero diferente3, A largo de la l1isloria dr:: cada una de las ciencias, se aprcnde·a «justificm> bs generalizaciones propias de ella a causa de la acumulación misma de la experiencia en hacerlo, pero no es esa una gene- ralización lógica, deducible de los resultados del experimento miginal. En esa situación hacemos, al generali:.oar, suposiciones sobre leyes aún no demostradas, incluyendo algunas que ni si·· quiera se indagaron. Así, en la investigación educacional, su- ponemos por lo común que la orientación del campo magné- ticn no la afecta. Pero sabemos de ciertos estudios que con
frecuencia el pretest ha tenido un efecto, y por lo tanto quisié-
r;1mos eliminarlo como obstáculo para nuestra generalización. Si hiciéramos una investigación sobre barras de hierro, sabría-
mos por la que una primera pesada nunca produ- ce ・ヲ・セエッウ@ pero que la orientación del campo magné- tico, si no se la regulara de manera sistemática, podría limitar gravemente la posibilidad de generalizar nuestros descubri- mientos. Los motivos, pues, de invalidación externa son pre- sunciones de leyes generales en la ciencia de una ciencia: con- jeturas acerca de los bctores qne pueden intetactuar con nues- tras de tratamiento según cierta y, por lo tanto, los que pueden dejarse de lado. de los específicos existe una ley general que nosotros, :1sí como el resto los hombres de aceptamos como ;,upucsto: es la versión moderna de "'¡"<Pete de Mill acerca de la <<legalidad» de la naturaleza. Esa versión, menos tajante y drástica, puede enunciarse co-
mo el supuesto del «aglutinamiento» ( stickiness) de la na エオセ@
ralczc1: cuanto más cercanos se hallan dos acontecimientos en
tiempo, espado y valor -medido este en cualquiera de sus dimensiones o en todas ellas-, más tienden a ajustarse a las
mismas leyes. Si bien las interacciones complejas v las relacio-
nes curvilíneas habrán de confundir presumiblemente los in- tentos de generalización, tal posibilidad aumenta en relación directa con el grado en que la situación experimental difiere de la si tu ación con respecto a la cual se desea generalizar, Nuestra necesidad de una mayor validez externa será pues, el requerimiento de la máxima similitud entre ・クー・イゥセ・ョエッウ@ y condiciones de aplicación que sea compatible con la valiaez interna. Téngase en cuenta, en este sentido, que las ciencias más «prósperas», como la física y la química, han avanzado sin prestnr la menor atención a Ja represent:atividad (aunque sí, y mucha, a la reiterabilidad por parte de investigadores indé- ). Un laboratorio artificial dentro de una torre de marfíl quizá sea una maravilla, pero no será representativo, y a menudo la artificialidad puede resultar imprescindible si se quiere s.ep?rar analíticamente variables fundamentales para descubnm1entos de muchas ciencias. Pero, sin duda, si no in- con la validez interna o el análisis, la validez externa es オョセ@ 」ッセウゥ、・イ_」ゥョ@ de la mayor importancia, sobre todo pªra una ocncJa aplicada como es la pedagogía.
Interacción de las pruebas y X. En estudios del diseño experi-
en sí, el peligro que constituye el pretest para la valí-
externa fue denunciado por primera vez por Solomon
[ 1949], aunque idénticas consideraciones habían llevado an-
tes a algunos experimentadores a la aplicación del 6,
que omite el pretest. En especial durante los estudios de cam- bios de actitud, en que los mismos tests introducen grandes ecmtidades de contenido extraordinario (p. ej., una tan abun- cbnte dosis de declaraciones hostiles como las que se hallan en el test típico de prejuicios), es bastante probable que las actitudes de la ーlセイウッョ。@ y su propensión a dejarse persuadir
varíen por influjo del pretest. Como psicólogos, dudamos se-
riamente de la comparabilidad del público que asiste a una
proyección de Gcntlcrneu's Agreement (un film antiprejuicial)
inmediatamente habérsele administrado un test de
100 ítcms sobre con otro público vea la
misma película sin que se sometido dicho tl'st. Estas dudas se no solo p:1l del pretest, sino tarr.bién a su efecto sobre la respuesta a
b persuasión. Supongamos que esa película en particular fue
tan hicn re;tlizada que algunas personas llegaron a disfrutarla por su interés romántico, sin darse cuenta siquiera del proble- ma social que planteaba. Tales personas no existirían proba- lllementc en un grupo al que se hubiere administrado un pre-
!cst. Sí el pretcst sensibilizó al público sobre el problema,
podría, por medio una concentración de la atención, inten-
sificar en sí el educativo de X. Sería concebible que
c:sn X solo resultase para un grupo al que se hubiese
administrado un pretest. Aunque es frecuente mencionar un efecto sensibilizador de esta índole en comentarios anecdóticos sobre el tema, los pocos resultados publicados de investigaciones indican tanto la ausen-
cia de efectos f p. ej., Anderson, 1959; Duncan y otros, 1957;
Glock, 1958; Lana, 1959a, 1959b; Lana y King, 1960; Piers,
1955; Sobol, 1959; Zeisel, 1947] como un de interac-
ción que equivale a un amortiguador. Así, Solomon [ 1949]
descubrió que administrando un pretest se reducía la eficacia del entrenamiento ortográfico experimental, y Hovland, Lums-
daine y Shcffield [ 1949] sugirieron que un pretest restringía
los efectos persuasivos de las películas cinematográficas. Bien vale la pena evitar este efecto de interacción aunque no sea tan expuesto a error como la sensibilización (ya que los falsos positivos son un problema mayor en nuestra literatura que los falsos negativos, a causa de la gran cantidad de descubrimien-
tos publicados [Campbell, 1959, págs. 168-70]).
Al restringir la validez externa, el efecto del pretest sobre X depende, naturalmente, del grado en que tales mediciones repetidas son características del conjunto respecto del cual se