Papeles del Psicólogo es una revista científico-profesional, cuyo objetivo es publicar revisiones, meta-análisis, soluciones, descubrimientos, guías, experiencias y métodos de utilidad para abordar problemas y cuestiones que surgen en la práctica profesional de cualquier área de la Psicología. Se ofrece también como foro para contrastar opiniones y fomentar el debate sobre enfoques o cuestiones que suscitan controversia.
Papeles del Psicólogo, 1991. Vol. (50).
G. PRIETO, J. CARRO, M.M. GONZALEZ TABLAS, D.I. PALENZUELA, R. FERNÁNDEZ y B. ORGAZ.
Laboratorio de Psicología Aeronáutica. Universidad de Salamanca
1. Introducción: La selección psicotécnica de pilotos
Los inicios de la Psicología Aplicada a la Aeronáutica pueden fecharse en 1917 con la primera selección de pilotos llevada a cabo en los Estados Unidos de América por el equipo dirigido por W.R. Miles y L.T. Troland y al que se incorporaría en el mismo año Edward L. Thorndike (Koonce, 1984). Esta selección consistió en la aplicación de pruebas de desarrollo mental y fisiológico. Ya al inicio de la década de los cuarenta comenzó en los EE.UU. una investigación a gran escala, dirigida por Flanagan (1948), denominada Programa de Psicología de la Aviación. El objetivo básico del programa consistió en la construcción de test psicométricos para evaluar las aptitudes intelectuales más adecuadas para predecir la habilidad en la ejecución del vuelo. A partir de esa fecha han proseguido los trabajos incluyendo estudios de otros constructos relevantes no aptitudinales como la ansiedad, equilibrio emocional, resistencia al stress, etc. (Goeters, 1987; Madariaga, 1988).
Aunque puede establecerse a mediados de la década de los treinta el inicio del empleo de métodos psicotécnicos en la selección de pilotos en las Fuerzas Aéreas -Españolas (Pascual, 1983), no es hasta dos décadas más tarde cuando se aborda con rigor el estudio de métodos psicológicos para la selección de aspirantes a pilotos militares. En concreto, en 1954, en Ejército del Aire español, encarga al Dr. Germain y al profesor José Luis Pinillos del Departamento de Psicología Experimental del Consejo Superior de Investigaciones Científicas, los trabajos de adaptación de la USAF Aircrew Battery a las muestras españolas (Germain y Pinillos, 1958; Germain, Pinillos, Ramo y Pascual, 1959). Esta batería, que era el instrumento básico de selección y clasificación en las Fuerzas Aéreas de EE.UU., fue cedida para su aplicación en nuestro país y constituiría el fundamento de la Batería de Selección de Tripulaciones Aéreas estudiada por Pascual (Pascual, 1969, 1971, 1975) y vinculada con otras pruebas evaluadoras de la denominada inteligencia técnica (Yela y Pascual, 1968).
Actualmente, en la selección de los aspirantes a pilotos militares se siguen empleando procedimientos psicotécnicos tanto en España (Sánchez, 1989), como en otros países (Puente 1989).
Desde el año 1987 un grupo de profesores integrados en el Laboratorio de Psicología Aeronáutica de la Sección de Psicología de la Facultad de Filosofía y Ciencias de la Educación de la Universidad de Salamanca (España) y el Servicio de Psicología del Ejército del Aire estamos llevando a cabo un Programa de Investigación denominado Aptitud para el Vuelo Aeronáutico. Este proyecto de investigación se enmarca dentro del Convenio de Cooperación entre Ejército del Aire y la Sección de Psicología de la Facultad de Filosofía y Ciencias de la Educación de la Universidad de Salamanca firmado entre ambas instituciones en 1986.
Algunos de los objetivos del Programa de Investigación son: el estudio de las aptitudes intelectuales implicadas en el aprendizaje y la ejecución del Vuelo Básico, la construcción de test para la selección de los pilotos que incorporen los nuevos desarrollos tecnológicos y métodos lógicos de la psicometría (test computarizados, tests de rasgo latente y diseño de ítems a partir de los estudios derivados del procesamiento de la información) y la determinación de los perfiles psicológicos diferenciales más adecuados para las distintas especialidades de vuelo.
Aquí presentamos las bases teóricas y metodologías en las que se fundamenta la investigación y algunos de los resultados iníciales.
2. Definición operacional de un criterio para la validación de los tests de selección de pilotos
La elección de un criterio de validación apropiado es el punto crítico del diseño de una batería de pruebas psicotécnicas para la selección de los alumnos de los cursos de formación para el vuelo.
Muchas veces el criterio está definido de forma confusa, es escasamente fiable, o se refleja en una calificación global que incluye facetas poco específicas. En esas condiciones la elección de pruebas con alta eficiencia predictora es difícil y las decisiones finales pueden ser erróneas.
En muchas ocasiones se han utilizado las calificaciones académicas como criterios de validación. Es evidente que éstas no constituyen el criterio más eficaz. Los estudios clásicos sobre evaluación han puesto de relieve la escasez de fiabilidad y objetividad de las calificaciones académicas convencionales (Lafourcade, 1972). Las críticas se basan en la inexistencia de un patrón común de aplicación e interpretación (Wrinkle, 1947) y en el influjo de las tendencias personales de los profesores en las calificaciones (Hadley, 1954). La evaluación del aprendizaje aeronáutica está también influenciada por esta problemática, puesto que los juicios de los instructores de vuelo suelen estar regidos muchas veces por el error de benignidad, a causa de su constante interacción con sus pocos alumnos. Además, las calificaciones académicas de vuelo, consisten en una nota global de una ejecución a todas luces heterogéneo. Trabajos clásicos, como el de Frederiksen, Saunders y Wand (1957), pusieron de relieve que parece más apropiado emplear como criterios medidas empíricas de la actuación en el trabajo específico. Las hojas de calificación en vuelo utilizadas en los centros de enseñanza de las distintas Fuerzas Aéreas son una muestra de este tipo de registros.
A nuestro juicio para construir un criterio adecuado, las estimaciones procedentes de hojas de calificación en vuelo pueden ser optimizadas en varias direcciones:
1) El rendimiento en el aprendizaje del vuelo aeronáutico presenta múltiples facetas. Se trata, pues, de un criterio complejo o heterogéneo. Si se dispone de medidas fiables de cada una de las facetas de la tarea, será más fácil seleccionar el conjunto de tests que garanticen una alta eficiencia predictora. Este enfoque se deriva del concepto de validez sintética que fue definido por Balma (1959).
Por tanto, parece imprescindible llevar a cabo un análisis minucioso de las tareas de aprendizaje del vuelo para obtener estimaciones cuantitativas de la ejecución de los alumnos en cada una de ellas. A nuestro juicio, las maniobras básicas del aprendizaje del vuelo incluidas en las hojas de calificación usuales no están suficientemente desmenuzadas en sus componentes elementales. Nuestro método ha consistido en obtener registros más pormenorizados.
2) Para optimizar el criterio es imprescindible llevar a cabo el análisis empírico de los elementos de las tareas de vuelo con la finalidad de detectar aquellos aspectos de la ejecución que discriminan entre los mejores y los peores alumnos. Flanagan (1949) denominó a estos elementos diferenciadores requisitos críticos. Estos aspectos específicos son los que deben contribuir exclusivamente a la medición del criterio o, en todo caso, deberán ser ponderados de forma más elevada.
3) Las estimaciones de los instructores de vuelo pueden estar influenciadas por algunos errores constantes que han sido descritos de forma precisa por Guilford (1954). Los errores más comunes en las calificaciones están producidos por el efecto de halo y benignidad. Para aminorar los efectos de estos errores, es conveniente que cada alumno sea calificado en situaciones distintas a las de la evaluación académica oficial y, además, por más de un instructor de vuelo.
2.1. Diseño y Aplicación de un procedimiento experimental para evaluar el Vuelo Básico
Por las razones antes apuntadas, se llevó a cabo durante los dos primeros años de la investigación, con la inestimable colaboración de los instructores de vuelo del Grupo de Escuelas de Matacán (Salamanca) y de la Academia General del Aire (A.G.A.) de San Javier (Murcia), un análisis pormenorizado de las tareas de aprendizaje del vuelo básico y se diseñaron al efecto registros para obtener estimaciones cuantitativas de la ejecución de los alumnos en cada una de ellas.
Por ejemplo, algunas de las maniobras evaluadas en la Escuela Básica de la A.G.A. durante el curso 1988/89 son las siguientes: Ocho Lento, Toma de Tierra, Reuniones y Formación Cerrada.
Cada una de las maniobras fue descompuesta en sus elementos o submaniobras a partir de los criterios indicados por los profesores de vuelo de la citada Escuela. La evaluación se llevó a cabo por medio de los Registros u Hojas de Calificación construidos a tal fin.
La ejecución del alumno en cada submaniobra fue puntuada en una escala de seis categorías similar a la empleada en la A.G.A., desde Muy Mala (MM) hasta Sobresaliente (S). Las calificaciones se realizaron independientemente al término de cada fase de vuelo por el Profesor de cada alumno y un Probador.
Como antes se ha apuntado, Flanagan (1949) indicó que la obtención de puntuaciones en un criterio debería dar más importancia a los valores obtenidos en los requisitos críticos, en este caso, fueron considerados como tales los elementos de las maniobras con gran variabilidad.
Los restados pusieron de manifiesto que la variabilidad era bastante similar en todas las submaniobras. Por ello, se obtuvo una calificación global de cada maniobra promediando las calificaciones de las submaniobras correspondientes. De este modo, se obtuvieron dos calificaciones para cada maniobra: una correspondiente al instructor y otra al probador.
Los datos obtenidos permiten concluir que las calificaciones del procedimiento experimental empleado en la Escuela Básica son bastante confiables y constituyen un buen indicador del rendimiento de los alumnos.
En efecto, las diferencias entre las calificaciones promedio de los instructores y los probadores no son significativas estadísticamente o son de escasa magnitud. Además, las correlaciones entre calificaciones de instructores y probadores pueden considerarse como elevadas, si se tiene en cuenta que no evalúan maniobras realizadas en la misma ocasión temporal. De hecho, la correlación entre las calificaciones promedio en las seis maniobras correspondientes al instructor y al probador es elevada (65).
En consecuencia, se han empleado como criterios de validación de los tests psicotécnicos la calificación promedio instructor-probador en cada maniobra.
3. Aptitudes y rendimiento en el aprendizaje del Vuelo Básico
Uno de los objetivos de interés prioritario de esta investigación es el estudio de las aptitudes intelectuales y los rasgos de la personalidad implicados en el aprendizaje y la ejecución del vuelo.
Dado que en una comunicación a este mismo Congreso hemos hecho referencia a la relevancia de algunos rasgos de personalidad como predictores de la ejecución del vuelo aeronáutico, expondremos aquí exclusivamente las evidencias empíricas que permiten enfatizar la importancia de algunas aptitudes para el aprendizaje del Vuelo Básico.
Desde los estudios clásicos de Flanagan (1948) se han obtenido abundantes evidencias sobre la importancia de las aptitudes para pronosticar el rendimiento en vuelo y seleccionar en base a ellas los aspirantes a pilotos a través de diversas baterías como la Aircrew Classification Battery (U.S. Air Force, 1948). En la actualidad se ha generalizado el uso de baterías aptitudinales para la selección y clasificación de pilotos (ACSWG, 1987). Dentro del amplio abanico de aptitudes cognoscitivas que se consideran asociadas con la buena ejecución del vuelo, algunas de las que usualmente se suponen más relevantes son las que siguen:
1) Visualización: Aptitud para manipular mentalmente e imaginar cambios en la estructuración interna de figuras espaciales (Lohman, 1979).
2) Relaciones Espaciales: Aptitud para reconocer la identidad de un objeto cuando es visto desde distintos ángulos o en posiciones distintas (Lohman, 1979).
3) Orientación Espacial: Aptitud para permanecer orientado en un contexto espacial cuando se observan objetos desde distintas posiciones (Fleishman y Dusek, 1971).
4) Aptitud Perceptiva: Aptitud para identificar con rapidez y precisión los elementos de un estímulo visual (Thurstone, 1938).
5) Razonamiento: Aptitud para identificar relaciones entre elementos y para derivar conclusiones a partir de las relaciones previamente determinadas (Thurstone, 1957).
En la investigación que se está llevando a cabo, se han introducido varias mediciones de cada uno de los constructos antes citados.
En la Tabla 1 aparecen algunos de los tests psicométricos empleados para evaluar las aptitudes incluidas en el estudio. Se utilizaron varias pruebas para cada una de las aptitudes
TABLA 1. APTITUDES Y TESTS UTILIZADOS
Aptitud |
Test |
Relaciones espaciales |
Rotación de figuras macizas (Thurstone, 1949) |
Rapidez progresiva |
Formas idénticas (Thurstone 1975) |
Razonamiento |
PMAR (Thurstone, 1967) |
Orientación Espacial |
Trayectorias Curvas |
Visualización |
Recuento (McQuarrie, 1968) |
Para estudiar la utilidad predictora y diagnóstica de los tests se han empleado los siguientes enfoques:
a) Análisis del perfil aptitudinal diferencial de los alumnos con más altas calificaciones en el procedimiento experimental de evaluación respecto de los que obtuvieron peores calificaciones.
b) Determinación de la eficacia predictora de las variables aptítudinales.
3.1. Perfil aptitudinal de los alumnos con más altas calificaciones en el procedimiento experimental de evaluación
Para determinar este perfil diferencial, se analizaron las características aptitudinales de dos grupos de sujetos:
a) el integrado por los diez alumnos (25 por 100) de la Escuela Básica (E.B.) con las mejores calificaciones globales en el procedimiento experimental de evaluación de las seis maniobras evaluadas en la Escuela citada.
b) el integrado por los diez alumnos (25 por 100) de la E.B. con las peores calificaciones globales en el procedimiento experimental de evaluación de las seis maniobras evaluadas en dicha Escuela. Se ha de notar, que todos los alumnos evaluados no habían sido dados de baja en los cursos de enseñanza del vuelo básico. Es decir, se trata de una muestra muy homogénea, por cuanto todos sus componentes presentan un rendimiento mínimamente aceptable.
Para contrastar la significación de las diferencias entre las medias de ambos grupos en los tests aptitudinales, se empleó el contraste de la t de Student. Dada la homogeneidad de las muestras, se utilizó un nivel de confianza flexible para rechazar la hipótesis de nulidad (.07).
En la Tabla 2 se indican los tests que presentaron una discriminación efectiva entre ambos grupos de sujetos.
Los resultados confirman nuestra hipótesis de que el rendimiento en Vuelo Básico constituye un criterio heterogéneo, puesto que la ejecución de algunas maniobras requiere la contribución de un patrón aptitudinal distinto.
Los tests de Visualización y Orientación Espacial discriminan entre los grupos con distinto rendimiento en las Formaciones, las Reuniones y el Ocho lento.
La maniobra de Toma de Tierra parece requerir la contribución de un amplio abanico aptitudinal que comprende las aptitudes espaciales, la capacidad de razonamiento y la rapidez perceptiva.
Indudablemente, si se hubiese empleada como criterio una calificación global del rendimiento, esta rica información sobre la diversa eficacia de los tests aptitudinales para discriminar entre los mejores y peores ejecutantes de las distintas maniobras, no podría ser detectada.
TABLA 2.- TEST CON EFICIENCIA DISCRIMINATIVA DEL ATO Y BAJO RENDIMIENTO EN MANIOBRAS DE VUELO
Maniobras |
||||
Aptitudes |
Toma de Tierra |
Formaciones |
Reuniones |
Ocho lento |
R. Perceptiva |
Formas idénticas |
|||
Razonamiento |
PMA-R |
|||
Visualización |
Recuento |
Recuento y Rompecabezas |
Recuento Recuento |
Recuento Recuento |
Relaciones Esp. |
Rotación Figuras |
|||
Orientac. Esp. |
Coordenadas |
Coordenadas y Trayectorias |
Coordenadas |
Coordenadas |
3.2. Determinación de la eficacia predictora de las variables aptitudinales
Para determinar la eficacia predictora de los tests aptitudinales se analizaron los datos correspondientes a los cuarenta alumnos de la Escuela Básica de la A.G.A.
Los mejores predictores son los que permiten explicar una mayor proporción de las diferencias entre los alumnos en la ejecución de las principales maniobras del Vuelo Básico.
En la Tabla 3 aparecen los coeficientes de determinación múltiple (R2) de las calificaciones en las distintas maniobras evaluadas. Si emplearon como predictores de la ejecución de cada maniobra los tests aptitudinales incluidos en la Tabla 2, es decir las pruebas con eficiencia discriminativa entre los alumnos con mejor y peor rendimiento.
Los resultados revelan que las aptitudes di Visualización, Orientación Espacial, Relaciones Espaciales, Razonamiento y Rapidez Perceptiva son muy relevantes para el aprendizaje del Vuelo Básico. De hecho, buena parte de las diferencias en el rendimiento de los alumnos con un nivel mínimamente adecuado podrían deberse a su nivel diferencial en dichas aptitudes.
TABLA 3. PREDICCION MULTIPLE DEL RENDIMIENTO EN VUELO BASICO
Maniobras |
||||
PREDICT
|
Toma de T Formas Ident. |
Formaciones Recuento y Prospec Coord. y Tray. |
Reuniones
Coordenadas |
8 Lento
Coordenadas |
Indudablemente las proporciones de las varianzas asociadas significativamente han de ser consideradas elevadas por cuanto que el grupo analizado es muy homogéneo. Es decir, se puede considerar que la eficacia predictora de estas aptitudes será notablemente superior en la población no seleccionada (aspirantes al ingreso en la A.G.A.).
Estos datos iniciales permiten considerar, en consecuencia, que las pruebas aptitudinales empleadas en este estudio tienen una adecuada validez de criterio y serían uno buenos selectores en las pruebas de ingreso a la Academia General del Aire.
4. Nuevas corrientes psicotécnicas
Una aplicación psicométrica muy importante de la tecnología de los ordenadores es la construcción de tests computarizados.
A juicio de Bejar (1985) y Embretson (1985), este tipo de tests sustituirán en un futuro próximo a los clásicos tests de papel y lápiz. De hecho, ya existen baterías de tests construidas a partir de estos modelos (Green, Bock, Humphereys, Linn y Reckase, 1982).
Indudablemente, la administración de tests mediante ordenador presenta varias ventajas técnicas:
1) Permite una rígida estandarización de las instrucciones, la presentación de los ítems, el registro de las respuestas, la corrección y la puntuación de las pruebas, etc.
2) Facilita la toma de mediciones simultáneamente en distintas variables: acierto-error, latencia de respuesta a cada ítem, etc.
3) Admite el almacenamiento y el análisis estadístico de los datos sin etapas intermedias de codificación, grabación, etc.
4) Posibilita la utilización de nuevos modelos de pruebas psicométricas, como los tests de curva característica y los tests adaptados al sujeto.
5) Permite la medición de algunas aptitudes, como la atención dividida, que es difícilmente evaluable mediante pruebas de papel y lápiz.
La relevancia de algunas de las aportaciones anteriores sugiere un comentario más extenso de las mismas.
4.1 Implicaciones del Procesamiento de la Información para la elaboración de tests aptitudinales
Sternberg (1984) puso de relieve que el enfoque psicométrico clásico y el enfoque cognitivo presentan algunas diferencias cruciales. Los métodos psicométricos clásicos para el desarrollo de los tests se fundamentan en los diseños correlacionales propios del análisis factorial y de la validez de criterio. Ninguno de estos enfoques aporta una información clara sobre los procesos mentales subyacentes a la ejecución de los ítems. En consecuencia, la validez de constructo de los tests se fundamenta en evidencias indirectas que aportan argumentaciones de carácter débil.
Sin embargo, en 1976 apareció el influyente artículo de Carroll en el que se lleva a cabo un análisis de las teorías psicométricas factorialistas desde la perspectiva del procesamiento de la información. Como ha puesto en evidencia recientemente Hunt (1987), los análisis cognitivos de los tests psicométricos han hecho realidad el sueño, formulado por Cronbach (1957), de superar la ruptura de las Psicologías experimental y diferencial.
En base a los resultados de las investigaciones que integran estos dos enfoques se puede determinar cuáles son los procesos definitorios de cada constructo aptitudinal y cómo están asociados, tanto éstos como las diferencias individuales, con las características físicas de ítems psicométricos.
Evidentemente estos hallazgos tienen fuertes implicaciones teóricas y metodológicas.
Desde una perspectiva teórica es posible atribuir las diferencias entre los sujetos a procesos intelectuales subyacentes a las tara empíricas. Ello tiene importantes repercusiones para la validez de constructo de los instrumentos psicométricos (Hunt, 1983).
Por ejemplo, los estudios cognitivos sobre las aptitudes psicométricas de Relaciones Espaciales y Visualización llevados a cabo por Shepard y Metzler (1971), Shepard y Feng (1972), Metzler y Shepard (1974), Pellegrino, Mumav y Shute (1985) y Carro (1985) ponen en evidencia que:
1. La fuente explicativa más importante de las diferencias individuales en el constructo de Relaciones Espaciales es la rapidez de representación de rotaciones mentales de las figuras espaciales.
2. En el constructo de Visualización Espacial los factores principalmente influyentes las diferencias individuales son la precisión en el desplazamiento mental y la búsqueda de correspondencia entre los elementos de la figura desplegada y la figura reconstruida. Según Cohen (1977) parece evidente que esta eficacia representativa depende de la memoria a corto plazo de carácter visual.
Por otra parte, desde una perspectiva metodológica, parece claro que el enfoque del procesamiento de la información facilita la definición del contenido a muestrear. Es decir, permite definir la función que relaciona las características de los ítems y las diferencias individuales. En consecuencia, garantiza la conexión entre las teorías psicológicas y la construcción de pruebas. Así pues, parece una tarea imprescindible para el diseño de los test psicométricos.
Los tests computerizados permiten registrar con precisión los tiempos de reacción y la precisión en las respuestas a los ítems. Son, pues, una tecnología idónea para emplear de forma sencilla y económica los enfoques cognitivo psicométrico.
En base a estas consideraciones, nos hemos basado en las metodologías derivadas del procesamiento de la información para diseñar construir las pruebas computerizadas que permiten evaluar las capacidades intelectuales de los futuros pilotos.
En la actualidad se está procediendo a la recolección de datos con tests computerizados construidos para medir las aptitudes de Relaciones Espaciales y Visualización.
El software que hemos empleado para el diseño de estas pruebas experimentales es el Hyper Talk (Goodman, 1987). La primera versión de los tests está siendo administrada en ordenadores Macintosh SE.
4.2 Desarrollo de los nuevos modelos de tests
La teoría clásica de los tests se fundamenta en unos supuestos muy flexibles o débiles. Por esta razón, los tests psicométricos tradicionales pueden ser aplicados a atributos muy diversos (aptitudes, personalidad, rendimiento etc.) y con distintos formatos de respuesta (ítems dictómicos, de elección múltiple, abiertos, etc.). A pesar de esta generalidad, evidentemente útil en la práctica, el modelo psicométrico clásico ha sido criticado por razones diversas. Weiss y Davison (1981), por ejemplo, ponen de relieve que la mayor deficiencia de la teoría clásica de los tests se debe a su separación lógica y metodológica del resto de los procedimientos de la medición psicológica (los métodos de escalamiento). Por su parte, Hambleton y Swaminatham (1985) han sistematizado en cinco argumentos las críticas al enfoque psicométrico clásico:
1. Las características psicométricas de los ítems de los tests clásicos (índices de dificultad, discriminación, etc.) dependen de la muestra de examinados en que han sido obtenidas.
2. Solamente pueden ser comparadas distintas puntuaciones correspondientes al mismo o a varios sujetos en una misma dimensión, sí han sido obtenidas mediante el mismo test o mediante tests paralelos. Este es el principal handicap de los estudios longitudinales que pretenden emplear métodos psicométricos clásicos.
3. La cuantificación de la fiabilidad de los tests clásicos descansa en el modelo de formas paralelas o equivalentes. Son evidentes las grandes dificultades para obtener en la práctica este tipo de pruebas.
4. Algunos de los supuestos del modelo clásico no son contrastables empíricamente. Dicho modelo, por ejemplo, no permite pronosticar la respuesta del sujeto a un ítem determinado de un test. Solamente el ajuste de las predicciones a los datos podría garantizar, al menos en parte, la plausibilidad del modelo.
5. El punto más débil del modelo clásico está en su suposición de que el error típico de medida tiene la misma magnitud para todos los sujetos y en los distintos puntos del continuo de interés. Sin embargo, no es infrecuente observar que la precisión de un test es menor en los extremos de la dimensión aptitudinal y que algunos sujetos contestan más consistentemente que otros.
A causa de estas deficiencias teóricas y prácticas del modelo clásico se han desarrollado nuevos modelos de tests psicométricos (Lord y Novick, 1968).
Basándose en el patrón de respuestas de un sujeto a un conjunto de ítems, los tests permiten efectuar una estimación de la puntuación del sujeto en un atributo o rasgo latente. A esto se deben las denominaciones de estos nuevos procedimientos psicométricos (tests de rasgo latente) o de la teoría que los sustenta (teoría de las respuestas a los ítems).
Las características generales de los tests de rasgo latente basados en la teoría de las respuestas a los ítems pueden resumirse en los siguientes puntos (Hambleton y Swaminatham, 1985).
1. Los modelos parten de la suposición de que la puntuación de un sujeto en el test puede ser explicada a partir de un rasgo o atributo latente.
2. En los modelos se especifica la forma de la relación entre las respuestas observables a los ítems y el rasgo subyacente. Esta relación puede ser descrita mediante una función monótona creciente denominada función característica del ítem. Esta función especifica que los sujetos con alto nivel en el rasgo han de tener una mayor probabilidad de responder correctamente a los ítems que aquellos individuos con bajo nivel. Los modelos de rasgo latente más empleados suponen que el atributo subyacente es unidimensional. En estos casos, la función característica del ítem, que suele ser denominada curva característica del ítem, indica la probabilidad de que los examinados, situados en distintos puntos del continuo de habilidad, respondan correctamente al ítem.
3. Los modelos permiten estimar las puntuaciones de los sujetos en el atributo inobservable a partir de sus respuestas a un conjunto de los ítems del test.
4. Los parámetros de los ítems son independientes de la muestra utilizada para su estimación.
5. Las estimaciones de la habilidad de los sujetos son independientes de la muestra de ítems utilizada.
6. La precisión de las estimaciones en el atributo latente puede variar a lo largo del continuo, siendo independiente de la magnitud de éste, y puede ser calculada para cada caso.
7. Existen procedimientos para contrastar el ajuste del modelo a los datos empíricos. Es decir, la ventaja de los modelos de rasgo latente radica en su contrastabilidad (Traub y Lam, 1985).
8. La probabilidad de que un sujeto responda a un ítem correctamente depende, además de su nivel en el rasgo, de las características del ítem. Las características o parámetros de cada ítem han de ser estimados a partir de las respuestas de los sujetos. El procedimiento de estimación más empleado se basa en una función de máxima verosimilitud. Existen varios paquetes estadísticos para estimar los parámetros de los ítems (Hambleton y Swaminatham, 1985). Los programas BICAL (Wright y Mead, 1976) y LOGIST (Wingersky, 1983) son los de uso más frecuente.
9. El objetivo de los tests de rasgo latente es facilitar conjuntamente estimaciones invariantes de los parámetros de los ítems y de las puntuaciones de los sujetos en un atributo subyacente. En consecuencia, estos nuevos modelos están conexionados teóricamente con los procedimientos de escalamiento de estímulos. De hecho, Brogden (1977), Andrich (1978) y Lumsden (1980) han puesto de relieve la similitud del modelo de Rasch y de lo procedimientos de escalamiento psicofísico de Thurstone. Además, Brogden (1977) ha descrito las convergencias de los modelos de rasgo latente con la medición aditiva conjunta: Andersen (1977) ha adecuado los modelos de rasgo latente a las escalas tipo Likert. Por tanto, los nuevos modelos de tests están encuadrados en un esquema globalizado de la medición psicométrica.
Los distintos modelos de tests, que se basan en la teoría de las respuestas a los ítems se diferencian entre sí, como apuntan Weiss Davison (1981), en función del número de parámetros que es necesario para describir la forma y la localización de las curvas características de los ítems. El modelo logístico de un parámetro, propuesto por Rasch (1980), describe exclusivamente el nivel de dificultad de los ítems, partiendo de la suposición de que su eficacia discriminativa es constante. El modelo de dos parámetros permite efectuar estimaciones de la dificultad y la discriminación de los ítems, y el modelo de tres parámetros agrega un tercero a los dos anteriores referente a la adivinación, cuantificando la probabilidad de que respondan correctamente al ítem los sujetos con los más bajos valores en el rasgo latente.
La aplicación más frecuente de los modelos de rasgo latente ha sido los tests a la medida del sujeto (Weiss, 1978, 1980).
Los tests a medida se basan en un procedimiento económico y eficiente para estimar la puntuación de un sujeto en un continuo aptitudinal. En los tests convencionales solamente algunos de sus ítems son útiles para cuantificar las diferencias entre determinados sujetos. Por ejemplo, los ítems fáciles o de dificultad media son ineficaces para discriminar entre los individuos con un alto nivel aptitudinal. Parece, en consecuencia, más eficiente administrar a cada sujeto aquellos ítems apropiados a su situación en el continuo. Es decir, estimar su puntuación mediante un subconjunto de ítems apropiado a su nivel.
Lord (1980), Weiss (1978, 1980) y Thorndike (1982) han descrito con brevedad y precisión los distintos procedimientos empleados para construir los tests adaptados al sujeto. La aparente diversidad de métodos puede ser clasificada en dos categorías:
a) Medición en dos etapas: Un primer sub-test localizador permite estimar la situación aproximada del examinado en el continuo de interés. A continuación se le administra al sujeto un segundo test apropiado a su nivel.
b) Medición secuencial e interactiva: Se presenta al sujeto un ítem de dificultad media. Si lo supera se continúa con un ítem de mayor dificultad. Si responde incorrectamente, se decrementa la dificultad del ítem siguiente. Se prosigue la secuencia hasta alcanzar un número de ítems previamente especificado. Es evidente que esta tarea se ve considerablemente facilitada mediante el uso del ordenador. De hecho, no parece lejano el tiempo en que desaparezca el uso extensivo de los tests de papel y lápiz en beneficio de los tests computerizados (Weiss y Davison, 1981).
Uno de los objetivos de la investigación que estamos desarrollando consiste en construir tests individualizados basados en los modelos IRT para evaluar algunas de las aptitudes más relevantes en la selección de pilotos. Nuestro propósito es llevar a cabo una comparación empírica entre dichas pruebas y las convencionales de papel y lápiz.
4.3 Medición de la atención dividida
Como ha sido mencionado con anterioridad, una de las ventajas de los tests computerizados es la medición de algunos constructos no operacionalizables mediante las pruebas convencionales:
Puente (1989) informe sobre interés demostrado por el Grupo de Selección de Tripulaciones Aéreas de la Euronato (ACWSG) por estudiar empíricamente la importancia de la atención dividida para la ejecución del vuelo aeronáutica.
La atención dividida se refiere a los déficits de rendimiento ocasionados como consecuencia de la presentación simultánea de información o de la realización concurrente de varias actividades (Kahneman, 1973).
Uno de los paradigmas más empleados para analizar este constructo es el de doble tarea (Saiz, Mateos y González, 1988). Consiste en pedir al sujeto que realice dos tareas simultáneamente, midiendo el déficit de rendimiento en una tarea primaria cuando se realiza conjuntamente con otra, denominada secundaria (Posner y Boies, 1971; Welford, 1968).
Evidentemente es muy difícil medir esta aptitud mediante tests de papel y lápiz. Por el contrario, el ordenador permite lograr una evaluación adecuada.
5. Conclusiones y perspectivas
En esta exposición se presentan los fundamentos, objetivos y algunos datos iniciales de una investigación encaminada al diseño y validación de un procedimiento psicotécnico para seleccionar a los aspirantes al ingreso en la Academia General del Aire del Ejército Español. El objetivo general más relevante es la comparación empírica entre tests computerizados que incorporen los nuevos desarrollos de la psicometría y tests convencionales de papel y lápiz de aptitudes mentales y rasgos de personalidad.
Se ha procedido inicialmente a diseñar un procedimiento para medir el criterio de validación, operativizado en el registro de la ejecución de maniobras de vuelo. El análisis interno de los resultados permite concluir que el criterio es fiable e indicativo de la competencia de los alumnos.
Los datos obtenidos hasta la fecha corresponden a las pruebas de papel y lápiz, y las evidencias empíricas sugieren que varias de las pruebas empleadas tienen una adecuada validez de criterio y podrían ser empleadas como unos selectores eficaces.
Las aptitudes mentales de carácter espacial, perceptivo y de razonamiento discriminan de forma significativa a los mejores y peores ejecutores de maniobras de vuelo. No obstante el patrón aptitudinal asociado con el rendimiento de los alumnos depende del tipo de maniobras ejecutadas. Ello revela que las características de la tarea involucran la puesta en acción de diferentes procesos aptitudinales. Por ello, no sería aconsejable emplear una calificación global del rendimiento como criterio de validación de las pruebas selectoras.
En la actualidad se está procediendo a la calibración y selección de los ítems de tests computerizados construidos para medir las aptitudes de Visualización y Relaciones Espaciales. El diseño de las versiones iniciales de estas pruebas pretenden analizar, como fuente de validación de constructo, los modelos del procesamiento utilizado por los sujetos experimentales.
BIBLIOGRAFIA
Andrich, D. Relationships between the Thurstone and Rasch approaches to ítem scaling. Applied Psychological Measurement, 2, 451-462, 1978.
Balma, M. J.: The concept of synthetic validity. Personnel Psychology, 12, 395-396, 1959.
Béjar, I.I.: Speculations on the Future of Test Design. En S. E. Embretson (Ed). Test Design: Developments in Psychology and Psychometrics. New York, Academic Press, 279-294, 1985.
Brogden, H.: The Rasch model, the law of comparative judgment and additive conjoint measurement. Psychometrika, 42, 631-634, 1977.
Carro, J.: Inteligencia espacial y aptitud de vuelo: Estudio desde las perspectivas psicométricas y del procesamiento de la información. Tesis Doctoral no publicada. Facultad de Filosofía y CE.EE, Universidad de Salamanca. Salamanca, 1985.
Carroll, J.B.: Psychometric tests and cognitive tasks: A new «structure of intelligence». En L. B. Resnick. The nature of intelligence. Hillsdale, N. J. LEA, 1979.
Cohen, G.: The Psychology of Cognition. London. Academic Press, 1977.
Cronbach, I.: The two disciplines of scientific psichology. American Psychologist, 12, 671-684, 1957.
Embretson, S. F.: (Ed). Test Design, Development in Psychology ano. Psychometric. New York. Academic Press, 1985.
Flanagan, J.C.: The aviation psychology program in the Army Air Forces. Army Air Forces, Aviation Psychology Program Research Reports, nº 1. Washington, U.S. Goverment Printing Office, 1948.
Flanagan, J.C.: Critical requeriments: A new approach to employee evaluation. Personnel Psychology, 2, 419-425, 1949.
Freishman, J, y Dusek, P,: Reliability and learning factors associated with cognitive tests. Psychological Reports, 523-530, 1971.
Frederiksen, N.; Saunders, D.R, y Wand, B.: The in-Basket Test. Psychological Monographs, 71, 9, 1957.
Germain, J.; Pinillos, J.L.: Validación de la USAF Aircrew Battery en una muestra de pilotos españoles. Revista de Psicología General y Aplicada, 47, 551-560, 1958.
Germain, J.; Pinillos, J.L., Ramo, M., y Pascual, M.: Sección de pilotos en el Ejército del Aire Español. Revista de Psicología General y Aplicada, 49, 75-114, 1959.
Goodman, D.; The complete HyperCard handbook. Toronto. Bantan Books, 1987.
Gotters, K. M.: New Psychodiagnostic developments in aviation Psychology. Paper Presented at the 17th Conference of Western European Association for Aviation Psychology. 1 den, 1987.
Green, B.F.; Bock R.D.; Humphreys, I.G.; Linn, R.I., Rechase, M.: Evaluation plan for the computerized adaptative vocational testing battery. Technical Report 82-1 for Office of Naval Research. Baltimore, Department of Psychology. Johns Hopkins University, 1982.
Guilford, J.P.: Psychometric Methods. New York McGraw-Hill 1954.
Hadley, T.S; A school mark-fact or fancy. Educational administration and supervision, XL, 1954.
Hambleton, R. K., y Swamina Than, H.: Item Response Theory. Principles and Applications. Boston, Kluwer Nijhoff, Publishing, 1985.
Hunt, E.: On the nature of intelligence. Science, 219, 451 141-146, 1983.
Hunt, E.: Science, Technology and Intelligence. En R. R. Ronning, J. C. Conoley, J. A. Glover y J. C. Witt (Eds.). The influence of cognitive psychology on testing. Hillsdale, N.J. LEA, 11-40, 1987.
Kahneman, D.: Attention and effort. Englewood Clifs, N.J. Prentice Hall, 1973.
Koonce, J.M.: A brief history of aviation psychology. Human Factors, 26 (5), 499-508, 1984.
Lafourcade, P. D.: Evaluación de los aprendizajes. Madrid. Cincel, 1972.
Lord, F. M.: Application of ítem response theory to practical testing problems. Hillsdale, N.J. LEA, 1980.
Lord F. M, y Novick, M. P.: Statiscal theories of mental test scores. Addison-Wesley, Reading, Mass, 1968.
Lumsden, J.: Test Theory. Annual Review of Psychology, 2 251-280, 1976.
Madariago, R. Aquí y ahora. Selección de pilotos, 1, Mach, 82, 52, 12-13, 1988.
Metzler, J, y Shepard R. N.: Transformational studies of the internal representations of threedimensional objects. En R. Sol (Ed.). Theories in cognitive Psychology: The Loyola Simposium. Hillsdale, N. J. LEA, 1974.
Pascual, M.: La selección de los pilotos de Complemento. La medida de la Aptitud de Vuelo a través de pruebas psicológicas. Monografía de la Escuela Superior del Aire. Madrid, 1969.
Pascual, M.: Estudio empírico de la aptitud de vuelo. Tesis de Licenciatura, Facultad de Filosofía y Letras, Universidad Complutense, 1971.
Pascual, M. Estructura y dimensiones de la aptitud de vuelo. Revista de Psicología General y Aplicada, 133-134, 287-332 1975.
Pascual M.: Pasado, presente y futuro de la Psicología Aeronáutica Militar. Revista de Psicología General y Aplicada, 38(2), 340-348, 1983.
Pellegrino, J. W; Mamaw, R.J., y Shute, V.J.: Analyses of Spatial Aptitude and Expertise. En S.E. EMBRETSON (Ed.), Test Design: Developments in Psychology and Psychometries, New York, Academic Press, 45-76, 1985.
Posner, M.I, y Boies, S. J.: Components of attention. Psychological Review, 78, 391-408, 1971.
Puente, J. M.: La selección de aspirantes a piloto, una prioridad para el Ejército del Aire. Revista de Aeronáutica y Astronáutica, 581, 554-562, 1989.
Rasch, G. Probabilistic Models for Some Intelligence and Attainment Tests. Chicago, University of Chicago Press, 1980.
Saiz, C.; Mateos, P.M, y González, J. A.: Atención dividida. En J.L. Vega (Ed.), Desarrollo de la atención y trastorno por déficit de atención, Salamanca, Ediciones Universidad de Salamanca, 17-51, 1988.
Sánchez, R.: La Psicología en el Ejército del Aire. Revista de Aeronáutica y Astronáutica, 81, 542-549, 1989.
Shepard, R.N, y Feng, C.A. ebronometrk study of mental paper folding, Cognitive Psichology, 3, 228-243, 1972
Shepard, R N, y Metzler, J.: Mental rotation of threedimensional objects. Science, 171, 701-703, 197 1.
Sternberg, R. J.: What cognitive psychology can (and cannot) do for test development. En B.S. Plake (Ed.), Social and technical issues in testing, Hillsdale, N. J., LEA, 39-60, 1984.
Thorndike, R.L: Apptied Pychometrics. Boston, Houghton Mifflin, 1982.
Traub, R.E, y Lam, Y.R.: Latent structure and item sampling models for testing. Annual Review of Psychology, 36, 19-48, 1985.
Weiss, D.J. (Ed.): Proceedings of the 1977 Computerized Adaptative Testing Conference. Minneapolis, University of Minnesota, 1978.
Weiss, D. J. (Ed). Proceedings of the 1979. Computerized Adaptive Testing Conference. Minneapolis, University of Minnesota, 1980.
Weiss, D.J., y Davison, M. I.: Test Theory and Methods. Annual Review of Psychology, 32, 629-658, 1981.
Welford, A. T.: Fundametals of skill. London, Methuen, 1968.
Wingersky, M.S., Logist: A program for computing maximum likelihood procedures for logistic test models. En R. K. Hambleton (Ed.), Apphcations of Item Response Theory, Vancouver, Educ. Res. Inst. B. C., 45-56, 1983.
Wright, B. D, y Mead, R, J., Bical: Calibrating ítems with the Rasch model Res. Mem., 23, Chicago, Ill., Dept. of Educ., Univ. Chicago, 1976.
Wrinkle, W. L.: Improving marking and reporting practices in elementary and secondary school. New York, Rinehart, Holt and Winston, 1947.
Yela, M, y Pascual M.: La estructura factorial de la inteligencia técnica. Revista de Psicología general y Aplicada, 94, 705-770, 1968.