Papeles del Psicólogo

Papeles del Psicólogo, 1990. Vol. (46-47).

EVALUAR QUÉ Y PARA QUÉ. EL PROBLEMA DEL CRITERIO.

MARIANO YELA

Empecemos por las nociones elementales. Son las más importantes y, con frecuencia, las peor entendidas. Sin duda, en toda evaluación se evalúa algo, para algo y de algún modo. Aclarar el qué y el para qué constituye el problema del criterio, o, dicho con el término clásico, el problema de la validez. Aclarar el cómo significa escoger o desarrollar técnicas y procedimientos para comprobar esa validez: es el problema de la validación.

Las técnicas de validación son muy abundantes y su número crece aceleradamente. Mencionaré, más adelante, las más recientes y prometedoras. Pero, a mí juicio, sólo hay dos tipos fundamentales de validez, por lo demás, interdependientes entre sí: la teórica y la práctica. Corresponden a los dos objetivos fundamentales de la ciencia: conocer y poder. De una parte, conocer la realidad, explicarla y comprenderla; es decir, dar razón de algún aspecto de la realidad (explicarlo), en conexión con otros aspectos (comprenderlo). De otra parte, poder intervenir en la realidad para, en alguna medida, dominarla, ajustarse mejor a ella o modificarla para que mejor se ajuste a nuestros propósitos. Son dos objetivos distintos, pero no independientes.

Son, por lo pronto, distintos y conviene mantener y comprender esta distinción. Comprobar que algo es teoréticamente válido. no significa necesariamente que nos conste que tiene validez pragmática. Muchas teorías matemáticas, perfectamente válidas, no han tenido aplicación práctica durante largos períodos. El algoritmo de matrices, por ejemplo, fue elaborado mucho antes de que Heisenberg encontrara su aplicación en la física cuántica o Thurstone lo utilizara en el análisis factorial de la inteligencia. Einstein desarrolló la teoría de la relatividad y, más específicamente, la interpretación de la masa como equivalente a la energía, mucho antes de que se inventara, para su remordimiento y congoja, la bomba atómica. Y, en todo caso, cabe afirmar que el conocimiento comprobadamente válido es algo válido en sí. Ese es, desde luego, mi parecer. Y no sólo el mío. «Todos los hombres desean, por naturaleza, conocer», dejó dicho Aristóteles al principio de su Metafísica. La vida humana implica su propia interpretación, escribió Ortega, porque el hombre no sólo vive; al vivir, se da cuenta de ello y tiene inevitablemente que dar de ello cuenta y razón. O, como recientemente ha afirmado nuestro colega conductista Staats, «Los seres humanos, como los animales, se conducen, pero, a diferencia de los otros, pueden también detenerse y considerar lo que han hecho» (Staats, 1983, p. 3).

Por otra parte, hay en la vida cotidiana y en el quehacer científico, modos de actuar que tienen valor práctico sin que sepamos por qué, Todos los hombres, incluidas, por supuesto, las mujeres e incluso los que nos dedicamos a la psicología, somos de algún modo psicólogos prácticos, unos buenos, otros malos y los más entreverados. Es un buen psicólogo, decía Gracián, «el que sabe buscarle a cada uno su torcedor». Recientemente se ha comprobado (Arvey y Campion, 1982; Dougherty y cols., 1986), que hay buenos y malos entrevistadores; unos hacen juicios válidos sobre los sujetos entrevistados, en el preciso sentido de que sus juicios se correlacionan con criterios objetivamente pertinentes, es decir, sus juicios son útiles, aunque no se sepa por qué; otros emiten juicios inválidos, sin correlación con los objetivos que se persiguen.

Vengamos al traído y llevado caso de los tests. De nuevo, encontramos los dos tipos de validez, la teórica y la práctica. Se desea, por ejemplo, elaborar un test de inteligencia. No hay manera de empezar a hacerlo, si no se tiene alguna idea acerca de lo que la inteligencia pueda ser. Con distintas ideas, elaboraremos distintos tests. Esa idea de la inteligencia será el criterio con el que tendremos que contrastar el test. Lo que plantea dos cuestiones principales, Primera, la idea de inteligencia adoptada ¿qué valor tiene? Es decir, ¿es, al menos hipotéticamente, pertinente? ¿Está delimitada por conceptos coherentes entre sí y en conexión sistemática con los conocimientos ya adquiridos en ese campo? ¿Aporta tal vez algo nuevo que subsuma y supere lo anterior? Segunda, nuestro test ¿es válido para apreciar la inteligencia así concebida? Todas las técnicas de validación que empleemos, en este caso, se encaminarán a comprobar la validez teórica de la hipótesis avanzada sobre la inteligencia y la validez teórica del test como procedimiento para evaluarla. Es lo que en el campo de la psicometría se ha llamado validez de constructo. Se refiere, por un lado, a la validez de lo que se evalúa, en tanto que concepto construido por una serie de nociones teóricas que se van precisando, ampliando o modificando mediante la confirmación y refutación progresiva de las consecuencias que implican, en relación con otros constructos o conceptos de la teoría psicológica. Se refiere también, de otro lado, a la validez del test, en tanto que técnica para evaluar ese constructo. En la medida en que la noción de inteligencia vaya siendo comprobada por su consistencia con las demás nociones psicológicas y por la confirmación de las consecuencias que implica, irá adquiriendo la forma de un criterio teoréticamente válido. En la medida en que se compruebe que el test evalúa, en efecto, ese criterio, el test irá adquiriendo validez teórica o de constructo.

Pero el test puede elaborarse con otros fines inmediatos. Nuestro objetivo puede ser, pongamos por caso, escoger entre los aspirantes a un trabajo a los que, sin saberlo realizar todavía, van a realizarlo mejor, después del oportuno período de aprendizaje y práctica. Ideamos para ello el test. Si se comprueba que los mejores y los peores en él son luego los mejores y los peores en el trabajo, el test ha resultado válido para nuestro propósito. Tiene validez práctica. Es útil para lo que queremos, aunque no sepamos claramente por qué. El problema de la evaluación consiste, en este caso, en definir un criterio pertinente de lo que es un buen trabajo y en comprobar que el test sirve para pronosticarlo. El resultado del proceso de evaluación suele resumiese, ahora, en un coeficiente de validez, que expresa la correlación entre el test y el criterio. Si la correlación es significativa, el test es válido, y tanto más cuanto más alta sea la correlación. Se trata aquí, como vemos, de otro tipo de validez, la que suele llamarse validez pragmática o meramente empírica.

Insisto en que conviene mantener, como nociones distintas, los dos tipos de validez. Suele afirmarse hoy que el concepto de validez es único. Un criterio de evaluación, o un procedimiento para evaluarlo, es o no válido, y nada más. Los que son variados y múltiples son los métodos de validación, unos teoréticos o de constructo y otros pragmáticos o meramente empíricos. Creo que este parecer no es del todo correcto. Creo que hay razones de peso para distinguir las dos nociones de validez. La distinción concierne a los fundamentos epistemológicos de la investigación científica. Ni todo en la ciencia se reduce a la intervención útil, ni todo a la explicación y comprensión teóricas. Ni hay que prescindir en el proceder científico de todo lo que no sea útil, porque un fin capital de la ciencia es el conocimiento, aunque no sirva más que para conocer; ni puede prescindir la ciencia de su aplicación eficaz, porque la ciencia forma parte de la vida y una pretensión del hombre, mientras vive, es vivir mejor. Conocer científicamente es siempre «saber para prever», como afirmaba Comte. Pero, contra lo que Comte afirmaba, prever científicamente no siempre consiste en «prever para poder»; consiste, sobre todo y fundamentalmente, en prever para, si se cumplen las previsiones, saber y conocer mejor, explicar y comprender más cabalmente la realidad.

En el campo de la evaluación suele mantenerse, desde Cronbach, que no debe hacer diagnóstico sin pronóstico, ni pronóstico sin tratamiento. La consigna me parece plausible, pero parcial. Todo diagnóstico implica un pronóstico y debe ser seguirlo por él. Pero este pronóstico se refiere, primordialmente, a las consecuencias previsibles que el diagnóstico implica respecto a los demás conocimientos que se tengan o puedan adquiriese sobre aquello que se diagnostica. En la medida en que estas previsiones se verifiquen, aumentará la validez teórica del diagnóstico y, a través de él, la validez científica del conocimiento de los fenómenos en cuestión. Es, a mi juicio, el tipo de validez que caracteriza fundamentalmente a la ciencia. Pero el diagnóstico significa también prever para poder, para intervenir en la realidad y elaborar un tratamiento que mantenga o modifique aquello que se diagnostica. Es otro tipo de validez, subordinada, pero esencial, en el proceder científico.

Veamos, de nuevo, un caso concreto. Aplicamos a un sujeto un test de inteligencia. Obtiene una puntuación, sea una edad mental, un cocienta de inteligencia o una medida en una escala de variable latente. He ahí una evaluación o, si se quiere, un diagnóstico. ¿Qué validez puede tener? Por lo pronto, cabe indagar su validez teórica. Es preciso, para ello, elaborar un criterio pertinente, es decir, un constructo de inteligencia al que se refiera la puntuación y que le confiera significación científica. ¿Hay argumentos, empírica y experimentalmente confirmados, para mantener un concepto de inteligencia general? Supongamos que los haya. Dicho sea de paso, yo creo que los hay, y algunos han sido aportados por nuestras investigaciones. Bien, supongamos que los haya. Hay que indagar hasta qué punto nuestro test se relaciona con el constructo. Si, mediante las diversas técnicas de validación, se comprueba que efectivamente se relaciona, nuestro test tiene validez teórica para evaluar la inteligencia. La investigación científica puede proseguir. ¿Cómo? Fundamentalmente, tratando de integrar las conclusiones que se derivan de los datos obtenidos mediante el test con el resto de los conocimientos científicos y aclarando así, en este intento de integración, el concepto mismo de inteligencia. Por ejemplo, parece plausible suponer que la inteligencia está de algún modo condicionada por ciertas propiedades de la estructura y funcionamiento del cortex cerebral. ¿Hay alguna relación entre las puntuaciones en nuestro test y, por ejemplo, la amplitud, la variabilidad o alguna medida combinada de diversos parámetros de los potenciales provocados, como vienen últimamente defendiendo, con cierta vehemencia, Eysenck y otros investigadores? ¿Se relacionan esas puntuaciones con las latencias de los tiempos de inspección o de reacción? ¿Covarían con el predominio funcional de uno u otro hemisferio o con la masa total de la corteza cerebral intacta? ¿Dependen y en qué cuantía de las diferencias genéticas y de las ambientales entre los sujetos de una determinada población? O, en otro contexto teórico, ¿varían sistemáticamente esas puntuaciones con determinados parámetros de los componentes y estrategias cognitivas que intervienen en la solución de tareas y problemas que supongan el ejercicio de la actividad inteligente? ¿Se relacionan con los repertorios de conducta adquiridos por los sujetos? En la medida en que estas cuestiones reciben respuestas confirmatorias o refutadoras, se irá aclarando la validez o invalidez teórica del constructo de inteligencia, como parte de una teoría científica y como criterio para contrastar los procedimientos para evaluarla.

Por otra parte, ¿sirve nuestro test para algo práctico? Sepamos o no qué es lo que realmente evalúa, ¿es útil para predecir algún criterio pragmático? ¿Se correlaciona con el éxito laboral, escolar o clínico de ciertos sujetos o ciertas poblaciones? Para averiguarlo, hay que definir algún criterio pertinente: en qué consiste, al menos en alguno o algunos de sus aspectos, el comportamiento satisfactorio en el trabajo, el estudio o el sano ajuste mental. Si el test se correlaciona con algún criterio práctico, el test será válido para pronosticarlo, tendrá validez empírica.

Sigamos adelante con nuestro ejemplo. Averiguamos que un sujeto obtiene una determinada puntuación en nuestro test. ¿Nos podemos parar ahí? No parece sensato. Es como si un médico aplicara un termómetro a un paciente y se fuera tan contento diciendo «tiene cuarenta grados de temperatura». Es obvio que, entonces, el médico no cumpliría su función. En el contexto científico general, la temperatura es un constructo bien asentado. Su significación viene dada por el conjunto de relaciones entre conceptos científicos tales como el calor, el movimiento browniano, la cantidad de calor y las diferencias entre niveles térmicos. El termómetro se relaciona comprobablemente con el constructo de temperatura. Tiene validez teórica para medirla y, si está bien construido, sus medidas son altamente fiables. El médico puede, en consecuencia y por lo pronto, utilizar el termómetro para medir la temperatura. Es lo que el psicólogo debe, también y ante todo, comprobar: que lo que pretende evaluar tiene consistencia científica y que el procedimiento para evaluarlo es válido y fiable. Pero, evidentemente, no todo acaba ahí. El médico debe saber hasta qué punto la temperatura es una propiedad -los psicólogos solemos decir un rasgo- suficientemente estable, cuál es su origen, qué la hace variar y cómo modificarla, cuando convenga, en provecho del paciente. Lo mismo el psicólogo. Sabe ya a qué concepto de inteligencia se refiere y que su test la mide aceptablemente. Ha averiguado que tal sujeto tiene tal puntuación. Debe, asimismo, saber, o intentar descubrir, cómo se ha originado el fenómeno que evalúa, a qué se debe que el sujeto haya obtenido esa puntuación y qué medios hay para, según convenga, mantenerla o modificarla. Lo que significa que, además de los fundamentos teóricos en que se base, el psicólogo tiene que averiguar qué pronósticos prácticos puede Formular y cómo intervenir para que esos pronósticos se cumplan. Es decir, debe considerar también la validez pragmática del test, su relación con criterios útiles en la vida del sujeto,

Todo lo cual implica que la validez y los criterios teóricos y prácticos son nociones distintas, pero no independientes. Un conocimiento científico válido, tiene validez en sí, pero, si es teoréticamente válido, parece poco razonable suponer que no sirva, ahora o en el futuro, para nada. Si se muestra obstinada y permanentemente estéril, se supuesta validez teórica resultará más bien dudosa. Del mismo modo, algo que prácticamente sirve, manifiesta obviamente su validez empírica, pero, si es en efecto útil, es poco plausible que carezca de algún fundamento teórico, que hay que buscar, aunque por el momento se ignore, Es improcedente, y puede ser nefasto, limitarse a afirmar que un sujeto, porque tiene, válida y correctamente, cuarenta grados centígrados de temperatura, es a este respecto anormal, como lo es contentarse con decir que un sujeto, porque válida y correctamente obtenga un cociente intelectual de cuarenta, es un débil o retrasado mental, y tal vez dejarlo clasificado para siempre en esa categoría, como a una mariposa clavada con un alfiler. Es preciso intentar averiguar por qué tiene esa temperatura o ese cociente de inteligencia y tratar de elaborar procedimientos científicos para modificar la temperatura o el cociente, o para, mientras no se logre o no se sepa como conseguirlo, procurar aliviar la experiencia subjetiva de la persona y mejorar su comportamiento en lo que se pueda.

Algunos datos

Apliquemos estas nociones elementales a una investigación concreta que realicé hace algunos años (1953). Se trataba de seleccionar personal para tareas sencillas y repetitivas de emsable de relés. Se procedió según el esquema clásico: análisis de las tareas, elaboración de un profesiograma, definición de las aptitudes supuestamente requeridas, elección e invención de tests para medirlas y comprobación de su fiabilidad, extracción de una muestra de sujetos, determinación de un criterio de eficacia en el trabajo, medición de las aptitudes y del criterio en la muestra de sujetos y, finalmente, comprobación de la validez de los tests para pronosticar el criterio, indicada por la correlación entre ambos. La investigación prosiguió, sin embargo, a diferencia de lo que suele hacerse, con diversos y sucesivos estudios, para someter a prueba diferentes hipótesis acerca de la pertinencia de varios criterios y de los diversos aspectos de la validez de los tests.

La muestra elegida fue de 20 operarios. Razones prácticas de la empresa impidieron utilizar una muestra mayor. Todos los sujetos tenían aproximadamente la misma edad, de 24 a 28 años, y la misma antigüedad en el trabajo, 3 meses, suficiente para haber tenido ocasión de dominarlo y lo bastante breve para que otros factores distintos de la aptitud, que pudieran acumularse a lo largo del tiempo, hubieran podido influir decisivamente en el rendimiento. A estos operarios se les aplicaron los tests: rapidez y ritmo de movimientos manuales, coordinación bimanual y visomanual, automatización de movimientos, sensibilidad táctil a espesores y rugosidades e inteligencia espacial. Asimismo, se evaluó su eficacia productiva mediante dos criterios combinados: la eficacia media de su trabajo durante los 3 meses, según constaba en sus fichas de producción, y la puntuación en una escala de juicios comparativos de Thurstone, elaborada a partir de las comparaciones binarias hechas por el jefe de taller sobre la eficacia observada en el trabajo de cada operario. La validez de los tests, en este caso la validez concurrente, pues los tests y el criterio se aplicaron prácticamente al mismo tiempo, fue hallada mediante la correlación múltiple entre la batería y el criterio y resultó igual a 0,69, una elevada validez pragmática.

Hasta aquí, todo se hizo, con el mayor rigor posible, según la metodología al uso. Subsisten, sin embargo, dudas acerca de la validez teórica del criterio, que es el tema que hoy nos ocupa. ¿Es conceptualmente válido un criterio de producción para juzgar sobre el valor práctico de unos tests de aptitud? -Cabe pensar razonablemente que el rendimiento depende sólo de la aptitud? Parece obvio que no. Parece claro que depende también de otras muchas cosas. Para decirlo con un mínimo de palabras, las resumiré en dos: formación y motivación. Es razonable suponer que se trabaja según se puede, es decir, según las aptitudes; según se sabe, es decir, según se ha aprendido, y según se quiere, es decir, según la motivación. Si esto es así, habría que introducir criterios de aprendizaje y motivación en el estudio. Para ello procedí como sigue.

A una nueva muestra de 180 aspirantes, que la empresa había admitido recientemente mediante sus anteriores métodos de selección -examen médico, antecedentes laborales y entrevista-, se aplicó la batería antes dicha. Luego, después de 6 años, se calculó la eficacia productiva media de cada operario, de acuerdo con sus fichas de producción durante los 6 años y su puntuación en una escala de Thurstone, como la antes mencionada. Es decir, se repitió el proceso de validación seguido en el primer estudio, pero ahora sometiendo a prueba la validez predictiva a largo plazo de los tests de aptitud. ¿Son los más aptos, según los tests, los que mejor rinden a lo largo de 6 años? La respuesta fue totalmente negativa. Las correlaciones entre cada test y la batería, de una parte, y cada criterio de eficacia productiva y la combinación de ambos, de otra, resultaron todas próximas a cero y estadísticamente no significativas. La validez empírica de los tests, que había sido considerablemente alta a corto plazo, se mostró nula a largo plazo. La conclusión parece clara: los tests de aptitud, a fin de cuentas, no sirven. Pero, ¿es razonable esta conclusión? Tal vez los que no sirvan sean los criterios. Veamos.

Suponemos, como dije, que el rendimiento depende de tres factores principales: aptitud, formación y motivación. En este tipo de trabajo la formación requerida es escasa; son tareas sencillas, repetidas y muy automatizadas. Es sensato suponer que todos los operarios han tenido ocasión de adquirir, durante 6 años de práctica, el mismo tipo de formación, sea esta definida en términos de componentes y estrategias cognitivas o de repertorios de conducta. Nos queda la aptitud y la motivación. Ya vimos que los supuestos tests de aptitud no sirven para pronosticar el rendimiento a largo plazo. ¿Se relacionará este rendimiento con la motivación? Para comprobarlo evaluamos esta variable. Cada uno de los 180 operarios recibió una puntuación en una escala de juicios comparativos, como las ya dichas, derivada de las comparaciones de cada par de sujetos hechas por los supervisores sobre el interés y voluntad de trabajo observados en los operario,, La correlación entre el mismo criterio anterior de eficacia productiva y las puntuaciones en interés y voluntad de trabajo fue de 0,80, es decir, muy elevada. Nueva conclusión: Los tests de aptitud carecen a la larga de valor, Lo decisivo en estos trabajos es la motivación del operario.

Bien, pero los tests de aptitud carecen de valor para qué. Desde luego, para predecir el rendimiento durante amplios períodos de tiempo. Pero, ¿por qué habrían de predecirlo? Lo más que cabe esperar de los tests de aptitud, si la miden, es que pronostiquen la aptitud para trabajar, siempre que, como en este caso, sea plausible suponer que las aptitudes psicomotoras elementales y la inteligencia espacial sean rasgos suficientemente estables en adultos. No parece, en cambio, sensato esperar que pronostiquen el rendimiento efectivo, que dependerá también de la motivación. El fracaso puede no estar en los tests, sino en el criterio. El criterio de producción es inadecuado, si no se controla la motivación, para juzgar del valor de los tests. Tratemos comprobarlo

Para ello, se definió un nuevo criterio la competencia, capacidad, destreza y habilidad mostradas en el trabajo. Los 180 operarios fueron juzgados por los supervisores en estas características, prescindiendo de su interés por el trabajo y de su efectiva producción, obteniendo cada uno una puntuación en la correspondiente escala de juicios comparativos. La correlación entre la batería de los tests, aplicada 6 años antes, y el nuevo criterio fue de 0,70. Después de todo, los tests resultan altamente válidos para predecir a largo plazo lo único que cabe esperar que pronostiquen, la capacidad de los sujetos para realizar su trabajo, no su efectivo rendimiento.

Sigamos nuestras reflexiones. ¿Cuál es verdaderamente el valor práctico de los tests? Parece que, a la postre, ninguno, pues, en definitiva, lo que interesa es el rendimiento efectivo. Pero ¿no podrán los tests pronosticar también este rendimiento, si se controlan los efectos del aprendizaje y la motivación?

Hagamos una nueva comprobación. Se aplicaron los tests a nuevos aspirantes. Se seleccionaron 20, diez considerados como «aptos», según los tests, con puntuaciones superiores a un valor típico de uno, y diez pronosticados como «insuficientes», con puntuaciones típicas inferiores a menos uno. Los veinte pasaron por un mismo cursillo de aprendizaje, que garantizó una formación para el trabajo aproximadamente homogénea, y se procuró que todos estuvieran altamente motivados, entre otras cosas, porque sabían que su contratación dependía de la prueba final. Esta prueba consistió en la calificación por un conjunto de supervisores de la eficacia productiva lograda en varias muestras de trabajo. La correlación entre la batería de tests de aptitud y el criterio de rendimiento fue ahora alta. Los supervisores estuvieron de acuerdo en calificar a 8 operarios como «eficaces en el trabajo» y a 7 como «insatisfactorios». Los 5 restantes fueron juzgados como dudosos o no hubo acuerdo sobre ellos. Pues, bien, los 8 «eficaces» en rendimiento pertenecían todos al grupo de los 10 pronosticados como «aptos», los 7 «insatisfactorios» en el trabajo formaban todos parte del grupo de los 10 pronosticados como «insuficientes»; de los 5 dudosos, 3 eran de los «aptos» y 2 de los «insuficientes». La prueba de khi cuadrado, con 2 grados de libertad, arrojó un valor de 17,4 y el coeficiente C de contingencia fue de 0,68, altamente significativos.

En conclusión, los tests de aptitud, en las condiciones de nuestro estudio, resultaron altamente válidos para pronosticar la capacidad de trabajo, pero no el rendimiento; el rendimiento depende fuertemente de la motivación. Los tests de aptitud, sin embargo, pueden pronosticar el rendimiento cuando el trabajo se realiza en condiciones que hacen semejantes la formación y la motivación de los sujetos. Es preciso tener en cuenta las circunstancias de cada caso para definir los criterios pertinentes. Si los criterios no son conceptualmente válidos, los resultados de una evaluación pueden ser engañosos.

En un contexto más amplio, todo indica que las pruebas de aptitud pueden ser útiles para disponer de personal capaz, pero no suficientes para lograr un trabajo eficazmente productivo. Se necesita para ello atender a los complejos factores, aquí no examinados, que influyen en el interés, la motivación y la voluntad de trabajo. La aptitud, sin la motivación, es en buena parte inútil. La motivación, sin la aptitud, es una buena parte estéril. Y las dos, aptitud y motivación, sin el aprendizaje y formación adecuadas, que aquí tampoco hemos estudiado, no llegan a ser conductas efectivas o efectivamente eficaces. Son éstas, por cierto, como es sabido, algunas de las cuestiones centrales de la actual psicología del trabajo y de las organizaciones.

Consideraciones finales

Las reflexiones y datos precedentes no tenían otro propósito que aclarar, de la forma más sencilla posible, algunos aspectos del problema del criterio. Las técnicas estadísticas y de diseño empleadas, aunque creo que correctas, fueron sumamente elementales. Repárese en que el estudio se realizó hace casi cuarenta años. El psicólogo interesado en las técnicas de validación cuenta hoy con un arsenal copioso de nuevos procedimientos. En España se conocen bien gracias al trabajo de numerosos equipos de investigación. Mencionaré tan sólo, las damas primero -admítase esta cortesía demodée, explicable por mi avanzada edad- mencionaré, digo, tan sólo las publicaciones de Rocío Fernández Ballesteros, Rosario Martínez Arias y María Teresa Anguera.

La aportación más saliente al estudio de estos problemas consiste en haber mostrado que el uso de un solo coeficiente de correlación, simple o múltiple, es insuficiente. La aplicación del análisis causal ha confirmado la vieja convicción de que un único coeficiente de correlación es prácticamente ininterpretable. Cuando se utiliza el análisis de vías (el path analysis) y se analiza una correlación en sus componentes directos e indirectos, suele comprobarse que el coeficiente es espuriamente alto o bajo, debido al influjo de otras variables. Se han desarrollado, asimismo, nuevos aspectos teóricos para aclarar las llamadas validez de constructo, muestras y pragmática, y nuevas técnicas para evaluarlas, tanto en el comportamiento laboral, como en el escolar y el clínico y tanto con fines clasificatorios, como preventivos, modificadores o terapéuticos. El valor efectivo de las previsiones se puede hoy afinar mediante la aplicación de las teorías de la decisión y la utilidad. La llamada validez externa de un estudio, o de un conjunto de ellos, se puede indagar mediante los procedimientos de generalizabilidad a universos de arcas, ocasiones, evaluadores o sujetos, Están en pleno auge y son objeto de vivas polémicas los nuevos enfoques de meta-análisis y generalización de la validez. Se estudian con ellos las propiedades y solapamientos de las distribuciones de numerosos coeficientes, en ocasiones varios miles, una vez corregidos los influjos perturbadores de los varios artefactos estadísticos, como son los errores de atenuación por fiabilidad imperfecta, los efectos que tienen sobre la correlación las diferencias de amplitud y varianza entre las muestras o el poder de las pruebas estadísticas, es decir, el riesgo que algunas implican de no justificar el rechazo de la hipótesis nula cuando es falsa.

A mi entender, los objetivos de estos enfoques son, entre otros muchos, dos principales. Uno, estudiar los patrones de variación temporal sistemática de los coeficientes de validez, mediante, por ejemplo, el ajuste de las matrices de coeficientes al escalograma simple de Guttman. Otro, comparar la validez diferencial entre criterios globales y únicos y criterios específicos y múltiples. En este campo se desarrolla hoy una interesante controversia acerca de los criterios estáticos y dinámicos, es decir, acerca de la relativa pertinencia y eficacia de mantener durante un proceso de evaluación, sobre todo si se prolonga bastante en el tiempo, el mismo criterio o cambiarlo sistemáticamente. Los datos, creo, se inclinan, por el momento, a favor de los criterios dinámicos e indican, como era de esperar, que las características que más importa prever en muchos tipos de comportamiento no son las mismas a lo largo del ejercicio profesional, de las actividades escolares o de un proceso de terapia o de modificación de conducta.

Hay que mencionar también el desarrollo de técnicas para la investigación idiográfica e idiotética, que intentan describir los componentes, estructuras, procesos y estrategias y sus regularidades y leyes en un sujeto particular, así como la renovación del interés por los viejos temas psicométricos. Especialmente en el campo clínico y en todo intento de modificación de conducta, se vuelve a insistir en la necesidad, durante algún tiempo un poco olvidada, de que todo procedimiento evaluativo, cualquiera que sea su fundamento teórico, debe cumplir los requisitos psicométricos clásicos de fiabilidad, consistencia interna, poder discriminativo, generalizabilidad y validez objetiva, como competentemente muestra Fernando Silva en su reciente libro (1989). Se subraya, asimismo, la exigencia de distribuir y analizar por separado, de una parte, la estabilidad a lo largo del tiempo de las medidas de rasgos y constructos y, de otro, la fiabilidad de los procedimientos de evaluación. Otro avance importante en este terreno es el desarrollo de los tests de competencia -los llamados por los anglosajones tests referidos al criterio-, de los tests de potencial de aptitud y aprendizaje, y de los tests de variable latente, que permiten elaborar procedimientos de evaluación adaptados a cada persona y ofrecer puntuaciones en buena parte independientes de la muestra de sujetos. Finalmente, se mantiene y renueva el estudio de las dimensiones de covariación de prodictores y criterios mediante el análisis factoral clásico y jerárquico y las nuevas técnicas de análisis de conglomerados y correspondencias y de análisis factorial confirmatorio y de ecuaciones estructurales (Véanse, como fuentes bibliográficas y revisiones recientes sobre estos temas, APA, 1985; Arvey y Faley, 1988; Austin y cols., 1989; Barrett y cols., 1981, 1985; Guion, 1987; Guion e Ironson, 1983; Nathan y Alexander, 1988 y Sussman y Robertson, 1986).

Tengo que terminar. Vaya, si me lo permitís, una última observación. El campo de la evaluación, como, por lo demás, todos los campos de la psicología, está en plena ebullición, desarrollo y polémica. Crecen los problemas, se multiplican las perspectivas teóricas proliferan y las técnicas para definirlas y comprobarlas. De una cosa podéis estar seguros. Si de verdad os interesa la psicología y os ponéis a trabajar en ella, no tendréis ocasión de aburriros en toda vuestra vida, que os deseo larga y gozosa.

BIBLIOGRAFÍA
American Psychologial Association (1985): Standards for Educational and Psychological Testing. Washington, DC: APA.

Arvey, R. D. y Campion, J.E. (1982): The employment interview: A summary and review of recent research. Personnel Psychology. 35, 281-232.

Arvey, R. D. y Faley, R.H. (1988). Fairness in selecting employees. New York: Addison-Wesley.

Austin, J. T, Humphreys, L. G. y Hulin, Ch.L. (1989). Another view of dynamic criteria. Personnel Psychology. 42, 538-596.

Barrett G. V., Phillips, J. S. y Alexander, R. A..(1981). Concurrent and predictive validity desings. J. Applied Psychology. 66, 1-6.

Barrett, G. V, Caldwell M. S. y Alexander, R. A. (1985). Personnel Psychology. 38, 41-56.

Dougherty, T. W, Ebert P. T. y Callender, J. C. (1986): Policy capturing in the employment interview. J. Applied Psychology. 71, 9-15.

Guion, R.M. (1987). Changings views for personnel selection research. Personnel Psychology. 40, 199-213.

Guion, R. M. o Ironson, G. H. (1983). Latent trait theory for organizational research. Organizational Behavior and Human Performance. 31, 54-87.

Nathan, B.R., y Alexander, R. A. (1988): A comparisson of criteria for test validation: a meta-analytical investigation. Personnel Psychology. 41, 517-535.

Silva, F. (1989). Evaluación conductual y criterios psicométricos. Madrid: Pirámide.

Staats, A. W. (1983): Psychology's crisis of disunity. New York, Praeger.

Sussma, M. y Robertson, D.U. (1986): The validity of validity: An analysis of validation study designs. J. Applied Psychology. 71, 4161-468.

Yela, M. (1953): Eficacia, aptitud y voluntad de trabajo. Revista del Instituto de Racionalización del Trabajo, 33, 417-420.

INFORMACIÓN

PAPELES DEL PSICÓLOGO

CONTACTO

EVALUAR QUÉ Y PARA QUÉ. EL PROBLEMA DEL CRITERIO.