Vol. 19, núm. 6 noviembre-diciembre 2018

Las habilidades socioemocionales, no cognitivas o “blandas”: aproximaciones a su evaluación

Benilde García Cabrero Cita

Resumen

En el presente artículo se describe un conjunto de habilidades y competencias que han sido identificadas como habilidades no cognitivas, habilidades del siglo XXI, o habilidades socioemocionales (HSE). Estas habilidades han sido consideradas como igual o más importantes que las habilidades cognitivas para desempeñarse exitosamente en los ámbitos académico, personal y profesional (Organización para la Cooperación y el Desarrollo Económicos [OECD], 2015). A raíz del reconocimiento creciente de la importancia de las HSE, se han diseñado programas educativos para apoyar su desarrollo, que se han agrupado bajo el nombre genérico de programas de aprendizaje socioemocional (SEL, del inglés Social Emotional Learning). En el texto se analizan diferentes categorías de habilidades socioemocionales que han sido incluidas en los programas desarrollados en México y los Estados Unidos para promoverlas, así como los procedimientos e instrumentos para su evaluación.
Palabras clave: habilidades socioemocionales, habilidades no cognitivas, medidas de autorreporte.

Socio-emotional, non-cognitive or “soft” skills: approximations to their evaluation

Abstract

This article describes a set of skills and competencies that have been identified as non-cognitive skills, 21st century skills, or socio-emotional skills (HSE). These skills have been considered as equal, or more important than cognitive skills to perform successfully in the academic, personal and professional fields (Organización para la Cooperación y el Desarrollo Económicos [OECD], 2015). Because of the growing recognition of the importance of HSE, educational programs have been designed to support the development of these skills, which have been grouped under the generic name of Social Emotional Learning (SEL) programs. In this text, we analyze different categories of socio-emotional skills that have been included in the programs developed in Mexico and the United States to promote them, as well as the procedures and instruments for their evaluation.
Keywords: social-emotional skills, non-cognitive skills, self-report measures.

Introducción

¿Habrás notado que las personas exitosas en diversos ámbitos de la vida tienen no sólo desempeños destacados en su campo, sino otras habilidades que acompañan a estos logros? Si analizamos las características de alguna de estas personas, Steve Jobs por ejemplo, nos encontramos con que el creador de la empresa Apple, que diseña las computadoras de la misma marca y los famosos teléfonos iPhone, tenía cualidades que iban más alla de su aguda inteligencia. Una revisión rápida a su biografía nos revela que Steve Jobs también contaba con otras cualidades como ser creativo, tenaz, saber colaborar con otros, ser un líder, creer en sí mismo y en que podía lograr lo que se propusiera, entre otras.

A pesar de que habilidades como las anteriores generalmente se destacan cuando se describe a una persona, no fue sino hasta el siglo XX que comenzaron a ser estudiadas de forma sistemática. Como señaló Messick: “Una vez que el término cognitivo se consideró apropiado para referirse a las habilidades intelectuales y al rendimiento académico en el ámbito escolar convencional [. . .] por defecto, el término no cognitivo se colocó en primer plano para describir todo lo demás” (como se cita en Duckworth y Yeager, 2015: 282). Estas habilidades no cognitivas son diversas –por ejemplo, perseverancia (grit), autocontrol (self-regulation), mentalidad de crecimiento (growth mindset), entre otras– y facilitan los esfuerzos dirigidos al logro de metas, las relaciones sociales saludables y la toma de decisiones. Duckworth y Yeager (2015) señalan que estudios longitudinales han confirmado que dichas habilidades predicen el desempeño académico, económico, social, psicológico y el bienestar físico.

Los términos habilidades del siglo XXI, competencias del siglo XXI y nuevas habilidades básicas hicieron su aparición a partir de los años noventa (Murnane y Levy, 1996; Pellegrino y Hilton, 2012; Soland, Hamilton y Stecher, 2013; como se cita en Duckworth y Yeager, 2015). El último término en entrar en escena es el de soft skills, habilidades “blandas” (Heckman y Kautz, 2012).

Kyllonien (2012) sostiene que existe evidencia de que este tipo de habilidades está asociado a rasgos de personalidad, es decir, a aquellas formas estables que tenemos de reaccionar ante diferentes circunstancias. Sin embargo, en otros estudios (Caspi, Roberts y Shiner, 2005; Roberts, Walton y Viechtbauer, 2006; como se cita en Duckworth y Yeager, 2015) se ha encontrado que estas habilidades pueden cambiar a lo largo de la vida, bajo la influencia de factores como la educación, las prácticas de crianza y los patrones culturales.

Las habilidades socioemocionales

La perseverancia, sociabilidad y curiosidad son habilidades socioemocionales que, como su nombre lo indica, están estrechamente relacionadas con las emociones, las cuales se encuentran presentes en todos nuestros comportamientos y son las encargadas de motivar, energizar y dirigir tanto el pensamiento como la conducta (West, 2016).

La palabra emoción proviene de la raíz latina motere, que significa “moverse”, lo que sugiere que la tendencia a la acción está implícita en las emociones (West, 2016). Cuando “te emocionas” o experimentas una emoción, es probable que presentes ciertas tendencias a actuar de determinada forma, como por ejemplo huir o alejarte de una situación que te provoque miedo o repulsión. La manera en la que reaccionas ante una emoción está mediada por la valoración cognitiva, es decir, la interpretación de los indicadores verbales y no verbales de la conducta: las palabras, gestos, movimientos corporales, tonos e intensidad de voz que se utilizan son factores que afectan la expresión y la regulación de las emociones. Estos procesos no son nuevos en el ámbito psicológico, lo que resulta novedoso y prometedor del trabajo que se ha realizado respecto de las habilidades sociales y emocionales es que las investigaciones realizadas en este ámbito han cambiado la manera en la que se concibe a dichas habilidades, pasando de ser consideradas rasgos fijos de personalidad a habilidades que se pueden aprender y mejorar (Freshman y Rubino, 2002; Segal, 2002; como se cita en West, 2016).

En la actualidad se utiliza el término de habilidades socioemocionales (HSE) o aprendizaje socioemocional. Referirse a ellas como habilidades tiene la connotación de la posibilidad de su educabilidad o entrenamiento. Los antecedentes de algunas de estas habilidades pueden trazarse al año 1983, cuando Howard Gardner se refirió a diversos tipos de inteligencia que tienen relación con categorías que actualmente se manejan en el ámbito de las HSE, como son el autoconcimiento, a lo que Gardner (2001) llamó inteligencia intrapersonal y que definió como:

La capacidad de distinguir un sentimiento de placer de uno de dolor y, con base en ese tipo de discriminación, de involucrarse más en una situación o de retirarse de ella. En su nivel más avanzado, el conocimiento intrapersonal permite a uno descubrir y simbolizar conjuntos complejos y altamente diferenciados de sentimientos (p. 189).

Gardner (2001) definió otro tipo de inteligencia relacionado con las habilidades socioemocionales, al que denominó interpersonal y que definió como:

La habilidad para distinguir y establecer distinciones entre otros individuos y, en particular, diferenciar sus estados de ánimo, temperamentos, motivaciones e intenciones. Examinada en su forma más elemental, la inteligencia interpersonal comprende la capacidad del infante para discriminar entre los individuos a su alrededor y para descubrir sus distintos estados de ánimo. En su forma avanzada, el conocimiento interpersonal permite al adulto hábil leer las intenciones y deseos de los otros (p.189).

Daniel Goleman (1995), basado en los trabajos de Gardner, acuñó el término de inteligencia emocional para referirse a la capacidad de sentir, entender, controlar y modificar los estados de ánimo propios y ajenos.

En este contexto, nace el concepto de aprendizaje socioemocional (SEL, por sus siglas en inglés), sugerido en 1994 por el Programa Colaborativo para el Aprendizaje Académico, Social y Emocional (CASEL, por sus siglas en inglés). El aprendizaje socioemocional es descrito por el programa CASEL como la adquisición de diversas habilidades socioemocionales, entre las que se encuentran el autoconocimiento, la autorregulación, la conciencia social, las habilidades para relacionarnos con otros y la toma responsable de decisiones (Elberston, Brackett y Weissberg, 2010). La figura 1 presenta el esquema propuesto por Nagaoka, Farrington, Ehrlich y Heatt (2015) sobre los tres núcleos clave dentro de las HSE:

Agencia es la capacidad de tomar decisiones y tener un papel activo en nuestra vida, en lugar de sólo “dejarnos llevar” por las circunstancias. Esta capacidad requiere que tengamos intencionalidad y que podamos tomar previsiones para poder trazar nuestro curso de acción, de tal manera que éste refleje nuestra identidad, competencias, conocimientos, habilidades, mentalidad y valores.

La identidad integrada es entendida como un sentido de coherencia interna de quién es uno a través del tiempo y a partir de las múltiples identidades sociales que podemos tener, por ejemplo, raza/etnia, profesión, cultura, género, religión. Sirve como un referente para tomar decisiones y actuar en el mundo.

Las competencias son las habilidades que nos permiten desempeñar roles de manera efectiva, completar tareas complejas o alcanzar objetivos específicos, por ejemplo, pensamiento crítico, toma de decisiones responsable, capacidad de colaboración. Nos permiten ser productivos y comprometidos, desenvolvernos en diferentes contextos, desempeñarnos de manera efectiva en diversos entornos y adaptarnos a distintas tareas y demandas que se nos puedan presentar.

En este sentido, se ha encontrado que cuando nos sentimos parte de algo –por ejemplo, de la comunidad escolar–, y además nuestra percepción de la relación es buena –tanto con nuestros compañeros de clase, como con nuestros profesores–, tendemos a ser más perseverantes (Blum y Rinehart, 2004, como se citan en Elberston, Brackett y Weissberg, 2010; Carr y Walton, 2014; Catalano, Berglund, Ryan, Lonczak y Hawkins, 2002; Dweck, Walton y Cohen, 2014). El sentido de pertenencia puede aumentar nuestra motivación para seguir intentando trabajar en las tareas escolares difíciles, buscando, por ejemplo, otras estrategias de estudio. Esto puede aumentar nuestras probabilidades de tener éxito en el cumplimiento de nuestros objetivos a largo plazo, como concluir una carrera.

La perseverancia está relacionada con la autorregulación, ya que cuando somos capaces de autorregularnos, es decir, cuando somos conscientes de la relación que existe entre nuestras emociones, nuestros pensamientos y nuestras acciones, es más probable que logremos posponer las recompensas inmediatas y busquemos cumplir los objetivos a largo plazo. En nuestro día a día, habilidades como la autorregulación y la perseverancia nos podrían ayudar a mantener una dieta, a continuar haciendo alguna actividad física o aprender un idioma nuevo, aunque al inicio estas actividades puedan resultar un tanto complicadas (Dweck, Walton y Cohen, 2014; Heckman y Kautz, 2012; Elberston, Brackett y Weissberg, 2010; Nagaoka, Farrington, Ehrlich y Heatt, 2015).



Figura 1. Factores clave para el éxito en la adultez temprana. Modificado de Nagaoka, Farrington, Ehrlich y Heatt (2015).

En el ámbito laboral, las HSE son sumamente importantes; ya que son altamente valoradas y recompensadas por los empleadores. Los trabajadores con mayores habilidades socioemocionales tienden a tener mejores perspectivas de empleo. Las personas que tienen un empleo obtienen un mejor puntaje en pruebas de perseverancia y de toma de decisiones, y tienden a ser más agradables y extrovertidas que aquellas personas que se encuentran desempleadas. Por otra parte, el salario que perciben los que están empleados también está relacionado con el nivel de HSE que poseen; aquellos trabajadores que muestran mayor extraversión y apertura a nuevas experiencias, perciben una diferencia salarial de hasta $2 dólares por día, en contraste con aquellos que no tienen estas habilidades (Acosta, Igarashi, Olfindo y Rutkowski, 2017).

Lo anterior está relacionado con el hecho de que las HSE se encuentran dentro de los conjuntos de habilidades percibidas como las más necesarias por los empleadores que participaron en una encuesta realizada a 192 altos ejecutivos de países de América Latina (EIU 2009, como se cita en Fiszbein, Cosentino y Cumsille, 2016). Esta percepción sobre las HSE se encontró también en 2.832 empleadores en nueve países (Brasil, Alemania, India, México, Marruecos, Turquía, Arabia Saudita, el Reino Unido y los Estados Unidos), quienes calificaron la capacidad para trabajar en equipo como una de las habilidades más importantes que deben tener los empleados (80% de los encuestados), seguida de las habilidades de comunicación oral, calificadas como las más importantes por el 72% de los encuestados (McKinsey 2012 como se cita en Fiszbein, Cosentino y Cumsille, 2016).

En el contexto educativo, la UNESCO ha señalado como fundamentales para el aprendizaje en el siglo XXI habilidades como la colaboración, la comunicación, el aprendizaje informal, la productividad y la creación de contenido (authorship). 1 De igual forma, resalta la importancia de diferentes competencias, como las personales (capacidad de iniciativa, resiliencia, responsabilidad, asunción de riesgos y creatividad), las sociales (trabajo en equipo, trabajo en red, empatía y compasión) y las de aprendizaje (gestión, organización, capacidades metacognitivas y habilidad para convertir las dificultades en oportunidades, o de transformar la percepción del fracaso y la respuesta al mismo), competencias que resultan de suma importancia tanto en el mundo laboral y académico como en el aspecto personal (Scott, 2015).

Por su parte, el National Research Council (NRC) y la National Academy of Sciences (NAS) de los Estados Unidos organizaron las habilidades del siglo XXI en tres categorías: a) habilidades cognitivas, b) habilidades interpersonales y c) habilidades intrapersonales. A cada habilidad le corresponden diferentes subhabilidades, como se muestra en la figura 2.



Figura 2. Habilidades del siglo XXI, de acuerdo con lo propuesto por el National Research Council y la National Academy of Sciences (elaboración propia con base en lo descrito por Kyllonen, 2012).

De acuerdo con el esquema anterior, para poder desempeñarse con éxito como ciudadano del siglo XXI, es necesario contar con habilidades cognitivas, así como intra e interpersonales como las que se incluyen en cada una de estas categorías. Sin embargo, como se ha señaldo más arriba, el éxito también significa poder cumplir nuestras metas personales y contar con las competencias necesarias para influir en el mundo que nos rodea, por lo cual es de suma importancia desarrollar una conciencia clara de nosotros mismos, de nuestras capacidades y de la amplia gama de opciones que tenemos para elegir, así como de las competencias que requerimos para poder transitar con éxito (perseverancia) por los caminos elegidos y ser capaces de tomar buenas decisiones en el futuro, como ciudadanos comprometidos con el mundo (Nagaoka, Farrington, Ehrlich y Heatt, 2015). Como se señaló anteriormente, en gran medida nuestras habilidades sociemocionales de perseverancia y toma de decisiones están vinculadas, fundamentalmente, con la conciencia y regulación de nuestras emociones.

En el ámbito académico, Pekrun (2014) ha clasificado las emociones que se pueden presentar en el contexto escolar en cuatro categorías: a) emociones de logro, que se relacionan con las actividades académicas y con el éxito y el fracaso resultantes de ellas; b) las emociones epistémicas, desencadenadas por problemas cognitivos, y especialmente importantes para aprender tareas nuevas y no rutinarias; c) emociones tópicas, es decir, aquellas que pertenecen a los temas presentados en las lecciones y que pueden despertar el interés de los estudiantes en el material de aprendizaje, y d) emociones sociales, que surgen en las relaciones con los maestros y compañeros en el aula y son especialmente importantes en la interacción profesor-alumno y en el aprendizaje grupal. Algunos ejemplos de estas emociones se muestran en la figura 3.



Figura 3. Clasificación de las emociones académicas según Pekrun (2014).
Fuente: eleaboración propia.

En el salón de clases, cotidianamente se desarrollan distintas interacciones entre el profesor y los alumnos y entre los propios alumnos, mismas que generan emociones, sentimientos y actitudes hacia sí mismos, hacia los demás y hacia la materia objeto de estudio. La siguiente descripción da cuenta de la forma en que las emociones fluyen a través de las interacciones en el aula escolar.

¿Alguna vez te encontraste con algún profesor que impartía la clase de tal forma que hizo que te interesaras por algún tema en específico o quizá por alguna profesión?, ¿qué mecanismo psicológico pudo haber desencadenado este interés? Pekrun (2014) afirma que las emociones que el maestro experimenta y muestra en el aula son “contagiosas” ya que pueden tener efectos profundos en las emociones que experimentan los estudiantes, lo cual sucede tanto con las emociones positivas, como el disfrute, la emoción y el orgullo durante la enseñanza, como con las emociones negativas, como la ira, la ansiedad o la frustración. Por lo tanto, cuando el profesor experimenta emociones positivas, puede promover el disfrute del aprendizaje en el aula y esto tiene efectos duraderos en el valor del aprendizaje percibido por los estudiantes hacia una asignatura determinada.

En vista de la importancia creciente otorgada al tema de las HSE, países como Brasil, Chile y México han incluido la promoción de su desarrollo como un objetivo de sus sistemas educativos, aunque sólo Chile y México los han incluido específicamente en sus planes de estudio (Fiszbein, Cosentino y Cumsille, 2016). En México se han definido cinco tipos de HSE para educación preescolar, primaria y secundaria, autoconocimiento, autorregulación, autonomía, empatía y colaboración; y seis para educación media superior, autoconocimiento, autorregulación, conciencia social, colaboración, toma de decisiones y perseverancia.

La evaluación de las habilidades socioemocionales

El interés por incorporar las habilidades no cognitivas o socioemocionales en los sistemas de rendición de cuentas de los sistemas educativos ha planteado la necesidad de crear medidas para evaluarlas. Pero ¿cómo podemos medir con cuáles HSE cuentan los jóvenes y en qué medida las han desarrollado? Medir las HSE presenta algunos desafíos, como son: a) definir cuáles HSE se deben valorar, partiendo de la evidencia a nivel internacional y nacional de aquellas que más se relacionan fundamentalmente con el éxito académico; b) resulta necesario definir los objetivos de evaluación y seleccionar los instrumentos y métodos de medición; y c) seleccionar medidas que cuenten con propiedades psicométricas sólidas (confiablidad y validez), así como que cubran las dimensiones de las HSE previamente identificadas, y que sean medidas válidas en diversos contextos (Huerta, 2016).

Además de los desafíos anteriores, existe otro factor a tomar en cuenta al evaluar las HSE, lo que se denomina el sesgo de referencia, es decir, las respuestas que dan los estudiantes y que están influidas por diversos parámetros con los que contrastan su respuesta. Por ejemplo, si se te pidiera que contestaras qué tan de acuerdo estás con la siguiente afirmación: “Soy una persona que trabaja duro”, seguramente traerás a tu mente algún ejemplo de lo que piensas que es “trabajar duro” y este ejemplo no será el mismo para otra persona, ya que el significado de trabajar duro cambia según factores como las influencias familiares o la cultura a la que pertenezcamos. Por lo anterior, se considera que las medidas de autoinforme son poco confiables y arrojan resultados difíciles de comparar, por lo que se puede llegar a conclusiones falsas (McKenzie, 2014; West, 2014; West, 2016).

Tradicionalmente, la evaluación de las HSE se ha abordado desde tres perspectivas. La primera incluye instrumentos basados en cuestionarios y autoinformes de los alumnos; la segunda abarca medidas de evaluación de observadores externos, basadas en cuestionarios que son llenados por los compañeros de los estudiantes o por el propio profesor; la tercera comprende medidas de habilidad o de ejecución frente a diversas tareas emocionales que los estudiantes deben resolver (Pacheco y Berrocal, 2004). Existe otro método denominado muestreo de experiencias (experience sampling), que, de manera sistemática, requiere que los participantes proporcionen muestras de su comportamiento cotidiano de forma continua, anotando en una libreta o en un formato determinado, qué están pensando, qué están sintiendo, qué sensaciones corporales están experimentando, entre otras. Los informes que deben realizar los participantes dependen de una señal que se presente en el ambiente donde están ubicados (un sonido o una luz), de intervalos preestablecidos o de la ocurrencia de algún evento. Gracias a estos informes que realizan las personas sobre sus comportamientos o sentimientos es posible responder preguntas como: ¿cómo pasan las personas su tiempo? o ¿cómo se sienten normalmente cuando participan en diversas actividades? (Larson y Csikszentmihalyi, 1983); lo cual proporciona información muy valiosa. Mediante este método se descubrió en 1975 que los adultos estadounidenses y europeos pasaban mucho menos tiempo realizando actividades relajantes que los adultos de otras partes del mundo (Szalai et al., 1975 como se cita en Larson y Csikszentmihalyi, 1983).

Instrumentos para la evaluación de HSE

El creciente interés en las HSE ha estimulado el desarrollo de instrumentos para evaluar las competencias de los estudiantes en estas áreas. Kafka (2016) y Wilson-Ahlstrom y Yohalem (2014) listan y describen diversos instrumentos utilizados con este fin, entre los cuales se evalúan habilidades como toma de decisiones, autorregulación, motivación académica, persistencia, involucramiento, perseverancia, autocontrol, mentalidad de crecimiento, autoeficacia, empatía, relación con los pares (compañeros) y asertividad, entre otros.

Un ejemplo de estos instrumentos es el Sistema de Mejora de Habilidades Sociales (SSIS, del inglés Social Skills Improvement System Rating Scales, Wilson-Ahlstrom y Yohalem, 2014), que mide habilidades de comunicación, cooperación, asertividad, responsabilidad, empatía, involucramiento y autocontrol. Este instrumento contiene dos autoinformes, uno para niños de 8 a 12 años y otro para jóvenes de 13 a 18 años. Cada niño o joven es evaluado por su profesor y sus padres, éstos deben contestar cuestiones como “Se mantiene tranquilo cuando lo molestan”. Esto, a partir de una escala tipo likert de cuatro puntos: nunca, rara vez, a menudo, casi siempre. Por su parte, los niños y jóvenes que están siendo evaluados también responden a afirmaciones como “Me mantengo tranquilo cuando me molestan”, utilizando la escala tipo likert: no es cierto, un poco cierto, cierto, muy cierto.

La mayor parte de los países de la Organización para la Cooperación y el Desarrollo Económico (OCDE) realizan evaluaciones de las HSE a través de estándares de desarrollo o rúbricas (OCDE, 2015, como se cita en Huerta, 2016). Estas evaluaciones parten de las observaciones de los maestros o formadores sobre el comportamiento cotidiano de los estudiantes. Por su parte, los autorreportes son usados en países como Alemania, Reino Unido, Noruega, Dinamarca, Colombia, Perú y Brasil, para evaluar aspectos relacionados con los problemas emocionales, problemas de conducta, problemas de hiperactividad o inatención, problemas con los pares, y comportamiento prosocial (Huerta, 2016).

El Banco Mundial, a través del proyecto de medición de habilidades conocido como Habilidades hacia la Empleabilidad y la Productividad (Skills Towards Employability and Productivity, STEP, por sus siglas en inglés), que se emplea en varios países, evalúa rasgos de personalidad, perseverancia (grit es el término utilizado en inglés para perseverancia) y habilidades de comportamiento (McKenzie, 2014). Para ello se utilizan instrumentos con escalas tipo likert en las que se incluyen reactivos como los siguientes: “Puedo trabajar con alguien que tiene opiniones diferentes a las mías” y “Sigo trabajando incluso cuando me implique más tiempo de lo que pensaba”.

En México, a partir del año 2015, se han realizado evaluaciones de las HSE a través de la prueba Plan Nacional para la Evaluación de los Aprendizajes (PLANEA). En 6º de primaria y 3º de secundaria se evaluaron las competencias social escolar, la conducta prosocial, la relación positiva con pares, la prácticas que obstaculizan la convivencia, el acoso escolar y el manejo pacífico de conflictos. En educación media superior se evaluó a través de PLANEA el manejo del estrés, la empatía, la toma de decisiones y la perseverancia (Instituto Nacional para la Evaluación de la Educación [INEE], 2015).

Con el fin de lograr una mejor manera de evaluar las HSE, que resulte válida y confiable, se están realizando a nivel mundial múltiples esfuerzos por desarrollar medidas comunes de habilidades no cognitivas como parte de un sistema de gestión de desempeño. Uno de los más sólidos es el que se está llevando a cabo Estados Unidos en ocho distritos escolares de California, al que colectivamente atienden a más de un millón de estudiantes. En estos distritos, durante el año escolar 2014-2015, se llevó a cabo una prueba de campo en la que se evaluaron cuatro habilidades socioemocionales (autorregulación, mentalidad de crecimiento, autoeficacia y conciencia social). En dicha evaluación participaron más de 450 000 estudiantes de los grados 3º a 12º. El análisis de los datos de la prueba de campo indica que las escalas que se utilizaron en esta evaluación obtuvieron una alta confiabilidad y se correlacionan positivamente con los indicadores de desempeño académico y de comportamiento de los estudiantes. Estos hallazgos proporcionan una visión ampliamente alentadora del potencial de los autorreportes de habilidades socioemocionales como un aporte para evaluar el desempeño escolar (West, 2016).

Asimismo, el Educational Testing Service, una de las instituciones líderes a nivel mundial en el desarrollo y validación de instrumentos, ha explorado una amplia variedad de métodos de medición de las HSE, tales como la autoclasificación y las escalas de calificación de otros, pruebas de juicio situacional, el uso de viñetas, el razonamiento condicional, la prueba de asociación implícita, entre otros (Kyllonen, 2012).

Por su parte, la organización Transforming Education, la cual lidera un grupo de trabajo de evaluación en asociación con CASEL, los ocho distritos líderes (CORE Disctricts) de California, la Universidad de Harvard, y la Corporación RAND (Research and Development), entre otros, han iniciado una investigación sobre las medidas de HSE existentes a la fecha y propondrá una guía de evaluación a finales de 2018 para apoyar la selección de medidas de competencia social y emocional.

Entre los instrumentos para realizar la evaluación de las HSE que propone actualmente esta organización se encuentran las encuestas de autoinforme del estudiante, en las que se pide que evalúen sus propias competencias socioemocionales. Estas encuestas han sido probadas y adaptadas en las escuelas, sobre todo como parte del sistema de medición de datos de los CORE Districts en California. A la fecha se cuenta con tres escalas de evaluación de las HSE que cubren las competencias de autoeficacia, mentalidad de crecimiento y conciencia social. Cada escala tiene entre 5 y 9 reactivos y se contesta a partir de una escala tipo likert de cinco puntos. Estas escalas están dirigidas a estudiantes de los grados quinto de primaria al último año de bachillerato (Transforming Education, s.f).

El futuro de las medidas de HSE

Actualmente las instituciones líderes en el diseño de instrumentos de evaluación han realizado recomendaciones sobre los principios que deberían guiar el desarrollo de los futuros instrumentos de evaluación en el ámbito socioemocional, con la finalidad de poder crear una nueva generación de instrumentos de evaluación en este ámbito.

Para impulsar nuevos desarrollos, Transforming Education lleva a cabo un concurso anual de diseño de instrumentos que identifica y premia a los métodos más innovadores de evaluación. Por su parte, la OCDE (2015) realiza un estudio sobre habilidades sociales y emocionales (SSES, por sus siglas en inglés), en el cual examina el nivel de habilidades socioemocionales de los estudiantes entre 10 y 15 años de edad, y además reúne información sobre sus contextos de aprendizaje, familiar, escolar y comunitario, con el objetivo de proporcionar información sobre las condiciones y prácticas que fomentan u obstaculizan el desarrollo de estas habilidades. Este estudio comenzó a mediados de 2017 y se llevará a cabo durante un período de tres años; el trabajo de campo principal tendrá lugar en 2019 y los hallazgos se publicarán en 2020.

En cuanto a las recomendaciones que se han hecho sobre los principios que deberían seguir los próximos instrumentos que pretendan medir las habilidades socioemocionales, McKown (2017) menciona seis: 1) cumplir con los más altos estándares éticos y científicos; 2) los desarrolladores deben diseñar sistemas de evaluación de HSE específicamente para uso educativo; 3) las evaluaciones deben medir las dimensiones de las HSE que abarcan las tres categorías de habilidades de pensamiento, comportamiento y autocontrol; 4) los métodos de evaluación deben coincidir con lo que se mide; 5) las evaluaciones deben ser apropiadas para el desarrollo, es decir, los alumnos de diferentes edades necesitarán diferentes tipos de evaluaciones; 6) para desalentar los usos inapropiados, los desarrolladores deben especificar claramente el propósito previsto de cualquier sistema de evaluación de HSE, comenzando desde la etapa de diseño.

Aunado a lo anterior, Rikoon, Brenneman y Petway (2016) señalan otros aspectos a tomar en cuenta para la creación de la futura generación de instrumentos de evaluación de HSE:

  1. En vista de que las HSE tienden a ser complejas y multifacéticas, se recomienda que, en la medida de lo posible, se diseñen múltiples tipos de evaluación para cada habilidad a evaluar. Esto generaría diversas perspectivas, un enfoque más integral y exhaustivo, que surja a partir de distintas fuentes de información.
  2. Se deben estandarizar las evaluaciones con el fin de garantizar que los alumnos y los maestros utilicen reactivos comparables en los contextos escolares. Sin embargo, esta estandarización por sí sola no es suficiente para garantizar una comparación justa de los resultados, mucho dependerá del formato de la evaluación, el contenido, el uso previsto y el potencial de sesgo de referencia. Por ejemplo, la medida obtenida al evaluar la perseverancia no será la misma en un grupo de estudiantes de bajo rendimiento que tienden a perseverar frente a los desafíos, que, en un grupo de alumnos de alto rendimiento, ya que como se mencionó antes, los puntos de referencia sobre lo que es “ser perseverante” cambian según diversos factores del contexto.
  3. Debido a lo anterior, los autores recomiendan trabajar con expertos en el campo para desarrollar evaluaciones de las HSE a partir de investigar exhaustivamente sus parámetros de medición, validez y equidad, lo cual propiciará que los datos resultantes puedan interpretarse según lo previsto.

Finalmente, es necesario señalar, que para cumplir con los altos niveles de calidad antes expuestos, todos los instrumentos que se diseñen para la evaluación de las HSE, deberán llevar a cabo procedimientos psicométricos rigurosos de validación de los instrumentos desarrollados.

Referencias

  • Acosta, P., Igarashi, T., Olfindo, R., y Rutkowski, J. (2017). Demand for Socioemotional Skills in the Philippine Labor Market. En Developing Socioemotional Skills for the Philippines’ Labor Market (21-34). Recuperado de: https://elibrary.worldbank.org/doi/10.1596/978-1-4648-1191-3_ch2.
  • Carr, P. B., y Walton, G. M. (2014). Cues of working together fuel intrinsic motivation. Journal of Experimental Social Psychology, 53, 169-184.
  • Catalano, R. F., Berglund, M. L., Ryan, J. A., Lonczak, H. S., y Hawkins, J. D. (2002). Positive youth development in the United States: Research findings on evaluations of positive youth development programs. Prevention & Treatment, 5(1), 15a.
  • Duckworth, A y Yeager, D. (2015). Measurement matters: Assessing personal qualities other than cognitive ability for educational purposes. Educational Researcher, 44(4), 237-251.
  • Dweck, C. S., Walton, G. M. y Cohen, G. L. (2014). Academic Tenacity Mindsets and Skills that Promote Long-Term Learning. Seattle, EUA: Bill & Melinda Gates Foundation.
  • Elbertson, N. A., Brackett, M. A., y Weissberg, R. P. (2010). School-based social and emotional learning (SEL) programming: Current perspectives. En Hargreaves, A., Lieberman, A., Fullan, M., Hopkins, D. (Eds.), Second international handbook of educational change (1017-1032). Dordrecht, Países Bajos: Springer.
  • Fiszbein, A., C. Cosentino, y Cumsille B. (2016). El desafío del desarrollo de habilidades en América Latina: Un diagnóstico de los problemas y soluciones de política pública. Washington, DC: Diálogo Interamericano-Mathematica Policy Research.
  • Freshman, B., y Rubino, L. (2002). Emotional intelligence: a core competency for health care administrators. The health care manager, 20(4), 1-9.
  • Gardner, H. (2001). Estructuras de la mente: la teoría de las inteligencias múltiples. Colombia: Fondo de Cultura Económica.
  • Goleman, D. (1995). Emotional Intelligence: Why It Can Matter More Than IQ. EUA: Bantam Books.
  • Heckman, J. & Katz, T. (2012). Hard evidence on soft skills (National Bureau of Economic Research Working Paper 18121). DOI: https://doi.org/10.3386/w18121.
  • Huerta, M. (2016). Evaluación de habilidades socioemocionales y transversales: un estado del arte. (s.l.): DIALOGAS, Adelante, Agcid Chile, MESACTS y CAF-banco de desarrollo de América Latina. Recuperado de: http://www.adelante-i.eu/sites/default/files/nota_conceptual_taller_evaluacion_caf-final.pdf.
  • Instituto Nacional para la Evaluación de la Educación (2015). Planea una nueva generación de pruebas. ¿Qué evalúa? Recuperado de: https://www.inee.edu.mx/images/stories/2015/planea/fasciulosnov/Planea_3.pdf.
  • Kafka, T. (2016). A List of Non-Cognitive Assessment Instruments. Recuperado de: http://ccrc.tc.columbia.edu/images/a-list-of-non-cognitive-assessment-instruments.pdf.
  • Kyllonen, P. (2012, mayo). Measurement of 21st century skills within the common core state standards. En Invitational Research Symposium on Technology Enhanced Assessments (7-8). Recuperado de: https://www.ets.org/Media/Research/pdf/session5-kyllonen-paper-tea2012.pdf.
  • Larson, R. y Csikszentmihalyi, M. (1983). The Experience Sampling Method. New Directions for Methodology of Social and Behavioral Sciences, 15, 41–56. San Francisco: Jossey-Bass.
  • McKenzie, D. (2014). Development Impact. Hard measurement of Soft Skills. Washington, EUA: The World Bank. Recuperado de: https://blogs.worldbank.org/impactevaluations/hard-measurement-soft-skills.
  • McKown, C. (2017). Social-emotional assessment, performance, and standards. The Future of Children, 27 (1),157-178. Recuperado de: https://files.eric.ed.gov/fulltext/EJ1144767.pdf.
  • Nagaoka, J., Farrington, C, Ehrlich, S., y Heath, R. (2015). Foundations for Young Adult Success: A Developmental Framework. [Concept Paper for Research and Practice, University of Chicago Consortium on Chicago School Research]. Recuperado de: https://www.wallacefoundation.org/knowledge-center/Documents/Foundations-for-Young-Adult-Success.pdf.
  • Organización para la Cooperación y el Desarrollo Económicos (OCDE) (2015). Skills for Social Progress: The Power of Social and Emotional Skills. Paris: OCDE.
  • Pacheco, N. E., y Berrocal, P. F. (2004). La inteligencia emocional: Métodos de evaluación en el aula. Revista Iberoamericana de educación, 34(1), 1-12.
  • Pekrun, R. (2014). Emotions and Learning. [Educational Practices Series-24 de la International academy of education e International Academy of Education]. Recuperado de: http://unesdoc.unesco.org/images/0022/002276/227679e.pdf.
  • Reyman, J. (2013). User data on the social web: Authorship, agency, and appropriation. College English, 75(5), 513-533. Recuperado de: http://www.ncte.org/library/NCTEFiles/Resources/Journals/CE/0755-may2013/CE0755User.pdf.
  • Rikoon, S., Brenneman, M., Petway II, K. (2016). Assessing Social-Emotional Learning. [National Association of State Boards of Education]. Recuperado de: https://www.csai-online.org/resources/assessing-social-emotional-learning.
  • Scott, C. (2015). El futuro del aprendizaje 2 ¿Qué tipo de aprendizaje se necesita en el siglo XXI? Investigación y prospectiv en educación [documentos de trabajo, UNESCO]. Recuperado de: http://unesdoc.unesco.org/images/0024/002429/242996s.pdf.
  • Transforming Education (s. f.). The state of SEL measurement is new and constantly evolving, but the field continues to build upon encouraging information about the validity and reliability of existing SEL measures. Recuperado de: https://www.transformingeducation.org/sel-assessment/.
  • West, R. M. (2016). Should non-cognitive skills be included in school accountability systems? Preliminary evidence from California’s CORE Districts. Evidence Speaks Reports, 1, (13).
  • West, M. (2014). The Limitations of Self-Report Measures on Non-cognitive Skills. Washington, EU: The Brookings Institution. Recuperado de: https://www.brookings.edu/research/the-limitations-of-self-report-measures-of-non-cognitive-skills/.
  • Wilson-Ahlstrom, A y Yohalem, N. (2014). From Soft Skills to Hard Data: Measuring youth program outcomes. (s.l.): The Forum for Youth Investment. Recuperado de: http://forumfyi.org/files/soft_skills_hard_data_single.pdf.

Vol. 19, núm. 6 noviembre-diciembre 2018

ABC de la evaluación de planes de estudio
en la educación superior

Laura Elena Rojo Chávez, Virginia González Garibay, Ana María Obregón Lemus, Roxana Sierra Gonzalez y Karla Patricia Sosa Ramírez Cita

Resumen

Un plan de estudios es un documento institucional en el que se define el ideal del profesional a formar. Es un instrumento pedagógico complejo, pues orquesta el quehacer de los alumnos, profesores y autoridades de una institución. Para asegurar su vigencia y pertinencia es necesario evaluarlo. En este proceso se recopilan evidencias sobre sus distintos componentes, se emiten juicios de valor acerca de éstos y, a partir de ello, se orienta la toma de decisiones con el fin de mejorarlo. Antes de evaluarlo se debe identificar lo que se requiere evaluar de él, definir los objetivos, seleccionar los métodos, técnicas e instrumentos pertinentes, además de considerar el contexto, así como el tiempo y los recursos humanos, financieros y materiales disponibles. Si bien la evaluación no produce cambios inmediatos, es un catalizador para que se deriven beneficios para los alumnos, los profesores, los aspirantes, el proyecto educativo, la institución y la sociedad. Una buena práctica de evaluación de planes de estudio permite usar sus resultados para mejorar los proyectos educativos, por lo tanto, es necesario que se conduzca con transparencia, se apegue a principios académicos y se documente.
Palabras clave: plan de estudios, evidencias, evaluación de planes de estudio, juicios de valor, toma de decisiones, buenas prácticas.

The ABC of curriculum evaluation in higher education

Abstract

The curriculum is an institutional document that defines the ideal of a professional. It is a complex pedagogical instrument because it organizes the students, teachers and authorities’ work in an educational institution. To ensure its validity and relevance, it is necessary to evaluate it. In this process, evidences about its components are gathered, value judgments are established and, based on them, decision-making is guided in order to improve it. Before evaluating the curriculum, it is necessary to identify what is required to value about it, define objectives, select specific methods and relevant techniques and instruments, and consider context, time, as well as human, financial and material resources. Although the evaluation does not produce immediate changes, it is an impulse to direct the benefits towards students, teachers, candidates, the educational project, the institution and, of course, society. A good curriculum evaluation practice allows to use the results to improve educational projects; therefore, it is necessary to conduct the evaluation with transparency, in accordance with academic principles. Finally, curriculum evaluation must be duly documented.
Keywords: curriculum, evidence, curriculum evaluation, value judgments, decision-making, good practices.

Introducción

Un plan de estudios es un mapa en el que se definen las rutas que deben seguir los alumnos, profesores y autoridades de una institución. Permite, en primer lugar, a los alumnos seguir una ruta para lograr su formación profesional; en segundo lugar, a los profesores les indica cuál es su responsabilidad para contribuir a la formación de los futuros profesionales y; en tercer lugar, ayuda a las autoridades a planear y ejecutar las actividades necesarias para que las prescripciones señaladas en el plan de estudios se concreten.

Se trata de un proyecto educativo tangible, realizable, medible y evaluable, que se ancla en una institución para dar rumbo a su esfuerzo; al mismo tiempo, tiene una dimensión intangible, toda vez que concentra las aspiraciones de un gran número de personas. Asimismo, se procura que este proyecto se perfile armónicamente con una visión vanguardista.

Este proyecto materializa el ideal que una institución educativa tiene de un profesional; no obstante, se ve condicionado por la historia, tradición y filosofía que esta misma tiene. En él se definen y sintetizan los objetivos de una formación, los conocimientos, las habilidades y las actitudes que quedan comprendidos en los perfiles de ingreso y de egreso; los contenidos disciplinarios, las metodologías de enseñanza, los requisitos de ingreso, permanencia, egreso y titulación, las características deseables del profesorado y los recursos educativos esenciales.

Sin lugar a dudas, el plan de estudios es un instrumento pedagógico complejo que orquesta el quehacer de las instituciones educativas, en virtud de que éstas necesitan transformarse continuamente debido a los cambios que hay en la sociedad, al avance de las disciplinas, a la diversificación de los métodos y recursos pedagógicos, a la evolución de los nichos laborales en los escenarios de trabajo y a las características de las nuevas generaciones de estudiantes. Entonces, resulta indispensable redefinir también este instrumento de manera periódica.

La evaluación de planes de estudio

La evaluación de un plan de estudios tiene que asumirse como un proceso institucional, sistemático, riguroso, crítico y reflexivo, que permita, a través de distintas metodologías y fuentes de información, recopilar evidencias sobre sus distintos componentes, emitir juicios de valor acerca de éstos y, a partir de ello, orientar la toma de decisiones con el fin de mejorarlo.

Los objetivos de una evaluación pueden ser diversos: realizar un diagnóstico del proyecto en sus grandes áreas y en los diferentes componentes que cada una integra; identificar ventajas, logros, problemáticas, áreas de oportunidad y puntos críticos; asegurar su vigencia; renovar su pedagogía; innovar en recursos educativos; entre otros. Los objetivos que se establezcan determinarán qué componentes, aspectos o condiciones tendrían que ser evaluados.

En este sentido, todos los elementos de los planes de estudio son susceptibles de valorarse, pero más importante aún es reconocer que todos requieren ser revisados en algún momento para asegurar la calidad y pertinencia de los proyectos educativos.

Las prácticas de evaluación de planes de estudio en las instituciones de educación superior tienden a visualizar tres grandes dimensiones: diseño, procesos y resultados (ver figura 1). Del diseño se pueden evaluar la concepción profesional y disciplinaria que subyace al proyecto educativo, el modelo pedagógico que contempla, las características principales de la formación –objetivos, perfiles, contenidos–, los recursos y materiales educativos necesarios para su operación y los procedimientos para evaluar los aprendizajes de los alumnos. Acerca de los procesos, se observan las características de los aspirantes, la planta académica que opera el proyecto educativo, las actividades de docencia, investigación, gestión académica y vinculación con el entorno; y, finalmente, la infraestructura que respalda el funcionamiento del proyecto. Respecto a los resultados, se evalúa la trayectoria escolar de los alumnos –abandono, rezago, egreso y titulación–, la utilidad de los conocimientos adquiridos, las actividades que desempeñan los egresados en los escenarios de trabajo y, en general, aspectos relacionados con el impacto del proyecto educativo en la sociedad.



Figura 1. ¿Qué dimensiones se evalúan de los planes de estudio?
Fuente: Realización SEPPA 1 (2018). Diseño gráfico: Julián Cruz.

Es importante destacar que la evaluación de los planes de estudio no debiera reducirse a un ejercicio técnico de tareas o de recopilación de evidencias de manera descontextualizada o desarticulada, o a la consulta parcial de la comunidad académica con el objetivo de ajustar sus percepciones, opiniones y experiencias a cambios previamente contemplados que no estén fundamentados en un diagnóstico.

Nunca debe limitarse a emitir juicios de valor con base en intereses particulares ni a proponer cambios sin valorar su viabilidad institucional, operativa, política y financiera. Un ejercicio de este tipo no implica anticipar cambios; plantear la modificación, eliminación o incorporación de aspectos sin una visión integral y articulada de todos los elementos, de las opiniones de las partes involucradas –alumnos, profesores, autoridades, egresados, expertos–. Esto desvirtuaría el carácter constructivo de la evaluación, cuyo fin es la obtención de evidencias pertinentes, contextualizadas y útiles para la toma de decisiones y el perfeccionamiento de los programas académicos.

Para conducir adecuadamente la evaluación es recomendable que las instituciones de educación superior cuenten con el apoyo y asesoría de profesionales en evaluación educativa, ya que éstos tienen una formación especializada y experiencia que les permite proponer procesos de evaluación congruentes, con rigor metodológico en la obtención y análisis de la información y apegados a principios éticos.

Aunque tradicionalmente la evaluación de los planes de estudio ha sido responsabilidad de las comunidades académicas y rara vez se solicita la asesoría de un profesional de la evaluación educativa, la incorporación de estos profesionales a las comisiones evaluadoras ayudaría a dar mayor rigor a los distintos procedimientos que se siguen en la evaluación de planes de estudio.

El ciclo ideal de la evaluación de planes de estudio

La evaluación de los planes de estudio es un proceso complejo que no sólo requiere de buena voluntad, ya que se necesita obtener evidencias pertinentes, confiables, objetivas y precisas de diversos actores del proceso. La metodología para obtenerlas dependerá de los objetivos de la evaluación. Las fuentes de información pueden ser los alumnos, profesores, egresados, empleadores, expertos en el campo disciplinar, autoridades y, también, otros planes de estudio nacionales y del extranjero similares.

Antes de evaluar un plan de estudios, es indispensable diseñar la evaluación, es decir, especificar lo que se requiere evaluar y los objetivos. Una vez definidos el qué y el para qué, se planea la recopilación de la información, se definen los métodos, técnicas e instrumentos acordes al enfoque de la evaluación –cuantitativo, cualitativo, mixto–, al contexto, así como al tiempo y a los recursos humanos, financieros y materiales disponibles.

Una vez que se recopilaron las evidencias, a través de las metodologías elegidas, se sistematizan y transforman con distintas técnicas de análisis para darles un significado. Esta información representa los resultados de la evaluación y debe ser clara, precisa y congruente con los objetivos del proceso.

Los resultados de la evaluación de los planes de estudio son la base para emitir juicios de valor –ejercicio distintivo del proceso evaluativo–, que consisten en analizar, interpretar y valorar los hallazgos para expresar conclusiones y recomendaciones que sean útiles para la toma de decisiones. Además, éstos tienen que socializarse, es decir, es necesario difundirlos a través de diferentes medios para que los interesados en la evaluación –autoridades, cuerpos colegiados, alumnos, profesores, egresados– los conozcan y asuman los compromisos que les correspondan. En la figura 2 se resume el ciclo de evaluación de planes de estudio descrito en los párrafos anteriores.



Figura 2. Ciclo de evaluación de planes de estudio.
Fuente: Realización SEPPA (2018). Diseño gráfico: Julián Cruz.

Beneficios de la evaluación de planes de estudio

Las instituciones de educación superior, especialmente las públicas, tienen un compromiso con la sociedad que las sostiene; para cumplirlo cabalmente, deben ofrecer a los alumnos opciones educativas de calidad. En este sentido, la evaluación de los planes de estudio, como se ha visto a lo largo del artículo, resulta una herramienta muy poderosa para valorar la calidad educativa.

Es necesario reconocer que este proceso, en sí mismo, no produce cambios inmediatos; sin embargo, es un catalizador para que éstos ocurran. Si la evaluación es desarrollada de manera formal y sistemática aporta beneficios a los alumnos, a los profesores, a los aspirantes, al proyecto educativo, a la institución y, en última instancia, a la sociedad (ver figura 3).

Los alumnos como usuarios principales de los planes de estudio son los primeros en beneficiarse de la evaluación porque los coloca como centro de atención, es decir, ésta logra que la institución y los profesores recuerden que todos los esfuerzos educativos que realizan son en favor de una mejor formación profesional. Además, durante la evaluación los alumnos pueden expresar su opinión sobre su experiencia educativa, lo que encuentran ventajoso y las dificultades que enfrentan; de este modo, sus necesidades cobran mayor relevancia para la institución.

También hay un beneficio para los aspirantes, pues al evaluar los planes de estudio y recomendar acciones de mejora, aumentan sus posibilidades de una formación que les dé herramientas para incorporarse como profesionales a la sociedad.

Por su parte, los profesores –como responsables de instrumentar el proyecto educativo– tienen la oportunidad de reflexionar sobre su papel en éste, la relevancia de su trabajo, así como la importancia de su interacción con los alumnos y sus colegas.

El conocimiento que los profesores tienen resulta vital, dado que aportan evidencias valiosas para mejorar los planes de estudio al compartir su experiencia, exponer sus dudas e inquietudes y expresar su visión educativa.

Al externar su opinión y participar en la evaluación tanto alumnos como profesores toman conciencia sobre su responsabilidad en ésta y en el proceso de enseñanza-aprendizaje y se asumen como agentes de cambio y de garantía de calidad de los planes de estudio.

Adicionalmente, la evaluación promueve la participación de ambos actores educativos, ya sea como evaluadores o como fuentes de información; los ayuda a adquirir un mayor conocimiento tanto de la institución como del plan de estudios; fortalece su sentido de pertenencia e identidad, y los compromete en el proceso de cambio.

El principal beneficio de la evaluación para el proyecto educativo y la institución es que aporta evidencias sobre las fortalezas y debilidades de los planes de estudio que permiten tomar decisiones sobre los ajustes que requieren para mejorar su diseño, procesos y resultados.



Figura 3. ¿Quiénes se benefician con la evaluación de los planes de estudio?
Fuente: Realización SEPPA (2018). Diseño gráfico: Julián Cruz.

La evaluación también contribuye a tener un mayor conocimiento de ciertas características: de los profesores, experiencia, formación y desempeño; de los alumnos, aprendizaje, perfil, necesidades e intereses; de los recursos financieros, materiales y humanos; así como del contexto, oferta educativa afín y vinculación con el entorno. Y si se aprovecha el esfuerzo de la recopilación de evidencias, ello representa una oportunidad para fortalecer sus sistemas de información.

Además, la evaluación promueve la autorregulación, favorece la planeación, contribuye a la rendición de cuentas a distintos actores –evaluadores externos, autoridades de la institución, alumnos–, ayuda a definir políticas para asegurar la calidad, y fortalece la cultura de la evaluación.

Si bien los beneficios para la sociedad parecen menos tangibles, la evaluación tiene como fin último verificar que el proyecto educativo, que se materializa en un plan de estudios, responda a las necesidades de los profesionales que requiere la sociedad. En síntesis, ayuda a impulsar el mejoramiento de la tarea educativa y a aportar fundamentos para solucionar los problemas educativos de la sociedad.

Buenas prácticas de evaluación de planes de estudio

Las buenas prácticas de evaluación de planes de estudio se distinguen porque se realizan con la clara convicción de que, orientadas a su actualización, transformación o innovación, representan una responsabilidad permanente de todos los actores de una institución educativa. Se impulsan con objetivos claros, precisos, pertinentes y comprensibles para todos los participantes en el proceso.

Las evaluaciones se fundamentan en el marco de uno o varios modelos de evaluación, congruentes con los objetivos de las mismas y con los recursos disponibles en la institución. Deben planearse con una perspectiva de tiempo realista en la que se empleen instrumentos y procedimientos apropiados y auténticos para asegurar la obtención de evidencias suficientes, útiles, objetivas y válidas.

Intervienen en la evaluación los grupos que, de conformidad con los objetivos del proceso, deben aportar información para lograr valoraciones completas y equitativas que constituyan una base sólida para la toma de decisiones.

Las buenas prácticas de evaluación de planes de estudio se inscriben en un marco ético, es decir, de inicio a fin, la evaluación debe conducirse con transparencia y apego a principios académicos, documentarse con rigor y operar con un esquema responsivo que permita utilizar los resultados en una mejora efectiva de los proyectos educativos.

Vol. 19, núm. 6 noviembre-diciembre 2018

Evaluación estandarizada del logro educativo:
contribuciones y retos

Eduardo Backhoff Escudero Cita

Resumen

Las evaluaciones estandarizadas en el ámbito educativo tienen una larga historia, que inicia a principios de siglo XX. El campo de la Psicología y de la Educación ha impactado enormemente el mundo educativo y, últimamente, ha servido para diseñar políticas públicas y para rendir cuentas a la sociedad. La principal característica de las pruebas estandarizadas es que pueden administrarse a una gran cantidad de personas, cuyas respuestas se califican de manera automática con dispositivos electrónicos. Su gran desventaja radica en que utilizan, principalmente, el formato de selección de respuestas que hace un tanto artificial la evaluación. A pesar de esta limitación, las evaluaciones estandarizadas se utilizan con una gran variedad de propósitos: desde la admisión a instituciones educativas hasta la evaluación de la calidad educativa de un país. A lo largo de su historia, las evaluaciones estandarizadas han sido objeto de críticas, algunas de ellas justas y otras no. Dada su importancia, el propósito de este texto es precisar lo que se entiende por evaluaciones estandarizadas de aprendizaje, describir su origen y evolución en el ámbito educativo, explicar sus principales usos y puntualizar las limitaciones y retos que tendrán.
Palabras clave: evaluaciones a gran escala, evaluaciones estandarizadas, logro académico, aprendizaje, México.

Standardized assessment: contributions and challenges

Abstract

Standardized assessments have a long history, which started at the beginning of the 20th century. This field of Psychology and Education has greatly impacted the educational world and, lately, has served to design public policies and as a form of accountability. The main characteristic of standardized tests is that they can be administered to many people, whose responses are automatically qualified with electronic devices. Their great disadvantage is that they use, mainly, the answer’s selection format, that makes the testing somewhat artificial. Despite this limitation, standardized tests are used for a variety of purposes: from admission to educational institutions to the evaluation of a country’s educational quality. Throughout its history, standardized evaluations have been object of criticisms, some fair and others not. Given its importance, the purpose of this text is to specify what is meant by standardized assessments, to describe its origin and evolution in the educational field, to explain its main uses, and to point out the limitations and challenges that such evaluations will have in the future.
Keywords: large-scale assessment, standardized assessment, educational achievement, learning, Mexico.

Introducción

Tradicionalmente, la evaluación ha ocupado un lugar destacado en el quehacer educativo, como un instrumento para verificar el logro académico de los estudiantes, para retroalimentar su aprendizaje y para certificar los conocimientos adquiridos (Popham, 2002). Por ello, todos los docentes evalúan a sus alumnos, práctica que es fundamental en los procesos de enseñanza-aprendizaje (Anderson, 2018). Sin embargo, lo novedoso en la actualidad es que hacemos referencia a diversas cosas cuando se habla de evaluación. Por ejemplo, la evaluación de alumnos, de la práctica docente, del currículum, de las instituciones o del sistema educativo en su conjunto. Es decir, la evaluación educativa ha ampliado considerablemente sus fronteras, por lo que no se limita al desempeño académico de los estudiantes, ni a las evaluaciones que realizan los profesores en su práctica pedagógica cotidiana (Organización de las Naciones Unidas para la Educación, la Ciencia y la Cultura [UNESCO], 2018; Tiana, 1996).

En la historia de la educación mundial, destaca el surgimiento de las evaluaciones estandarizadas, cuyo propósito y formato son distintos a las que realizan los docentes en el aula. Estas evaluaciones, también conocidas como objetivas o de gran escala, rebasan el ámbito del aula para proporcionar resultados que sean confiables, válidos y comparables entre distintas poblaciones de estudiantes. Los exámenes de admisión a las universidades son un ejemplo clásico de una evaluación de esta naturaleza. Igualmente, las evaluaciones para medir el desempeño de los estudiantes de un país (como los casos de Planea 1 y PISA 2 ) son un ejemplo más de evaluaciones estandarizadas que se utilizan en el ámbito educativo (ej.: Instituto Nacional para la Evaluación de la Educación [INEE], 2018; Organización para la Cooperación y el Desarrollo Económicos [OCDE], 2016). También lo fue la prueba Evaluación Nacional de Logros Académicos en Centros Escolares (ENLACE), que utilizó la Secretaría de Educación Pública (SEP) hasta 2013. 3 Este tipo de evaluaciones son necesarias para poder estimar objetivamente el desempeño de grandes grupos de individuos y, consecuentemente, tomar las decisiones que correspondan.

A pesar de la utilidad que puedan tener las evaluaciones estandarizadas, muchas personas desconocen sus características, sus bondades y limitaciones; por lo que es común que algunos docentes y especialistas en educación, no sólo las critiquen, sino que estén en contra de su uso, basándose en argumentos que van desde sus limitaciones técnicas hasta sus implicaciones políticas e ideológicas.

Por lo anterior, este trabajo tiene el propósito de precisar lo que se entiende por evaluaciones estandarizadas de aprendizaje, describir su origen y evolución en el ámbito educativo, explicar sus principales usos y puntualizar las limitaciones y retos que dichas evaluaciones tendrán en un futuro próximo.

Características de las evaluaciones estandarizadas de aprendizaje

El propósito de cualquier evaluación define su estructura, sus contenidos y sus usos y, por lo tanto, determina sus alcances y limitaciones. Las evaluaciones de aprendizaje o logro educativo 4 se pueden clasificar en dos grandes categorías: 1) las que diseña el docente para utilizar en su salón de clase, con el objetivo de retroalimentar y calificar a sus estudiantes, y 2) las que desarrollan grupos de especialistas, que se basan en la literatura científica (con marcos de referencia teóricos y metodológicos rigurosos), que tienen como propósito evaluar de manera objetiva, confiable y válida lo que los estudiantes han aprendido en un dominio escolar determinado, independientemente del contexto en que ha ocurrido su aprendizaje (Popham, 2001a; 2002). A este segundo tipo de evaluaciones se les conoce como estandarizadas, y se fundamentan en diversas teorías de la medición, como aquellas que dieron origen a la evaluación de la inteligencia, las habilidades numéricas y verbales, o la personalidad. Las tres teorías que han aportado más al campo de la evaluación del aprendizaje a gran escala o estandarizada son la teoría clásica de la medición, la teoría de la generalizabilidad y la teoría de respuestas al ítem. Adicionalmente a estas teorías de la medición, cada prueba debe de tener un marco de referencia de la disciplina que se vaya a evaluar.

El segundo tipo de evaluaciones, usualmente, se utilizan con grandes poblaciones de estudiantes, razón por la cual requieren que su formato permita calificar las respuestas de manera objetiva y automática; de aquí su nombre de estandarizado (ver figura 1). Una forma de lograrlo es formular preguntas donde se deba identificar y seleccionar la respuesta correcta, entre un conjunto de opciones plausibles; es decir, que pudieran ser verdaderas. De esta manera, se pueden utilizar dispositivos electrónicos (ya sean ópticos o computarizados) capaces de calificar a una gran cantidad de individuos de forma estandarizada y objetiva, en cuestión de minutos. Hay diversos tipos de formatos para seleccionar respuestas. Entre los más utilizados se encuentran los tres siguientes: opción múltiple, falso/verdadero y relación de columnas. Seguramente, el primero de ellos es el formato más utilizado y conocido en las evaluaciones de gran escala (National Education Association, s.f.; Fletcher, 2009).

Figura 1. Proceso de admisión a una universidad pública mexicana. Fuente: reproducido con autorización de Métrica Educativa, A.C.

En los Estados Unidos y en otros países, las evaluaciones estandarizadas se empezaron a utilizar como instrumentos para la selección de personas a diversas instituciones: principalmente a las educativas y a las fuerzas armadas. También se han utilizado para certificar las competencias de algunas profesiones (por ejemplo, Medicina) y otorgar la licencia para ejercer la práctica profesional correspondiente. Igualmente, desde mediados del siglo pasado, las evaluaciones de aprendizaje estandarizadas se empezaron a usar para comparar la calidad educativa de los países (Bloom, 1969). Y, actualmente, una gran cantidad de naciones han creado instituciones evaluativas para medir diversos componentes de sus sistemas educativos y rendir cuentas a la sociedad (Tiana, 1996; Backhoff et al. 2017). Por ejemplo, en México se creó el Instituto Nacional para la Evaluación de la Educación (INEE) en agosto de 2002.

Entre las características más sobresalientes de las evaluaciones o pruebas estandarizadas, se encuentran las siguientes:

  • Se diseñan de tal manera que las preguntas, las condiciones para su administración, los procedimientos de calificación y la manera de interpretar los resultados son uniformes, consistentes y comparables de una evaluación a otra.
  • No necesariamente son pruebas de alto impacto, de tiempo limitado o pruebas cuyo formato de respuesta es la opción múltiple. Las preguntas pueden ser simples o complejas y no se limitan a medir el logro educativo.
  • Están diseñadas para administrarse a grandes grupos de personas, como es el caso de las pruebas de admisión a las universidades y las evaluaciones de aprendizaje que se realizan para evaluar la calidad educativa de un país.
  • Su desarrollo requiere de personal especializado y capacitado en el desarrollo de instrumentos de evaluación, entre los que destacan: psicólogos expertos en medición y psicometría, especialistas en currículo y docentes de las asignaturas y grados escolares que se evalúan.
  • Deben de cumplir con criterios internacionalmente reconocidos por la comunidad académica, como: The Standards for Educational and Psychological Testing (American Educational Research Association [AERA], American Psychological Association [APA], National Council on Measurement in Education [NCME], 2014).
  • Deben de contar con evidencias que garanticen la validez y confiabilidad de sus resultados.

Las evaluaciones estandarizadas pueden proporcionar dos tipos de resultados: normativos y criteriales. Los primeros sirven para comparar los resultados de un individuo con respecto a una población de referencia, con la cual se normalizan estadísticamente las puntuaciones. Así, los resultados de una persona pueden presentarse en puntuaciones Z, 5 en una escala predefinida (ej.: 200 a 800, con una media de 500 y una desviación estándar de 100 puntos), en puntuaciones percentilares 6 o, bien, en niveles de desempeño (ej.: alto, medio, bajo). Por su parte, los resultados de una evaluación referidos a un criterio hablan de la cantidad o proporción de competencias que un estudiante domina, del total de competencias evaluadas. Los resultados se presentan, por lo general, de dos maneras: porcentaje de respuestas correctas y si se cuenta o no con el nivel de maestría requerido para ejecutar una tarea.

Las pruebas estandarizadas están diseñadas para permitir una comparación confiable de los resultados entre todas las personas examinadas, porque todos responden la misma prueba. Sin embargo, es importante hacer notar que, a menudo, los individuos no han tenido las mismas oportunidades para aprender y adquirir las competencias que evalúa una prueba estandarizada (National Education Association, s.f.). Esto es así, debido a que estas evaluaciones están diseñadas para evaluar el grado en que los individuos dominan una competencia específica, independientemente de su historia académica; de la misma manera que un análisis sanguíneo mide los niveles de colesterol de las personas, independientemente de su historial médico.

Surgimiento de las evaluaciones estandarizadas

A continuación, se hace una síntesis de algunos eventos históricos que han marcado el rumbo de las evaluaciones estandarizadas en el mundo y en México.

Antecedentes internacionales

La evaluación educativa ha sido producto de dos disciplinas que han convergido históricamente: la Psicología y la Educación. Desde hace más de cien años, la Psicología se ha interesado en evaluar ciertos atributos de los individuos: su personalidad, su inteligencia y sus capacidades cognitivas. Con este interés nació la Psicometría, campo disciplinario cuyo propósito es medir cuantitativamente las características de los individuos. Con nuevas herramientas estadísticas fue posible diseñar y construir diversos exámenes estandarizados para medir el logro académico de los estudiantes. Uno de estos instrumentos fue la prueba Stanford Achievement Test (Anastasi y Urbina, 1998).

Hace cerca de sesenta años, en los Estados Unidos se impulsó fuertemente el uso de pruebas estandarizadas, como consecuencia de la aprobación del Acta de la Educación Primaria y Secundaria, cuyo propósito era evaluar la eficacia de todos los programas educativos de este país (Tiana, 1996). Poco después, se publicó el informe Coleman (1966) que tuvo un gran impacto en la sociedad norteamericana, pues mostraba que el nivel socioeconómico de los estudiantes tenía mayor influencia que la escuela en sus niveles de logro académico.

En consecuencia, la sociedad estadounidense empezó a demandar información objetiva y confiable de su sistema educativo, con lo cual se impulsó la evaluación educativa de gran escala (Hanusek, 1986), que dio pie a la creación del programa Evaluación Nacional de Progreso Educativo (NAEP), cuya principal función es evaluar los aprendizajes de los estudiantes norteamericanos y darles seguimiento a lo largo del tiempo. La información que genera NAEP sirve para evaluar la calidad de la oferta educativa del país, con lo cual se rinde cuentas a la sociedad (Jones, 1996).

Una década anterior había surgido la Asociación Internacional para la Evaluación del Logro Educativo (IEA, por sus siglas en inglés), con el propósito de comparar los niveles de aprendizaje de los estudiantes de distintos países y con ello poder aprender sobre las buenas prácticas en materia de educación (Ben-Simon y Cohen, 2004). El proyecto más emblemático de esta asociación es el que hoy se conoce, por sus siglas en inglés, como TIMSS (Tendencias de la Medición Internacional de Matemáticas y Ciencias).

En los Estados Unidos, las pruebas a gran escala tal como las conocemos hoy comenzaron a tomar forma con la publicación en 1983 de A Nation at Risk. El informe preparado para el Departamento de Educación de los Estados Unidos por la Comisión Nacional de Excelencia en Educación pidió la adopción de normas rigurosas y estándares medibles junto con mayores expectativas para los estudiantes (DePascale, 2013).

La importancia de la evaluación educativa, a través de pruebas estandarizadas, se hizo presente en muchas partes del mundo, por lo que surgieron tanto organismos nacionales como internacionales para medir lo que los estudiantes son capaces de aprender al término de ciertos grados de la educación básica o al cumplir una determinada edad. Estas evaluaciones han tenido dos grandes propósitos: 1) conocer la eficacia de los países en materia educativa y 2) hacer recomendaciones de política pública para mejorar la calidad y equidad de la educación en los países participantes. Entre las organizaciones que destacan en estos esfuerzos evaluativos se encuentran: la Organización de las Naciones Unidas para la Educación, la Ciencia y la Cultura (UNESCO) y la Organización para la Cooperación y Desarrollo Económico (OCDE). Esta última organización ha destacado por su proyecto PISA, que impactó al mundo desde su primera aplicación en el año 2000 y que ha logrado interesar en la actualidad a más de 70 países.

Antecedentes nacionales

Es hasta la década de los noventa que el campo de la evaluación del aprendizaje fue abordado de manera formal y sistemática en México. Esto sucedió gracias al desarrollo e implementación en las universidades del Examen de Habilidades y Conocimientos Básicos (EXHCOBA) en 1992, con la creación del Centro Nacional de Evaluación para la Educación Superior (Ceneval) en 1994 y con la creación de la Dirección General de Evaluación (DGE) de la SEP en 1992 (Martínez-Rizo, 2001).

En la década de los noventa las autoridades educativas se interesaron en desarrollar exámenes confiables cuyos resultados pudieran servir para diseñar programas y políticas orientados al mejoramiento de la educación. Con este propósito la SEP desarrolló diversas evaluaciones y participó en proyectos de evaluación, de los que destacan: 1) el Factor de Aprovechamiento Escolar, componente del programa de Carrera Magisterial, 2) la prueba IDANIS, (Instrumento de Diagnóstico para Alumnos de Nuevo Ingreso a Secundaria), 3) la participación en el proyecto TIMSS, 4) la coordinación del estudio del Laboratorio Latinoamericano para la Evaluación de la Calidad de la Educación (LLECE) en 1997, y 5) la construcción de las pruebas Estándares Nacionales, para evaluar el logro académico de los alumnos mexicanos de educación básica.

México inicia una fase acelerada de evaluación educativa con la entrada del nuevo milenio: en 2000, participa en el incipiente proyecto de PISA y, en 2002, se crea el INEE con el propósito de evaluar al sistema educativo mexicano y coadyuvar a la rendición de cuentas. Por primera vez, se dan a conocer los resultados de las evaluaciones que se les realizan a estudiantes de educación obligatoria.

Paralelamente, la SEP desarrolla las pruebas ENLACE (Evaluación Nacional de Logros Académicos en Centros Escolares), con las cuales evalúa a los alumnos de primaria (de tercero a sexto grados), de secundaria y de educación media superior (último grado). A partir de 2010, ENLACE se convirtió en un componente esencial del programa de Carrera Magisterial, de tal manera que los resultados de los estudiantes contaban para que sus maestros recibieran estímulos económicos (Santibañez et al., 2006).

Finalmente, la reforma educativa de 2013 le da autonomía al INEE, que lo convierte en autoridad en materia de evaluación educativa y en el coordinador del Sistema Nacional de Evaluación Educativa, donde las evaluaciones estandarizadas del aprendizaje juegan un papel muy importante para medir la calidad educativa del país y de cada una de sus 32 entidades.

Usos de las evaluaciones de gran escala

Sin querer ser exhaustivos, a continuación, se mencionan algunos de los usos de mayor importancia de las evaluaciones estandarizadas en el ámbito educativo, los que divido en dos grandes categorías, de acuerdo con su ámbito de acción: 1) la escuela y 2) el sistema educativo. Respecto a los usos que le pueden dar las autoridades escolares y los docentes a las evaluaciones estandarizadas, destaco los siguientes:

  • Admisión a las instituciones. Las pruebas estandarizadas son instrumentos muy útiles para que las instituciones puedan realizar procesos confiables, eficientes, transparentes y objetivos para determinar qué estudiantes deben ingresar a una institución cuya demanda rebasa la oferta educativa.


  • Video 1. Ejemplo de examen de admisión. Revisión del examen de admisión por Notario Público, Universidad Autónoma de Ciudad Juárez.

  • Ubicación escolar. En muchos países cuando un estudiante cambia de escuela, de estado o de país se acostumbra evaluar las competencias académicas que posee para decidir en qué nivel educativo lo deben de inscribir y, en su caso, si debe o no recibir ayuda especial en alguna materia (como podría ser la lectura o las matemáticas). Un ejemplo de este tipo de evaluación la lleva a cabo la ITESO con su Examen de Ubicación.
  • Formación. Algunas pruebas estandarizadas se utilizan para conocer el nivel de dominio que tienen los estudiantes en cada asignatura y grado escolar. Cuando un alumno se retrasa en alguna de estas asignaturas, se utilizan estas pruebas para determinar dónde hay que reforzar su aprendizaje.
  • Retroalimentación institucional. Algunas evaluaciones estandarizadas sirven para comparar el logro educativo de los estudiantes de una escuela con relación a otra. Esta comparación sirve para definir estrategias de mejora de la calidad de los aprendizajes. Con el paso del tiempo, la escuela que se vuelve a evaluar puede obtener información que retroalimente la eficacia de sus estrategias pedagógicas.
  • Certificación. Muchas disciplinas requieren certificar las competencias de los profesionistas para otorgarles una licencia para ejercer. Este es el caso de los pilotos aviadores que, además de comprobar la acreditación de sus estudios, deben pasar por un examen de certificación al egreso de su formación. Lo mismo sucede con la carrera de Medicina y otras disciplinas, dependiendo del país del que se trate.

Por otra parte, las autoridades educativas de un país o de un estado pueden utilizar los resultados de las evaluaciones estandarizadas con los siguientes propósitos:

  • Mejorar la calidad y equidad de la educación. Cada día se reconoce más que los aprendizajes de los estudiantes son la razón de ser de las instituciones educativas. Por ello, es común que los países deseen conocer en qué medida el sistema educativo nacional y el de los estados cumplen con los planes y programas de estudio, para poder diseñar e implementar políticas públicas orientadas al mejoramiento educativo del país.


  • Video 2. Ejemplo de evaluación a gran escala con objetivos de mejora en la calidad y equidad de la educación. La educación obligatoria en México. Informe 2018, INEE.

  • Evaluación de programas y políticas educativas. Las evaluaciones estandarizadas también son útiles para evaluar la eficacia e impacto de los programas y políticas educativas que implementen las autoridades educativas federal y estatales. México cuenta con información de logro escolar la cual se puede utilizar para conocer si algún programa de la SEP tiene o no impacto en el rendimiento académico de los alumnos (ej. Nuevo Modelo Educativo).
  • Rendición de cuentas a la sociedad. Las evaluaciones estandarizadas de aprendizaje proporcionaron información para conocer cómo se encuentra un país respecto al resto de las naciones y en qué medida sus estudiantes adquieren las competencias escolares básicas (ej.: lectura, matemáticas); información que sirve para que las autoridades rindan cuentas a la sociedad en materia educativa y ésta pueda exigirle al Estado que brinde mejores servicios.

Limitaciones de las evaluaciones estandarizadas

No hay duda de que las evaluaciones estandarizadas han tenido un gran impacto en el ámbito educativo en casi todos los países y México no ha sido la excepción. Sin embargo, es importante reconocer las limitaciones y retos que presentan este tipo de instrumentos en el ámbito educativo. Sin querer ser exhaustivos, menciono primero las siguientes limitaciones de las evaluaciones cuyo formato es de selección de respuestas: 1) el formato de opción múltiple no es una forma auténtica, o apegada a la realidad, de evaluar las competencias de una persona, 2) el formato de selección de respuestas fomenta que se aprenda por reconocimiento y, en consecuencia, que se evalúan conocimientos de bajo nivel cognitivo y 3) el formato de opción múltiple tiene serias limitaciones para evaluar algunos de los contenidos escolares que son importantes (por ejemplo, expresión escrita y comunicación oral).

Adicionalmente, cuando las evaluaciones estandarizadas son de alto impacto debido a sus consecuencias –por ejemplo, al promover el incremento o reducción del presupuesto de una escuela de acuerdo con los resultados de los estudiantes– presentan otro tipo de problemas. Por un lado, fomentan que los docentes enseñen para la prueba y que los estudiantes aprendan para responderla. Esto ocasiona que el docente se centre en enseñar aquellos contenidos que serán evaluados y deje de atender aquellos que, siendo de importancia curricular, no se evaluarán (por ejemplo, expresión escrita). Lo anterior ocasiona que el currículo implementado se estreche considerablemente (Popham, 2001b). Otro efecto negativo que pueden llegar a tener las evaluaciones de alto impacto es el de corromper la misma evaluación, con el objetivo de mejorar las puntuaciones (Backhoff y Contreras, 2014).

Por otro lado, las evaluaciones de alto impacto pueden fomentar que se sacrifique lo verdaderamente importante de la educación, con tal de obtener resultados que no afecten negativamente a la escuela. Por ejemplo, se deja de apoyar a los estudiantes que están muy lejos de tener buenos resultados en las evaluaciones, para no “desperdiciar” los recursos con aquellos que no podrán mejorar los resultados de las escuelas.

Retos futuros de las evaluaciones estandarizadas

Las evaluaciones estandarizadas tienen un siglo de vida y se han utilizado para una gran cantidad de propósitos educativos. Una de sus bondades es la de poder administrarlas simultáneamente en poblaciones muy grandes de estudiantes. Para ello, se ha tenido que utilizar el formato de selección de respuesta, donde sólo una de las opciones es la correcta. Esto permite que los dispositivos ópticos o electrónicos puedan leer y calificar las respuestas de los estudiantes de manera automática. Sin embargo, como ya se describió, el formato de selección de respuestas impone varias limitaciones que se deben superar.

Afortunadamente, el desarrollo de las ciencias computacionales nos permite superar las limitaciones que impone el formato de selección, permitiendo que las evaluaciones puedan utilizar preguntas cuyas respuestas sean más naturales, “auténticas” (ver figura 2). Por ejemplo, el estudiante puede resolver una ecuación y escribir en la pantalla de la computadora su solución. O, bien, puede balancear una ecuación química, trazar una pendiente, identificar puntos geográficos en un mapa, subrayar las partes importantes de un texto, etcétera. Las ciencias computacionales también permiten elaborar pruebas adaptativas que requieren mucho menos tiempo del alumno, sin perder la precisión de la medición.

Figura 2. Interfaz del examen de ubicación de matemáticas en el que el estudiante tiene que escribir la respuesta (no seleccionarla). Fuente: reproducido con autorización de Métrica Educativa, A. C.

De igual manera, el desarrollo de las ciencias cognitivas ha permitido mejorar sustancialmente los contenidos y la validez de las evaluaciones de aprendizaje, tanto de pequeña como de gran escala (Pellegrino, Chudowsky y Glaser, 2001). Sin embargo, para lograr mejoras significativas en las prácticas evaluativas en el ámbito de la educación, falta mucho por estudiar, tanto sobre aspectos cognitivos como acerca de su medición.

Por otro lado, las pruebas se desgastan rápidamente con el uso, por lo que es necesario renovarlas constantemente, lo que implica mucho gasto y esfuerzo. Afortunadamente, la ingeniería de los tests 7 ha desarrollado lo que se conoce como “generadores automáticos de ítems”, 8 que permiten desarrollar una cantidad importante de reactivos isomorfos (conceptual y estadísticamente, equivalentes) y, en consecuencia, pruebas paralelas (para mayor información consulte a Gierl y Haladyna, 2013).

Los problemas ocasionados al establecer consecuencias asociadas a las evaluaciones no son exclusivos de las pruebas estandarizadas, sino que son comunes a cualquier instrumento cuyos resultados tengan consecuencias positivas o negativas, ya sea para los estudiantes, los profesores o para el centro escolar. Siempre va a haber un interés por obtener el mejor resultado al menor costo; condición que opera en contra de los propósitos de la evaluación y que puede hacer que pierda su validez y todo sentido de seguirla utilizando cuando se llega a corromper.

La solución a muchos de los problemas anteriormente expuestos es saber a ciencia cierta cuáles son los alcances y limitaciones de las evaluaciones estandarizadas, para poderlas utilizar de acuerdo con sus propósitos y no “pedirles” más de lo que puedan dar.

Referencias

  • American Educational Research Association (AERA), American Psychological Association (APA), National Council on Measurement in Education (NCME), Joint Committee on Standards for Educational and Psychological Testing (Estados Unidos). (2014). Standards for Educational and Psychological testing. Washington, DC: AERA.
  • Anastasi, A. y Urbina, S. (1998). Test psicológicos (7ª edición). México: Prentice Hall.
  • Anderson, L.W. (2018). Una crítica a las calificaciones: políticas, prácticas y asuntos técnicos. En, De Ibarrola, M. (Ed.), Temas clave de la evaluación de la educación básica. México: FCE.
  • Backhoff, E. y Contreras, S. (2014). “Corrupción de la medida” e inflación de resultados de ENLACE. Revista Mexicana de Investigación Educativa (RMIE), 19 (63), 1267-1283.
  • Backhoff, E., Vázquez-Lira, R., Contreras-Roldán, S., Caballero-Meneses, J. y Rodríguez-Jiménez, J.G. (2017). Cambios y tendencias de aprendizaje en México: 2000-2015. Ciudad de México: Instituto Nacional para la Evaluación de la Educación.
  • Ben-Simon, A. y Cohen, Y. (2004). International assessment: merits and pitfalls. Trabajo presentado en la 30ª Conferencia Anual de la Asociación Internacional para la Evaluación Educativa, Filadelfia.
  • Bloom, B.S. (1969). Cross-national study of educational attainment: Stage I of the IEA investigation in six subject areas (Vols. 1-2). Washington, EEUU: Office of Education (DHEW).
  • Coleman, J. (1966). Equality of Educational Opportunity. Washington, EEUU: Department of Health, Education and Welfare.
  • DePascale, Ch. A. (2003). The Ideal Role of Large-Scale Testing in a Comprehensive Assessment System. Journal of Applied Testing Technonogy, 5 (1), 1-11. Recuperado de: http://www.jattjournal.com/index.php/atp/article/view/48343/39213.
  • Fletcher, D. (2009). Standardized Testing. Time, Diciembre, 11. Recuperado de: http://content.time.com/time/nation/article/0,8599,1947019,00.htm.
  • Gierl, m. y Haladyna, T.M. (2013). Automatic Item Generation: theory and practice. Nueva York: Routledge.
  • Instituto Nacional para la Evaluación de la Educación (INEE). (2018). La educación obligatoria en México. Informe 2018. México: INEE.
  • Jones, L.V. (1996). A History of the National Assessment of Educational Progress and Some Questions About Its Future. Educational Researcher, 25 (7): 15-22.
  • Martínez-Rizo, F. (2001). La evaluación educativa en México: experiencias, avances y desafíos. Recuperado de: http://www.fmrizo.net/fmrizo_pdfs/capitulos/C%20047%202010%20Evaluacion%20Educativa%20en%20Mexico_FMR-EB%20COLMEX.pdf.
  • National Education Association (s.f.). Lessons from the Past: A History of Educational Testing in the United States. Recuperado de: https://www.princeton.edu/~ota/disk1/1992/9236/923606.PDF.
  • Organización para la Cooperación y el Desarrollo Económico (OCDE). (2016). PISA 2015 Results (Volume I). Excellence and Equity in Education. París: OCDE.
  • Pellegrino, J.W., Chudowsky, N. y Glaser, R. (2001). Knowing what students know. The science and design of educational assessment. Washington, DC: The National Academies Press. DOI: https://doi.org/10.17226/10019.
  • Popham, W.J. (2002). What Every Teacher Should Know about Educational Assessment. Boston: Allyn & Bacon.
  • Popham, W.J. (2001a). The Truth About Testing: An educator’s call to action. Alexandria, Virginia: Association for Supervision and Curriculum Development.
  • Popham, W. J. (2001b). Teaching to the test. Educational Leadership, 58 (6), 16-20.
  • Tiana, A. (1996). La evaluación de los sistemas educativos. Revista Iberoamericana de Educación, 10, 37-61.
  • United Nations Educational, Scientific and Cultural Organization (UNESCO). (2018). The impact of large scale learning assessment. París: UNESCO. Recuperado de: http://uis.unesco.org/sites/default/files/documents/impact-large-scale-assessments-2018-en.pdf.

Vol. 19, núm. 6 noviembre-diciembre 2018

La evaluación del desempeño docente
en la educación superior

María Luisa del Carmen Pacheco Cámara, Isela Ibarra Bocardo, Miriam Elizabeth Iñiguez Galindo, Héctor Lee García y Claudia Victoria Sánchez Sánchez Cita

Resumen

La evaluación del desempeño docente es un ejercicio sistemático que, con fundamento en un conjunto de evidencias, juzga cómo llevan a cabo su labor los profesores en las aulas, los talleres, los laboratorios o espacios de práctica, con el fin de identificar logros y desajustes de su actuación en los escenarios educativos. La valoración del desempeño de los docentes puede sustentarse en diversos modelos que varían en sus marcos, conceptos y procedimientos establecidos, todos tienen sin duda la finalidad de aportar evidencias que faciliten y promuevan la mejora de la enseñanza para contribuir a una educación de calidad.

El presente artículo es de carácter introductorio, en él se exponen definiciones generales de la docencia y el desempeño docente, así como las razones y formas de evaluarlo. Se pretende brindar un panorama básico al lector, a partir de la experiencia y el conocimiento de los autores.
Palabras clave: docencia, desempeño docente, evaluación, modelos de evaluación del desempeño docente.

The evaluation of teacher’s performance in higher education

Abstract

The evaluation of teacher’s performance is a systematic exercise that, based on an evidence system, judges how teachers carry out their work in classrooms, workshops, labs or practice spaces, in order to identify achievements and shortcomings in their educational settings. The assessment of teacher’s performance can be based on different models that differ in their frames, concepts and procedures, all of them have the purpose of providing evidence that facilitates and promotes teaching improvement and contributes to quality education.

This article has an introductory nature, it presents general definitions of teaching and teaching development, and the reasons and ways to evaluate it. It intends to provide a basic perspective based on the experience and knowledge of the authors.
Keywords: teaching, teaching performance, evaluation, teacher performance evaluation models.

La docencia y el desempeño docente

En las instituciones de educación superior, la docencia se entiende como un ejercicio profesional que está a cargo del cuerpo académico de las instituciones y que tiene la finalidad de educar a los profesionales que la sociedad requiere. Es, sin duda, un ejercicio que se enmarca en un contexto institucional, académico y administrativo en el que la actuación de los docentes está sujeta a un sinnúmero de criterios, reglas y condiciones.

Por su naturaleza especializada, la docencia universitaria exige el dominio y manejo de múltiples saberes y habilidades, indispensables para orientar y apoyar las experiencias de aprendizaje de los estudiantes.

El ejercicio docente tiene que sustentarse en una doble formación de saberes, los de naturaleza disciplinaria y los de índole estrictamente pedagógica. Los primeros representan la materia o materias objeto de enseñanza y abarcan un conjunto de conocimientos específicos de una o varias disciplinas; mientras que los segundos, los pedagógicos, se refieren al conocimiento y comprensión de lo educativo en sus dimensiones filosóficas, teóricas, metodológicas y técnicas, para lograr síntesis singulares que posibiliten a los docentes formar individuos en escenarios de aprendizaje controlados.

Existen otras condiciones que también enmarcan el ejercicio docente, como el nivel educativo –licenciatura, especialización, maestría, doctorado–; la modalidad en la que se entrega el servicio educativo –presencial, abierta, a distancia o mixta–; las normas operativas de los programas educativos, entre otras más, que obligan a los docentes a dominar conocimientos diferenciales, asumir estilos de enseñanza variados y realizar numerosas tareas de supervisión y apoyo al momento de operar la docencia en el escenario educativo (ver figura 1).



Figura 1. Condiciones que enmarcan el ejercicio docente.
Imagen: Victoria Sánchez. Diseño gráfico: Julián Cruz Cruz.

A lo largo del tiempo, a quienes ejercen la docencia se les han ido confiriendo otros roles, producto de los cambios del entorno social y de nuevas demandas que emergen; así como debido a las características y nuevos perfiles de las poblaciones de estudiantes; a la incorporación de la tecnología en diversos planos de los escenarios sociales, educativos y laborales; también a transformaciones de las mismas instituciones educativas, y sin duda, al desarrollo de nuevas pedagogías y recursos, entre otros muchos factores y presiones de cambio.

Ser un profesional de la docencia hoy en día es un reto extraordinario. Los docentes son, sin lugar a dudas, piezas clave del compromiso educativo que una institución asume con la sociedad; por ello, es necesario que se reconozca el valor de su contribución social; sus acciones orientadas a la producción y transformación del conocimiento; su trabajo en la promoción de valores entre los integrantes de las nuevas generaciones; su acompañamiento en el crecimiento, formación de la personalidad y desarrollo de la capacidad de sus alumnos para tomar decisiones; en suma, su aportación a la mejora de la sociedad, pues educar conlleva el valor y la fuerza de transformarla.

La evaluación del desempeño docente

La evaluación del desempeño docente debe ser un ejercicio sistemático que, basado en la recopilación de evidencias, ayude a las instituciones educativas a valorar tanto los aciertos como los logros del quehacer de estos actores, así como a identificar las áreas o aspectos en los que su desempeño es limitado o deficitario. Sin duda, la finalidad de este proceso es fortalecer las instituciones para cumplir un compromiso con la calidad de su esfuerzo educativo.

Toda evaluación del desempeño docente es compleja porque exige reconocer y comprender una amplia gama de factores que intervienen en la actuación del profesor. Cada proceso de evaluación, por otro lado, es único ya que obedece a un contexto, aunque, al mismo tiempo, tiene que atender la lógica de cualquier ejercicio profesional de evaluación en el que los demandantes, junto con los evaluadores expertos, deben precisar los propósitos de la evaluación del desempeño docente; definir el marco de referencia; decidir los enfoques, modelos e instrumentos que serán empleados; y orquestar toda la trama de tareas que permiten instrumentar una evaluación para integrar un sistema de evidencias.

Para realizar una evaluación del desempeño docente es indispensable delimitar el perfil del buen docente en un contexto institucional, es decir, deben definirse los conocimientos, habilidades y actitudes que idealmente tendría que dominar un profesor (ver figura 2). La experiencia acumulada a través de sucesivas investigaciones y ejercicios de evaluación ha conducido a identificar aspectos comunes que definen el perfil de un buen docente (Dewar, 2002; Coe et al., 2014), entre los que destacan el dominio de los conocimientos de las asignaturas que se imparten, los métodos y estrategias de enseñanza, el compromiso del docente en el escenario educativo y la relación que establece con los estudiantes. No obstante, no se ha alcanzado un acuerdo universal y, por lo tanto, en cada proceso de evaluación hay que definir un perfil de la docencia congruente con el ideario institucional, las condiciones de corte disciplinario y las necesidades de evaluación y uso que se dará a los resultados de este proceso.



Figura 2. El perfil del desempeño docente.
Imagen: Victoria Sánchez. Diseño gráfico: Julián Cruz Cruz.

Por otro lado, es necesario definir con claridad el propósito de la evaluación; elegir uno o varios modelos de ésta; acordar un programa para el desarrollo del proceso; construir, probar y perfeccionar los instrumentos que serán empleados; determinar los métodos y técnicas de análisis de la información; establecer los criterios y características de los informes que se elaborarán; decidir cómo se difundirán los resultados y quiénes los emplearán para tomar decisiones en relación con el desempeño de los docentes.

Lograr evaluaciones justas y transparentes del desempeño docente para todos los interesados requiere, en gran medida, de procesos inclusivos en los que participen tanto la comunidad académica como los directivos y el personal técnico.

Los objetivos principales de una evaluación de este tipo son aportar evidencias que faciliten y ayuden a la mejora de la enseñanza, contribuir a que los alumnos reciban una mejor educación, y apoyar a las instituciones de educación superior a cumplir los compromisos que tienen con la sociedad de formar profesionales capaces de dar respuestas a las demandas y problemas propios de su campo.

Las funciones de la evaluación del desempeño docente

Como se mencionó previamente, cuando una institución de educación superior decide evaluar el desempeño de sus profesores, es fundamental que primero se definan claramente los propósitos de este proceso para precisar su naturaleza, es decir, si será de índole diagnóstica, formativa o sumativa. Esta condición perfila la función o funciones que asumirá el proceso evaluativo.

En una evaluación diagnóstica se busca valorar el desempeño de los docentes para fundamentar decisiones de selección de candidatos o para identificar campos de la actuación docente que requieren atención o reforzamientos especiales.

En cambio, una evaluación del desempeño docente con propósito formativo se sustenta en la necesidad de conocer la práctica de los profesores en los escenarios educativos –aulas, talleres, laboratorios, espacios de práctica– para decidir qué aspectos deben reforzarse, mejorarse o modificarse en las dimensiones disciplinarias, pedagógicas, tecnológicas, comunicativas o éticas del ejercicio de los profesores.

Por su parte, las evaluaciones de naturaleza sumativa valoran el desempeño de los docentes en perspectivas globales o integrales, o al término de ciclos definidos con el propósito de apoyar decisiones de naturaleza contractual, como el otorgamiento de la definitividad académica o la promoción en el esquema de nombramientos académicos, entregar premios o reconocimientos o, como ocurre en un gran número de instituciones de educación superior, asignar estímulos compensatorios a los salarios.

Los modelos para evaluar el desempeño de los docentes

Para evaluar el desempeño de los docentes es importante identificar el escenario de enseñanza-aprendizaje en el que se encuentran, conocer el contexto en el que están inmersos y determinar los propósitos de la evaluación; de esta forma, se tienen los elementos indispensables para valorar los marcos y procedimientos con los cuales se puede conocer y juzgar el desempeño docente, y que pueden ir desde observaciones sistemáticas hasta el empleo de exámenes sofisticados.

Hoy en día existen diversos modelos para evaluar el desempeño docente (Darling-Hammond, Wise y Pease, 1983; Howard y McColskey, 2001). En este trabajo se describirán los que han sido empleados con mayor frecuencia en las instituciones de educación superior en las últimas décadas, a saber, pares, autoevaluación, opinión de alumnos y portafolios (ver figura 3).

El modelo de evaluación mediante pares es sin duda el más antiguo de todos, en éste el desempeño es valorado por otros profesores cuya formación y experiencia son similares a la de los docentes evaluados; son expertos en el campo disciplinar y es común que las instituciones integren grupos de tres o cinco pares y que además estén representados académicos de instituciones externas a la de los docentes evaluados. Esta última condición otorga mayor objetividad al proceso, pues una parte de los evaluadores serían totalmente independientes. Una de las principales ventajas es que los evaluadores tienen perfiles académicos similares a los de los evaluados, no obstante, cuando se utiliza este modelo también existe una restricción de los pares externos: que su conocimiento del contexto institucional sería menor, lo que puede derivar en una comprensión restringida del entorno de la evaluación.

En el caso del modelo de autoevaluación, los docentes evaluados asumen el rol de evaluadores; ellos tienen que juzgar su desempeño apoyándose en guías narrativas, escalas o cuestionarios. En este modelo, resulta decisivo el proceso de reflexión que los docentes tienen que llevar a cabo sobre su formación y actuación en los escenarios educativos, se asume que ellos son quienes mejor pueden juzgar su realidad académica, valorar todos los factores que se enlazan en su desempeño y explorar a profundidad sus procesos y resultados. Este modelo tiene el potencial de estimular el cambio por parte de los docentes; sin embargo, es claro que ser juez y parte en un proceso evaluativo puede restarle credibilidad a éste. Las instituciones que emplean este modelo señalan que es necesario capacitar a los docentes para participar con objetividad en él.

La evaluación del desempeño docente mediante la opinión de los alumnos es, sin duda alguna, el modelo más empleado en la mayoría de las instituciones de educación superior. Su diseño permite obtener la visión y juicio de los beneficiarios de la docencia –los alumnos–, quienes son testigos cotidianos del desempeño de sus profesores. Para evaluar el desempeño de los docentes a través de este modelo, se emplean preponderantemente cuestionarios que integran las acciones que, de acuerdo con la institución, deben realizar los profesores en el escenario de la enseñanza-aprendizaje. En este modelo se obtienen, en poco tiempo, numerosas evidencias de la actuación de los profesores que pueden ser, una vez sistematizadas, contrastadas desde distintos criterios, por ejemplo, docentes de asignaturas teóricas versus prácticas, nivel del ciclo educativo en el que se ubican los docentes, áreas a las que pertenecen, nombramientos, entre otros. Una limitante intrínseca del modelo es que los alumnos sólo pueden valorar lo que ocurre en las aulas, laboratorios, talleres o campos clínicos; no tienen la posibilidad de juzgar otras tareas que se integran a la docencia y que tienen lugar fuera de los escenarios en los que se cristalizan las interacciones entre los docentes y sus alumnos.

Finalmente, la evaluación del desempeño de los docentes a través de portafolios exige un proceso de integración de evidencias y reflexiones que, organizadas a partir de un conjunto de criterios establecido por los líderes del proceso evaluativo, permitirán juzgar el desempeño del profesorado. Este modelo tiene capacidad para combinar aspectos cuantitativos con aspectos cualitativos del desempeño docente, así como para sumar resultados de otras evaluaciones que se hubieran realizado a los docentes; esta perspectiva se presenta como un modelo más integrador y poderoso. Exige que las instituciones determinen muestras válidas de evidencias, periodos de evaluación y grupos de pares que tendrán que intervenir para juzgar el contenido del portafolios que puede manejarse en formatos físicos o virtuales, y exige que los docentes desarrollen una cultura de acopio de testimonios y documentación de experiencias.



Figura 3. Modelos para evaluar el desempeño docente.
Imagen: Victoria Sánchez. Diseño gráfico: Julián Cruz Cruz.

Emplear uno o varios modelos para evaluar el desempeño de los profesores dependerá de los propósitos que persigue una institución, del tiempo disponible, así como de los recursos institucionales. Lo que es cierto es que ningún modelo por sí mismo tiene la capacidad para ofrecer una gama completa de valoraciones de las múltiples y variadas tareas que están a cargo del cuerpo académico de las instituciones y que se ponen en juego para cumplir su labor pedagógica.

Los desafíos de la evaluación docente

Como ya se señaló en este texto, la evaluación del desempeño docente es una práctica que las instituciones de educación superior han abrazado progresivamente. Conforme se ha desarrollado, se han identificado desafíos que afrontan los evaluadores, por lo cual es necesario sensibilizar a quienes desconocen estos procesos; en particular, tener clara la importancia de llevarlos a cabo con profesionalismo para que sean verdaderamente útiles para las instituciones, sus comunidades académicas y para la sociedad.

Es vital que las instituciones reconozcan la evaluación del desempeño docente como una herramienta potencialmente útil, que ofrece sustento a los procesos de toma de decisiones orientados a la mejora de la enseñanza; per se, ninguna evaluación mejora la educación.

Uno de los desafíos centrales de la evaluación radica en que el proceso pueda alcanzar una condición institucional, es decir, que surja por iniciativa de las autoridades y que se legitime ante la comunidad académica por los propósitos que se le asignen y la transparencia con la que se logre plantear su operación.

Lograr prácticas de evaluación del desempeño docente exitosas depende entonces de impulsar procesos precisos, bien fundamentados y guiados o asistidos por especialistas del campo evaluativo.

El diseño y empleo de instrumentos pertinentes y útiles constituye otro desafío en estos procesos, ya que dichas herramientas deben diseñarse a partir de los perfiles de la docencia de las instituciones, para que su contenido responda al entorno institucional. Es esencial que no se empleen instrumentos de otros centros o que sean producto únicamente de una integración de preguntas que no han sido cuidadosamente seleccionadas, juzgadas y probadas.

Otro desafío tiene que ver con el desarrollo de una verdadera cultura de la evaluación del desempeño de los profesores, que no se limite a obtener y acumular evidencias, sino a transformarlas en decisiones y acciones cuyo impacto se traduzca en el aseguramiento de procesos educativos de calidad.

Las buenas prácticas de evaluación del desempeño de los docentes

Las llamadas buenas prácticas de evaluación del desempeño de los docentes son aquellas que se han instaurado en las instituciones a la luz de acuerdos claros con las comunidades y con propósitos definidos respecto del uso de las evidencias que generarán estos procesos. Son también aquéllas cuyos marcos metodológicos e instrumentales han sido sólidamente desarrollados, examinados y asegurados por profesionales de la evaluación.

Asimismo, se distinguen como buenas prácticas las que de principio a fin y, en forma continua, tienen transparencia y están revestidas de una sólida ética institucional; las prácticas institucionales que se revisan y que se perfeccionan a lo largo del tiempo; y las que transforman las evidencias obtenidas en acciones institucionales claras y efectivas para fortalecer y mejorar el ejercicio profesional de los docentes.

En relación con las buenas prácticas, existen documentos que sistematizan la experiencia de las instituciones con respecto al uso de las evaluaciones, como es el caso de Benton y Young (2018) y, en el mismo sentido, existen marcos más amplios que sirven de apoyo para llevarlas a cabo, como son los Estándares de Evaluación de Personal (The Personnel Evaluation Standards), desarrollado por el Joint Committee on Standards for Educational Evaluation y cuya última revisión data del 2009.

Referencias

  • Benton, S. L. y Young, S. (2018). Best Practices in the Evaluation of Teaching. IDEA Paper, 69, Junio. Recuperado de: http://www.ideaedu.org/Portals/0/Uploads/Documents/IDEA Papers/IDEA Papers/IDEA_Paper_69.pdf.
  • Coe, R., Aloisi, C., Higgins, S., y Major, L. E. (2014). What makes great teaching? (Review of the underpinning research, Project Report). London: Sutton Trust.
  • Darling-Hammond, L., Wise, A. E. y Pease S. R. (1983). Teacher evaluation in the organizational context: a review of the literature. Review of educational research, 53, 285-237.
  • Dewar, K. (2002). On Being a Good Teacher. Journal of Hospitality, Leisure, Sport & Tourism Education, 1 (1), 61-67.
  • Howard, B. B. y McColskey, W. H. (2001). Evaluating Experienced Teachers. Educational Leadership. Evaluating Educators, 58 (5), 48-51.
  • The Joint Committee on Standards for Educational Evaluation (2009). The Personnel Evaluation Standards: How to Assess Systems for Evaluating Educators (2a edición). (s.l.): SAGE publications.

Vol. 19, núm. 6 noviembre-diciembre 2018

La evaluación del aprendizaje de los estudiantes:
¿es realmente tan complicada?

Melchor Sánchez Mendiola Cita

Resumen

El proceso educativo incluye diversos elementos como los métodos de enseñanza, el aprendizaje y la evaluación. Frecuentemente se privilegian los métodos de enseñanza en la formación de los profesores, y la adquisición de conocimientos y habilidades sobre evaluación del aprendizaje en educación es limitada o se lleva a cabo de manera informal. Es importante que los participantes del proceso educativo, estudiantes, docentes, autoridades, así como la sociedad en general, conozcan algunos de los conceptos básicos de evaluación del aprendizaje, ya que como cualquier área técnico-científica, posee una terminología propia. Los actores de la educación debemos adquirir conciencia de los alcances y limitaciones de los instrumentos de evaluación del aprendizaje. Este escrito presenta algunas de las definiciones relevantes en el área de la evaluación del aprendizaje.
Palabras clave: evaluación educativa, evaluación del aprendizaje, evaluación para el aprendizaje, validez, amenazas a la validez.

The assessment of learning in students: is it really so complicated?

Abstract

The educational process comprises several important elements, including teaching methods, learning and assessment. Teaching methods are frequently emphasized in faculty development activities, while the acquisition of knowledge and skills in educational assessment is limited or undertaken informally. It is important that all stakeholders of the educational process, students, teachers, authorities and society have a basic understanding of some educational assessment basic concepts. This area, like any other technical-scientific discipline, has its own terminology. We need to develop conscience about the virtues and limitations of the educational assessment tools. This paper presents some of the relevant definitions in the area of educational assessment.
Keywords: educational assessment, assessment of learning, assessment for learning, validity, threats to validity.

“El aprendizaje no es una calificación”
Roman Nowak

“Evaluación es un intento de conocer a la persona”
Derek Rowntree

“Colectar datos para evaluación es como recoger la basura.
Más vale saber lo que vas a hacer con ella antes que la recojas”
Mark Twain

¿Qué es la evaluación del aprendizaje?

Si le preguntamos a un estudiante probablemente nos dirá: “exámenes”, y si le preguntamos a un profesor podría contestarnos: “es algo difícil que toma tiempo y experiencia, por lo que generalmente no me pagan, y para lo que no fui capacitado”. Pensamos que la mayor parte de lo que enseñamos es aprendido por los estudiantes, aunque la única manera de conocer los efectos de la enseñanza es realizar una evaluación continua y técnicamente adecuada, alineada con los planes de estudio y métodos de enseñanza, que incluya al estudiante como actor activo en el proceso. Esta evaluación debe idealmente arrojar resultados interpretables y utilizables por el mismo estudiante, el docente, la institución educativa y la sociedad.

Existen varias definiciones de evaluación, una de las más utilizadas es: “término genérico que incluye un rango de procedimientos para adquirir información sobre el aprendizaje del estudiante, y la formación de juicios de valor respecto al proceso de aprendizaje” (Miller, 2012). Dichos juicios necesitan algún referente, como puede ser el plan de estudios. Evaluación implica obtener información de diferentes fuentes como realimentación, exámenes, tareas y diversas interacciones con el educando. Los profesores que interactuamos con estudiantes debemos incorporarla desde una visión más profunda, como sugirió Derek Rowntree: “cuando una persona, con algún tipo de interacción directa o indirecta con otra, obtiene e interpreta información de manera consciente sobre el conocimiento y la comprensión, habilidades y actitudes de la otra persona. Hasta cierto punto evaluación es un intento de conocer a esa persona” (Rowntree, 1977). No debemos olvidar que a quienes evaluamos son seres humanos, con todo lo que ello implica.

Las siguientes son algunas recomendaciones para que la evaluación del aprendizaje se lleve a cabo de forma apropiada (Miller, 2012):

  1. Especificar claramente lo que se va a evaluar es fundamental.
  2. La evaluación es un medio para un fin, no un fin en sí mismo.
  3. Los métodos de evaluación del aprendizaje deben elegirse por su relevancia para las características que se van a evaluar del estudiante.
  4. Requiere de una variedad de procedimientos e instrumentos.
  5. Su uso adecuado requiere tener conciencia de su propósito y de las bondades y limitaciones de cada método.

Tipos de evaluación del aprendizaje

Evaluación diagnóstica, formativa y sumativa

Una de las clasificaciones tradicionales de la evaluación educativa es desde el punto de vista de su objetivo: diagnóstica, sumativa y formativa.

La evaluación diagnóstica se realiza al principio de un curso o actividad académica con la finalidad de determinar el nivel de conocimiento, habilidad o actitud del educando. Esta información puede ser de utilidad para el docente, ya que le permite hacer adecuaciones en el contenido y en la implementación de las actividades académicas programadas. Un ejemplo de este tipo de evaluación es el Examen Diagnóstico de Ingreso en las licenciaturas de la Universidad Nacional Autónoma de México (UNAM), en el que se valoran los conocimientos generales de Español y de Inglés de los estudiantes de nuevo ingreso. Los resultados se envían a cada facultad o escuela, para su uso y difusión. Recientemente colocamos estos resultados en la página de la Coordinación de Desarrollo Educativo e Innovación Curricular (CODEIC), como material de acceso abierto para cualquier persona que quiera explorar los datos, incluyendo además del reporte oficial, unas tablas dinámicas que permiten al usuario realizar comparaciones y visualizarlas.

La evaluación sumativa es aquella compuesta por la suma de valoraciones efectuadas durante un curso, para determinar, al final del mismo, el grado con que los objetivos de la enseñanza se alcanzaron y así otorgar calificaciones. Ejemplos de esta evaluación son los exámenes de fin de curso, los exámenes de certificación de profesionistas, el examen profesional de fin de carrera. Estos exámenes son eventos de alta trascendencia para la vida del estudiante, quien en ocasiones los percibe como obstáculos a sortear para alcanzar un objetivo, en lugar de oportunidades para identificar su estado real de aprendizaje. Un tipo de exámenes sumativos que merece atención especial, son los llamados “exámenes de altas consecuencias o de alto impacto” (high-stakes testing, en inglés), que han generado una intensa controversia en las últimas décadas (Sánchez Mendiola, 2017).

La evaluación formativa es la que se utiliza para monitorear el progreso del aprendizaje y proporcionar realimentación al estudiante sobre sus logros, deficiencias y oportunidades de mejora. Es un proceso mediante el cual se recaba información sobre el proceso de enseñanza aprendizaje, que los maestros pueden usar para tomar decisiones sobre cómo enseñan y los alumnos para mejorar su propio desempeño, convirtiéndose en una fuente de motivación para ellos. Esta evaluación idealmente debería ocurrir a lo largo de todo el proceso educativo del estudiante. Puede ser formal si está oficialmente programada y es esperada en determinados momentos del proceso, o informal si ocurre de manera espontánea, no programada. Si se reconoce un logro del estudiante para estimularlo y reforzar su conducta se le llama positiva, y si critica de manera explícita algo que se hizo mal o que se puede mejorar se le llama negativa. La evaluación formativa tiene un poderoso componente educativo, ya que durante las actividades del día a día permite identificar aquellas que se hacen bien, así como aquellas que tienen alguna deficiencia, para detectarlas a tiempo y corregirlas (Martínez Rizo, 2009 y 2013). Este tipo de evaluación forma parte de la llamada “evaluación para el aprendizaje”, en la que el enfoque no es verificar, sino apoyar y motivar al estudiante, al mismo tiempo que proporciona al profesor información sobre el aprendizaje del educando.

Desafortunadamente, se ha creado una diferencia artificial entre la evaluación sumativa y formativa, que ha generado mucha controversia. A la sumativa se le ha etiquetado como excesivamente cuantitativa, centrada en los números; punitiva y discriminatoria; usada con fines políticos; de ejercicio del poder o de control; demasiado estandarizada e inaplicable en los seres humanos que somos individualmente diferentes. Por el contrario, la evaluación formativa ha surgido como la heroína de la película, la parte buena, positiva, nutritiva educacionalmente, que toma en cuenta los aspectos afectivos y emocionales de los estudiantes, y que ayuda a los educandos a salir adelante y aprender mejor, sin importar sus limitaciones personales y de contexto. Este debate ha creado una situación que recuerda la frase de George Orwell en Rebelión en la Granja: “Cuatro patas bueno, dos patas malo”. Creo que debemos ver a estos dos tipos de evaluación como un continuo, ya que todas las evaluaciones pueden tener un componente sumativo y formativo, que dependerá del uso de los resultados (Man Sze Lau, 2016).

Por ejemplo, un examen de ingreso a la universidad tiene un fuerte componente sumativo, pero también puede usarse como evaluación diagnóstica e incluso formativa si se provee de alguna manera la información a los docentes y estudiantes. En cambio, una sesión de realimentación durante el curso puede ser principalmente formativa, pero si esta información cuenta para la calificación, adquiere una dimensión sumativa. Debemos hacer un esfuerzo por lograr un balance razonable, que promueva una mayor integración de la evaluación con el proceso de enseñanza y aprendizaje.

Evaluación referida a norma y criterio

Otra manera de clasificar la evaluación es de acuerdo con la interpretación de los resultados. Puede ser con referencia a norma (relativa) o con referencia a criterio (absoluta). Cuando la evaluación se interpreta con referencia a norma, el resultado se describe en términos del desempeño del grupo y de la posición relativa de cada uno de los estudiantes evaluados (Miller, 2012; Sánchez Mendiola et al., 2015). Este tipo de evaluación se utiliza para colocar a los alumnos en listas de rendimiento y puntaje, para asignarles un lugar en el grupo. Un ejemplo en México es el Examen Nacional de Aspirantes a Residencias Médicas (ENARM), evaluación sumativa que presentan los médicos graduados que desean realizar una especialidad. La puntuación obtenida por el aspirante se evalúa en relación a lo que obtuvieron los demás y de su lugar secuencial en la lista para aspirar a una de las plazas, y no en un criterio de nivel de conocimientos previamente definido.

En cambio, la evaluación con referencia a criterio describe el resultado específico que se encontró, de acuerdo a criterios o metas preestablecidos. Este tipo de evaluación busca la comparación del estudiante con relación a un nivel o estándar establecido previamente. Un ejemplo es el examen de inglés como segundo lenguaje, Test of English as a Foreign Language (TOEFL), en que hay niveles de desempeño previamente determinados y los resultados se interpretan de acuerdo con dichos estándares, no de acuerdo al desempeño del grupo de sustentantes.

Uno de los retos de la evaluación criterial es que si el nivel exigido es muy alto para la población que toma el examen pueden fracasar todos los aspirantes, por lo que este tipo de exámenes deben “calibrarse” para plantear metas de evaluación congruentes con la realidad. Además, la evaluación criterial nos permite tener mayor claridad sobre nuestra situación educativa real, ya que no depende del desempeño del grupo sino de la meta a lograr. En cambio, en la evaluación por norma o relativa si tenemos un grupo de estudiantes con muy baja preparación, de cualquier manera aprobarán el examen o serán seleccionados los que tengan las puntuaciones más altas, dando una imagen arbitraria del nivel de aprendizaje de los estudiantes.

Instrumentos de evaluación del aprendizaje

Los instrumentos de evaluación son técnicas de medición y recolección de datos que tienen distintos formatos, atendiendo a la naturaleza de la evaluación. Existe una gran variedad de instrumentos con diversas ventajas y limitaciones para documentar el aprendizaje de los conocimientos, habilidades y destrezas de los estudiantes. Los instrumentos de evaluación del aprendizaje pueden clasificarse en estas categorías:

  • Evaluaciones escritas: ensayos, preguntas directas de respuesta corta, exámenes de opción múltiple, relación de columnas, disertaciones, reportes.
  • Evaluaciones prácticas: exámenes orales, prácticas con casos, examen clínico objetivo estructurado (ECOE).
  • Observación: reporte del profesor, listas de cotejo, rúbricas.
  • Registros del desempeño: libretas de registro, portafolios, registros de procedimientos.
  • Autoevaluación y evaluación por pares: reporte del educando y de los compañeros.
  • Cada uno de estos métodos tiene sus ventajas y desventajas, así como recomendaciones para su implementación. Es responsabilidad de los profesores y responsables de la evaluación en las instituciones educativas diseñar, seleccionar y utilizar los instrumentos más apropiados para evaluar el aprendizaje de los estudiantes, de acuerdo al plan de estudios y las características del contexto local.

    Criterios para una buena evaluación

    La evaluación educativa es tan buena como la metodología utilizada y el uso que se hace de los resultados. Varias organizaciones internacionales han propuesto criterios sobre las “buenas prácticas” en evaluación (American Educational Research Association [AERA], American Psychological Assocation [APA] y National Council on Measurement in Education [NCME], 2014; Norcini et al., 2011). Estos criterios son: validez, confiabilidad, justicia, equivalencia, factibilidad, efecto educativo y aceptabilidad.

    Validez

    Uno de los conceptos más importantes para que los resultados de los procesos de evaluación tengan sustento sólido y uso apropiado es el de validez. La validez de un proceso de evaluación es el grado con el que mide lo que se supone que mide. La validez es un concepto unitario, y actualmente se considera que toda la validez es validez de constructo (AERA, APA y NCME, 2014; Downing, 2003; Kane, 2013). La palabra constructo significa colecciones de conceptos abstractos y principios, inferidos de la conducta y explicados por una teoría educativa o psicológica, es decir, atributos o características que no pueden observarse directamente (por ejemplo: inteligencia, timidez, conocimientos sobre química) (Brennan, 2006; Downing, 2003).

    Validez es un juicio valorativo holístico e integrador que requiere múltiples fuentes de evidencia para la interpretación del constructo evaluado, ya que intenta responder a la pregunta “¿qué inferencias pueden hacerse sobre la persona basándose en los resultados del examen?” (Downing, 2003; Mendoza Ramos, 2015). No es el examen el que es válido per se, ya que la validez de un examen es específica para un propósito, se refiere, más bien, a lo apropiado de la interpretación de los resultados. En otras palabras, la validez no es una propiedad intrínseca de los exámenes, sino del significado de los resultados en el entorno educativo específico y las inferencias que pueden hacerse de los mismos. Por ejemplo, los resultados de los médicos que sustentan el examen para ingresar a las residencias médicas (ENARM), no deben interpretarse como evidencia de la calidad de las escuelas de medicina de donde provienen, ya que el examen no está diseñado con ese propósito.

    Las cinco fuentes importantes de validez en evaluación del aprendizaje son (AERA, APA y NCME, 2014; Downing, 2003):

    1. Contenido. Debe utilizarse una tabla de especificaciones de la prueba y el proceso seguido para elaborarla, la definición de los temas, la congruencia del contenido de las preguntas con las especificaciones del examen, la representatividad de las preguntas de las diferentes áreas a examinar, la calidad de las preguntas, las credenciales de las personas que elaboran las preguntas, entre otros.
    2. Procesos de respuesta. Se requiere evidencia de integridad de los datos, de manera que las fuentes de error que se pueden asociar con la administración del examen hayan sido controladas en la medida de lo posible. Por ejemplo, el control de calidad de la elaboración del examen, la validación de la clave de la hoja de respuestas utilizada, el control de calidad del reporte de los resultados del examen, la familiaridad del estudiante con el formato de evaluación (lápiz y papel o computadora).
    3. Estructura interna. Se refiere a las características estadísticas del examen y de las preguntas que lo componen, como son el análisis estadístico de reactivos, el funcionamiento de los distractores en las preguntas de opción múltiple, la confiabilidad del examen, entre otros. Muchos de estos datos debieran obtenerse de rutina como parte del proceso de control de calidad del examen, principalmente en los exámenes de alto impacto.
    4. Relación con otras variables. La relación de los resultados en el examen con otras variables se refiere a la correlación estadística entre los resultados obtenidos por medio de una prueba con otra medición de características conocidas. Por ejemplo, la correlación entre el examen de admisión a la licenciatura y las calificaciones obtenidas en los exámenes parciales durante la carrera y el examen profesional.
    5. Consecuencias. Se refiere al impacto en los estudiantes de las puntuaciones de la evaluación, de las decisiones que se toman como resultado del examen, y su efecto en la enseñanza y el aprendizaje. Por ejemplo, el método de establecimiento del punto de corte para aprobar o reprobar un examen, las consecuencias para el estudiante y la sociedad, las consecuencias para los profesores y las instituciones educativas.

    Validez implica una aproximación científica a la interpretación de los resultados de los exámenes, es decir, probar hipótesis sobre los conceptos evaluados en el examen. La información proporcionada por un instrumento de evaluación no es válida o inválida, sino que los resultados del examen tienen más o menos evidencia de las diferentes fuentes para apoyar o rechazar una interpretación específica (por ejemplo, pasar o reprobar un curso, certificar o no a un especialista, admitir o no a un estudiante en la universidad) (Downing, 2003; Kane, 2013). Las organizaciones que elaboran e implementan el examen (entidades gubernamentales, instituciones educativas, consejos de certificación) son los candidatos obvios para validar las afirmaciones que hacen sobre la interpretación de los resultados de un examen, ya que generalmente son quienes tienen los elementos y recursos para hacerlo (Brennan, 2006). Quienes elaboramos exámenes tenemos la obligación ética y el imperativo educativo de documentar qué tan defendible es la interpretación de los resultados, en beneficio de los estudiantes y de la sociedad en general.

    Confiabilidad

    La confiabilidad o fiabilidad tiene un significado técnico en evaluación educativa, que no debe confundirse con el significado coloquial de la palabra. La confiabilidad de un examen se refiere a la consistencia de las puntuaciones obtenidas por las mismas personas en ocasiones diferentes o con diferentes conjuntos de preguntas equivalentes, es decir, la reproducibilidad de la prueba (Downing, 2004). Es un concepto estadístico, que representa el grado en el cual las puntuaciones de los alumnos serían similares si fueran examinados de nuevo. Generalmente se expresa como un coeficiente de correlación, siendo 1.0 una correlación perfecta y cero ninguna correlación. Mientras más alta es la cifra de confiabilidad, generalmente es mayor su peso como evidencia de validez. La cifra de confiabilidad suficiente para aceptar los resultados de un proceso de evaluación depende del propósito de la misma, el uso que se hará de los resultados del examen y de las consecuencias que tendrá la evaluación sobre los estudiantes.

    Para exámenes de muy alto impacto, la confiabilidad debe ser alta para que las inferencias de los resultados del examen sean defendibles. Varios expertos recomiendan una confiabilidad de por lo menos 0.90 para evaluaciones de muy altas consecuencias. Para exámenes de consecuencias moderadas, como las evaluaciones sumativas de fin de curso en la escuela, es deseable que la confiabilidad sea de 0.80 a 0.89. En exámenes de menores consecuencias, como la evaluación formativa o exámenes parciales diagnósticos, es aceptable una confiabilidad de 0.70 a 0.79. Estas cifras no representan rangos absolutos, ya que hay diferencias de opinión entre los expertos, pero pueden servir de marco de referencia (Downing, 2004).

    La confiabilidad de una medición es necesaria para obtener resultados válidos, aunque puede haber resultados confiables sin validez (es decir, la confiabilidad es necesaria, pero no suficiente para la validez). La analogía con la diana de un blanco de tiro es útil para entender la relación entre los dos conceptos, como se muestra en la figura 1. Si las flechas están muy dispersas entre sí y lejos de la diana, la medición es poco confiable y no es válida; si las flechas están muy juntas pero lejos del centro la medición es reproducible (confiable) pero no es válida; y si las flechas están juntas en la diana, la medición es confiable y válida.



    Figura 1. Esquema visual de los conceptos de validez y confiabilidad, con el símil de un blanco de tiro.

    Justicia y equidad

    En las últimas décadas las principales organizaciones de evaluación educativa del mundo han hecho mucho énfasis en la necesidad de justicia y equidad en todo el proceso educativo, incluyendo la evaluación del aprendizaje, para ser congruentes con el sentido social de la educación (AERA, APA y NCME, 2014; Instituto Nacional para la Evaluación de la Educación [INEE], 2017). Existe controversia sobre el tema, ya que los exámenes estandarizados en gran escala –que por necesidad se aplican y analizan en contextos altamente controlados para que cada estudiante se enfrente al mismo reto en igualdad de condiciones–, por definición, tratan a todos los estudiantes de la misma manera. Si queremos promover la evaluación formativa para el aprendizaje, deberíamos individualizar el uso de los instrumentos de evaluación para cada caso específico. Esta permanente tensión entre lo ideal y lo real continúa sin resolverse. Podríamos ampliar el abanico de estrategias de evaluación educativa que utilizamos en la práctica, y capacitar a los profesores en el uso de diversos instrumentos de evaluación para promover el aprendizaje a lo largo del proceso.

    Equivalencia

    La equivalencia se refiere a que los exámenes proporcionen puntuaciones o decisiones equivalentes, cuando se administran en diferentes lugares o tiempos (AERA, APA y NCME, 2014; Norcini et al., 2011). La mayoría de los docentes y estudiantes no conocemos este concepto, a pesar de su importancia para interpretar exámenes aplicados de manera periódica que pretenden evaluar lo mismo, o exámenes en diferentes contextos en los que queremos asegurar que sean de la misma dificultad, sobre todo en evaluación sumativa de alto impacto (Carter, 1984; Moreno Olivos, 2010). Para lograr equivalencia se requiere de procedimientos estadísticos sofisticados, que caen en la familia de métodos de equiparación o “igualación” de exámenes. Uno de estos métodos es el uso de “reactivos ancla” (preguntas con un grado de dificultad similar y comportamiento estadístico bien documentado) en un porcentaje de reactivos de cada versión del examen. Para estas técnicas se requieren profesionales en dichos procedimientos.

    Factibilidad y aceptabilidad

    Las evaluaciones deben ser prácticas, realistas y apropiadas a las circunstancias del contexto, incluyendo las instalaciones físicas y los recursos humanos y financieros disponibles. Por ejemplo, el método más utilizado en el mundo para evaluar la competencia clínica en medicina es el Examen Clínico Objetivo Estructurado (ECOE), que consiste en una serie de múltiples estaciones estandarizadas, en las que cada estudiante se enfrenta a un reto que requiere que aplique algunas competencias específicas, como pueden ser las habilidades de comunicación, el hacer un diagnóstico, o interpretar radiografías y estudios de laboratorio (Boursicot et al., 2011). Este tipo de examen requiere gran cantidad de recursos humanos, instalaciones apropiadas y mucha dedicación en disciplina, tiempo y organización. Esta disponibilidad de recursos puede no estar al alcance de algunas escuelas, de manera que, aunque el examen sea excelente y se use en muchas partes del mundo, si no se puede hacer en una institución hay que buscar alternativas. Otros ejemplos podrían ser el uso de exámenes adaptativos por computadora, simuladores de alta fidelidad y tecnología de punta, herramientas que requieren una gran inversión inicial y de mantenimiento. Las evaluaciones también deben ser aceptables tanto por los estudiantes como por los profesores. Si hay un rechazo de la comunidad a algún tipo de evaluación –por ejemplo, la evaluación por pares que implica ser evaluado por sus compañeros–, se hace difícil su implementación.

    Efecto educativo, efecto catalítico

    Todos los métodos de evaluación, sobre todo los sumativos, pueden tener efectos en los métodos de estudio y prioridades de aprendizaje de los estudiantes (Newble, 1983). Aunque los profesores les digamos a nuestros alumnos que un tema o concepto es fundamental, la pregunta común es: “¿y eso va a venir en el examen?”. La cultura de algunas escuelas es que si algo no cuenta para el examen no se le da mucha importancia, así que la manera cómo se aplica la evaluación tiene consecuencias en la motivación de los estudiantes y en sus métodos de estudio. También la evaluación puede tener un efecto “catalítico” en el contexto educativo, ya que puede influir en los demás docentes, en los departamentos académicos y en la institución misma (Norcini et al., 2011). Si se privilegian los exámenes escritos de opción múltiple, habrá un efecto en cascada en los diferentes participantes del proceso educativo. Si se fomenta la evaluación formativa, de la misma manera, habrá influencia en las actitudes hacia la evaluación de los participantes, sobre todo cuando vivan sus efectos positivos.

    Amenazas a la validez

    Existen diversas “amenazas” para la validez de un proceso de evaluación del aprendizaje, que disminuyen la credibilidad de las inferencias que se pueden hacer de los resultados de un examen. Al ser la validez uno de los principales elementos de una buena evaluación, todo lo que ponga en riesgo la veracidad de las conclusiones que podamos tener sobre los resultados de una prueba o examen debe identificarse y, en la medida de lo posible, evitarse o corregirse. Pueden clasificarse de la siguiente manera (Downing y Haladyna, 2004):

    • Infrarrepresentación del constructo (IC). Se refiere a una representación inapropiada del contenido a evaluar por los exámenes, teniendo en mente que el constructo es aquello que queremos investigar (como los conocimientos de química en el bachillerato). Son ejemplos de esta amenaza: muy pocas preguntas en el examen, que no exploren apropiadamente el área de conocimiento; uso de preguntas que exploren principalmente memoria o reconocimiento de datos, cuando las metas de la enseñanza son la aplicación o solución de problemas.
      Otra amenaza a la validez es el fenómeno de “enseñando para la prueba” (teaching to the test, en inglés), en el que se enfatiza demasiado lo que va a venir en el examen, distorsionando el plan de estudios y el proceso educativo, y generando resultados incompletos que no preparan al estudiante para enfrentarse al ejercicio profesional (Popham, 2001). A veces ocurre al grado que algunos profesores utilizan reactivos del examen en clase para aumentar artificialmente las calificaciones de sus alumnos, y mejorar las evaluaciones de su grupo o escuela.
    • Varianza irrelevante al constructo (VIC). Se refiere a elementos que interfieren con la capacidad de interpretar los resultados de la evaluación de una manera significativa, y que causan “ruido” en la evaluación. Por ejemplo, las preguntas elaboradas con fallas, gramaticales o de otro tipo; y las que dan pistas al estudiante sobre cuál es la respuesta correcta, aunque no sepa el concepto explorado en la pregunta. Recordemos que escribir buenas preguntas de examen requiere entrenamiento y experiencia. Otro ejemplo son los problemas de seguridad del examen y fuga de información, de manera que el resultado del examen no refleja los conocimientos de los estudiantes. Este problema invalida los resultados de los exámenes, con diversas implicaciones éticas y de uso de recursos, como es repetir el examen con otra versión.
      La “astucia” o habilidad para responder los exámenes (en inglés, testwiseness) ocurre cuando los estudiantes se preparan con estrategias para responder exámenes y pueden obtener puntajes que no reflejen lo que realmente saben. Se ha creado un mercado de organizaciones que dan cursos para pasar exámenes, en los que el objetivo es adiestrar a los asistentes en métodos para obtener la mayor puntuación posible. Las familias de los estudiantes pagan un precio alto por estos cursos, que son de efectividad cuestionable y que además promueven una competencia poco sana.

    Algunas reflexiones y conclusiones

    El eterno problema de los usos e inferencias inapropiados de los resultados de la evaluación de los aprendizajes de los estudiantes es uno de los retos más importantes que enfrenta la comunidad de profesionales de evaluación educativa. Aún hay un largo trecho por caminar en el incremento de una cultura de la evaluación en alumnos, docentes, directivos y funcionarios gubernamentales, así como de la sociedad en su conjunto. Uno de los efectos negativos más frecuentes de los exámenes es afirmar y diseminar conclusiones de los resultados que no son congruentes con los objetivos iniciales del mismo, por lo que dichas conclusiones carecen de validez. Con facilidad, las declaraciones breves y sensacionalistas se propagan en los medios de comunicación, generando malentendidos y distorsión sobre las conclusiones, limitaciones e implicaciones reales de los exámenes.

    La comprensión clara del concepto moderno de validez es fundamental para entender las limitaciones de los resultados de los exámenes, ya que extrapolar conclusiones y decisiones más allá de lo académicamente obtenible es inapropiado e incluso puede ser peligroso. Si un estudiante tiene un desempeño deficiente en una aplicación de un examen sumativo de alto impacto, eso no significa que sea “mala persona”, “incompetente”, alguien que “no debió estudiar esa carrera”, entre otros muchos calificativos que se asignan como etiquetas y que tienen un impacto emocional importante.

    Una de las principales recomendaciones de los expertos mundiales en evaluación es: “Los desarrolladores del examen son los candidatos obvios para validar las afirmaciones que hacen sobre la interpretación de los resultados de un examen” (Brennan, 2006), por lo que la responsabilidad de realizar buenos exámenes e informar a la sociedad sobre sus limitaciones recae en nuestras organizaciones y grupos de expertos, en colaboración con las autoridades y los medios de comunicación. La asimetría de poder intrínseca en los procesos de evaluación conlleva una enorme responsabilidad de las autoridades académicas e institucionales.

    Los instrumentos de evaluación y el uso que se hace de ellos en las universidades y otras instituciones son la declaración pública más importante de “lo que realmente cuenta” para la institución. Los estudiantes están muy alertas a estas señales, que a veces son sutiles y en ocasiones explícitas y visibles, sobre lo que deben aprender y cómo lo deben aprender, por lo que las instancias evaluadoras deben hacer lo posible para que estos procedimientos de evaluación se realicen con profesionalismo educativo en un entorno de calidad y atención a las facetas humanas y sociales de los estudiantes. Al final del día, el uso de la puntuación de un examen definitivamente implica consecuencias; de otra manera “uso” es sólo una abstracción. Los exámenes han adquirido un enorme grado de sofisticación técnica y metodológica, y llegaron para quedarse. Tal vez lo más importante es encontrar un balance entre este tipo de evaluación y la evaluación formativa. Por otra parte, es relevante tener conciencia de que aún existen grandes retos para evaluar de forma adecuada varios atributos fundamentales de los profesionistas que requiere la sociedad moderna, como empatía, liderazgo, asertividad, creatividad, trabajo en equipo, entre otros muchos, por lo que el campo de estudio de la evaluación educativa debe seguir modernizándose para enfrentar los constantes cambios de nuestra sociedad.

    Como ha dicho un académico mexicano, el Dr. Tiburcio Moreno, la evaluación tiene muchas caras, y en países como el nuestro ha estado permeada por una visión empirista que descansa en el principio: “Todos sabemos de evaluación, porque alguna vez hemos sido evaluados” (Moreno Olivos, 2010). Debemos mejorar nuestros conocimientos y habilidades en evaluación, como una obligación ética y moral de todos los docentes, e informar al resto de la sociedad sobre las virtudes, alcances y limitaciones de este fascinante y controversial tema.

    Referencias

    • American Educational Research Association (AERA), American Psychological Assocation (APA) y National Council on Measurement in Education (NCME) (2014). Standards for educational and psychological testing. Washington, DC: AERA.
    • Boursicot, K., Etheridge, L., Setna, Z., Sturrock, A., Ker, J., Smee, S. y Sambandam, E. (2011). Performance in assessment: consensus statement and recommendations from the Ottawa conference. Med Teach, 33(5), 370-83. DOI: https://doi.org/10.3109/0142159X.2011.565831.
    • Brennan, R. L. (2006). Perspective on the Evolution and Future of Educational Measurement. En Brennan, R. L., (ed.), Educational Measurement. National Council on Measurement in Education and American Council on Education (4a ed., pp. 1-16). Westport, CT: Praeger Publishers.
    • Carter, K. (1984). Do teachers understand principles for writing tests? Journal of Teacher Education, 35(6), 57-60.
    • Downing, S. M. (2003). Validity: on the meaningful interpretation of assessment data. Med Educ., 37, 830-837.
    • Downing, S. M. y Haladyna, T. M. (2004). Validity threats: overcoming interference with proposed interpretations of assessment data. Med Educ., 38, 327-333.
    • Man Sze Lau, A. (2016). “Formative good, summative bad?” –A review of the dichotomy in assessment literature. Journal of Further and Higher Education, 40(4), 509-525. DOI: https://doi.org/10.1080/0309877X.2014.984600.
    • Márquez Jiménez, A. (2014). Las pruebas estandarizadas en entredicho. Perfiles Educativos, 36(144), 3-9. Recuperado de: http://www.redalyc.org/pdf/132/13230751001.pdf.
    • Martínez Rizo, F. (2009). Evaluación formativa en aula y evaluación a gran escala: hacia un sistema más equilibrado. Revista Electrónica de Investigación Educativa, 11(2). Recuperado de: http://redie.uabc.mx/redie/article/view/231.
    • Martínez Rizo, F. (2013). Dificultades para implementar la evaluación formativa: revisión de literatura. Perfiles Educativos, 35(139), 128-150. Recuperado de: http://www.scielo.org.mx/pdf/peredu/v35n139/v35n139a9.pdf.
    • Mendoza Ramos, A. (2015). La validez en los exámenes de alto impacto: un enfoque desde la lógica argumentativa. Perfiles Educativos, 37(149), 169-186. Recuperado de: http://www.scielo.org.mx/pdf/peredu/v37n149/v37n149a10.pdf.
    • Miller, M. D., Linn, R. L. y Gronlund, N. E. (2012). Measurement and Assessment in Teaching (11a ed.). USA: Pearson.
    • Moreno-Olivos, T. (2010). Lo bueno, lo malo y lo feo: las muchas caras de la evaluación. Revista Iberoamericana de Educación Superior, I (2), 84-97.
    • Newble, D. I. y Jaeger, K. (1983). The effect of assessments and examinations on the learning of medical students. Med Educ., 17(3), 165-71.
    • Norcini, J., Anderson, B., Bollela, V., Burch, V., Costa, M. J., Duvivier, R., … Roberts, T. (2011). Criteria for good assessment: consensus statement and recommendations from the Ottawa 2010 Conference. Med Teach., 33(3), 206-14.
    • Popham, W. J. (2001). Teaching to the Test? Educational Leadership, 58(6), 16-20. Recuperado de: http://www.ascd.org/publications/educational-leadership/mar01/vol58/num06/Teaching-to-the-Test%C2%A2.aspx.
    • Rowntree, D. (1977). Assessing students: How shall we know them? London: Kogan Page.
    • Sánchez-Mendiola, M., Delgado-Maldonado, L. (2017). Exámenes de alto impacto: Implicaciones educativas. Inv Ed Med., 6(21), 52-62. DOI: http://dx.doi.org/10.1016/j.riem.2016.12.001.
    • Sánchez Mendiola, M., Delgado Maldonado, L., Flores Hernández, F., Leenen, I., Martínez González, A. (2015). Evaluación del aprendizaje. En Sánchez Mendiola, M., Lifshitz Guinzberg, A., Vilar Puig, P., Martínez González, A., Varela Ruiz, M., Graue Wiechers, E. (Eds.), Educación Médica: Teoría y Práctica (cap. 14, pp. 89-95). México: Elsevier.
    Show Buttons
    Hide Buttons

    Revista Digital Universitaria Publicación bimestral Vol. 18, Núm. 6julio-agosto 2017 ISSN: 1607 - 6079