Vol. 19, núm. 6 noviembre-diciembre 2018

Evaluación estandarizada del logro educativo:
contribuciones y retos

Eduardo Backhoff Escudero Cita

Resumen

Las evaluaciones estandarizadas en el ámbito educativo tienen una larga historia, que inicia a principios de siglo XX. El campo de la Psicología y de la Educación ha impactado enormemente el mundo educativo y, últimamente, ha servido para diseñar políticas públicas y para rendir cuentas a la sociedad. La principal característica de las pruebas estandarizadas es que pueden administrarse a una gran cantidad de personas, cuyas respuestas se califican de manera automática con dispositivos electrónicos. Su gran desventaja radica en que utilizan, principalmente, el formato de selección de respuestas que hace un tanto artificial la evaluación. A pesar de esta limitación, las evaluaciones estandarizadas se utilizan con una gran variedad de propósitos: desde la admisión a instituciones educativas hasta la evaluación de la calidad educativa de un país. A lo largo de su historia, las evaluaciones estandarizadas han sido objeto de críticas, algunas de ellas justas y otras no. Dada su importancia, el propósito de este texto es precisar lo que se entiende por evaluaciones estandarizadas de aprendizaje, describir su origen y evolución en el ámbito educativo, explicar sus principales usos y puntualizar las limitaciones y retos que tendrán.
Palabras clave: evaluaciones a gran escala, evaluaciones estandarizadas, logro académico, aprendizaje, México.

Standardized assessment: contributions and challenges

Abstract

Standardized assessments have a long history, which started at the beginning of the 20th century. This field of Psychology and Education has greatly impacted the educational world and, lately, has served to design public policies and as a form of accountability. The main characteristic of standardized tests is that they can be administered to many people, whose responses are automatically qualified with electronic devices. Their great disadvantage is that they use, mainly, the answer’s selection format, that makes the testing somewhat artificial. Despite this limitation, standardized tests are used for a variety of purposes: from admission to educational institutions to the evaluation of a country’s educational quality. Throughout its history, standardized evaluations have been object of criticisms, some fair and others not. Given its importance, the purpose of this text is to specify what is meant by standardized assessments, to describe its origin and evolution in the educational field, to explain its main uses, and to point out the limitations and challenges that such evaluations will have in the future.
Keywords: large-scale assessment, standardized assessment, educational achievement, learning, Mexico.

Introducción

Tradicionalmente, la evaluación ha ocupado un lugar destacado en el quehacer educativo, como un instrumento para verificar el logro académico de los estudiantes, para retroalimentar su aprendizaje y para certificar los conocimientos adquiridos (Popham, 2002). Por ello, todos los docentes evalúan a sus alumnos, práctica que es fundamental en los procesos de enseñanza-aprendizaje (Anderson, 2018). Sin embargo, lo novedoso en la actualidad es que hacemos referencia a diversas cosas cuando se habla de evaluación. Por ejemplo, la evaluación de alumnos, de la práctica docente, del currículum, de las instituciones o del sistema educativo en su conjunto. Es decir, la evaluación educativa ha ampliado considerablemente sus fronteras, por lo que no se limita al desempeño académico de los estudiantes, ni a las evaluaciones que realizan los profesores en su práctica pedagógica cotidiana (Organización de las Naciones Unidas para la Educación, la Ciencia y la Cultura [UNESCO], 2018; Tiana, 1996).

En la historia de la educación mundial, destaca el surgimiento de las evaluaciones estandarizadas, cuyo propósito y formato son distintos a las que realizan los docentes en el aula. Estas evaluaciones, también conocidas como objetivas o de gran escala, rebasan el ámbito del aula para proporcionar resultados que sean confiables, válidos y comparables entre distintas poblaciones de estudiantes. Los exámenes de admisión a las universidades son un ejemplo clásico de una evaluación de esta naturaleza. Igualmente, las evaluaciones para medir el desempeño de los estudiantes de un país (como los casos de Planea 1 y PISA 2 ) son un ejemplo más de evaluaciones estandarizadas que se utilizan en el ámbito educativo (ej.: Instituto Nacional para la Evaluación de la Educación [INEE], 2018; Organización para la Cooperación y el Desarrollo Económicos [OCDE], 2016). También lo fue la prueba Evaluación Nacional de Logros Académicos en Centros Escolares (ENLACE), que utilizó la Secretaría de Educación Pública (SEP) hasta 2013. 3 Este tipo de evaluaciones son necesarias para poder estimar objetivamente el desempeño de grandes grupos de individuos y, consecuentemente, tomar las decisiones que correspondan.

A pesar de la utilidad que puedan tener las evaluaciones estandarizadas, muchas personas desconocen sus características, sus bondades y limitaciones; por lo que es común que algunos docentes y especialistas en educación, no sólo las critiquen, sino que estén en contra de su uso, basándose en argumentos que van desde sus limitaciones técnicas hasta sus implicaciones políticas e ideológicas.

Por lo anterior, este trabajo tiene el propósito de precisar lo que se entiende por evaluaciones estandarizadas de aprendizaje, describir su origen y evolución en el ámbito educativo, explicar sus principales usos y puntualizar las limitaciones y retos que dichas evaluaciones tendrán en un futuro próximo.

Características de las evaluaciones estandarizadas de aprendizaje

El propósito de cualquier evaluación define su estructura, sus contenidos y sus usos y, por lo tanto, determina sus alcances y limitaciones. Las evaluaciones de aprendizaje o logro educativo 4 se pueden clasificar en dos grandes categorías: 1) las que diseña el docente para utilizar en su salón de clase, con el objetivo de retroalimentar y calificar a sus estudiantes, y 2) las que desarrollan grupos de especialistas, que se basan en la literatura científica (con marcos de referencia teóricos y metodológicos rigurosos), que tienen como propósito evaluar de manera objetiva, confiable y válida lo que los estudiantes han aprendido en un dominio escolar determinado, independientemente del contexto en que ha ocurrido su aprendizaje (Popham, 2001a; 2002). A este segundo tipo de evaluaciones se les conoce como estandarizadas, y se fundamentan en diversas teorías de la medición, como aquellas que dieron origen a la evaluación de la inteligencia, las habilidades numéricas y verbales, o la personalidad. Las tres teorías que han aportado más al campo de la evaluación del aprendizaje a gran escala o estandarizada son la teoría clásica de la medición, la teoría de la generalizabilidad y la teoría de respuestas al ítem. Adicionalmente a estas teorías de la medición, cada prueba debe de tener un marco de referencia de la disciplina que se vaya a evaluar.

El segundo tipo de evaluaciones, usualmente, se utilizan con grandes poblaciones de estudiantes, razón por la cual requieren que su formato permita calificar las respuestas de manera objetiva y automática; de aquí su nombre de estandarizado (ver figura 1). Una forma de lograrlo es formular preguntas donde se deba identificar y seleccionar la respuesta correcta, entre un conjunto de opciones plausibles; es decir, que pudieran ser verdaderas. De esta manera, se pueden utilizar dispositivos electrónicos (ya sean ópticos o computarizados) capaces de calificar a una gran cantidad de individuos de forma estandarizada y objetiva, en cuestión de minutos. Hay diversos tipos de formatos para seleccionar respuestas. Entre los más utilizados se encuentran los tres siguientes: opción múltiple, falso/verdadero y relación de columnas. Seguramente, el primero de ellos es el formato más utilizado y conocido en las evaluaciones de gran escala (National Education Association, s.f.; Fletcher, 2009).

Figura 1. Proceso de admisión a una universidad pública mexicana. Fuente: reproducido con autorización de Métrica Educativa, A.C.

En los Estados Unidos y en otros países, las evaluaciones estandarizadas se empezaron a utilizar como instrumentos para la selección de personas a diversas instituciones: principalmente a las educativas y a las fuerzas armadas. También se han utilizado para certificar las competencias de algunas profesiones (por ejemplo, Medicina) y otorgar la licencia para ejercer la práctica profesional correspondiente. Igualmente, desde mediados del siglo pasado, las evaluaciones de aprendizaje estandarizadas se empezaron a usar para comparar la calidad educativa de los países (Bloom, 1969). Y, actualmente, una gran cantidad de naciones han creado instituciones evaluativas para medir diversos componentes de sus sistemas educativos y rendir cuentas a la sociedad (Tiana, 1996; Backhoff et al. 2017). Por ejemplo, en México se creó el Instituto Nacional para la Evaluación de la Educación (INEE) en agosto de 2002.

Entre las características más sobresalientes de las evaluaciones o pruebas estandarizadas, se encuentran las siguientes:

  • Se diseñan de tal manera que las preguntas, las condiciones para su administración, los procedimientos de calificación y la manera de interpretar los resultados son uniformes, consistentes y comparables de una evaluación a otra.
  • No necesariamente son pruebas de alto impacto, de tiempo limitado o pruebas cuyo formato de respuesta es la opción múltiple. Las preguntas pueden ser simples o complejas y no se limitan a medir el logro educativo.
  • Están diseñadas para administrarse a grandes grupos de personas, como es el caso de las pruebas de admisión a las universidades y las evaluaciones de aprendizaje que se realizan para evaluar la calidad educativa de un país.
  • Su desarrollo requiere de personal especializado y capacitado en el desarrollo de instrumentos de evaluación, entre los que destacan: psicólogos expertos en medición y psicometría, especialistas en currículo y docentes de las asignaturas y grados escolares que se evalúan.
  • Deben de cumplir con criterios internacionalmente reconocidos por la comunidad académica, como: The Standards for Educational and Psychological Testing (American Educational Research Association [AERA], American Psychological Association [APA], National Council on Measurement in Education [NCME], 2014).
  • Deben de contar con evidencias que garanticen la validez y confiabilidad de sus resultados.

Las evaluaciones estandarizadas pueden proporcionar dos tipos de resultados: normativos y criteriales. Los primeros sirven para comparar los resultados de un individuo con respecto a una población de referencia, con la cual se normalizan estadísticamente las puntuaciones. Así, los resultados de una persona pueden presentarse en puntuaciones Z, 5 en una escala predefinida (ej.: 200 a 800, con una media de 500 y una desviación estándar de 100 puntos), en puntuaciones percentilares 6 o, bien, en niveles de desempeño (ej.: alto, medio, bajo). Por su parte, los resultados de una evaluación referidos a un criterio hablan de la cantidad o proporción de competencias que un estudiante domina, del total de competencias evaluadas. Los resultados se presentan, por lo general, de dos maneras: porcentaje de respuestas correctas y si se cuenta o no con el nivel de maestría requerido para ejecutar una tarea.

Las pruebas estandarizadas están diseñadas para permitir una comparación confiable de los resultados entre todas las personas examinadas, porque todos responden la misma prueba. Sin embargo, es importante hacer notar que, a menudo, los individuos no han tenido las mismas oportunidades para aprender y adquirir las competencias que evalúa una prueba estandarizada (National Education Association, s.f.). Esto es así, debido a que estas evaluaciones están diseñadas para evaluar el grado en que los individuos dominan una competencia específica, independientemente de su historia académica; de la misma manera que un análisis sanguíneo mide los niveles de colesterol de las personas, independientemente de su historial médico.

Surgimiento de las evaluaciones estandarizadas

A continuación, se hace una síntesis de algunos eventos históricos que han marcado el rumbo de las evaluaciones estandarizadas en el mundo y en México.

Antecedentes internacionales

La evaluación educativa ha sido producto de dos disciplinas que han convergido históricamente: la Psicología y la Educación. Desde hace más de cien años, la Psicología se ha interesado en evaluar ciertos atributos de los individuos: su personalidad, su inteligencia y sus capacidades cognitivas. Con este interés nació la Psicometría, campo disciplinario cuyo propósito es medir cuantitativamente las características de los individuos. Con nuevas herramientas estadísticas fue posible diseñar y construir diversos exámenes estandarizados para medir el logro académico de los estudiantes. Uno de estos instrumentos fue la prueba Stanford Achievement Test (Anastasi y Urbina, 1998).

Hace cerca de sesenta años, en los Estados Unidos se impulsó fuertemente el uso de pruebas estandarizadas, como consecuencia de la aprobación del Acta de la Educación Primaria y Secundaria, cuyo propósito era evaluar la eficacia de todos los programas educativos de este país (Tiana, 1996). Poco después, se publicó el informe Coleman (1966) que tuvo un gran impacto en la sociedad norteamericana, pues mostraba que el nivel socioeconómico de los estudiantes tenía mayor influencia que la escuela en sus niveles de logro académico.

En consecuencia, la sociedad estadounidense empezó a demandar información objetiva y confiable de su sistema educativo, con lo cual se impulsó la evaluación educativa de gran escala (Hanusek, 1986), que dio pie a la creación del programa Evaluación Nacional de Progreso Educativo (NAEP), cuya principal función es evaluar los aprendizajes de los estudiantes norteamericanos y darles seguimiento a lo largo del tiempo. La información que genera NAEP sirve para evaluar la calidad de la oferta educativa del país, con lo cual se rinde cuentas a la sociedad (Jones, 1996).

Una década anterior había surgido la Asociación Internacional para la Evaluación del Logro Educativo (IEA, por sus siglas en inglés), con el propósito de comparar los niveles de aprendizaje de los estudiantes de distintos países y con ello poder aprender sobre las buenas prácticas en materia de educación (Ben-Simon y Cohen, 2004). El proyecto más emblemático de esta asociación es el que hoy se conoce, por sus siglas en inglés, como TIMSS (Tendencias de la Medición Internacional de Matemáticas y Ciencias).

En los Estados Unidos, las pruebas a gran escala tal como las conocemos hoy comenzaron a tomar forma con la publicación en 1983 de A Nation at Risk. El informe preparado para el Departamento de Educación de los Estados Unidos por la Comisión Nacional de Excelencia en Educación pidió la adopción de normas rigurosas y estándares medibles junto con mayores expectativas para los estudiantes (DePascale, 2013).

La importancia de la evaluación educativa, a través de pruebas estandarizadas, se hizo presente en muchas partes del mundo, por lo que surgieron tanto organismos nacionales como internacionales para medir lo que los estudiantes son capaces de aprender al término de ciertos grados de la educación básica o al cumplir una determinada edad. Estas evaluaciones han tenido dos grandes propósitos: 1) conocer la eficacia de los países en materia educativa y 2) hacer recomendaciones de política pública para mejorar la calidad y equidad de la educación en los países participantes. Entre las organizaciones que destacan en estos esfuerzos evaluativos se encuentran: la Organización de las Naciones Unidas para la Educación, la Ciencia y la Cultura (UNESCO) y la Organización para la Cooperación y Desarrollo Económico (OCDE). Esta última organización ha destacado por su proyecto PISA, que impactó al mundo desde su primera aplicación en el año 2000 y que ha logrado interesar en la actualidad a más de 70 países.

Antecedentes nacionales

Es hasta la década de los noventa que el campo de la evaluación del aprendizaje fue abordado de manera formal y sistemática en México. Esto sucedió gracias al desarrollo e implementación en las universidades del Examen de Habilidades y Conocimientos Básicos (EXHCOBA) en 1992, con la creación del Centro Nacional de Evaluación para la Educación Superior (Ceneval) en 1994 y con la creación de la Dirección General de Evaluación (DGE) de la SEP en 1992 (Martínez-Rizo, 2001).

En la década de los noventa las autoridades educativas se interesaron en desarrollar exámenes confiables cuyos resultados pudieran servir para diseñar programas y políticas orientados al mejoramiento de la educación. Con este propósito la SEP desarrolló diversas evaluaciones y participó en proyectos de evaluación, de los que destacan: 1) el Factor de Aprovechamiento Escolar, componente del programa de Carrera Magisterial, 2) la prueba IDANIS, (Instrumento de Diagnóstico para Alumnos de Nuevo Ingreso a Secundaria), 3) la participación en el proyecto TIMSS, 4) la coordinación del estudio del Laboratorio Latinoamericano para la Evaluación de la Calidad de la Educación (LLECE) en 1997, y 5) la construcción de las pruebas Estándares Nacionales, para evaluar el logro académico de los alumnos mexicanos de educación básica.

México inicia una fase acelerada de evaluación educativa con la entrada del nuevo milenio: en 2000, participa en el incipiente proyecto de PISA y, en 2002, se crea el INEE con el propósito de evaluar al sistema educativo mexicano y coadyuvar a la rendición de cuentas. Por primera vez, se dan a conocer los resultados de las evaluaciones que se les realizan a estudiantes de educación obligatoria.

Paralelamente, la SEP desarrolla las pruebas ENLACE (Evaluación Nacional de Logros Académicos en Centros Escolares), con las cuales evalúa a los alumnos de primaria (de tercero a sexto grados), de secundaria y de educación media superior (último grado). A partir de 2010, ENLACE se convirtió en un componente esencial del programa de Carrera Magisterial, de tal manera que los resultados de los estudiantes contaban para que sus maestros recibieran estímulos económicos (Santibañez et al., 2006).

Finalmente, la reforma educativa de 2013 le da autonomía al INEE, que lo convierte en autoridad en materia de evaluación educativa y en el coordinador del Sistema Nacional de Evaluación Educativa, donde las evaluaciones estandarizadas del aprendizaje juegan un papel muy importante para medir la calidad educativa del país y de cada una de sus 32 entidades.

Usos de las evaluaciones de gran escala

Sin querer ser exhaustivos, a continuación, se mencionan algunos de los usos de mayor importancia de las evaluaciones estandarizadas en el ámbito educativo, los que divido en dos grandes categorías, de acuerdo con su ámbito de acción: 1) la escuela y 2) el sistema educativo. Respecto a los usos que le pueden dar las autoridades escolares y los docentes a las evaluaciones estandarizadas, destaco los siguientes:

  • Admisión a las instituciones. Las pruebas estandarizadas son instrumentos muy útiles para que las instituciones puedan realizar procesos confiables, eficientes, transparentes y objetivos para determinar qué estudiantes deben ingresar a una institución cuya demanda rebasa la oferta educativa.


  • Video 1. Ejemplo de examen de admisión. Revisión del examen de admisión por Notario Público, Universidad Autónoma de Ciudad Juárez.

  • Ubicación escolar. En muchos países cuando un estudiante cambia de escuela, de estado o de país se acostumbra evaluar las competencias académicas que posee para decidir en qué nivel educativo lo deben de inscribir y, en su caso, si debe o no recibir ayuda especial en alguna materia (como podría ser la lectura o las matemáticas). Un ejemplo de este tipo de evaluación la lleva a cabo la ITESO con su Examen de Ubicación.
  • Formación. Algunas pruebas estandarizadas se utilizan para conocer el nivel de dominio que tienen los estudiantes en cada asignatura y grado escolar. Cuando un alumno se retrasa en alguna de estas asignaturas, se utilizan estas pruebas para determinar dónde hay que reforzar su aprendizaje.
  • Retroalimentación institucional. Algunas evaluaciones estandarizadas sirven para comparar el logro educativo de los estudiantes de una escuela con relación a otra. Esta comparación sirve para definir estrategias de mejora de la calidad de los aprendizajes. Con el paso del tiempo, la escuela que se vuelve a evaluar puede obtener información que retroalimente la eficacia de sus estrategias pedagógicas.
  • Certificación. Muchas disciplinas requieren certificar las competencias de los profesionistas para otorgarles una licencia para ejercer. Este es el caso de los pilotos aviadores que, además de comprobar la acreditación de sus estudios, deben pasar por un examen de certificación al egreso de su formación. Lo mismo sucede con la carrera de Medicina y otras disciplinas, dependiendo del país del que se trate.

Por otra parte, las autoridades educativas de un país o de un estado pueden utilizar los resultados de las evaluaciones estandarizadas con los siguientes propósitos:

  • Mejorar la calidad y equidad de la educación. Cada día se reconoce más que los aprendizajes de los estudiantes son la razón de ser de las instituciones educativas. Por ello, es común que los países deseen conocer en qué medida el sistema educativo nacional y el de los estados cumplen con los planes y programas de estudio, para poder diseñar e implementar políticas públicas orientadas al mejoramiento educativo del país.


  • Video 2. Ejemplo de evaluación a gran escala con objetivos de mejora en la calidad y equidad de la educación. La educación obligatoria en México. Informe 2018, INEE.

  • Evaluación de programas y políticas educativas. Las evaluaciones estandarizadas también son útiles para evaluar la eficacia e impacto de los programas y políticas educativas que implementen las autoridades educativas federal y estatales. México cuenta con información de logro escolar la cual se puede utilizar para conocer si algún programa de la SEP tiene o no impacto en el rendimiento académico de los alumnos (ej. Nuevo Modelo Educativo).
  • Rendición de cuentas a la sociedad. Las evaluaciones estandarizadas de aprendizaje proporcionaron información para conocer cómo se encuentra un país respecto al resto de las naciones y en qué medida sus estudiantes adquieren las competencias escolares básicas (ej.: lectura, matemáticas); información que sirve para que las autoridades rindan cuentas a la sociedad en materia educativa y ésta pueda exigirle al Estado que brinde mejores servicios.

Limitaciones de las evaluaciones estandarizadas

No hay duda de que las evaluaciones estandarizadas han tenido un gran impacto en el ámbito educativo en casi todos los países y México no ha sido la excepción. Sin embargo, es importante reconocer las limitaciones y retos que presentan este tipo de instrumentos en el ámbito educativo. Sin querer ser exhaustivos, menciono primero las siguientes limitaciones de las evaluaciones cuyo formato es de selección de respuestas: 1) el formato de opción múltiple no es una forma auténtica, o apegada a la realidad, de evaluar las competencias de una persona, 2) el formato de selección de respuestas fomenta que se aprenda por reconocimiento y, en consecuencia, que se evalúan conocimientos de bajo nivel cognitivo y 3) el formato de opción múltiple tiene serias limitaciones para evaluar algunos de los contenidos escolares que son importantes (por ejemplo, expresión escrita y comunicación oral).

Adicionalmente, cuando las evaluaciones estandarizadas son de alto impacto debido a sus consecuencias –por ejemplo, al promover el incremento o reducción del presupuesto de una escuela de acuerdo con los resultados de los estudiantes– presentan otro tipo de problemas. Por un lado, fomentan que los docentes enseñen para la prueba y que los estudiantes aprendan para responderla. Esto ocasiona que el docente se centre en enseñar aquellos contenidos que serán evaluados y deje de atender aquellos que, siendo de importancia curricular, no se evaluarán (por ejemplo, expresión escrita). Lo anterior ocasiona que el currículo implementado se estreche considerablemente (Popham, 2001b). Otro efecto negativo que pueden llegar a tener las evaluaciones de alto impacto es el de corromper la misma evaluación, con el objetivo de mejorar las puntuaciones (Backhoff y Contreras, 2014).

Por otro lado, las evaluaciones de alto impacto pueden fomentar que se sacrifique lo verdaderamente importante de la educación, con tal de obtener resultados que no afecten negativamente a la escuela. Por ejemplo, se deja de apoyar a los estudiantes que están muy lejos de tener buenos resultados en las evaluaciones, para no “desperdiciar” los recursos con aquellos que no podrán mejorar los resultados de las escuelas.

Retos futuros de las evaluaciones estandarizadas

Las evaluaciones estandarizadas tienen un siglo de vida y se han utilizado para una gran cantidad de propósitos educativos. Una de sus bondades es la de poder administrarlas simultáneamente en poblaciones muy grandes de estudiantes. Para ello, se ha tenido que utilizar el formato de selección de respuesta, donde sólo una de las opciones es la correcta. Esto permite que los dispositivos ópticos o electrónicos puedan leer y calificar las respuestas de los estudiantes de manera automática. Sin embargo, como ya se describió, el formato de selección de respuestas impone varias limitaciones que se deben superar.

Afortunadamente, el desarrollo de las ciencias computacionales nos permite superar las limitaciones que impone el formato de selección, permitiendo que las evaluaciones puedan utilizar preguntas cuyas respuestas sean más naturales, “auténticas” (ver figura 2). Por ejemplo, el estudiante puede resolver una ecuación y escribir en la pantalla de la computadora su solución. O, bien, puede balancear una ecuación química, trazar una pendiente, identificar puntos geográficos en un mapa, subrayar las partes importantes de un texto, etcétera. Las ciencias computacionales también permiten elaborar pruebas adaptativas que requieren mucho menos tiempo del alumno, sin perder la precisión de la medición.

Figura 2. Interfaz del examen de ubicación de matemáticas en el que el estudiante tiene que escribir la respuesta (no seleccionarla). Fuente: reproducido con autorización de Métrica Educativa, A. C.

De igual manera, el desarrollo de las ciencias cognitivas ha permitido mejorar sustancialmente los contenidos y la validez de las evaluaciones de aprendizaje, tanto de pequeña como de gran escala (Pellegrino, Chudowsky y Glaser, 2001). Sin embargo, para lograr mejoras significativas en las prácticas evaluativas en el ámbito de la educación, falta mucho por estudiar, tanto sobre aspectos cognitivos como acerca de su medición.

Por otro lado, las pruebas se desgastan rápidamente con el uso, por lo que es necesario renovarlas constantemente, lo que implica mucho gasto y esfuerzo. Afortunadamente, la ingeniería de los tests 7 ha desarrollado lo que se conoce como “generadores automáticos de ítems”, 8 que permiten desarrollar una cantidad importante de reactivos isomorfos (conceptual y estadísticamente, equivalentes) y, en consecuencia, pruebas paralelas (para mayor información consulte a Gierl y Haladyna, 2013).

Los problemas ocasionados al establecer consecuencias asociadas a las evaluaciones no son exclusivos de las pruebas estandarizadas, sino que son comunes a cualquier instrumento cuyos resultados tengan consecuencias positivas o negativas, ya sea para los estudiantes, los profesores o para el centro escolar. Siempre va a haber un interés por obtener el mejor resultado al menor costo; condición que opera en contra de los propósitos de la evaluación y que puede hacer que pierda su validez y todo sentido de seguirla utilizando cuando se llega a corromper.

La solución a muchos de los problemas anteriormente expuestos es saber a ciencia cierta cuáles son los alcances y limitaciones de las evaluaciones estandarizadas, para poderlas utilizar de acuerdo con sus propósitos y no “pedirles” más de lo que puedan dar.

Referencias

  • American Educational Research Association (AERA), American Psychological Association (APA), National Council on Measurement in Education (NCME), Joint Committee on Standards for Educational and Psychological Testing (Estados Unidos). (2014). Standards for Educational and Psychological testing. Washington, DC: AERA.
  • Anastasi, A. y Urbina, S. (1998). Test psicológicos (7ª edición). México: Prentice Hall.
  • Anderson, L.W. (2018). Una crítica a las calificaciones: políticas, prácticas y asuntos técnicos. En, De Ibarrola, M. (Ed.), Temas clave de la evaluación de la educación básica. México: FCE.
  • Backhoff, E. y Contreras, S. (2014). “Corrupción de la medida” e inflación de resultados de ENLACE. Revista Mexicana de Investigación Educativa (RMIE), 19 (63), 1267-1283.
  • Backhoff, E., Vázquez-Lira, R., Contreras-Roldán, S., Caballero-Meneses, J. y Rodríguez-Jiménez, J.G. (2017). Cambios y tendencias de aprendizaje en México: 2000-2015. Ciudad de México: Instituto Nacional para la Evaluación de la Educación.
  • Ben-Simon, A. y Cohen, Y. (2004). International assessment: merits and pitfalls. Trabajo presentado en la 30ª Conferencia Anual de la Asociación Internacional para la Evaluación Educativa, Filadelfia.
  • Bloom, B.S. (1969). Cross-national study of educational attainment: Stage I of the IEA investigation in six subject areas (Vols. 1-2). Washington, EEUU: Office of Education (DHEW).
  • Coleman, J. (1966). Equality of Educational Opportunity. Washington, EEUU: Department of Health, Education and Welfare.
  • DePascale, Ch. A. (2003). The Ideal Role of Large-Scale Testing in a Comprehensive Assessment System. Journal of Applied Testing Technonogy, 5 (1), 1-11. Recuperado de: http://www.jattjournal.com/index.php/atp/article/view/48343/39213.
  • Fletcher, D. (2009). Standardized Testing. Time, Diciembre, 11. Recuperado de: http://content.time.com/time/nation/article/0,8599,1947019,00.htm.
  • Gierl, m. y Haladyna, T.M. (2013). Automatic Item Generation: theory and practice. Nueva York: Routledge.
  • Instituto Nacional para la Evaluación de la Educación (INEE). (2018). La educación obligatoria en México. Informe 2018. México: INEE.
  • Jones, L.V. (1996). A History of the National Assessment of Educational Progress and Some Questions About Its Future. Educational Researcher, 25 (7): 15-22.
  • Martínez-Rizo, F. (2001). La evaluación educativa en México: experiencias, avances y desafíos. Recuperado de: http://www.fmrizo.net/fmrizo_pdfs/capitulos/C%20047%202010%20Evaluacion%20Educativa%20en%20Mexico_FMR-EB%20COLMEX.pdf.
  • National Education Association (s.f.). Lessons from the Past: A History of Educational Testing in the United States. Recuperado de: https://www.princeton.edu/~ota/disk1/1992/9236/923606.PDF.
  • Organización para la Cooperación y el Desarrollo Económico (OCDE). (2016). PISA 2015 Results (Volume I). Excellence and Equity in Education. París: OCDE.
  • Pellegrino, J.W., Chudowsky, N. y Glaser, R. (2001). Knowing what students know. The science and design of educational assessment. Washington, DC: The National Academies Press. DOI: https://doi.org/10.17226/10019.
  • Popham, W.J. (2002). What Every Teacher Should Know about Educational Assessment. Boston: Allyn & Bacon.
  • Popham, W.J. (2001a). The Truth About Testing: An educator’s call to action. Alexandria, Virginia: Association for Supervision and Curriculum Development.
  • Popham, W. J. (2001b). Teaching to the test. Educational Leadership, 58 (6), 16-20.
  • Tiana, A. (1996). La evaluación de los sistemas educativos. Revista Iberoamericana de Educación, 10, 37-61.
  • United Nations Educational, Scientific and Cultural Organization (UNESCO). (2018). The impact of large scale learning assessment. París: UNESCO. Recuperado de: http://uis.unesco.org/sites/default/files/documents/impact-large-scale-assessments-2018-en.pdf.

Vol. 19, núm. 6 noviembre-diciembre 2018

La evaluación del desempeño docente
en la educación superior

María Luisa del Carmen Pacheco Cámara, Isela Ibarra Bocardo, Miriam Elizabeth Iñiguez Galindo, Héctor Lee García y Claudia Victoria Sánchez Sánchez Cita

Resumen

La evaluación del desempeño docente es un ejercicio sistemático que, con fundamento en un conjunto de evidencias, juzga cómo llevan a cabo su labor los profesores en las aulas, los talleres, los laboratorios o espacios de práctica, con el fin de identificar logros y desajustes de su actuación en los escenarios educativos. La valoración del desempeño de los docentes puede sustentarse en diversos modelos que varían en sus marcos, conceptos y procedimientos establecidos, todos tienen sin duda la finalidad de aportar evidencias que faciliten y promuevan la mejora de la enseñanza para contribuir a una educación de calidad.

El presente artículo es de carácter introductorio, en él se exponen definiciones generales de la docencia y el desempeño docente, así como las razones y formas de evaluarlo. Se pretende brindar un panorama básico al lector, a partir de la experiencia y el conocimiento de los autores.
Palabras clave: docencia, desempeño docente, evaluación, modelos de evaluación del desempeño docente.

The evaluation of teacher’s performance in higher education

Abstract

The evaluation of teacher’s performance is a systematic exercise that, based on an evidence system, judges how teachers carry out their work in classrooms, workshops, labs or practice spaces, in order to identify achievements and shortcomings in their educational settings. The assessment of teacher’s performance can be based on different models that differ in their frames, concepts and procedures, all of them have the purpose of providing evidence that facilitates and promotes teaching improvement and contributes to quality education.

This article has an introductory nature, it presents general definitions of teaching and teaching development, and the reasons and ways to evaluate it. It intends to provide a basic perspective based on the experience and knowledge of the authors.
Keywords: teaching, teaching performance, evaluation, teacher performance evaluation models.

La docencia y el desempeño docente

En las instituciones de educación superior, la docencia se entiende como un ejercicio profesional que está a cargo del cuerpo académico de las instituciones y que tiene la finalidad de educar a los profesionales que la sociedad requiere. Es, sin duda, un ejercicio que se enmarca en un contexto institucional, académico y administrativo en el que la actuación de los docentes está sujeta a un sinnúmero de criterios, reglas y condiciones.

Por su naturaleza especializada, la docencia universitaria exige el dominio y manejo de múltiples saberes y habilidades, indispensables para orientar y apoyar las experiencias de aprendizaje de los estudiantes.

El ejercicio docente tiene que sustentarse en una doble formación de saberes, los de naturaleza disciplinaria y los de índole estrictamente pedagógica. Los primeros representan la materia o materias objeto de enseñanza y abarcan un conjunto de conocimientos específicos de una o varias disciplinas; mientras que los segundos, los pedagógicos, se refieren al conocimiento y comprensión de lo educativo en sus dimensiones filosóficas, teóricas, metodológicas y técnicas, para lograr síntesis singulares que posibiliten a los docentes formar individuos en escenarios de aprendizaje controlados.

Existen otras condiciones que también enmarcan el ejercicio docente, como el nivel educativo –licenciatura, especialización, maestría, doctorado–; la modalidad en la que se entrega el servicio educativo –presencial, abierta, a distancia o mixta–; las normas operativas de los programas educativos, entre otras más, que obligan a los docentes a dominar conocimientos diferenciales, asumir estilos de enseñanza variados y realizar numerosas tareas de supervisión y apoyo al momento de operar la docencia en el escenario educativo (ver figura 1).



Figura 1. Condiciones que enmarcan el ejercicio docente.
Imagen: Victoria Sánchez. Diseño gráfico: Julián Cruz Cruz.

A lo largo del tiempo, a quienes ejercen la docencia se les han ido confiriendo otros roles, producto de los cambios del entorno social y de nuevas demandas que emergen; así como debido a las características y nuevos perfiles de las poblaciones de estudiantes; a la incorporación de la tecnología en diversos planos de los escenarios sociales, educativos y laborales; también a transformaciones de las mismas instituciones educativas, y sin duda, al desarrollo de nuevas pedagogías y recursos, entre otros muchos factores y presiones de cambio.

Ser un profesional de la docencia hoy en día es un reto extraordinario. Los docentes son, sin lugar a dudas, piezas clave del compromiso educativo que una institución asume con la sociedad; por ello, es necesario que se reconozca el valor de su contribución social; sus acciones orientadas a la producción y transformación del conocimiento; su trabajo en la promoción de valores entre los integrantes de las nuevas generaciones; su acompañamiento en el crecimiento, formación de la personalidad y desarrollo de la capacidad de sus alumnos para tomar decisiones; en suma, su aportación a la mejora de la sociedad, pues educar conlleva el valor y la fuerza de transformarla.

La evaluación del desempeño docente

La evaluación del desempeño docente debe ser un ejercicio sistemático que, basado en la recopilación de evidencias, ayude a las instituciones educativas a valorar tanto los aciertos como los logros del quehacer de estos actores, así como a identificar las áreas o aspectos en los que su desempeño es limitado o deficitario. Sin duda, la finalidad de este proceso es fortalecer las instituciones para cumplir un compromiso con la calidad de su esfuerzo educativo.

Toda evaluación del desempeño docente es compleja porque exige reconocer y comprender una amplia gama de factores que intervienen en la actuación del profesor. Cada proceso de evaluación, por otro lado, es único ya que obedece a un contexto, aunque, al mismo tiempo, tiene que atender la lógica de cualquier ejercicio profesional de evaluación en el que los demandantes, junto con los evaluadores expertos, deben precisar los propósitos de la evaluación del desempeño docente; definir el marco de referencia; decidir los enfoques, modelos e instrumentos que serán empleados; y orquestar toda la trama de tareas que permiten instrumentar una evaluación para integrar un sistema de evidencias.

Para realizar una evaluación del desempeño docente es indispensable delimitar el perfil del buen docente en un contexto institucional, es decir, deben definirse los conocimientos, habilidades y actitudes que idealmente tendría que dominar un profesor (ver figura 2). La experiencia acumulada a través de sucesivas investigaciones y ejercicios de evaluación ha conducido a identificar aspectos comunes que definen el perfil de un buen docente (Dewar, 2002; Coe et al., 2014), entre los que destacan el dominio de los conocimientos de las asignaturas que se imparten, los métodos y estrategias de enseñanza, el compromiso del docente en el escenario educativo y la relación que establece con los estudiantes. No obstante, no se ha alcanzado un acuerdo universal y, por lo tanto, en cada proceso de evaluación hay que definir un perfil de la docencia congruente con el ideario institucional, las condiciones de corte disciplinario y las necesidades de evaluación y uso que se dará a los resultados de este proceso.



Figura 2. El perfil del desempeño docente.
Imagen: Victoria Sánchez. Diseño gráfico: Julián Cruz Cruz.

Por otro lado, es necesario definir con claridad el propósito de la evaluación; elegir uno o varios modelos de ésta; acordar un programa para el desarrollo del proceso; construir, probar y perfeccionar los instrumentos que serán empleados; determinar los métodos y técnicas de análisis de la información; establecer los criterios y características de los informes que se elaborarán; decidir cómo se difundirán los resultados y quiénes los emplearán para tomar decisiones en relación con el desempeño de los docentes.

Lograr evaluaciones justas y transparentes del desempeño docente para todos los interesados requiere, en gran medida, de procesos inclusivos en los que participen tanto la comunidad académica como los directivos y el personal técnico.

Los objetivos principales de una evaluación de este tipo son aportar evidencias que faciliten y ayuden a la mejora de la enseñanza, contribuir a que los alumnos reciban una mejor educación, y apoyar a las instituciones de educación superior a cumplir los compromisos que tienen con la sociedad de formar profesionales capaces de dar respuestas a las demandas y problemas propios de su campo.

Las funciones de la evaluación del desempeño docente

Como se mencionó previamente, cuando una institución de educación superior decide evaluar el desempeño de sus profesores, es fundamental que primero se definan claramente los propósitos de este proceso para precisar su naturaleza, es decir, si será de índole diagnóstica, formativa o sumativa. Esta condición perfila la función o funciones que asumirá el proceso evaluativo.

En una evaluación diagnóstica se busca valorar el desempeño de los docentes para fundamentar decisiones de selección de candidatos o para identificar campos de la actuación docente que requieren atención o reforzamientos especiales.

En cambio, una evaluación del desempeño docente con propósito formativo se sustenta en la necesidad de conocer la práctica de los profesores en los escenarios educativos –aulas, talleres, laboratorios, espacios de práctica– para decidir qué aspectos deben reforzarse, mejorarse o modificarse en las dimensiones disciplinarias, pedagógicas, tecnológicas, comunicativas o éticas del ejercicio de los profesores.

Por su parte, las evaluaciones de naturaleza sumativa valoran el desempeño de los docentes en perspectivas globales o integrales, o al término de ciclos definidos con el propósito de apoyar decisiones de naturaleza contractual, como el otorgamiento de la definitividad académica o la promoción en el esquema de nombramientos académicos, entregar premios o reconocimientos o, como ocurre en un gran número de instituciones de educación superior, asignar estímulos compensatorios a los salarios.

Los modelos para evaluar el desempeño de los docentes

Para evaluar el desempeño de los docentes es importante identificar el escenario de enseñanza-aprendizaje en el que se encuentran, conocer el contexto en el que están inmersos y determinar los propósitos de la evaluación; de esta forma, se tienen los elementos indispensables para valorar los marcos y procedimientos con los cuales se puede conocer y juzgar el desempeño docente, y que pueden ir desde observaciones sistemáticas hasta el empleo de exámenes sofisticados.

Hoy en día existen diversos modelos para evaluar el desempeño docente (Darling-Hammond, Wise y Pease, 1983; Howard y McColskey, 2001). En este trabajo se describirán los que han sido empleados con mayor frecuencia en las instituciones de educación superior en las últimas décadas, a saber, pares, autoevaluación, opinión de alumnos y portafolios (ver figura 3).

El modelo de evaluación mediante pares es sin duda el más antiguo de todos, en éste el desempeño es valorado por otros profesores cuya formación y experiencia son similares a la de los docentes evaluados; son expertos en el campo disciplinar y es común que las instituciones integren grupos de tres o cinco pares y que además estén representados académicos de instituciones externas a la de los docentes evaluados. Esta última condición otorga mayor objetividad al proceso, pues una parte de los evaluadores serían totalmente independientes. Una de las principales ventajas es que los evaluadores tienen perfiles académicos similares a los de los evaluados, no obstante, cuando se utiliza este modelo también existe una restricción de los pares externos: que su conocimiento del contexto institucional sería menor, lo que puede derivar en una comprensión restringida del entorno de la evaluación.

En el caso del modelo de autoevaluación, los docentes evaluados asumen el rol de evaluadores; ellos tienen que juzgar su desempeño apoyándose en guías narrativas, escalas o cuestionarios. En este modelo, resulta decisivo el proceso de reflexión que los docentes tienen que llevar a cabo sobre su formación y actuación en los escenarios educativos, se asume que ellos son quienes mejor pueden juzgar su realidad académica, valorar todos los factores que se enlazan en su desempeño y explorar a profundidad sus procesos y resultados. Este modelo tiene el potencial de estimular el cambio por parte de los docentes; sin embargo, es claro que ser juez y parte en un proceso evaluativo puede restarle credibilidad a éste. Las instituciones que emplean este modelo señalan que es necesario capacitar a los docentes para participar con objetividad en él.

La evaluación del desempeño docente mediante la opinión de los alumnos es, sin duda alguna, el modelo más empleado en la mayoría de las instituciones de educación superior. Su diseño permite obtener la visión y juicio de los beneficiarios de la docencia –los alumnos–, quienes son testigos cotidianos del desempeño de sus profesores. Para evaluar el desempeño de los docentes a través de este modelo, se emplean preponderantemente cuestionarios que integran las acciones que, de acuerdo con la institución, deben realizar los profesores en el escenario de la enseñanza-aprendizaje. En este modelo se obtienen, en poco tiempo, numerosas evidencias de la actuación de los profesores que pueden ser, una vez sistematizadas, contrastadas desde distintos criterios, por ejemplo, docentes de asignaturas teóricas versus prácticas, nivel del ciclo educativo en el que se ubican los docentes, áreas a las que pertenecen, nombramientos, entre otros. Una limitante intrínseca del modelo es que los alumnos sólo pueden valorar lo que ocurre en las aulas, laboratorios, talleres o campos clínicos; no tienen la posibilidad de juzgar otras tareas que se integran a la docencia y que tienen lugar fuera de los escenarios en los que se cristalizan las interacciones entre los docentes y sus alumnos.

Finalmente, la evaluación del desempeño de los docentes a través de portafolios exige un proceso de integración de evidencias y reflexiones que, organizadas a partir de un conjunto de criterios establecido por los líderes del proceso evaluativo, permitirán juzgar el desempeño del profesorado. Este modelo tiene capacidad para combinar aspectos cuantitativos con aspectos cualitativos del desempeño docente, así como para sumar resultados de otras evaluaciones que se hubieran realizado a los docentes; esta perspectiva se presenta como un modelo más integrador y poderoso. Exige que las instituciones determinen muestras válidas de evidencias, periodos de evaluación y grupos de pares que tendrán que intervenir para juzgar el contenido del portafolios que puede manejarse en formatos físicos o virtuales, y exige que los docentes desarrollen una cultura de acopio de testimonios y documentación de experiencias.



Figura 3. Modelos para evaluar el desempeño docente.
Imagen: Victoria Sánchez. Diseño gráfico: Julián Cruz Cruz.

Emplear uno o varios modelos para evaluar el desempeño de los profesores dependerá de los propósitos que persigue una institución, del tiempo disponible, así como de los recursos institucionales. Lo que es cierto es que ningún modelo por sí mismo tiene la capacidad para ofrecer una gama completa de valoraciones de las múltiples y variadas tareas que están a cargo del cuerpo académico de las instituciones y que se ponen en juego para cumplir su labor pedagógica.

Los desafíos de la evaluación docente

Como ya se señaló en este texto, la evaluación del desempeño docente es una práctica que las instituciones de educación superior han abrazado progresivamente. Conforme se ha desarrollado, se han identificado desafíos que afrontan los evaluadores, por lo cual es necesario sensibilizar a quienes desconocen estos procesos; en particular, tener clara la importancia de llevarlos a cabo con profesionalismo para que sean verdaderamente útiles para las instituciones, sus comunidades académicas y para la sociedad.

Es vital que las instituciones reconozcan la evaluación del desempeño docente como una herramienta potencialmente útil, que ofrece sustento a los procesos de toma de decisiones orientados a la mejora de la enseñanza; per se, ninguna evaluación mejora la educación.

Uno de los desafíos centrales de la evaluación radica en que el proceso pueda alcanzar una condición institucional, es decir, que surja por iniciativa de las autoridades y que se legitime ante la comunidad académica por los propósitos que se le asignen y la transparencia con la que se logre plantear su operación.

Lograr prácticas de evaluación del desempeño docente exitosas depende entonces de impulsar procesos precisos, bien fundamentados y guiados o asistidos por especialistas del campo evaluativo.

El diseño y empleo de instrumentos pertinentes y útiles constituye otro desafío en estos procesos, ya que dichas herramientas deben diseñarse a partir de los perfiles de la docencia de las instituciones, para que su contenido responda al entorno institucional. Es esencial que no se empleen instrumentos de otros centros o que sean producto únicamente de una integración de preguntas que no han sido cuidadosamente seleccionadas, juzgadas y probadas.

Otro desafío tiene que ver con el desarrollo de una verdadera cultura de la evaluación del desempeño de los profesores, que no se limite a obtener y acumular evidencias, sino a transformarlas en decisiones y acciones cuyo impacto se traduzca en el aseguramiento de procesos educativos de calidad.

Las buenas prácticas de evaluación del desempeño de los docentes

Las llamadas buenas prácticas de evaluación del desempeño de los docentes son aquellas que se han instaurado en las instituciones a la luz de acuerdos claros con las comunidades y con propósitos definidos respecto del uso de las evidencias que generarán estos procesos. Son también aquéllas cuyos marcos metodológicos e instrumentales han sido sólidamente desarrollados, examinados y asegurados por profesionales de la evaluación.

Asimismo, se distinguen como buenas prácticas las que de principio a fin y, en forma continua, tienen transparencia y están revestidas de una sólida ética institucional; las prácticas institucionales que se revisan y que se perfeccionan a lo largo del tiempo; y las que transforman las evidencias obtenidas en acciones institucionales claras y efectivas para fortalecer y mejorar el ejercicio profesional de los docentes.

En relación con las buenas prácticas, existen documentos que sistematizan la experiencia de las instituciones con respecto al uso de las evaluaciones, como es el caso de Benton y Young (2018) y, en el mismo sentido, existen marcos más amplios que sirven de apoyo para llevarlas a cabo, como son los Estándares de Evaluación de Personal (The Personnel Evaluation Standards), desarrollado por el Joint Committee on Standards for Educational Evaluation y cuya última revisión data del 2009.

Referencias

  • Benton, S. L. y Young, S. (2018). Best Practices in the Evaluation of Teaching. IDEA Paper, 69, Junio. Recuperado de: http://www.ideaedu.org/Portals/0/Uploads/Documents/IDEA Papers/IDEA Papers/IDEA_Paper_69.pdf.
  • Coe, R., Aloisi, C., Higgins, S., y Major, L. E. (2014). What makes great teaching? (Review of the underpinning research, Project Report). London: Sutton Trust.
  • Darling-Hammond, L., Wise, A. E. y Pease S. R. (1983). Teacher evaluation in the organizational context: a review of the literature. Review of educational research, 53, 285-237.
  • Dewar, K. (2002). On Being a Good Teacher. Journal of Hospitality, Leisure, Sport & Tourism Education, 1 (1), 61-67.
  • Howard, B. B. y McColskey, W. H. (2001). Evaluating Experienced Teachers. Educational Leadership. Evaluating Educators, 58 (5), 48-51.
  • The Joint Committee on Standards for Educational Evaluation (2009). The Personnel Evaluation Standards: How to Assess Systems for Evaluating Educators (2a edición). (s.l.): SAGE publications.

Vol. 19, núm. 6 noviembre-diciembre 2018

La evaluación del aprendizaje de los estudiantes:
¿es realmente tan complicada?

Melchor Sánchez Mendiola Cita

Resumen

El proceso educativo incluye diversos elementos como los métodos de enseñanza, el aprendizaje y la evaluación. Frecuentemente se privilegian los métodos de enseñanza en la formación de los profesores, y la adquisición de conocimientos y habilidades sobre evaluación del aprendizaje en educación es limitada o se lleva a cabo de manera informal. Es importante que los participantes del proceso educativo, estudiantes, docentes, autoridades, así como la sociedad en general, conozcan algunos de los conceptos básicos de evaluación del aprendizaje, ya que como cualquier área técnico-científica, posee una terminología propia. Los actores de la educación debemos adquirir conciencia de los alcances y limitaciones de los instrumentos de evaluación del aprendizaje. Este escrito presenta algunas de las definiciones relevantes en el área de la evaluación del aprendizaje.
Palabras clave: evaluación educativa, evaluación del aprendizaje, evaluación para el aprendizaje, validez, amenazas a la validez.

The assessment of learning in students: is it really so complicated?

Abstract

The educational process comprises several important elements, including teaching methods, learning and assessment. Teaching methods are frequently emphasized in faculty development activities, while the acquisition of knowledge and skills in educational assessment is limited or undertaken informally. It is important that all stakeholders of the educational process, students, teachers, authorities and society have a basic understanding of some educational assessment basic concepts. This area, like any other technical-scientific discipline, has its own terminology. We need to develop conscience about the virtues and limitations of the educational assessment tools. This paper presents some of the relevant definitions in the area of educational assessment.
Keywords: educational assessment, assessment of learning, assessment for learning, validity, threats to validity.

“El aprendizaje no es una calificación”
Roman Nowak

“Evaluación es un intento de conocer a la persona”
Derek Rowntree

“Colectar datos para evaluación es como recoger la basura.
Más vale saber lo que vas a hacer con ella antes que la recojas”
Mark Twain

¿Qué es la evaluación del aprendizaje?

Si le preguntamos a un estudiante probablemente nos dirá: “exámenes”, y si le preguntamos a un profesor podría contestarnos: “es algo difícil que toma tiempo y experiencia, por lo que generalmente no me pagan, y para lo que no fui capacitado”. Pensamos que la mayor parte de lo que enseñamos es aprendido por los estudiantes, aunque la única manera de conocer los efectos de la enseñanza es realizar una evaluación continua y técnicamente adecuada, alineada con los planes de estudio y métodos de enseñanza, que incluya al estudiante como actor activo en el proceso. Esta evaluación debe idealmente arrojar resultados interpretables y utilizables por el mismo estudiante, el docente, la institución educativa y la sociedad.

Existen varias definiciones de evaluación, una de las más utilizadas es: “término genérico que incluye un rango de procedimientos para adquirir información sobre el aprendizaje del estudiante, y la formación de juicios de valor respecto al proceso de aprendizaje” (Miller, 2012). Dichos juicios necesitan algún referente, como puede ser el plan de estudios. Evaluación implica obtener información de diferentes fuentes como realimentación, exámenes, tareas y diversas interacciones con el educando. Los profesores que interactuamos con estudiantes debemos incorporarla desde una visión más profunda, como sugirió Derek Rowntree: “cuando una persona, con algún tipo de interacción directa o indirecta con otra, obtiene e interpreta información de manera consciente sobre el conocimiento y la comprensión, habilidades y actitudes de la otra persona. Hasta cierto punto evaluación es un intento de conocer a esa persona” (Rowntree, 1977). No debemos olvidar que a quienes evaluamos son seres humanos, con todo lo que ello implica.

Las siguientes son algunas recomendaciones para que la evaluación del aprendizaje se lleve a cabo de forma apropiada (Miller, 2012):

  1. Especificar claramente lo que se va a evaluar es fundamental.
  2. La evaluación es un medio para un fin, no un fin en sí mismo.
  3. Los métodos de evaluación del aprendizaje deben elegirse por su relevancia para las características que se van a evaluar del estudiante.
  4. Requiere de una variedad de procedimientos e instrumentos.
  5. Su uso adecuado requiere tener conciencia de su propósito y de las bondades y limitaciones de cada método.

Tipos de evaluación del aprendizaje

Evaluación diagnóstica, formativa y sumativa

Una de las clasificaciones tradicionales de la evaluación educativa es desde el punto de vista de su objetivo: diagnóstica, sumativa y formativa.

La evaluación diagnóstica se realiza al principio de un curso o actividad académica con la finalidad de determinar el nivel de conocimiento, habilidad o actitud del educando. Esta información puede ser de utilidad para el docente, ya que le permite hacer adecuaciones en el contenido y en la implementación de las actividades académicas programadas. Un ejemplo de este tipo de evaluación es el Examen Diagnóstico de Ingreso en las licenciaturas de la Universidad Nacional Autónoma de México (UNAM), en el que se valoran los conocimientos generales de Español y de Inglés de los estudiantes de nuevo ingreso. Los resultados se envían a cada facultad o escuela, para su uso y difusión. Recientemente colocamos estos resultados en la página de la Coordinación de Desarrollo Educativo e Innovación Curricular (CODEIC), como material de acceso abierto para cualquier persona que quiera explorar los datos, incluyendo además del reporte oficial, unas tablas dinámicas que permiten al usuario realizar comparaciones y visualizarlas.

La evaluación sumativa es aquella compuesta por la suma de valoraciones efectuadas durante un curso, para determinar, al final del mismo, el grado con que los objetivos de la enseñanza se alcanzaron y así otorgar calificaciones. Ejemplos de esta evaluación son los exámenes de fin de curso, los exámenes de certificación de profesionistas, el examen profesional de fin de carrera. Estos exámenes son eventos de alta trascendencia para la vida del estudiante, quien en ocasiones los percibe como obstáculos a sortear para alcanzar un objetivo, en lugar de oportunidades para identificar su estado real de aprendizaje. Un tipo de exámenes sumativos que merece atención especial, son los llamados “exámenes de altas consecuencias o de alto impacto” (high-stakes testing, en inglés), que han generado una intensa controversia en las últimas décadas (Sánchez Mendiola, 2017).

La evaluación formativa es la que se utiliza para monitorear el progreso del aprendizaje y proporcionar realimentación al estudiante sobre sus logros, deficiencias y oportunidades de mejora. Es un proceso mediante el cual se recaba información sobre el proceso de enseñanza aprendizaje, que los maestros pueden usar para tomar decisiones sobre cómo enseñan y los alumnos para mejorar su propio desempeño, convirtiéndose en una fuente de motivación para ellos. Esta evaluación idealmente debería ocurrir a lo largo de todo el proceso educativo del estudiante. Puede ser formal si está oficialmente programada y es esperada en determinados momentos del proceso, o informal si ocurre de manera espontánea, no programada. Si se reconoce un logro del estudiante para estimularlo y reforzar su conducta se le llama positiva, y si critica de manera explícita algo que se hizo mal o que se puede mejorar se le llama negativa. La evaluación formativa tiene un poderoso componente educativo, ya que durante las actividades del día a día permite identificar aquellas que se hacen bien, así como aquellas que tienen alguna deficiencia, para detectarlas a tiempo y corregirlas (Martínez Rizo, 2009 y 2013). Este tipo de evaluación forma parte de la llamada “evaluación para el aprendizaje”, en la que el enfoque no es verificar, sino apoyar y motivar al estudiante, al mismo tiempo que proporciona al profesor información sobre el aprendizaje del educando.

Desafortunadamente, se ha creado una diferencia artificial entre la evaluación sumativa y formativa, que ha generado mucha controversia. A la sumativa se le ha etiquetado como excesivamente cuantitativa, centrada en los números; punitiva y discriminatoria; usada con fines políticos; de ejercicio del poder o de control; demasiado estandarizada e inaplicable en los seres humanos que somos individualmente diferentes. Por el contrario, la evaluación formativa ha surgido como la heroína de la película, la parte buena, positiva, nutritiva educacionalmente, que toma en cuenta los aspectos afectivos y emocionales de los estudiantes, y que ayuda a los educandos a salir adelante y aprender mejor, sin importar sus limitaciones personales y de contexto. Este debate ha creado una situación que recuerda la frase de George Orwell en Rebelión en la Granja: “Cuatro patas bueno, dos patas malo”. Creo que debemos ver a estos dos tipos de evaluación como un continuo, ya que todas las evaluaciones pueden tener un componente sumativo y formativo, que dependerá del uso de los resultados (Man Sze Lau, 2016).

Por ejemplo, un examen de ingreso a la universidad tiene un fuerte componente sumativo, pero también puede usarse como evaluación diagnóstica e incluso formativa si se provee de alguna manera la información a los docentes y estudiantes. En cambio, una sesión de realimentación durante el curso puede ser principalmente formativa, pero si esta información cuenta para la calificación, adquiere una dimensión sumativa. Debemos hacer un esfuerzo por lograr un balance razonable, que promueva una mayor integración de la evaluación con el proceso de enseñanza y aprendizaje.

Evaluación referida a norma y criterio

Otra manera de clasificar la evaluación es de acuerdo con la interpretación de los resultados. Puede ser con referencia a norma (relativa) o con referencia a criterio (absoluta). Cuando la evaluación se interpreta con referencia a norma, el resultado se describe en términos del desempeño del grupo y de la posición relativa de cada uno de los estudiantes evaluados (Miller, 2012; Sánchez Mendiola et al., 2015). Este tipo de evaluación se utiliza para colocar a los alumnos en listas de rendimiento y puntaje, para asignarles un lugar en el grupo. Un ejemplo en México es el Examen Nacional de Aspirantes a Residencias Médicas (ENARM), evaluación sumativa que presentan los médicos graduados que desean realizar una especialidad. La puntuación obtenida por el aspirante se evalúa en relación a lo que obtuvieron los demás y de su lugar secuencial en la lista para aspirar a una de las plazas, y no en un criterio de nivel de conocimientos previamente definido.

En cambio, la evaluación con referencia a criterio describe el resultado específico que se encontró, de acuerdo a criterios o metas preestablecidos. Este tipo de evaluación busca la comparación del estudiante con relación a un nivel o estándar establecido previamente. Un ejemplo es el examen de inglés como segundo lenguaje, Test of English as a Foreign Language (TOEFL), en que hay niveles de desempeño previamente determinados y los resultados se interpretan de acuerdo con dichos estándares, no de acuerdo al desempeño del grupo de sustentantes.

Uno de los retos de la evaluación criterial es que si el nivel exigido es muy alto para la población que toma el examen pueden fracasar todos los aspirantes, por lo que este tipo de exámenes deben “calibrarse” para plantear metas de evaluación congruentes con la realidad. Además, la evaluación criterial nos permite tener mayor claridad sobre nuestra situación educativa real, ya que no depende del desempeño del grupo sino de la meta a lograr. En cambio, en la evaluación por norma o relativa si tenemos un grupo de estudiantes con muy baja preparación, de cualquier manera aprobarán el examen o serán seleccionados los que tengan las puntuaciones más altas, dando una imagen arbitraria del nivel de aprendizaje de los estudiantes.

Instrumentos de evaluación del aprendizaje

Los instrumentos de evaluación son técnicas de medición y recolección de datos que tienen distintos formatos, atendiendo a la naturaleza de la evaluación. Existe una gran variedad de instrumentos con diversas ventajas y limitaciones para documentar el aprendizaje de los conocimientos, habilidades y destrezas de los estudiantes. Los instrumentos de evaluación del aprendizaje pueden clasificarse en estas categorías:

  • Evaluaciones escritas: ensayos, preguntas directas de respuesta corta, exámenes de opción múltiple, relación de columnas, disertaciones, reportes.
  • Evaluaciones prácticas: exámenes orales, prácticas con casos, examen clínico objetivo estructurado (ECOE).
  • Observación: reporte del profesor, listas de cotejo, rúbricas.
  • Registros del desempeño: libretas de registro, portafolios, registros de procedimientos.
  • Autoevaluación y evaluación por pares: reporte del educando y de los compañeros.
  • Cada uno de estos métodos tiene sus ventajas y desventajas, así como recomendaciones para su implementación. Es responsabilidad de los profesores y responsables de la evaluación en las instituciones educativas diseñar, seleccionar y utilizar los instrumentos más apropiados para evaluar el aprendizaje de los estudiantes, de acuerdo al plan de estudios y las características del contexto local.

    Criterios para una buena evaluación

    La evaluación educativa es tan buena como la metodología utilizada y el uso que se hace de los resultados. Varias organizaciones internacionales han propuesto criterios sobre las “buenas prácticas” en evaluación (American Educational Research Association [AERA], American Psychological Assocation [APA] y National Council on Measurement in Education [NCME], 2014; Norcini et al., 2011). Estos criterios son: validez, confiabilidad, justicia, equivalencia, factibilidad, efecto educativo y aceptabilidad.

    Validez

    Uno de los conceptos más importantes para que los resultados de los procesos de evaluación tengan sustento sólido y uso apropiado es el de validez. La validez de un proceso de evaluación es el grado con el que mide lo que se supone que mide. La validez es un concepto unitario, y actualmente se considera que toda la validez es validez de constructo (AERA, APA y NCME, 2014; Downing, 2003; Kane, 2013). La palabra constructo significa colecciones de conceptos abstractos y principios, inferidos de la conducta y explicados por una teoría educativa o psicológica, es decir, atributos o características que no pueden observarse directamente (por ejemplo: inteligencia, timidez, conocimientos sobre química) (Brennan, 2006; Downing, 2003).

    Validez es un juicio valorativo holístico e integrador que requiere múltiples fuentes de evidencia para la interpretación del constructo evaluado, ya que intenta responder a la pregunta “¿qué inferencias pueden hacerse sobre la persona basándose en los resultados del examen?” (Downing, 2003; Mendoza Ramos, 2015). No es el examen el que es válido per se, ya que la validez de un examen es específica para un propósito, se refiere, más bien, a lo apropiado de la interpretación de los resultados. En otras palabras, la validez no es una propiedad intrínseca de los exámenes, sino del significado de los resultados en el entorno educativo específico y las inferencias que pueden hacerse de los mismos. Por ejemplo, los resultados de los médicos que sustentan el examen para ingresar a las residencias médicas (ENARM), no deben interpretarse como evidencia de la calidad de las escuelas de medicina de donde provienen, ya que el examen no está diseñado con ese propósito.

    Las cinco fuentes importantes de validez en evaluación del aprendizaje son (AERA, APA y NCME, 2014; Downing, 2003):

    1. Contenido. Debe utilizarse una tabla de especificaciones de la prueba y el proceso seguido para elaborarla, la definición de los temas, la congruencia del contenido de las preguntas con las especificaciones del examen, la representatividad de las preguntas de las diferentes áreas a examinar, la calidad de las preguntas, las credenciales de las personas que elaboran las preguntas, entre otros.
    2. Procesos de respuesta. Se requiere evidencia de integridad de los datos, de manera que las fuentes de error que se pueden asociar con la administración del examen hayan sido controladas en la medida de lo posible. Por ejemplo, el control de calidad de la elaboración del examen, la validación de la clave de la hoja de respuestas utilizada, el control de calidad del reporte de los resultados del examen, la familiaridad del estudiante con el formato de evaluación (lápiz y papel o computadora).
    3. Estructura interna. Se refiere a las características estadísticas del examen y de las preguntas que lo componen, como son el análisis estadístico de reactivos, el funcionamiento de los distractores en las preguntas de opción múltiple, la confiabilidad del examen, entre otros. Muchos de estos datos debieran obtenerse de rutina como parte del proceso de control de calidad del examen, principalmente en los exámenes de alto impacto.
    4. Relación con otras variables. La relación de los resultados en el examen con otras variables se refiere a la correlación estadística entre los resultados obtenidos por medio de una prueba con otra medición de características conocidas. Por ejemplo, la correlación entre el examen de admisión a la licenciatura y las calificaciones obtenidas en los exámenes parciales durante la carrera y el examen profesional.
    5. Consecuencias. Se refiere al impacto en los estudiantes de las puntuaciones de la evaluación, de las decisiones que se toman como resultado del examen, y su efecto en la enseñanza y el aprendizaje. Por ejemplo, el método de establecimiento del punto de corte para aprobar o reprobar un examen, las consecuencias para el estudiante y la sociedad, las consecuencias para los profesores y las instituciones educativas.

    Validez implica una aproximación científica a la interpretación de los resultados de los exámenes, es decir, probar hipótesis sobre los conceptos evaluados en el examen. La información proporcionada por un instrumento de evaluación no es válida o inválida, sino que los resultados del examen tienen más o menos evidencia de las diferentes fuentes para apoyar o rechazar una interpretación específica (por ejemplo, pasar o reprobar un curso, certificar o no a un especialista, admitir o no a un estudiante en la universidad) (Downing, 2003; Kane, 2013). Las organizaciones que elaboran e implementan el examen (entidades gubernamentales, instituciones educativas, consejos de certificación) son los candidatos obvios para validar las afirmaciones que hacen sobre la interpretación de los resultados de un examen, ya que generalmente son quienes tienen los elementos y recursos para hacerlo (Brennan, 2006). Quienes elaboramos exámenes tenemos la obligación ética y el imperativo educativo de documentar qué tan defendible es la interpretación de los resultados, en beneficio de los estudiantes y de la sociedad en general.

    Confiabilidad

    La confiabilidad o fiabilidad tiene un significado técnico en evaluación educativa, que no debe confundirse con el significado coloquial de la palabra. La confiabilidad de un examen se refiere a la consistencia de las puntuaciones obtenidas por las mismas personas en ocasiones diferentes o con diferentes conjuntos de preguntas equivalentes, es decir, la reproducibilidad de la prueba (Downing, 2004). Es un concepto estadístico, que representa el grado en el cual las puntuaciones de los alumnos serían similares si fueran examinados de nuevo. Generalmente se expresa como un coeficiente de correlación, siendo 1.0 una correlación perfecta y cero ninguna correlación. Mientras más alta es la cifra de confiabilidad, generalmente es mayor su peso como evidencia de validez. La cifra de confiabilidad suficiente para aceptar los resultados de un proceso de evaluación depende del propósito de la misma, el uso que se hará de los resultados del examen y de las consecuencias que tendrá la evaluación sobre los estudiantes.

    Para exámenes de muy alto impacto, la confiabilidad debe ser alta para que las inferencias de los resultados del examen sean defendibles. Varios expertos recomiendan una confiabilidad de por lo menos 0.90 para evaluaciones de muy altas consecuencias. Para exámenes de consecuencias moderadas, como las evaluaciones sumativas de fin de curso en la escuela, es deseable que la confiabilidad sea de 0.80 a 0.89. En exámenes de menores consecuencias, como la evaluación formativa o exámenes parciales diagnósticos, es aceptable una confiabilidad de 0.70 a 0.79. Estas cifras no representan rangos absolutos, ya que hay diferencias de opinión entre los expertos, pero pueden servir de marco de referencia (Downing, 2004).

    La confiabilidad de una medición es necesaria para obtener resultados válidos, aunque puede haber resultados confiables sin validez (es decir, la confiabilidad es necesaria, pero no suficiente para la validez). La analogía con la diana de un blanco de tiro es útil para entender la relación entre los dos conceptos, como se muestra en la figura 1. Si las flechas están muy dispersas entre sí y lejos de la diana, la medición es poco confiable y no es válida; si las flechas están muy juntas pero lejos del centro la medición es reproducible (confiable) pero no es válida; y si las flechas están juntas en la diana, la medición es confiable y válida.



    Figura 1. Esquema visual de los conceptos de validez y confiabilidad, con el símil de un blanco de tiro.

    Justicia y equidad

    En las últimas décadas las principales organizaciones de evaluación educativa del mundo han hecho mucho énfasis en la necesidad de justicia y equidad en todo el proceso educativo, incluyendo la evaluación del aprendizaje, para ser congruentes con el sentido social de la educación (AERA, APA y NCME, 2014; Instituto Nacional para la Evaluación de la Educación [INEE], 2017). Existe controversia sobre el tema, ya que los exámenes estandarizados en gran escala –que por necesidad se aplican y analizan en contextos altamente controlados para que cada estudiante se enfrente al mismo reto en igualdad de condiciones–, por definición, tratan a todos los estudiantes de la misma manera. Si queremos promover la evaluación formativa para el aprendizaje, deberíamos individualizar el uso de los instrumentos de evaluación para cada caso específico. Esta permanente tensión entre lo ideal y lo real continúa sin resolverse. Podríamos ampliar el abanico de estrategias de evaluación educativa que utilizamos en la práctica, y capacitar a los profesores en el uso de diversos instrumentos de evaluación para promover el aprendizaje a lo largo del proceso.

    Equivalencia

    La equivalencia se refiere a que los exámenes proporcionen puntuaciones o decisiones equivalentes, cuando se administran en diferentes lugares o tiempos (AERA, APA y NCME, 2014; Norcini et al., 2011). La mayoría de los docentes y estudiantes no conocemos este concepto, a pesar de su importancia para interpretar exámenes aplicados de manera periódica que pretenden evaluar lo mismo, o exámenes en diferentes contextos en los que queremos asegurar que sean de la misma dificultad, sobre todo en evaluación sumativa de alto impacto (Carter, 1984; Moreno Olivos, 2010). Para lograr equivalencia se requiere de procedimientos estadísticos sofisticados, que caen en la familia de métodos de equiparación o “igualación” de exámenes. Uno de estos métodos es el uso de “reactivos ancla” (preguntas con un grado de dificultad similar y comportamiento estadístico bien documentado) en un porcentaje de reactivos de cada versión del examen. Para estas técnicas se requieren profesionales en dichos procedimientos.

    Factibilidad y aceptabilidad

    Las evaluaciones deben ser prácticas, realistas y apropiadas a las circunstancias del contexto, incluyendo las instalaciones físicas y los recursos humanos y financieros disponibles. Por ejemplo, el método más utilizado en el mundo para evaluar la competencia clínica en medicina es el Examen Clínico Objetivo Estructurado (ECOE), que consiste en una serie de múltiples estaciones estandarizadas, en las que cada estudiante se enfrenta a un reto que requiere que aplique algunas competencias específicas, como pueden ser las habilidades de comunicación, el hacer un diagnóstico, o interpretar radiografías y estudios de laboratorio (Boursicot et al., 2011). Este tipo de examen requiere gran cantidad de recursos humanos, instalaciones apropiadas y mucha dedicación en disciplina, tiempo y organización. Esta disponibilidad de recursos puede no estar al alcance de algunas escuelas, de manera que, aunque el examen sea excelente y se use en muchas partes del mundo, si no se puede hacer en una institución hay que buscar alternativas. Otros ejemplos podrían ser el uso de exámenes adaptativos por computadora, simuladores de alta fidelidad y tecnología de punta, herramientas que requieren una gran inversión inicial y de mantenimiento. Las evaluaciones también deben ser aceptables tanto por los estudiantes como por los profesores. Si hay un rechazo de la comunidad a algún tipo de evaluación –por ejemplo, la evaluación por pares que implica ser evaluado por sus compañeros–, se hace difícil su implementación.

    Efecto educativo, efecto catalítico

    Todos los métodos de evaluación, sobre todo los sumativos, pueden tener efectos en los métodos de estudio y prioridades de aprendizaje de los estudiantes (Newble, 1983). Aunque los profesores les digamos a nuestros alumnos que un tema o concepto es fundamental, la pregunta común es: “¿y eso va a venir en el examen?”. La cultura de algunas escuelas es que si algo no cuenta para el examen no se le da mucha importancia, así que la manera cómo se aplica la evaluación tiene consecuencias en la motivación de los estudiantes y en sus métodos de estudio. También la evaluación puede tener un efecto “catalítico” en el contexto educativo, ya que puede influir en los demás docentes, en los departamentos académicos y en la institución misma (Norcini et al., 2011). Si se privilegian los exámenes escritos de opción múltiple, habrá un efecto en cascada en los diferentes participantes del proceso educativo. Si se fomenta la evaluación formativa, de la misma manera, habrá influencia en las actitudes hacia la evaluación de los participantes, sobre todo cuando vivan sus efectos positivos.

    Amenazas a la validez

    Existen diversas “amenazas” para la validez de un proceso de evaluación del aprendizaje, que disminuyen la credibilidad de las inferencias que se pueden hacer de los resultados de un examen. Al ser la validez uno de los principales elementos de una buena evaluación, todo lo que ponga en riesgo la veracidad de las conclusiones que podamos tener sobre los resultados de una prueba o examen debe identificarse y, en la medida de lo posible, evitarse o corregirse. Pueden clasificarse de la siguiente manera (Downing y Haladyna, 2004):

    • Infrarrepresentación del constructo (IC). Se refiere a una representación inapropiada del contenido a evaluar por los exámenes, teniendo en mente que el constructo es aquello que queremos investigar (como los conocimientos de química en el bachillerato). Son ejemplos de esta amenaza: muy pocas preguntas en el examen, que no exploren apropiadamente el área de conocimiento; uso de preguntas que exploren principalmente memoria o reconocimiento de datos, cuando las metas de la enseñanza son la aplicación o solución de problemas.
      Otra amenaza a la validez es el fenómeno de “enseñando para la prueba” (teaching to the test, en inglés), en el que se enfatiza demasiado lo que va a venir en el examen, distorsionando el plan de estudios y el proceso educativo, y generando resultados incompletos que no preparan al estudiante para enfrentarse al ejercicio profesional (Popham, 2001). A veces ocurre al grado que algunos profesores utilizan reactivos del examen en clase para aumentar artificialmente las calificaciones de sus alumnos, y mejorar las evaluaciones de su grupo o escuela.
    • Varianza irrelevante al constructo (VIC). Se refiere a elementos que interfieren con la capacidad de interpretar los resultados de la evaluación de una manera significativa, y que causan “ruido” en la evaluación. Por ejemplo, las preguntas elaboradas con fallas, gramaticales o de otro tipo; y las que dan pistas al estudiante sobre cuál es la respuesta correcta, aunque no sepa el concepto explorado en la pregunta. Recordemos que escribir buenas preguntas de examen requiere entrenamiento y experiencia. Otro ejemplo son los problemas de seguridad del examen y fuga de información, de manera que el resultado del examen no refleja los conocimientos de los estudiantes. Este problema invalida los resultados de los exámenes, con diversas implicaciones éticas y de uso de recursos, como es repetir el examen con otra versión.
      La “astucia” o habilidad para responder los exámenes (en inglés, testwiseness) ocurre cuando los estudiantes se preparan con estrategias para responder exámenes y pueden obtener puntajes que no reflejen lo que realmente saben. Se ha creado un mercado de organizaciones que dan cursos para pasar exámenes, en los que el objetivo es adiestrar a los asistentes en métodos para obtener la mayor puntuación posible. Las familias de los estudiantes pagan un precio alto por estos cursos, que son de efectividad cuestionable y que además promueven una competencia poco sana.

    Algunas reflexiones y conclusiones

    El eterno problema de los usos e inferencias inapropiados de los resultados de la evaluación de los aprendizajes de los estudiantes es uno de los retos más importantes que enfrenta la comunidad de profesionales de evaluación educativa. Aún hay un largo trecho por caminar en el incremento de una cultura de la evaluación en alumnos, docentes, directivos y funcionarios gubernamentales, así como de la sociedad en su conjunto. Uno de los efectos negativos más frecuentes de los exámenes es afirmar y diseminar conclusiones de los resultados que no son congruentes con los objetivos iniciales del mismo, por lo que dichas conclusiones carecen de validez. Con facilidad, las declaraciones breves y sensacionalistas se propagan en los medios de comunicación, generando malentendidos y distorsión sobre las conclusiones, limitaciones e implicaciones reales de los exámenes.

    La comprensión clara del concepto moderno de validez es fundamental para entender las limitaciones de los resultados de los exámenes, ya que extrapolar conclusiones y decisiones más allá de lo académicamente obtenible es inapropiado e incluso puede ser peligroso. Si un estudiante tiene un desempeño deficiente en una aplicación de un examen sumativo de alto impacto, eso no significa que sea “mala persona”, “incompetente”, alguien que “no debió estudiar esa carrera”, entre otros muchos calificativos que se asignan como etiquetas y que tienen un impacto emocional importante.

    Una de las principales recomendaciones de los expertos mundiales en evaluación es: “Los desarrolladores del examen son los candidatos obvios para validar las afirmaciones que hacen sobre la interpretación de los resultados de un examen” (Brennan, 2006), por lo que la responsabilidad de realizar buenos exámenes e informar a la sociedad sobre sus limitaciones recae en nuestras organizaciones y grupos de expertos, en colaboración con las autoridades y los medios de comunicación. La asimetría de poder intrínseca en los procesos de evaluación conlleva una enorme responsabilidad de las autoridades académicas e institucionales.

    Los instrumentos de evaluación y el uso que se hace de ellos en las universidades y otras instituciones son la declaración pública más importante de “lo que realmente cuenta” para la institución. Los estudiantes están muy alertas a estas señales, que a veces son sutiles y en ocasiones explícitas y visibles, sobre lo que deben aprender y cómo lo deben aprender, por lo que las instancias evaluadoras deben hacer lo posible para que estos procedimientos de evaluación se realicen con profesionalismo educativo en un entorno de calidad y atención a las facetas humanas y sociales de los estudiantes. Al final del día, el uso de la puntuación de un examen definitivamente implica consecuencias; de otra manera “uso” es sólo una abstracción. Los exámenes han adquirido un enorme grado de sofisticación técnica y metodológica, y llegaron para quedarse. Tal vez lo más importante es encontrar un balance entre este tipo de evaluación y la evaluación formativa. Por otra parte, es relevante tener conciencia de que aún existen grandes retos para evaluar de forma adecuada varios atributos fundamentales de los profesionistas que requiere la sociedad moderna, como empatía, liderazgo, asertividad, creatividad, trabajo en equipo, entre otros muchos, por lo que el campo de estudio de la evaluación educativa debe seguir modernizándose para enfrentar los constantes cambios de nuestra sociedad.

    Como ha dicho un académico mexicano, el Dr. Tiburcio Moreno, la evaluación tiene muchas caras, y en países como el nuestro ha estado permeada por una visión empirista que descansa en el principio: “Todos sabemos de evaluación, porque alguna vez hemos sido evaluados” (Moreno Olivos, 2010). Debemos mejorar nuestros conocimientos y habilidades en evaluación, como una obligación ética y moral de todos los docentes, e informar al resto de la sociedad sobre las virtudes, alcances y limitaciones de este fascinante y controversial tema.

    Referencias

    • American Educational Research Association (AERA), American Psychological Assocation (APA) y National Council on Measurement in Education (NCME) (2014). Standards for educational and psychological testing. Washington, DC: AERA.
    • Boursicot, K., Etheridge, L., Setna, Z., Sturrock, A., Ker, J., Smee, S. y Sambandam, E. (2011). Performance in assessment: consensus statement and recommendations from the Ottawa conference. Med Teach, 33(5), 370-83. DOI: https://doi.org/10.3109/0142159X.2011.565831.
    • Brennan, R. L. (2006). Perspective on the Evolution and Future of Educational Measurement. En Brennan, R. L., (ed.), Educational Measurement. National Council on Measurement in Education and American Council on Education (4a ed., pp. 1-16). Westport, CT: Praeger Publishers.
    • Carter, K. (1984). Do teachers understand principles for writing tests? Journal of Teacher Education, 35(6), 57-60.
    • Downing, S. M. (2003). Validity: on the meaningful interpretation of assessment data. Med Educ., 37, 830-837.
    • Downing, S. M. y Haladyna, T. M. (2004). Validity threats: overcoming interference with proposed interpretations of assessment data. Med Educ., 38, 327-333.
    • Man Sze Lau, A. (2016). “Formative good, summative bad?” –A review of the dichotomy in assessment literature. Journal of Further and Higher Education, 40(4), 509-525. DOI: https://doi.org/10.1080/0309877X.2014.984600.
    • Márquez Jiménez, A. (2014). Las pruebas estandarizadas en entredicho. Perfiles Educativos, 36(144), 3-9. Recuperado de: http://www.redalyc.org/pdf/132/13230751001.pdf.
    • Martínez Rizo, F. (2009). Evaluación formativa en aula y evaluación a gran escala: hacia un sistema más equilibrado. Revista Electrónica de Investigación Educativa, 11(2). Recuperado de: http://redie.uabc.mx/redie/article/view/231.
    • Martínez Rizo, F. (2013). Dificultades para implementar la evaluación formativa: revisión de literatura. Perfiles Educativos, 35(139), 128-150. Recuperado de: http://www.scielo.org.mx/pdf/peredu/v35n139/v35n139a9.pdf.
    • Mendoza Ramos, A. (2015). La validez en los exámenes de alto impacto: un enfoque desde la lógica argumentativa. Perfiles Educativos, 37(149), 169-186. Recuperado de: http://www.scielo.org.mx/pdf/peredu/v37n149/v37n149a10.pdf.
    • Miller, M. D., Linn, R. L. y Gronlund, N. E. (2012). Measurement and Assessment in Teaching (11a ed.). USA: Pearson.
    • Moreno-Olivos, T. (2010). Lo bueno, lo malo y lo feo: las muchas caras de la evaluación. Revista Iberoamericana de Educación Superior, I (2), 84-97.
    • Newble, D. I. y Jaeger, K. (1983). The effect of assessments and examinations on the learning of medical students. Med Educ., 17(3), 165-71.
    • Norcini, J., Anderson, B., Bollela, V., Burch, V., Costa, M. J., Duvivier, R., … Roberts, T. (2011). Criteria for good assessment: consensus statement and recommendations from the Ottawa 2010 Conference. Med Teach., 33(3), 206-14.
    • Popham, W. J. (2001). Teaching to the Test? Educational Leadership, 58(6), 16-20. Recuperado de: http://www.ascd.org/publications/educational-leadership/mar01/vol58/num06/Teaching-to-the-Test%C2%A2.aspx.
    • Rowntree, D. (1977). Assessing students: How shall we know them? London: Kogan Page.
    • Sánchez-Mendiola, M., Delgado-Maldonado, L. (2017). Exámenes de alto impacto: Implicaciones educativas. Inv Ed Med., 6(21), 52-62. DOI: http://dx.doi.org/10.1016/j.riem.2016.12.001.
    • Sánchez Mendiola, M., Delgado Maldonado, L., Flores Hernández, F., Leenen, I., Martínez González, A. (2015). Evaluación del aprendizaje. En Sánchez Mendiola, M., Lifshitz Guinzberg, A., Vilar Puig, P., Martínez González, A., Varela Ruiz, M., Graue Wiechers, E. (Eds.), Educación Médica: Teoría y Práctica (cap. 14, pp. 89-95). México: Elsevier.

    Vol. 19, núm. 6 noviembre-diciembre 2018

    ¿Qué es la evaluación educativa? Perspectivas y experiencias

    Dr. Enrique Graue Wiechers
    Rector de la Universidad Nacional Autónoma de México
    Cita

    Cuando el Dr. Melchor Sánchez Mendiola, Coordinador de Desarrollo Educativo e Innovación Curricular de la Secretaría General de la unam, me solicitó una introducción a este número sobre la evaluación en la Revista Digital Universitaria, acepté con mucho gusto por la importancia del tema y por las características de este medio de difusión.

    Empezaré por esto último. La Revista Digital Universitaria está ya cumpliendo un año de su nueva época y con ella llegaron nuevos ímpetus y alientos que se han materializado en lo que la Revista hoy en día es: un medio contemporáneo de comunicación, dirigido a todos los miembros de nuestra comunidad, fresco y original, con rigor académico, provocador, de fácil lectura y comprensión, y accesible en todo momento y lugar.

    Es una revista que hay que celebrar.

    Se trata de introducir este número que versará sobre evaluación. Tema, por cierto, en el que cualquier universitario es o cree ser experto, o al menos conocedor, pues nos hemos pasado la vida siendo evaluados o evaluando a otros miembros de la comunidad.

    Nos evaluamos constantemente para superarnos en diversas actividades académicas, en el salón de clases, aportaciones científicas, estudios comparativos, calidad de difusión del conocimiento y de la cultura o nuestra eficiencia administrativa.

    En una institución como nuestra casa de estudios los sistemas de evaluación son tantos y tan variados como lo son las labores de la Universidad. Por ello, sólo a través de la comprensión y mejoría permanente de las distintas formas de evaluación es que podremos tener una visión integral del cumplimiento de nuestras misiones sustantivas.

    Este número de la Revista Digital Universitaria analiza las experiencias de alumnos, profesores y académicos sobre diversas pruebas y modos de evaluación. Con ello, desde una diversidad de perspectivas, aporta elementos necesarios para que la cultura de la evaluación crezca y se fortalezca, pues ésta es un elemento inherente e indisoluble de los efectos de la educación.

    Vol. 19, núm. 5 septiembre-octubre 2018

    El conocimiento y su implicación en nuestra vida cotidiana

    Carina Itzel Gálvez García Cita


    En una sociedad democrática, […] los ciudadanos necesitan tener unos conocimientos básicos de las cuestiones científicas, de modo que puedan tomar decisiones informadas y no depender únicamente de los expertos
    Stephen Hawking

    La Revista Digital Universitaria representa un esfuerzo por comunicar la infinidad de investigaciones que se producen en diferentes universidades, espacios educativos y centros de investigación. Tenemos la certeza de que todos los sujetos involucrados en el quehacer universitario, tanto investigadores como docentes y estudiantes, poseen y son productores de información valiosa que es digna de divulgarse, en este sentido, abrimos las puertas de la RDU a la participación plural y diversa con el objetivo de conocer y transmitir el conocimiento, las experiencias y los descubrimientos que se originan en diferentes instituciones del país.

    De tal manera, en este número podemos encontrar una gran diversidad de temas y formas de producir y expresar conocimiento; pero, a pesar de sus diferencias, cada uno de los artículos contenidos tienen algo en común: que nos muestran las aplicaciones concretas que puede tener la investigación y la búsqueda de conocimiento científico.

    En principio, nos adentramos a entender qué son los isótopos (esos gemelos gordos de los elementos químicos) y de la pluma de Fabiola Murguia y Guillermo Murray descubrimos cómo han servido para estudiar desde el origen de la Luna, la historia de la Tierra, los caminos de la humanidad a través del tiempo, hasta la medicina nuclear y sus diferentes aplicaciones.

    Por su parte, Stéphanie Thébault hace una importante aportación en la búsqueda de nuevas estrategias terapéuticas para atender el edema macular por diabetes, una enfermedad común entre la población mexicana, que tiene como consecuencia la pérdida de visión. Esperamos que estas aportaciones den frutos y se cristalicen en una mejor calidad de vida para los pacientes.

    El equipo conformado por Laura Escobar, Priscilla Avalos y Mara Medeiros expone un panorama acerca de cómo se ha implementado el uso de redes sociales para proporcionar a la población información acerca de una enfermedad rara, la acidosis tubular renal, creando una comunicación entre investigadores y pacientes.

    A partir de preguntarse cómo nos enfrentamos a la realidad, Eneyda Suñer nos introduce en el universo de las matemáticas como la manera que tiene el ser humano de abstraer su entorno y objetivarlo. Y, siguiendo en la línea de las matemáticas, Atahualpa Solórzano hace un recorrido por la historia del número π, las aproximaciones que se hicieron para llegar a él y los problemas que quedan abiertos al respecto.

    En la sección Continuum educativo se presentan dos artículos en los que se da voz a los docentes. En el primero, Mónica Sánchez y Diego Serrano exploran un modelo de aprendizaje colaborativo en el que se esboza a los estudiantes como agentes activos de su propio proceso de aprendizaje; se expone el trabajo realizado con futuros arquitectos como una manera de beneficiar a la sociedad con el conocimiento adquirido durante la licenciatura. En el segundo artículo, Jesús García Reyes apunta a la inclusión de temas relacionados con la ciudadanía en los programas pedagógicos del bachillerato, en específico en la UNAM.

    Para la sección Universidades se retoma el legado de José Vasconcelos como ideólogo de un proyecto de nación que incluía los aspectos educativo, cultural, político y artístico como parte de un pensamiento filosófico. En el artículo de Martha Cecilia Calderón se analiza la repercusión cultural que tuvo en el país y las artes, en especial en la Escuela Mexicana de Pintura.

    Por último, pero no menos importante, en la sección Caleidoscopio se presenta a una nueva habitante en los terrenos del campus de Ciudad Universitaria de la UNAM, nada menos que la iguana negra o garrobo, una especie exótica que no pertenece a este hábitat, fue registrada por Edmundo Pérez en las inmediaciones de la Reserva Ecológica del Pedregal de San Ángel (REPSA), ¿por qué se encuentra aquí?, ¿cuáles son las posibles consecuencias de su estadía en la UNAM?, éstos son algunos de los temas que se abordan en la nota.

    Esperamos que con los artículos aquí presentados se interesen en aspectos fundamentales de la ciencia y los invitamos a que lean, compartan y utilicen la información en ellos contenida.

    Show Buttons
    Hide Buttons

    Revista Digital Universitaria Publicación bimestral Vol. 18, Núm. 6julio-agosto 2017 ISSN: 1607 - 6079