jueves, 15 de marzo de 2012

Una tormenta perfecta azota el mundo del libro...


Cuatro crisis convergen en el universo editorial: la económica, los recortes que no cesan, el cambio de paradigma digital y la irrupción en el mercado de nuevos actores globales como Amazon
El ecosistema del mundo del libro y la lectura está en riesgo. El panorama de recortes es un problema nuevo y determinante que se suma a otros tres al irrumpir en el cambio de paradigma: la crisis económica global por lo que tiene que ver directamente con el bolsillo del lector-comprador y los reajustes empresariales en editoriales o librerías; la reinvención apresurada del sector hacia la convivencia de un mundo dual, analógico y digital, que conlleva en sí mismo muchas transformaciones y traumas; y el duelo competitivo al que se enfrentan las editoriales en España con las empresas globales que han desembarcado aquí. Son aspectos que han alterado la cadena de valor del libro, jubilado un modelo de negocio centenario, amenazado con empobrecer la producción académica y científica y, sobre todo, puesto en peligro la continuación del hábito lector y su retroceso en un país con cifras bajas (apenas un 45% dice leer semanal o mensualmente, en contradicción con la alta cifra de publicaciones: 80.000 títulos al año).

La inquietud sobre esta crisis en el mundo del libro, más allá de cualquier efecto inmediato como del 10% menos en las ventas, tiene que ver con su proyección a mediano y largo plazo. Porque si bien es cierto que la industria editorial es en su gran mayoría privada, las ayudas y subvenciones están dirigidas, especialmente, a renglones que buscan el fomento, la divulgación y la promoción de la lectura, es decir, de creación de nuevos lectores, de personas que con su lectura compren libros y por tanto dinamicen el sector. Y, ahora mismo, lo que estaría más en riesgo con los recortes son las bibliotecas, las campañas de lectura y los diferentes encuentros, ferias y citas literarias. A todo ello se suma la piratería digital, la unificación del IVA al del papel, que es del 4% mientras el digital es del 18%, y los riesgos de posiciones monopolísticas. 
El sector del libro es el punto por donde cruzan los actuales caminos peligrosos o llenos de incertidumbres o poblados de miedos agazapados que han surgido en los últimos tiempos.
Y aunque el libro es una de las industrias culturales mejor engrasadas ha sido de las primeras en empezar a chirriar con la llegada del siglo XXI. A partir de ahí, su historia ha comenzado a escribirse en capítulos breves y sombríos. El penúltimo de ellos lo abrió el gobierno de Mariano Rajoy cuando anunció la desaparición de la Dirección General del Libro, Archivos y Bibliotecas. Entonces, hace un par de meses, la incertidumbre aumentó. Ahora, esas funciones, dentro del plan de austeridad, han sido asumidas por la Dirección General de Políticas e Industrias Culturales y del Libro, a cargo de María Teresa Lizaranzu, quien a su vez ejerce la presidencia de la sociedad estatal Acción Cultural Española y de la Comisión de Propiedad Intelectual.

Aunque no hay cifras concretas sobre ayudas públicas, Antonio María Ávila, director ejecutivo de la Federación de Gremio de Editores de España, se remite al Anuario de Estadísticas de 2011 publicado por el antiguo Ministerio de Cultura. Allí, "el total de la financiación y gasto público en Cultura (refiriéndose estas estadísticas al 2009) fue de 1.135 millones de euros por la Administración General del Estado, 2.046 millones de euros por la Administración Autonómica y 3.874 millones por la Administración Local, lo que supone en términos de PIB (base 2000) el 0,11%, 0,19% y 0,35% del gasto público respectivamente". 
Ante las inquietudes por el posible retroceso en programas de fomento de la lectura, fuentes del Ministerio de Educación, Cultura y Deportes, recalcan tres aspectos: del recorte general que tendría Cultura (calculado en un 12%, según algunas estimaciones) lo destinado al fomento y promoción del libro será aún menor, recuerdan que las bibliotecas dependen de los ayuntamientos y comunidades y que España ha pedido a Bruselas la equiparación del impuesto del IVA al libro en papel y digital, del 4%, por lo cual "hay que legislar con un ojo en Bruselas".

Bibliotecas solitarias

Las bibliotecas son un asomo al futuro. Se están empezando a cerrar, hay reducción de horarios, cancelación de fines de semana y destitución del personal. Y eso que se trata de los centros culturales más visitados de España, incluso más que los museos, recuerda Antonio María Ávila. Lo que ocurre, explica, es que "no ha habido algo que se le pudiera denominar red de bibliotecas públicas, que ha sido creada precisamente en los últimos 15 años, siendo la mayor parte de titularidad municipal o regional.
Lo que sucede en Cataluña es un ejemplo, dice Margarita Taladriz, presidenta de Fesabid(Federación Española de Sociedades y Archivística, Biblioteconomía, Documentación y Museística): “En esa comunidad los recortes presupuestarios afectan a diferentes inversiones en las bibliotecas públicas, desde la cancelación del presupuesto para adquisición y renovación del fondo documental (de momento, se aplica un 40% de reducción en la adquisición de Diputación y más de un 75% a la adquisición municipal); la paralización de obras en ejecución de nuevos equipamientos; la cancelación de la dotación presupuestaria para la renovación de mobiliario y equipamiento tecnológico y audiovisual. La desactualización de las colecciones, impresas y digitales dada la reducción presupuestaria de los últimos tres años. Por lo que respecta a los Servicios, que las bibliotecas vienen prestando: se ha reducido el número y la calidad de la programación de actividades de fomento de la lectura a la ciudadanía; en Asturias se ha planteado reducir el número de libros, que una persona puede solicitar en préstamo interbibliotecario; en el Centro Koldo Mitxelena (San Sebastián) han reducido el horario de visitas de los usuarios a sólo cuatro horas en la tarde…”.

Librerías amenazadas

Las librerías es otro sector sensible. Aunque el equilibrio numérico se mantiene porque mientras unas se cierras surgen otras especializadas o como librerías-café. Debido a la ausencia de presupuestos generales del Estado, hay un desfase de unos tres meses con el calendario de años anteriores en lo que a solicitud y concesión de subvención se refiere, asegura Fernando Valverde presidente de CEGAL (Confederación Española de Gremios y Asociaciones de Libreros). Una situación, agrega Valverde que supone un retraso en la puesta en marcha de los Proyectos a los que CEGAL destina el importe de la subvención: actividades de fomento de la lectura (Club Kirico), de extensión cultural (Librería Cultural), Estudios dentro de el marco del Observatorio de la librería, desarrollos tecnológicos (Cegal en red y todostuslibros.com), los cursos de formación, etcétera. “Los recortes y retrasos están trastornando el trabajo diario y complicando la organización de dichas actividades en los tiempos habitualmente exigidos por la Administración, es decir a lo largo del año natural en curso. A fecha de hoy ignoramos cual va a ser el recorte que se aplicará a la subvención del pasado año ni cuando se abonará. Aventurarse a realizar actividades en estas condiciones sería por lo tanto muy arriesgado”.

Editoriales reducidas

No sólo el sector mas comercial del libro se verá afectado. También las editoriales universitarias tanto en lo que se refiere a la demanda como a la oferta de nuevos títulos, explica Francisco Fernández Beltrán, presidente de UNE (Unión de Editoriales Universitarias Españolas). Asegura que, mientras por un lado, el consumo se ha retraído, con una reducción generalizada de las ventas que se puede situar en torno al 10%, "lo más grave y preocupante ha sido que, debido a la reducción de los presupuestos destinados a las universidades, estas han reducido también las partidas destinadas a la publicación de material de apoyo a la docencia y difusión de la investigación. Esto, unido a una reducción de la oferta de originales debido al impacto de la reducción presupuestaria en las actividades investigadoras, supone un empobrecimiento de la producción académica y científica. Lo más preocupante es que esta doble reducción se va a prolongar y acentuar todavía más durante este año y el próximo, como mínimo. Frente a ello, las editoriales universitarias están apostando de manera decidida por la edición digital, que permite abaratar sensiblemente los costes y ofrecer productos de calidad a menor precio. Pero ello no es suficiente para compensar la caída de originales, una situación que hará que en los próximos años España pierda posiciones en el ránking de la producción científica y académica.

Escritores desprotegidos

De las incertidumbres e inquietudes de todo lo que rodea a la cultura no escapan los autores. “La idea de la cultura como lujo sobrante conduce a la pérdida de la dignidad del ser humano”, sentencia Antonio Gómez Rufo, vicepresidente de la ACE (Asociación Colegial de Escritores de España). Una premisa que para el autor de libros como El secreto del rey, sirve para entender lo que está pasando. “Si bastante grave es la integración de la Cultura en un ministerio multidisciplinar, aún más es la desaparición de la Dirección General del Libro y su inclusión en Industrias Culturales, que parece privilegiar al sector industrial (a las grandes editoriales) y seguramente suprimir las ayudas a la traducción y a la difusión exterior de la obra de los autores españoles. Además, la supresión anunciada de fondos para Bibliotecas y Archivos, con la promesa de dedicar esos fondos a la cinematografía, desatiende la necesidad ciudadana de lectura, pone fin a las campañas de Fomento de la Lectura y abandona la recuperación y conservación del patrimonio archivístico español, con la excusa de que ese dinero irá al apoyo público al cine desde la Administración, que finalmente tampoco es cierto”
 A todo ello, añade Gómez Rufo, hay que sumar el cambio de modelo de negocio editorial inminente con la digitalización de obras, la ofensiva de los e-books, los precios de venta de descargas digitales a precios excesivos y la crisis global, “el futuro del libro no es optimista. La industria podrá sortear la crisis, tal vez, pero los creadores quedan otra vez, desprotegidos. Justo en el momento en que el índice de lectores en España sobrepasa el 60%, los que al menos leen una vez año, es decir, cuando el esfuerzo por la difusión de la lectura había empezado a dar sus frutos”.
Todos comprenden la delicada situación de la economía, a la que la cultura es muy permeable, y los ajustes que se deban hacer, pero invitan a al Gobierno y a las instituciones que suelen apoyar la cultura a que, como dice Manuel Ortuño de la Asociación de Revistas Culturales (ARCE), reflexionen sobre la idea de un país en penurias económicas y a su vez desolado creativamente, sin impulsar sus manifestaciones artísticas, que aunque parecen cuestiones menores, comparados con la salud o la educación, no lo son tanto porque dicha presencia y motivación mantienen vivo el interés por el propio país y psicológicamente ayuda a sobrellevar mejor los malos momentos. “Si hoy las prioridades absolutas pasan y deben pasar por políticas activas el empleo, la sanidad y la educación, las políticas públicas en I+D y cultura son imprescindibles a corto y medio plazo, especialmente en un país de las características del nuestro, donde la cultura tiene un papel predominante en todos los órdenes. Desde el punto de vista público y privado, la cultura es un elemento fundamental de cohesión social, política y territorial”. 

Entrevista al Prof. Dr. Geert Mayer con ocasión del Día Europeo de la Narcolepsia 2012


Entrevista al Prof. Dr. Geert Mayer con ocasión del Día Europeo de la Narcolepsia 201218/03/2012
Prof. Dr. Geert Mayer

Servicio de Neurología, Hephata Klinik, Schwalmstadt-Treysa y Departamento de Neurología Philipps Universität Marburg, Alemania
Pregunta. Usted es uno de los autores de las directric para el tratamiento de la narcolepsia de la Federación Europea de Sociedades de Neurología (EFENS) –Billiard M, et al Eur J Neurol 2006; 13: 1035-48–. ¿Existen nuevas perspectivas para el tratamiento farmacológico de la narcolepsia?
Respuesta. La narcolepsia es una enfermedad rara y el problema de las enfermedades huérfanas es que ofrecen un mercado pequeño para fármacos nuevos. El coste de desarrollo de un tratamiento farmacológico nuevo es sumamente elevado debido a las estrictas normas que imponen las agencias nacionales del medicamento, que exigen demostrar su eficacia. Durante los últimos 14 años la Asociación Médica Europea (EMA) sólo ha aprobado dos fármacos: modafinilo y oxibato sódico.
La hipótesis de que la narcolepsia es una enfermedad autoinmune ha propiciado el tratamiento de la narcolepsia precoz con inmunoglobulinas por vía intravenosa. Los contados tratamientos estudiados han generado una mejora subjetiva, que no puede ser contrastada mediante métodos como la prueba de latencia múltiple del sueño (MSLT) o la recuperación de los valores normales de hipocretinas-1 en el líquido cefalorraquídeo (LCR). En su día, los comités éticos no concedieron la aprobación para llevar a cabo un estudio doble ciego y controlado con placebo en Europa.
La histamina, una de las principales sustancias implicadas en el estado de vigilia y en el rendimiento cognitivo, ha sido objeto de investigación durante los últimos 4 o 5 años. En este contexto, se ha analizado un antagonista del receptor histaminérgico 3 en varios trastornos del sueño caracterizados por un cuadro de somnolencia diurna: narcolepsia, apnea del sueño y enfermedad de Parkinson. En todas estas afecciones se evidenció una reducción de la somnolencia diurna en las evaluaciones subjetivas y objetivas pero, en cambio, los síntomas específicos como la cataplejía, las alucinaciones hipnagógicas y la parálisis del despertar no experimentaron cambio alguno.
P. ¿Están ya disponibles las hipocretinas?
R. En estudios efectuados con perros narcolépticos dotados de un fenotipo comparable al de la narcolepsia humana, la hipocretina-1 se ha administrado por vía intravenosa e intraventricular. Pero dada su corta semivida, el efecto beneficioso observado en la cataplejía y la somnolencia resultó extremadamente breve, de 5 minutos a lo sumo. En fecha reciente, un grupo alemán suministró hipocretina-1 por vía intranasal y comprobó la normalización de la disfunción olfatoria y la estabilización del sueño REM, con una reducción de las transiciones de vigilia a sueño REM. La hipocretina-1 se puede adquirir, pero todavía no está disponible en el mercado. Y sólo podrá convertirse en una candidata válida si se obtiene una forma estable dotada de una semivida que posibilite su aplicación tres veces al día.
P. Usted ha sido uno de los primeros especialistas que ha trabajado con el control motor en pacientes narcolépticos (Mayer G, Meier-Ewert K. J Sleep Res 1993; 2: 143-8) y especuló con que el trastorno motor del sueño REM podría acabar desembocando en un verdadero trastorno conductual del sueño REM (TCR). En una hipotética evolución a muy largo plazo de un trastorno motor que comience durante el sueño NREM, ¿la aparición de la narcolepsia podría representar el punto de inflexión para su intrusión en el sueño REM?
R. En los últimos años, numerosos autores han demostrado que la narcolepsia aparece asociada con desinhibición motora en todas las etapas del sueño. Nuestros estudios, realizados en familias con varios miembros afectados, constataron una asociación con parasomnias REM y NREM en los familiares de primer grado, la cual resultaba más frecuente que la asociación con la somnolencia diurna excesiva. Los especialistas checos en narcolepsia descubrieron un trastorno conductual del sueño REM (TCR) de aparición temprana en niños narcolépticos. La frecuencia del TCR en la narcolepsia se ha estimado entre el 8% y el 60%, intervalo cuya amplitud sugiere una sobrestimación. Estas altas frecuencias probablemente sean consecuencia de estimaciones subjetivas y falsas atribuciones, ya que los estudios dotados de confirmación polisomnográfica ofrecen resultados comprendidos entre el 8% y el 18%. El estrecho vínculo con las parasomnias surgidas antes de la narcolepsia indica que, antes de la aparición de ésta, existen fenómenos que delatan la inestabilidad del acoplamiento entre la actividad motora y las etapas del sueño.
P. ¿Podría explicar la diferencia, si la hay, entre los pacientes narcolépticos con y sin TCR?
R. Hoy por hoy, no disponemos de datos suficientes para afirmar, con certeza, que existe alguna diferencia entre ambos. El TCR que manifiestan los pacientes narcolépticos parece ser menos intenso que el TCR idiopático que aparece en ancianos con múltiples afecciones, principalmente, de sexo masculino. Por tanto, la detección del TCR en la narcolepsia depende, sobre todo, del fenotipo (de si éste es suficientemente intenso para ser percibido por la pareja del enfermo) y/o de la habilidad del entrevistador y el examinador (para descubrir durante la anamnesis otros indicios de movimientos durante el sueño que no sean los de las piernas, así como la detección de una actividad motora inusual en las distintas etapas del sueño). Sin ir más lejos, nuestros resultados recientes demuestran que algunos pacientes narcolépticos con TCR han acabado manifestando signos neurodegenerativos al cabo de 7 u 8 años de seguimiento. Este hallazgo podría indicar que los pacientes con narcolepsia y TCR pueden sufrir una evolución similar a la de los pacientes con TCR idiopático.
P. Como presidente de la Sociedad Alemana del Sueño, usted conoce la carga socioeconómica que entrañan los pacientes narcolépticos en su país. De hecho, cuenta con una publicación sobre este tema (Dodel R, et al. Sleep 2004; 27: 1123-8] donde señala que los costes indirectos son considerablemente más onerosos que los directos. ¿Podría explicarnos con más detalle esta cuestión?
R. La narcolepsia es una enfermedad incapacitante que depende de la gravedad de sus síntomas. En la mayoría de pacientes, la somnolencia diurna excesiva inhabilita más que los episodios de cataplejía. El estudio alemán sobre la carga socioeconómica de la enfermedad se llevó a cabo con pacientes hospitalizados. Estos son los enfermos que muestran alteraciones más graves, lo cual introduce un sesgo en los datos, puesto que no representan forzosamente a la población narcoléptica típica. A pesar de ello, los datos alemanes se han visto refrendados en la población danesa. Los estudios daneses están basados en el conjunto de datos contenido en los registros nacionales, que incluye a todos los pacientes diagnosticados. Dado que el retraso en el diagnóstico de la narcolepsia ronda todavía los 8 años desde el momento de su aparición y que la población sin diagnosticar se estima en un 80%, estos datos presentan un sesgo similar.
La mayoría de pacientes comienza a sufrir narcolepsia en su segunda década de vida y, enfrentados con el estricto horario que exigen la mayoría de profesiones en nuestra sociedad industrializada, no pueden rendir suficientemente en el trabajo, se ven obligados constantemente a causar baja por enfermedad y, al cabo de un tiempo, no tienen otra opción que la jubilación anticipada. El número de días de baja y de jubilaciones anticipadas origina unos costes indirectos elevados.
P. ¿Cree que las cifras alemanas son extrapolables a los demás países de la UE?
R. La confirmación de las cifras alemanas por parte de las danesas demuestra a las claras que la situación de los pacientes narcolépticos es similar en toda Europa. Se podría pensar que las sociedades que aceptan mejor la somnolencia y el sueño durante el día pondrían las cosas más fáciles a los pacientes narcolépticos. Esto pudo ser cierto antaño, pero todos los países occidentales y orientales han sufrido un proceso de industrialización que no se diferencia en sus horarios laborales y demandas de rendimiento. Los datos de Hong Kong e incluso de Japón demuestran una evolución pareja a la de los países occidentales, aunque carecen de datos socioeconómicos.
P. La calidad de vida relacionada con la salud se ve considerablemente mermada en los pacientes afectados por diversos grados de narcolepsia (Dodel R, et al. Sleep Med 2007; 7-8: 733-41). En su opinión, ¿qué tipo de medidas conviene adoptar para integrarlas en las directrices sanitarias con el fin de mejorar la calidad de vida de estos pacientes?
R. En primer lugar, las directrices deben ser aceptadas por las aseguradoras de salud que proporcionan los medios para la atención diagnóstica y terapéutica de los pacientes. Muy a menudo, las directrices se consideran publicaciones teóricas elaboradas por científicos que no tienen en cuenta los factores económicos sanitarios; en otras palabras, los procedimientos diagnósticos se consideran demasiado costosos y basta con el diagnóstico clínico. Esta actitud a menudo redunda en un aumento de los costes, cuando los pacientes reciben un diagnóstico erróneo y el cribado diagnóstico debe repetirse, o cuando otras enfermedades concurrentes pasan desapercibidas y no se tratan. Esta práctica, posiblemente, genera cifras de prevalencia falsas en los registros nacionales, tal y como sucede en los países escandinavos, en los que se incluyen muchos pacientes narcolépticos que sólo disponen de un diagnóstico clínico.
Otro problema importante estriba en que la narcolepsia, aunque rara, no entraña un riesgo vital. El síntoma más incapacitante, la somnolencia diurna excesiva, es inespecífico, lo que la convierte en una cuestión de mala conducta ante la opinión pública. Queda mucho camino por recorrer en lo que concierne a la concienciación sobre la narcolepsia y sus consecuencias sociales. La integración de las directrices podría ser importante en cierta medida, pero lo es más la integración del manejo de las consecuencias de esta enfermedad. Ello incluiría el asesoramiento para la educación, la elección de la profesión, problemas de seguridad laboral y viaria, educación psicológica de los pacientes y las familias, y muchos otros aspectos. Queda mucho por hacer en este campo.
P. Usted es el secretario del comité directivo de la Red Europea de Narcolepsia (EU-NN), fundada en 2007. ¿Podría resumir cuáles han sido los principales objetivos de esta asociación durante los últimos 5 años?
R. La EU-NN es una red de expertos europeos que tiene por objeto promover en Europa la investigación científica de la narcolepsia, las hipersomnias y los campos afines, así como optimizar la atención médica de los pacientes para mejorar el diagnóstico y las medidas terapéuticas. Es preciso reforzar la cooperación entre las partes implicadas en el tratamiento, manejo e investigación, así como entre los pacientes y sus familiares, y facilitar la rápida difusión del conocimiento e intercambio de información en este campo. Por consiguiente, la asociación desea contribuir a mejorar las estructuras de información y comunicación europeas y respaldar la creación de una base de datos armonizada de pacientes. Los centros y miembros participantes colaboran estrechamente e intercambian datos para promover el avance en las normas clínicas y el conocimiento científico, y facilitar la difusión de este conocimiento. El núcleo de la EU-NN es una base central de datos armonizados (accesible para todos los miembros), que incluye datos anamnésicos de los pacientes y las características fenotípicas obtenidas del análisis de sangre y LCR. Una base de datos local (accesible sólo a los centros individuales), se puede personalizar para adaptarla a las necesidades de cada centro.
P. Háblenos de la base de datos de la EU-NN. ¿Cómo se está elaborando?
R. El comité de la EU-NN ha creado esta base de datos en internet, pero tardará algún tiempo en contener un conjunto básico de datos. Su elaboración ha exigido bastante trabajo minucioso para definir los criterios de admisión, los puntos y la definición de los síntomas narcolépticos y las comorbilidades que exceden las definiciones de la International Classification of Sleep Disorders (ICSD2). En este momento, ya están definidas las normas técnicas y pronto se implementarán. Debido a los estrictos criterios de inclusión que exigen pacientes diagnosticados con arreglo a las normas EU-NN, la admisión de enfermos avanza con lentitud, pero sin pausa. Recientemente la EU-NN ha lanzado su página web http://www3.unil.ch/wpmu/eunn/ en la que informa, regularmente, sobre los trastornos del sueño, los miembros y las actividades científicas y conferencias. Asimismo, han aparecido varias publicaciones científicas que cuentan con una importante aportación de la EU-NN.
Dra. Rosa Peraita-Adrados
Unidad de Sueño y Epilepsia-Neurofisiología Clínica. Hospital Universitario Gregorio Marañón. Madrid

Prof. Juan-Vicente Sanchez-Andrés
Director asociado de Revista de Neurología Departamento médico, Viguera eds.

Lecturas:178

Investigación empírica sobre el impacto de la evaluación formativa. Revisión de literatura


http://redie.uabc.mx/vol14no1/contenido-martinezrizo12.html 

Vol. 14, Núm. 1, 2012
 
Investigación empírica sobre el impacto
de la evaluación formativa.
Revisión de literatura
Felipe Martínez Rizo 
fmrizo@prodigy.net.mx 
Programa de Doctorado Interinstitucional en Educación 
Universidad Autónoma de Aguascalientes
San Cosme 108, 20010
Aguascalientes, Aguascalientes, México
(Recibido: 4 de noviembre de 2011; aceptado para su publicación: 2 de febrero de 2012)

 
Ver índice Resumen
En muchos sistemas educativos hay un creciente interés por el enfoque de la evaluación del aprendizaje que designan expresiones como evaluación formativa, evaluación en aula o evaluación para el aprendizaje. Este interés suele basarse en opiniones muy positivas sobre dicho enfoque difundidas primero por los partidarios del sistema Mastery Learning desarrollado por Benjamin S. Bloom y, desde fines de la década de 1990, por otros estudiosos. El sustento empírico de esas posturas, sin embargo, no siempre es sólido, lo que tampoco debe entenderse como una descalificación del enfoque. En este artículo se presenta una revisión de la literatura al respecto, en la que puede basarse una opinión mejor informada.

Palabras clave: Evaluación del aprendizaje, educación básica, estado del conocimiento.
 
Ver índice I. Introducción
La noción de evaluación formativa (EF) denota las acciones hechas para valorar el avance de los alumnos en el desarrollo de conocimientos o competencias, buscando aportar elementos al maestro y a los alumnos mismos para adecuar sus esfuerzos para alcanzar las metas de aprendizaje establecidas, y no para emitir un juicio definitivo al respecto. La noción opuesta es la de evaluación sumativa.

Aunque reciente, la literatura sobre EF comienza a proliferar y, en general, parte del supuesto de que su uso produce beneficios importantes sobre el aprendizaje. Sin embargo los estudios de carácter empírico que sometan este supuesto a la prueba de la experiencia son escasos. En estas páginas se revisa la literatura al respecto, con énfasis en la producida en los medios anglosajones.

Algunas síntesis de estudios sobre el sistema Mastery Learning que promovió Benjamín S. Bloom en las décadas de 1960 y 1970, llegaban a la conclusión de que era “una de las estrategias de enseñanza más efectivas que los maestros pueden utilizar, en cualquier nivel educativo” (Walberg, 1984, en Guskey 2007, p. 75).

Bloom plantea el tema en términos de lo que llama el problema de las dos sigmas, en alusión al dato de que la diferencia entre los alumnos de alto y bajo rendimiento suele situarse en el rango de dos desviaciones estándar; esto quiere decir que el reto de reducir las brechas del rendimiento de manera significativa en un sistema educativo consiste en mejorar el desempeño de los alumnos de menor rendimiento en el equivalente a dos desviaciones estándar (dos sigmas).

Según Bloom es posible conseguir mejoras de esa importancia con sistemas de enseñanza que asignan un tutor a cada alumno de bajo rendimiento (enseñanza tutorial uno a uno), lo cual es costoso; pero él afirma que con su sistema es posible obtener resultados similares, con un costo que no difiere mucho del que implican las formas tradicionales de enseñanza (Bloom, 1984a y 1984b).
 
Ver índice II. Estudios en perspectiva optimista
Sin contar las relativas a resultados del modelo Mastery Learning, seguramente la revisión de literatura que más ha influido en las ideas sobre el efecto de la EF es la que publicaron en 1998 Paul Black y Dylan Wiliam, en el número 1 de 1998 de la revista Assessment in Education: principles, policy & practice. El artículo no es el primero en ese sentido, puesto que revisa trabajos publicados antes, entre 1988 y 1997; sin embargo, la conclusión tan positiva a la que llega llamó la atención entre los interesados en el tema, algunos de los cuales lo retomaron sin considerar sus alcances y límites, lo que posiblemente dio lugar a que se extendiera una visión acrítica de la evaluación formativa, en un medio que a veces parece ávido de soluciones milagrosas para los problemas que enfrenta.

Black y Wiliam tomaron como línea de base las revisiones de Natriello (1987) y Crooks (1988) y utilizaron otras revisiones (Black, 1993; Bangert-Drowns, Kulik, Kulik y Morgan, 1991a y 1991b; Kulik, Kulik y Bangert-Drowns, 1990); consultaron el ERIC (Education Resources Information Center), rastrearon referencias citadas en las ya localizadas (snowball approach); e hicieron una búsqueda de artículos en 76 revistas. De esta manera identificaron 681 publicaciones que parecían relevantes a primera vista, que luego se redujeron a unas 250.

La revisión se organizó en siete secciones: ejemplos notables; evaluación por los maestros; perspectiva de los alumnos; papel del maestro; estrategias y tácticas usados por los maestros; sistemas en que la evaluación formativa tiene un papel especial; y retroalimentación. En cada sección los textos identificados se revisan con diferente amplitud, pero la primera, la de ejemplos notables, atrae la atención tanto por su ubicación al inicio del artículo como por la naturaleza positiva de las conclusiones a que llegan los autores, que sustentan las afirmaciones reiteradas y enfáticas que se hacen. Así, en el resumen del trabajo, Black y Wiliam dicen:
Varios estudios muestran evidencia firme de que las innovaciones que se diseñan para reforzar la retroalimentación frecuente que el alumno recibe sobre su aprendizaje produce ganancias substanciales (…) (1998, p. 7)
La idea se retoma con fuerza similar al final del trabajo, donde los autores responden la pregunta sobre las implicaciones para las políticas de sus hallazgos:
La investigación reportada muestra en forma concluyente que la EFmejora el aprendizaje. Las ganancias en desempeño parecen muy considerables y son de las más grandes reportadas para una intervención educativa. Como ejemplo de su importancia, si se alcanzara a escala nacional un efecto de 0.7 (size effect), equivaldría a elevar el puntaje promedio en matemáticas de un país promedio como Inglaterra, Nueva Zelanda o Estados Unidos, al nivel de los cinco mejores, detrás de los países de la cuenca del Pacífico como Singapur, Corea, Japón y Hong Kong (…) (Black y Wiliam, 1998, p. 61)
Los estudios seleccionados por Black y Wiliam para incluir en la primera sección de su trabajo, de ejemplos destacados, son ocho: 1) Un proyecto que involucró a 25 profesores portugueses de matemáticas, con 246 alumnos de ocho y nueve años de edad y 108 más de 10 a 14 años. 2) La experiencia de un profesor a lo largo de 18 años durante los cuales utilizó el modelo de Mastery Learning en sus cursos, con unos 7,000 estudiantes. 3) Otro estudio que utilizó el modelo deMastery Learning, con 120 estudiantes universitarios estadounidenses, en cuatro grupos en un diseño 2 x 2. 4) Uno más con 838 niños de cinco años de edad de medio desfavorecido, distribuidos en un grupo experimental y uno de control. 5) Un experimento con 48 alumnos de 11 años de edad, de 12 grupos en cuatro escuelas de Israel, seleccionados de manera que la mitad fueran del cuartil superior y el resto del inferior, en matemáticas y lengua. 6) Un estudio con 44 alumnos de 9 o 10 años de edad en una escuela elemental de los Estados Unidos. 7) Un trabajo con 12 grupos de 30 alumnos cada uno, en dos escuelas estadounidenses de educación media. 8) Un meta-análisis de 21 estudios con alumnos de preescolar a enseñanza media superior con necesidades educativas especiales de importancia media.

Black y Wiliam advierten sobre las limitaciones de los estudios revisados. Como ejemplo, en relación con una revisión sobre la efectividad de la retroalimentación (Kluger y De Nisi, 1996) señalan que, de más de 3,000 reportes analizados, la gran mayoría debieron descartarse por fallas metodológicas como falta de controles adecuados, mezcla de efectos de la retroalimentación con otros, número reducido de sujetos (<10), ausencia de mediciones del rendimiento y datos insuficientes para estimar el tamaño del efecto. Solamente se conservaron 131 reportes que no presentaban las fallas anteriores (Black y Wiliam, 1998, p. 48).

Se mencionan efectos de la retroalimentación en sentidos opuestos, según se refiera a la tarea o a la persona. Un trabajo reporta que la retroalimentación que se refiere a la persona parece tener efectos negativos sobre el desempeño y otro que los maestros eficaces elogian menos a sus alumnos que el docente promedio, lo que coincide con otros hallazgos de que los elogios verbales y la retroalimentación de apoyo a la persona puede aumentar el interés y mejorar actitudes del alumno, pero tiene poco o nulo impacto sobre el desempeño (Black y Wiliam, 1998, p. 49-50).

La descripción que hacen Black y Wiliam de los ocho ejemplos notables suscita dudas en cuanto a la solidez de conclusiones tan contundentes como las citadas, pues parece difícil llegar a ellas sin muchas salvedades, a partir de una gama bastante reducida de trabajos diferentes, algunos de los cuales presentan claras debilidades. Pese a ello, la heterogeneidad misma de los ejemplos es manejada por los autores citados como argumento a favor de su punto de vista:
(…) Pese a la existencia de algunos resultados marginales e incluso negativos, el rango de las condiciones y contextos en los que los estudios revisados han mostrado que se pueden alcanzar tales ganancias debe indicar que los principios que subyacen al logro de mejoras sustanciales en el aprendizaje son robustos (…) (Black y Wiliam, 1998, p. 61)
Al final de su revisión, Black y Wiliam (1998) advierten a los lectores sobre la dificultad que supone modificar en profundidad prácticas muy arraigadas:
(…) de esta revisión no emerge un modelo óptimo en que se pueda sustentar una política. Lo que emerge son principios orientadores, con la advertencia de que los cambios requeridos en la práctica docente son centrales y no marginales, y deben ser incorporados por cada docente a su propia práctica en la manera propia de cada uno. En otras palabras, una reforma de tales dimensiones inevitablemente llevará mucho tiempo y requerirá el continuo apoyo de educadores e investigadores. (p. 62)
En forma muy clara, el trabajo citado señala:
Sería deseable, y se podría esperar como lo habitual, que una revisión como ésta tratara de hacer un meta-análisis de los estudios cuantitativos revisados. El que esto difícilmente parezca posible lleva a reflexionar sobre este campo de investigación. Esta revisión aprovechó material útil de varios estudios basados en meta-análisis; éstos, sin embargo, centraban la atención en aspectos bastante restringidos de la evaluación formativa, por ejemplo la frecuencia con la que se formulan preguntas. El valor de sus generalizaciones es también dudoso porque se ignoran aspectos clave de los estudios sintetizados, por ejemplo la calidad de las preguntas que se formulan, ya que la mayoría de los investigadores no ofrecen evidencias sobre estos puntos.

Hay estudios cuantitativos que exploran la evaluación formativa de manera más comprensiva, y algunos se discuten en el texto, pero el número con un rigor cuantitativo adecuado y comparable debe situarse, como máximo, en el orden de 20. Sin embargo, si bien cada estudio es riguroso dentro de su propio marco y en relación son sus objetivos, y aunque muestran cierta coherencia en lo que se refiere a las ganancias de aprendizaje asociadas con las iniciativas de evaluación en aula, las diferencias subyacentes entre los estudios son tales que cualquier agregación de sus resultados tendría poco sentido. (Black y Wiliam, 1998, p. 52-53)
Pese a lo anterior, varias lecturas del texto al que se refieren estos comentarios han retomado únicamente las conclusiones favorables, sin matiz alguno, e incluso contradiciendo afirmaciones expresas, como en el caso siguiente:
Con base en su síntesis de más de 250 artículos [Black y Wiliam] reportan que la respuesta [a la pregunta sobre si hay evidencias de que mejorar la calidad de la EF eleva el rendimiento de los alumnos] es un rotundo sí. De esas fuentes, unas 40 responden la pregunta con diseños experimentales suficientemente rigurosos para permitir la agregación de los datos para hacer un meta-análisis que permita estimar el efecto atribuible a EF mejoradas sobre el puntaje en pruebas sumativas. (Stiggins, 2001, p. 10)
La diferencia entre lo que dice el texto de Black y Wiliam y la lectura de Stiggins es notable y hace parecer excesivo el tono optimista de esa y otras interpretaciones.

Un importante trabajo sobre evaluación formativa publicado por la Organización para la Cooperación y el Desarrollo Económicos (OCDE) retoma el texto ya citado de las conclusiones del artículo de Black y Wiliam:
(…) la evaluación formativa mejora el aprendizaje. Las ganancias en el desempeño parecen muy considerables y, como se ha señalado, son de las más grandes reportadas para una intervención educativa. (Centre for Educational Research and Innovation, 2005, p. 22)
El trabajo de la OCDE, sin embargo, matiza la afirmación anterior como sigue:
Si bien la EF no es una solución mágica (silver bullet) que puede resolver todos los retos educativos, es un medio poderoso para alcanzar el objetivo de resultados de alto desempeño y alta equidad, y ofrece a los alumnos el conocimiento y las habilidades para seguir aprendiendo a lo largo de la vida. Los sistemas educativos que enfrenten las tensiones que impiden una práctica más amplia de la EF y fomenten culturas de evaluación probablemente avanzarán mucho más hacia tales metas. (CERI, 2005, p. 27)
En la Conferencia Internacional sobre Evaluación para el Aprendizaje que tuvo lugar en Chester en 2001, se llegó a la conclusión de que las discusiones sobre las prioridades de investigación en torno al tema:
(…) se desarrollaron con plena conciencia del hecho de que contamos ya con evidencia convincente, basada en investigaciones, en cuanto al impacto de la “enseñanza para el aprendizaje” sobre el rendimiento de los alumnos: se pueden conseguir avances sin precedentes. Tenemos también evidencia convincente, basada en investigaciones, sobre la baja calidad de muchas evaluaciones que se hacen en el aula, debido a la persistente falta de oportunidades que tienen los maestros para desarrollar sus competencias de evaluación (assessment literacy). (Stiggins y Arter, 2002, p. 3)
En un texto más reciente, Stiggins (2007) sigue mostrando su perspectiva optimista: “la evidencia recolectada en todo el mundo revela de manera consistente efectos directamente atribuibles a la aplicación efectiva de EF en aula, que van de media a una y media desviación estándar”. (p. 18)

Stiggins dice que Bloom (1984a) reportaba avances de una a dos desviaciones estándar gracias a la aplicación de su modelo de mastery learning; menciona las ganancias de 0.5 a una desviación estándar reportadas por Black y Wiliam según la revisión mencionada; cita el trabajo de Meisels, Atkins-Burnett, Xue, DiPrima y Son (2003), con ganancias de 1 a 1.5 desviaciones; y retoma el trabajo de Rodríguez (2004), con base en los resultados de la aplicación del Estudio Internacional de Tendencias en Matemáticas y Ciencias (TIMSS, por sus siglas en inglés) en los Estados Unidos. Para terminar, dice:
Según estos investigadores, los avances esperados en las puntuaciones de desempeño rivalizan con la implementación de sistemas de enseñanza tutorial uno a uno en cuanto a su impacto en el rendimiento de los alumnos, además de que las mayores ganancias son conseguidas por los de menor desempeño, con lo que las brechas se reducen. (Stiggins, 2007, p. 19)
Otras revisiones de las que se extraen conclusiones favorables para la evaluación formativa se refieren a los efectos de la retroalimentación. Marzano presenta así algunos trabajos sobre el tema:
Como resultado de revisar casi 8,000 estudios, Hattie (1992) encontró que, sin duda, “la modificación singular más poderosa para mejorar rendimiento es la retroalimentación”. La receta más simple para mejorar la educación es “cucharadas de retroalimentación”. Más recientemente, Hattie y Timperley (2007) actualizaron y ampliaron la revisión sobre retroalimentación y llegaron a la misma conclusión. Desafortunadamente no todas las formas de retroalimentación son igualmente efectivas. Un meta-análisis de Bangert-Drowns, Kulik, Kulik y Morgan (1991) que revisó los hallazgos de 40 estudios sobre evaluación en aula, encontró que decir simplemente al alumno si sus respuestas son correctas o incorrectas tenía efecto negativo sobre el aprendizaje, mientras que explicar la respuesta correcta y/o pedir que siguiera mejorando sus respuestas se asociaba con ganancias de 20 puntos percentilares en el desempeño. (Marzano, 2007, p. 103-104)
 
Ver índice III. Perspectivas críticas
La experiencia de la complejidad de los fenómenos educativos y la dificultad de introducir cambios que produzcan consecuencias importantes hace tomar con reservas los textos de la sección anterior, que a veces parecen promover una panacea más que, tras cierto tiempo, provocará una desilusión tanto más fuerte cuanto mayores hubieran sido las expectativas inicialmente despertadas.

Esta idea se ve reforzada por las salvedades que contienen los mismos textos citados, que una lectura atenta no deja de advertir, y que en ocasiones se incluyen de manera tan expresa que sorprende que no sean atendidas por algunas lecturas posteriores. Confirma y refuerza la reflexión crítica sobre conclusiones demasiado optimistas un trabajo reciente de dos estudiosos de la Universidad de Arkansas, publicado con el título Una revisión crítica de la investigación sobre evaluación formativa. La limitada evidencia científica del impacto de la evaluación formativa en la educación. Al principio de su texto los autores señalan que:
Una creencia casi nunca cuestionada es que la investigación demuestra en forma concluyente que el uso de evaluación formativa facilita la mejora de las prácticas de enseñanza, identifica lagunas en el currículo y contribuye a aumentar el desempeño de los alumnos. Sin embargo… una revisión de la literatura reveló la limitada evidencia empírica que demuestra que el uso de evaluación formativa en el aula resulta directamente en cambios marcados en los resultados educativos. (Dunn y Mulvenon, 2009, p. 1)
El texto comienza con una discusión sobre la forma en que se suele definir la noción de EF, los autores indica que la heterogeneidad al respecto es muy considerable, de manera que la tarea de analizar en forma rigurosa su posible impacto se dificulta mucho. El artículo analiza en particular la revisión de literatura hecha por Black y Wiliam, a la que se refiere el apartado anterior de este artículo, cuya influencia se puede apreciar por el elevado número de veces que se le cita en la revistas académicas (194 según el Social Science Index revisado por Dunn y Mulvenon (2009, p. 5).

La revisión de los ocho estudios que Black y Wiliam utilizan para sustentar sus conclusiones muestra serias fallas metodológicas:

El primero, además de que el grupo de 25 profesores portugueses no es suficiente para conclusiones generalizables, adoleció de fallas significativas en cuanto a la calidad del pretest y a la diferencia en la preparación que se dio a los docentes del grupo control, en comparación con los del experimental. Más dudosa todavía es la generalizabilidad del segundo estudio, con un solo profesor a lo largo de 18 años. El tercer estudio, con 120 universitarios en cuatro grupos, involucró sólo a dos profesores expertos y dos novatos y analizó la frecuencia de las evaluaciones (una o tres) sin considerar en detalle el contenido y la forma de éstas.

A juicio de Dunn y Mulvenon el diseño del cuarto estudio (con 838 niños de cinco años) es bueno, pero no toma en cuenta que, además de EF, el sistema de trabajo incluía otros aspectos cuya influencia no se puede distinguir de la que haya podido tener la evaluación misma. Otros tres estudios tienen problemas similares: el quinto, en Israel, además de una muestra muy chica, se refiere a tareas que no fueron presentadas por el maestro ni se basaban en el currículo; el sexto caso sólo trabajó con alumnos de cuarto grado, con una muestra muy pequeña y con énfasis en autoevaluación; y en el séptimo caso (además de que los resultados van desde un efecto increíble de tres, hasta de sólo una desviación estándar) no se informa en qué consistieron las “discusiones generales” en el grupo control y pareciera que el grupo experimental recibió un trato distinto, más allá de lo que tenía que ver con la evaluación formativa misma.

El octavo estudio notable de Black y Wiliam, que Dunn y Mulvenon tratan en primer término, parecería en principio el más sólido, ya que se trata del meta-análisis de 21 estudios, pero incluso en este caso hay serias deficiencias: 83% de los alumnos participantes tenían necesidades educativas especiales; 72% de los efectos encontrados se presentaron en estudios que tenían “no más de dos problemas metodológicos serios” (Dunn y Mulvenon, 2009, p. 5-7).

El texto de los profesores de Arkansas revisa nueve artículos más recientes, que se refieren en general a trabajos de educación en línea (Thompson, Goe, Paek y Ponte, 2004; Wininger, 2005; Wiliam et al., 2004; Ruiz-Primo y Furtak, 2006; Sly, 1999; Henly, 2003; Buchanan, 2000; Wang, 2007; y Velan et al., 2002). Los autores reconocen que esos trabajos ofrecen apoyo adicional a la evaluación formativa de manera fragmentada, pero añaden que siguen siendo problemáticos temas metodológicos similares a los de los revisados por Black y Wiliam. (Dunn y Mulvenon, 2009, p. 7). Aunque subrayan las limitaciones de los trabajos revisados, la conclusión a que llegan estos autores no es totalmente negativa, pero sí afirman que:
En cierta medida, las investigaciones discutidas… apoyan el impacto de la EF sobre el rendimiento de los alumnos, pero en una medida mayor apoyan la necesidad de hacer investigaciones en las que diseños y metodologías más eficientes lleven a resultados más concluyentes… no argumentamos que la EF carezca de importancia, sino sólo que la evidencia empírica que existe para apoyar “las mejores prácticas” de EF es limitada. (Dunn y Mulvenon, 2009, p. 9)
Otros trabajos recientes avanzan en la dirección señalada en el texto anterior, ya que utilizan acercamientos metodológicos más sólidos. Así lo muestra un análisis de investigaciones sobre programas de actualización para maestros en servicio que buscan mejorar sus habilidades en EF (Schneider y Randel, 2010).

Las investigaciones que revisa este capítulo se refieren a experiencias de duración considerable, en que la preparación de los participantes sobre EF implicó muchas horas, siempre se incluyó la variable relativa a los resultados de los alumnos y se manejaron números importantes de maestros, alumnos y grupos, con diseños de tipo cuasi-experimental, cuidando la comparabilidad de grupos con tratamiento y sin él, utilizando técnicas analíticas avanzadas, a falta de diseños experimentales.

El trabajo concluye con reflexiones sobre los retos metodológicos que enfrentan estos estudios, incluyendo la atención a los estándares para juzgar la calidad de las evidencias (según el repositorio What Works Clearinghouse,) las dificultades de manejar diseños experimentales con grupos completos (intact classrooms), las de las medidas de los resultados, del tamaño de las muestras, la fidelidad de implementación y la duración del estudio (Schneider y Randel, 2010, p. 267-272).

En muchos casos los resultados fueron favorables a la hipótesis de que las prácticas de EF contribuyen a mejorar el aprendizaje; en un número menor no se encontraron diferencias significativas. Nuevamente la evidencia no es concluyente, pero sí parece inclinar la balanza en el sentido de las opiniones favorables a la EF.

Otro ejemplo interesante en el sentido que se comenta es el trabajo sobre EF, motivación y aprendizaje de las ciencias naturales, de Ma. Araceli Ruiz Primo et al. (2010), que los autores describen como sigue:
Un estudio de pequeñas dimensiones, aleatorizado, para someter a prueba la afirmación de Black y Wiliam (1998) de que la retroalimentación basada en EF produce un fuerte efecto positivo en el aprendizaje… el proyecto ponía a prueba una gran idea relacionada con la EF, que se podría obtener una gran ganancia en el aprendizaje con una inversión relativamente pequeña: incorporar a un currículo de ciencias utilizado en todo el país EF conceptualmente coherentes. (Ruiz Primo et al., 2010, p. 143)
Después de explicar las características del estudio, cuidadosamente diseñado e implementado, los investigadores reportan los resultados relativos a los cambios esperados en los niveles de rendimiento de los alumnos como sigue:
Sorprendentemente los resultados no corroboraron la hipótesis (…) el grupo experimental no obtuvo resultados significativamente mejores que el grupo de comparación ni en las pruebas de rendimiento ni en las medidas de motivación. De hecho los alumnos del grupo de comparación tuvieron resultados promedio ligeramente mejores que los del grupo experimental, aunque no estadísticamente significativos (…) la brecha entre los alumnos de alto y bajo rendimiento en el grupo experimental no fue tan grande como en el grupo de comparación (…) (Ruiz Primo et al., 2010, p. 151)
La revisión de videos de clases que se grabaron permitió buscar una explicación de esos resultados, revisando la fidelidad de implementación.

El estudio de implementación buscaba entender la relación entre el tratamiento (el currículo prescrito) y las mediciones del aprendizaje (el currículo logrado), para lo cual primero se sistematizó el currículo prescrito según la guía que se había dado a los maestros participantes, y luego se analizaron las grabaciones de clases para medir en qué grado los maestros realizaron las EF como se esperaba lo hicieran. El resultado fue que había considerables diferencias en cuanto a la forma de hacer las evaluaciones, lo cual parece reflejarse en un impacto diferencial en el rendimiento. La conclusión de los investigadores es la siguiente:
Black y Wiliam (1998) encontraron que la intervención que impacta el nivel de aprendizaje de los estudiantes es la retroalimentación. Hattie y Timperley (2007) encontraron además que la calidad de la retroalimentación impacta el grado en que ayuda a los estudiantes a mejorar. No debe sorprender que los estudiantes con mejores resultados sean los que tuvieron maestros que cierran mejor el ciclo de EF (…) usar información para ajustar enseñanza no fue bien implementado por muchos maestros del grupo experimental… con base en la evidencia recogida durante el estudio de implementación sabemos que, en general, los maestros conseguían que los alumnos compartieran sus ideas, pero que no conseguían utilizar la información para ajustar su propia enseñanza. Obviamente recomendar que se ajuste la enseñanza es más fácil que hacerlo. (Ruiz Primo et al., 2010, p. 154)
Conviene precisar que la justificación del uso de estudios basados en diseños experimentales estrictos (que incluyan la asignación aleatoria de los sujetos a los grupos experimental y control) como soporte para llegar a conclusiones sobre el impacto de cierta intervención se justifica plenamente en principio, pues sabemos que, en ausencia de tal tipo de diseño, es problemático sacar conclusiones de tipo causal. Sin embargo, en la investigación educativa y social deben cuidarse otros aspectos para que un estudio pueda arrojar conclusiones sólidas.

En particular, es indispensable cuidar la llamada fidelidad de implementación a la que han aludido los dos últimos trabajos citados, y cuyo descuido es, al parecer, una de las deficiencias que más influyen para que los resultados de los trabajos sobre el posible impacto de la evaluación formativa no sean concluyentes. Como ha mostrado Raudenbush (2008), en la investigación sobre el efecto de ciertos fármacos sobre el organismo es sencillo garantizar que todos los sujetos de un grupo experimental reciban un tratamiento idéntico (por ejemplo X dosis del fármaco) y que ninguno de los sujetos del grupo control lo reciba. En educación, en cambio, y aunque se haya dado cierta preparación a los participantes, es difícil asegurar, por ejemplo, que todos los maestros de un grupo experimental manejen prácticas de EF del mismo tipo y con idéntica calidad e intensidad, y que ninguno del grupo control utilice prácticas que puedan llevar a resultados análogos.

Por otra parte, un elemento más a tener en cuenta al estudiar el impacto de la EFtiene que ver con la dificultad de introducir prácticas novedosas, que se oponen a tradiciones muy arraigadas, como las que tienen que ver con la forma tradicional de evaluar que prevalece en las aulas desde hace muchos años. En el caso del sistema educativo mexicano, por ejemplo, si se analiza la normatividad sobre las evaluaciones que deben hacer los maestros se aprecia que casi no ha cambiado desde hace medio siglo, pese a que en ese lapso se puso de moda la pedagogía constructivista, surgieron y proliferaron las pruebas en gran escala y se comenzó a hablar de EF. Por ello no debería sorprender que muchos actores, incluyendo a maestros, pero también a alumnos y padres de familia, se sientan incómodos cuando se quiere introducir innovaciones como la que es objeto de este trabajo.

El último trabajo empírico que se revisa en esta sección tiene que ver justamente con esa resistencia, en el contexto de un sistema educativo en el que las nuevas formas de evaluación está mucho más extendido que en México.

Smith y Gorard (2005) reportan resultados de un estudio sobre las reacciones de alumnos que participaban en un proyecto que incluía la práctica de no dar calificación numéricas, como suele hacerse, para desalentar la tendencia a trabajar en función de la nota, y no por un interés intrínseco por el aprendizaje. Cuando se preguntaba a esos estudiantes cómo se sentían, las respuestas eran diversas, pero
(…) un número considerable de alumnos tenían opiniones bastante negativas, particularmente porque, en su opinión, el hecho de no recibir calificaciones no les permitía saber cómo orientar sus esfuerzos… cuando se preguntaba si los comentarios que recibían eran útiles, la mayoría opinaba que no les daban suficiente información para saber cómo mejorar. Tampoco pensaban que el recibir calificaciones estigmatizaría a los de bajo rendimiento… el deseo de recibir calificaciones era tan fuerte que algunos admitían que intentaban calcularlas. Esto era particularmente marcado en materias como matemáticas y lengua, en relación con las cuales los chicos admitían que sumaban las palabras bien deletreadas en pruebas de vocabulario, para calcular la calificación que habrían recibido. (Smith y Gorard, 2005, p. 31-33)
 
Ver índice IV. Conclusión
La aplicación en el aula de los principios de la EF no es sencilla, en particular si se trata de habilidades cognitivas complejas y no de simples tareas memorísticas, ya que para ello no basta que se modifiquen las prácticas de evaluación, sino que es todo el enfoque de la enseñanza lo que debe cambiar.

El sustento teórico de la EF es sólido y el resultado de las experiencias de su aplicación permiten tener expectativas razonablemente optimistas al respecto, pero hay también elementos que muestran que se debe proceder con cautela.

Las conclusiones de un trabajo muy reciente coinciden con las que se desprenden de esta revisión de literatura. Kingston y Nash (2011) hicieron una amplia búsqueda de textos sobre evaluación formativa y/o evaluación para el aprendizaje a partir de 1988, incluyendo revistas arbitradas o no, ponencias y tesis, en niveles educativos preuniversitarios.

ERIC
 permitió localizar 407 artículos y Google Scholar dio 17,300 referencias, pero la mayoría con deficiencias metodológicas tan serias que impidieron que se les considerara en el análisis. Las que reunieron los criterios necesarios para ser incluidas fueron sólo 13, en las que se encontraron 42 medidas del efecto del uso de la evaluación formativa (effect size). La mayor parte de estas medidas (23) se referían al efecto de programas de actualización de maestros en servicio, 7 al impacto de evaluaciones que formaban parte de los materiales curriculares, 6 se referían a evaluaciones por computadora, 3 al efecto de formas particulares de retroalimentación y 3 a aspectos de autoevaluación y coevaluación.

La mediana del tamaño del efecto fue de 0.25, menor que la de 0.7 o hasta 1.5 que se ha reportado en otros trabajos. El efecto varía de 0.09 a 0.32 dependiendo del área curricular y del tipo de intervención (Kingston y Nash, 2011, p. 32-35).

Como sugiere la parte final del título (A call for research), el trabajo de Kingston y Nash termina con un llamado a los interesados en el tema a realizar estudios con un buen diseño metodológico, que puedan llegar a conclusiones más sólidas y superen las limitaciones de muchos trabajos previos. Las recomendaciones de este trabajo (v. gr. evitar centrar la atención en grupos extremos, no limitarse a ver si hay efecto, sino buscar determinar cuáles son los factores que influyen en que el efecto sea mayor o menor) se añaden a las que ya se han señalado en esta revisión, en particular el uso de diseños experimentales o cuasi-experimentales y el cuidado de la fidelidad de la implementación.

Los intentos por introducir un enfoque cuya aplicación implica cambios importantes en prácticas muy arraigadas pueden ser superficiales, reduciéndose a la adopción de una terminología novedosa, sin modificar los procesos básicos de enseñanza y de aprendizaje.

La investigación deberá permitir distinguir con claridad los trabajos superficiales de los rigurosos, evitando llegar a conclusiones no matizadas que prometan resultados espectaculares de cualquier esfuerzo, por limitado que sea. Este tipo de conclusiones sin matices provoca expectativas excesivas, a las que seguirá una decepción más y el abandono de una idea realmente prometedora.
 
Ver índice Referencias
Bangert-Drowns, R. L., Kulik, Ch., Kulik, J. A. y Morgan, M. T. (1991a). The instructional effect of feedback on test-like events. Review of Educational Research61(2), 213-238.

Bangert-Drowns, R. L., Kulik, J. A. y Kulik, Ch. (1991b). Effects of frequent classroom testing. Journal of Educational Research85, 89-99.

Black, P. J. (1993). Formative and summative assessment by teachers. Studies in Science Education21, 49-97.

Black, P. y Wiliam, D. (1998). Assessment and classroom learning. Assessment in Education5, 7-74.

Bloom, B. S. (1984a). The search for methods of group instruction as effective as one-to-one tutoring. Educational Leadership41(8), 4-17.

Bloom, B. S. (1984b). The 2-sigma problem: The search for methods of group instruction as effective as one-to-one tutoring. Educational Researcher13(6), 4-16.

Buchanan, T. (2000). The efficacy of a World-Wide Web mediated formative assessment. Journal of Computer Assisted Learning16, 193-200.

Centre for Educational Research and Innovation (2005). Formative assessment. Improving learning in secondary classrooms. París: OECD.

Crooks, T. J. (1988). The impact of classroom evaluation practices on students.Review of Educational Research58, 438-481.

Dunn, K. E. y Mulvenon, S. W. (2009). A critical review of research on formative assessment: The limited scientific evidence of the impact of formative assessment in education. Practical Assessment Research and Evaluation14(7), 1-11.

Guskey, T. R. (2007). Formative classroom sssessment and Benjamin S. Bloom: Theory, research and practice. En J. H. McMillan, Formative classroom assessment:
Theory into practice
 (63-78). Nueva York: Teachers College Press.

Hattie, J. (1992). Measuring the effects of schooling. Australian Journal of Education36(1), 5-13.

Hattie, J. y H. Timperley (2007). The power of feedback. Review of Education Research77(1), 81-112.

Henly, D. C. (2003). Use of Web-based formative assessment to support student learning in a metabolism/nutrition unit. European Journal of Dental Education7, 116-122.

Kingston, N. y Brooke, N. (2011). Formative assessment: A meta-analysis and a call for research. Educational Measurement: Issues and Practice30(4), 28-37.

Kluger, A. N. y Denisi, A. (1996). The effects of feedback interventions on performance: a historical review, a meta-analysis, and a preliminary feedback intervention theory. Psychological Bulletin119, 254-284.

Kulik, C. C., Kulik, J. A. y Bangert-Drowns, R. L. (1990). Effectiveness of mastery learning programs: A meta-analysis. Review of Educational Research60(2), 265-299.

Marzano, R. (2007). Designing a comprehensive approach to classroom assessment, en D. Reeves (Ed.) Ahead of the curve (pp. pp. 103-125), Bloomington: Solution Tree Press.

Meisels, S., Atkins-Burnett, S., Xue, Y., DiPrima, D. y Son, S. (2003). Creating a system of accountability: The impact of instructional assessment on elementary children’s achievement scores. Educational Policy Analysis Archives11(9).

Natriello, G. (1987). The impact of evaluation processes on students. Educational Psychologist22, 155-175.

Raudenbush, S. W. (2008). Advancing educational policy by advancing research on instruction. American Educational Research Journal45(1), 206-230.

Rodríguez, M. C. (2004). The role of classroom assessment in pupil performance in TIMSSApplied Measurement in Education17(1), 1-24.

Ruiz-Primo, M. A. y Furtak, E. M. (2006). Informal formative assessment and scientific inquiry: Exploring teachers’ practices and student learning. Educational Assessment11(3-4), 205-235.

Scheneider, M. C. y Randel, B. (2010). Research on characteristics of effective professional development programs for enhancing educators’ skills in formative assessment. En Andrade y Cizek (Eds.), Handbook of formative assessment (pp. 251-276). Nueva York-Londres: Routledge.

Sly, L. (1999). Practice tests as formative assessment improve student performance on computer managed learning assessments. Assessment and Evaluation in Higher Education24(3), 339-343.

Smith, E. y Gorard, S. (2005). They dont’t give us our marks: the role of formative feedback in student progress. Assesment in Education: principles, policy & practice, 12(1), 21-38.

Stiggins, R. J. (2007). Conquering the formative assessment frontier. En J. H. McMillan (Ed.) Formative classroom assessment: Theory into practice (pp. 8-27). Nueva York: Teachers College Press.

Stiggins, R. J. (2001). Unfulfilled promise of classroom assessment. Educational Measurement: Issues & Practice20(3), 5-15.

Stiggins, R. J. y Arter, J. (2002). Assessment for learning. International Perspectives. The Proceedings of an International Conference. Documento presentado en la Annual Meeting of the National Council on Educational Measurement, Nueva Orleans.

Thompson, M., Goe, L., Paek, P. y Ponte, E. (2004). Study of the California formative assessment and support system for teachers: Relationship of BTSA/CFASSTand student achievement. Princeton: Educational Testing Service.

Velan, G. M., Rakesh, K. K., Mark, D. y Wakefield, D. (2002). Web-based self-assessments in Pathology with questionmark perception. Pathology34, 282-284.

Walberg, H. J. (1984). Improving the productivity of America’s schools. Educational Leadership41(8), 19-27.

Wang, T. H. (2007). What strategies are effective for formative assessment in an e-learning environment? Journal of Computer Assisted Learning23, 171-186.

Wiliam, D., Lee, C., Harrison, C. y Black, P. (2004). Teachers developing assessment for learning: Impact on student achievement. Assessment in Education11, 49-65.

Wininger, R. S. (2005). Using your tests to teach: Formative summative assessment. Teaching Psychology32(2), 164-166.
Ver índice Para citar este artículo, le recomendamos el siguiente formato:
Martínez Rizo, F. (2012). Investigación empírica sobre el impacto de la evaluación formativa. Revisión de literatura. Revista Electrónica de Investigación Educativa,14(1), 1-15. Consultado el día de mes de año en: http://redie.uabc.mx/vol14no1/contenido-martinezrizo12.html
Usted ha sido el visitante no. 633 de este artículo desde el 1 de mayo de 2012
Gracias por su visita.