Cada vez que rellenamos un formulario web, trabajamos gratis para Google

Los CAPTCHA son esos molestos grupos de letras y cifras -algunos deformados, otros con fondos y colores que dificultan su lectura- que los usuarios de la web debemos teclear para acceder a determinadas operaciones. El nombre responde a las siglas de Completely Automated Public Turing Test to Tell Computers and Humans Apart (test público de Turing completamente automatizado para distinguir los ordenadores de los humanos), en honor a la prueba creada en 1950 por el matemático británico Alan Turing, y que demuestra que las personas llevan a cabo determinadas tareas mejor que las máquinas. Una de esas tareas es precisamente el reconocimiento de imágenes.

Los CAPTCHA son uno de los diversos sistemas que existen para impedir que los robots informáticos jueguen malas pasadas y asegurar que quien está introduciendo los datos en un formulario es una persona. Se utilizan para evitar comentarios basura en los blogs; para proteger los servicios web frente a inscripciones masivas que luego podrían servir para enviar correo no deseado; para neutralizar los intentos de falsear resultados de encuestas mediante votaciones automáticas; para evitar suplantaciones de identidad basadas en ataques de diccionario que intentan miles de contraseñas en pocos segundos; y para ocultar de los robots recolectores de direcciones de correo electrónico las que figuran en páginas web públicas.

El doctorando guatemalteco en matemáticas Luis von Ahn creó los CAPTCHA en el año 2000 en la universidad Carnegie Mellon de Pittsburgh, y pronto fueron adoptados por grandes empresas de Internet como Yahoo! Actualmente los encontramos en la mayoría de los formularios web y son objeto de una batalla tecnológica entre sus creadores y los desaprensivos que aspiran a saltárselos, parecida a las que se libran entre los creadores de virus y los de antivirus, y entre los emisores de correo basura y los sistemas para interceptarlo.

Existen diversas alternativas a los CAPTCHA gráficos: resolver operaciones matemáticas básicas (“cuánto suman tres mas dos”), responder una pregunta sencilla (¨de qué color es el cielo”), identificar un elemento de una foto (“haz clic sobre la flor roja”) o teclear una palabra que acabamos de escuchar. Pero todos ellos presentan alguna limitación, ya sea de cara a los discapacitados visuales o auditivos o bien la necesidad de saber idiomas. Por ello, el sistema más popular es el reCAPTCHA que el mismo Luis von Ahn creó en 2005 a partir de su CAPTCHA original. En él se muestran al usuario dos palabras inglesas deformadas que debe teclear para formalizar el envío del formulario web. Si alguna de las dos no se lee bien, hay un botón para solicitar otra combinación. También es accesible a los invidentes, que tienen la posibilidad de escuchar palabras y escribirlas a continuación.

El sistema, cuyo lema es “Stop Spam. Read Books”, fue adquirido por Google hace cuatro años y protege actualmente más de 200.000 sitios web y se estima que es utilizado 100 millones de veces cada día: los internautas pasamos 150.000 horas diarias tecleando esos 200 millones de palabras deformadas.

La clave de los reCAPTCHA es que todo ese tiempo no se malgasta, sino que tiene una utilidad muy determinada: cada vez que cumplimentamos un formulario estamos ayudando a digitalizar libros, revistas y programas de radio. Las dos palabras de cada pareja proceden de un sistema automático de digitalización de páginas impresas; una de ellas, que sirve de control, ha sido reconocida correctamente, pero la otra no. Cada palabra dudosa se muestra a varios usuarios -entre tres y 10, con un promedio de cinco- y el sistema adopta como correcta la transcripción más popular. De este modo se alcanza una precisión del 99,5% en el conjunto del texto, equivalente a la que obtendrían dos personas tecleándolo por separado y corrigiendo luego las discrepancias, pero con un coste infinitamente menor: hasta ahora más de 1.000 millones de internautas hemos trabajado haciendo gratis un trabajo de digitalización palabra a palabra que, aplicando el salario mínimo vigente en EEUU, costaría 500 millones de dólares anuales.

Por ahora, los principales beneficiarios son la biblioteca virtual de Google Books y el diario The New York Times: a finales de 2012 se llevaban digitalizados 30 años de su hemeroteca, y se espera terminarla antes de que comience 2014. También, a un ritmo más lento, se están transcribiendo emisiones antiguas de radio. Todo ello, eso sí, exclusivamente en inglés. Le he preguntado a Luis von Ahn por la posibilidad de incluir documentos en otros idiomas en el material a digitalizar mediante reCAPTCHA y me ha respondido que sería posible, pero que la decisión corresponde ahora a Google y le parece poco probable que lo haga.

Los reCAPTCHA son probablemente uno de los casos más masivos y menos conocidos decrowdsourcing, el trabajo voluntario distribuido mediante la red. Ésta es la especialidad de Von Ahn, que actualmente tiene 34 años y luce en su historial el haber rechazado una oferta de empleo que le hizo el mismísimo Bill Gates. En dicho historial figura también el juego ESP, en el que dos personas tenían que describir con palabras una misma imagen, y que Google utilizó en su momento para entrenar su sistema de identificación de fotografías, que actualmente ya funciona de modo autónomo.

Al igual que ESP, el proyecto que ocupa ahora a Louis van Ahn aplica también masivamente la gamificación, el uso de los juegos para llevar a cabo operaciones tediosas. Se llama Duolingo y de cara al usuario sirve para aprender idiomas: a partir de unas normas gramaticales básicas, propone frases de dificultad creciente que deben ser traducidas, y gana la versión más popular. En la trastienda, no obstante, es donde se encuentra su verdadera potencia: a partir de un cierto nivel, las frases a traducir proceden de páginas web en curso de traducción. Dicen que un millón de personas aprendiendo lenguas con Duolingo -que ya tiene más de tres millones de usuarios dados de alta- tardarían sólo 80 horas en traducir toda la Wikipedia inglesa a alguno de los otros idiomas que contempla el sistema. Yo ya me he apuntado a tratar de mejorar mi rudimentario alemán.

Fuente: El economista

Plantilla de Noticias