Qué esconde atras reCAPTCHA


Todos los que navegamos por internet nos encontramos a menudo con esas imágenes que contienen palabras y números aleatorios y, en ocasiones, deformados, y que debemos colocar de forma correcta en una caja de texto.

Sirven para verificar que somos humanos y no robots y validarnos la entrada a esa página o servicio. Esta herramienta es una forma de protegernos contra el spam y se llama CAPTCHA.

Hay una evolución de los captcha y se denomina Recapcha. Es gratis y fue comprada por Google. Tiene dos fines. El primero es el del capcha tradicional y el segundo es el de digitalizar publicaciones antiguas. Pero lo más curioso es que el trabajo más difícil lo hacemos nosotros cada vez que escribimos las palabras correctas en la caja de texto.

Una fuente de generar dinero de Google –otra más– es la digitalización de publicaciones antiguas con los Recapcha. Acaba de terminar la del New York Times. La mayor parte de ese trabajo lo realizan máquinas que hacen todo el proceso sin que el ser humano mueva un dedo. Tras escanear las hojas –se hace de forma automática–, se pasa al reconocimiento óptico de caracteres (OCR) que lee las palabras y las convierte en texto.

Sin embargo, esas máquinas no son perfectas y hay muchas palabras que, ya sea por la calidad de la publicación, la tinta o la conservación del papel, están borrosas y no las pueden leer. Y aquí es donde entramos nosotros, las personas.


Cada vez que los programas digitalizadores de texto no reconocen una palabra la pasan a una base de datos de Recaptcha. Al utilizar este servicio siempre encontramos dos palabras deformadas e incluso tachadas. Una es de control como la del capcha tradicional y es la que reconoce la máquina. La otra es la que no reconoce el OCR y la que nos está pidiendo que digamos ‘qué pone ahí’. Si varias personas coinciden en escribir la misma palabra, la herramienta la da por válida y así vamos, entre todos, completando la digitalización.

Ir al post original

SHARE ON:

    Blogger Comment

0 comentarios:

Publicar un comentario