Internet: preservando el patrimonio intelectual de la humanidad

En 1969, el Proyecto ARPANET logró enviar un mensaje desde una computadora en la Universidad de California en Los Ángeles, a otra computadora en el Instituto de Investigación de Stanford en Menlo Park. Originalmente desarrollada para comunicaciones militares, y después para centros de educación superior, la red siguió creciendo y haciendo más conexiones, hasta que finalmente se comercializó para el público. Casi cincuenta años después de su nacimiento, el internet es una parte inseparable de nuestras vidas. Esta herramienta tuvo su mayor crecimiento durante los años 90 y continúa creciendo hoy en día: se estima que en el año 2000, el 51% de las telecomunicaciones ocurrían por internet; para el 2007, esta cifra ascendió a un sorprendente 97%.

Se estima que diariamente se agregan 2.5 millones de terabytes (el equivalente a llenar la memoria de 28.75 mil millones de iPads) a los ya existentes 1.1 zettabytes (el equivalente a unos 36 mil años de video HD) de información en internet. El 90% de este contenido no tiene más de dos años de haber sido generado, y se están realizando enormes esfuerzos para subir la mayor cantidad de información generada por la humanidad a “la nube”: ese espacio irreal e intocable donde la información puede guardarse para siempre.

(Read this entry in English)

Las computadoras tuvieron que aprender rápidamente cómo trabajar con tanta información y ayudar a los usuarios a completar sus tareas. Así surgieron los bots: softwares que realizan tareas simples y repetitivas de forma automatizada, a una velocidad mucho mayor que la humana. Si bien la mayoría de los bots son inocuos y hasta necesarios para que el funcionamiento del internet como lo conocemos, algunos fueron generados con intenciones criminales. Algunos bots, por ejemplo, están programados para sobrepasar las medidas de seguridad de las páginas web de compra-venta de boletos de espectáculos y compran miles de entradas destinadas para la reventa.

En el año 2000, el guatemalteco Luis von Ahn introdujo un invento que revolucionaría la seguridad en internet. Conocido como CAPTCHA (por sus siglas en inglés Completely Automated Public Turing test to tell Computers and Humans Apart, Prueba de Turing Completamente Automatizada para Distinguir entre Computadoras y Humanos), la prueba consiste en una imagen ligeramente distorsionada con caracteres/palabras al azar, mismas que el usuario debe repetir en un cuadro de entrada de texto. Si la secuencia en la imagen y la del usuario concuerdan, el usuario completará exitosamente la acción deseada.

Lo que hace tan especial a CAPTCHA es que está diseñada para ser una prueba que las computadoras no pueden hacer, pero los humanos sí. Se le ha llamado la “Prueba de Turing Inversa”, ya que la original prueba de Turing probaba la habilidad de una máquina de exhibir un comportamiento inteligente indistinguible del de un humano (como estructurar oraciones coherentes o jugar una partida de ajedrez); sin embargo, CAPTCHA busca asegurar que el usuario es humano.

Esto se logra de la manera siguiente:

Algunos softwares (incluyendo algunos bots de reventa, por seguir el ejemplo anterior), conocidos como OCR (por sus siglas en inglés Optical Character Recognition, Reconocimiento Óptico de Caracteres) usan algoritmos para “leer” textos que no están en formato de texto per se: por ejemplo, un documento escaneado, que técnicamente es una imagen. Sin embargo, el OCR suele tener muchas limitantes. Si el texto no es perfectamente legible, la computadora no podrá leerlo o lo leerá con errores. Por otro lado, un usuario humano podrá interpretar la imagen CAPTCHA aunque ésta está distorsionada e introducirá la secuencia correcta.

Las limitaciones del OCR ayudan a que los bots no puedan realizar acciones que están reservadas para los usuarios humanos, pero también presentan otro problema: algunas organizaciones como Google y Amazon están digitalizando libros utilizando software OCR, básicamente escaneando cada página de los libros y extrayendo el texto por computadora para luego guardar la transcripción digitalizada. Con esto se busca preservar el patrimonio intelectual de la humanidad y hacerlo accesible al público en general.

Sin embargo, el OCR tiene problemas con libros de más de 50 años porque la tinta es borrosa o tenue, o hay manchas y líneas que impiden la lectura correcta, y se pierde alrededor del 30% de la información.

En 2007, Luis von Ahn lanzó una segunda versión de CAPTCHA, esta vez llamada ReCAPTCHA, que muestra dos palabras en inglés completas al usuario; una de las cuales es incógnita para la computadora porque el OCR no la pudo leer. El usuario interpretará ambas: si ambas están correctas, se considera que el usuario es humano y, si varios humanos concuerdan en la misma interpretación para la palabra incógnita, el software OCR aprenderá de ellos y la digitalizará.

En 2009, Google compro el proyecto ReCAPTCHA, gracias al cual se procesan 200 millones de palabras diariamente. El esfuerzo conjunto de casi 900 millones de usuarios de internet que han completado al menos un CAPTCHA en sus vidas ayuda a digitalizar unos 2 millones de libros al año.

Sin embargo, CAPTCHA y ReCAPTCHA han tenido un descenso en su uso y aceptación. La mayoría de los usuarios considera que CAPTCHA es molesto e innecesario, porque desconocen su verdadera función. Contestar un CAPTCHA significa más que tomarse 10 segundos más para completar una acción en internet, o agregar una capa de seguridad. Significa que los usuarios humanos estamos jugando un papel importante en la evolución de la tecnología y la inteligencia artificial: le estamos enseñando a las máquinas cómo piensa y se comporta un ser humano, permitiéndoles –en un futuro que podría ser distante o no – ayudarnos a realizar nuestro trabajo de manera más rápida y, sobre todo, preservar el conocimiento de la raza humana.

2 opiniones en “Internet: preservando el patrimonio intelectual de la humanidad”

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *