Publicado el 26 de septiembre de 2017 por Guillermo en Preservación digital, Software libre
Actualmente estoy asesorando a una organización en materia de archivo web. Esta organización está construyendo un nuevo sitio web para reemplazar el actual y no tiene previsto migrar el contenido, por lo que necesita archivar su web actual con el fin de preservar su patrimonio digital y que los usuarios puedan conocer la actividad que ha desarrollado en los últimos años. La conservación de la memoria histórica, la transparencia o la creación y difusión de colecciones digitales son algunas de las motivaciones que encontramos detrás del archivo de un sitio web. Una práctica necesaria –urgente, podríamos decir– para evitar la “era oscura digital” predicha por Vint Cerf, uno de los padres de la red de redes.
Tanto el contenido como el diseño de una web son dinámicos y la única manera de conservar este historial de cambios es archivando la web periódicamente. Desgraciadamente, la mayoría de las organizaciones y particulares solo se preocupa de archivar su web cuando la van a cerrar (lo que se conoce como clasure crawl), o la cierra sin ni siquiera archivarla.
Muchas personas todavía no son conscientes de que los sitios web representan una porción muy importante de nuestro patrimonio digital. Los sitios web suelen contener evidencias únicas sobre la actividad de una organización, como campañas, informes, convocatorias, etc. También es habitual que cuenten con un blog, una tipo de publicación digital en el que encontramos artículos, infografías o imágenes no disponibles en otros soportes.
La falta de conciencia sobre el valor histórico de los sitios web (y también científico, literario o artístico, dependiendo del tipo de sitio) es una de las mayores amenazas para su conservación a largo plazo. Otro peligro muy importante es la censura en internet, que ocasiona el cierre sitios web (como hemos visto recientemente en Alemania o Cataluña) y que, como denunció recientemente la Electronic Frontier Foundation, ejercen tanto los estados como las empresas privadas. Organizaciones dedicadas a la conservación del patrimonio digital, como Internet Archive, prevén mayores restricciones en el ciclo político actual y están replicando sus servidores en otros países y archivando los datos disponibles en páginas web gubernamentales.
A nivel técnico, los principales retos del archivo de sitios web son asegurar la integridad del contenido, proporcionar al usuario una experiencia de navegación lo más fiel posible a la original y permitir la recuperación de la información mediante texto libre, lenguaje controlado o ambos.
Cuando hablamos de un sitio web, hay que tener en cuenta que no estamos hablando únicamente de un conjunto de páginas HTML, sino también de hojas de estilo CSS, líneas de código JavaScript, imágenes, archivos PDF, etc. Asimismo, cuestiones como si el sitio continuará o no indexado en los buscadores y qué herramientas pondremos a disposición del usuario para realizar búsquedas afectarán a la manera en que se recuperará la información. Finalmente, si vamos a habilitar búsquedas mediante lenguaje controlado, tendremos que definir los metadatos y asignarlos a las páginas (o colecciones de páginas) del sitio archivado.
Los expertos distinguen tres enfoques técnicos para archivar una web: transaccional, en el lado del servidor y en el lado del cliente.
Aunque existen soluciones basadas en software libre para los tres escenarios, me voy a centrar en aquellas que trabajan en el lado del cliente, por ser el método más común de archivar una web. Las más conocidas son Heritrix y Wayback Machine, dos herramientas libres y de código abierto desarrolladas por Internet Archive para facilitar su labor de archivar internet.
Heritrix es un rastreador web (web crawler) que captura de manera remota las URL de un dominio. El contenido capturado es guardado en archivos Web ARChive (WARC), formato definido como un estándar internacional en la ISO 28500:2009 y, más recientemente, en la ISO 28500:2017. El formato WARC guarda tanto el texto HTML cómo las imágenes, los estilos, el código JavaScript, etc.
Wayback Machine podría definirse como un buscador y visor de archivos WARC. Los archivos WARC también pueden ser indexados utilizando NutchWAX o buscadores basados en Lucene como Solr y Elasticsearch. Mientras que Wayback Machine utiliza la URL original o metadatos para recuperar el contenido del sitio web, NutchWAX, Solr y Elasticsearch permiten realizar búsquedas mediante texto libre.
Otra solución muy conocida es Netarchive Suite, una plataforma que cubre todo el proceso de archivo web, desde la captura de contenido hasta su visualización por parte del usuario final. Utiliza Heritrix para la captura y Viewerproxy o Wayback Machine para el acceso. Esta herramienta es el resultado de una historia de colaboración entre bibliotecas que comenzó en Dinamarca, donde la Biblioteca Real y la Biblioteca del Estado y la Universidad se pusieron a trabajar en 2004 en un programa para preservar y difundir los sitios web danses. Al año siguiente lo pusieron en producción y en 2007 lo liberaron bajo licencia GPL, lo que permitió que se fueran sumando al proyecto instituciones de otros países, incluida la Biblioteca Nacional de España, que utiliza este software libre desde 2014 para la elaboración del archivo de la web española.
Otra solución interesante es Archive-It, un servicio de archivo web en la nube (SaaS) mantenido por Internet Archive y basado en Heritrix y Wayback Machine. El importe de la suscripción anual se calcula en base al número de sitios que se quiere archivar, el espacio que ocupan y la frecuencia con la que se va a capturar. La mayor fortaleza de esta opción es que Internet Archive guarda tres copias de los sitios web archivados y asegura el almacenamiento perpetuo de los mismos; o, dicho de otra manera, los sitios webs archivados mediante Archive-It continúan en línea para siempre aunque el cliente deje de pagar la cuota.
Espero que esta panorámica de las soluciones de archivo web basadas en software libre te haya parecido interesante y, como de costumbre, te animo a dejar en la sección de comentarios tus dudas o sugerencias.
Deja un comentario