Pesquisadores lutam para salvar memória da internet

Encontro de preservação digital na Califórnia reúne representantes de mais de 40 países com a preocupação de guardar para a posteridade o conteúdo da rede

PUBLICIDADE

Por Redação Link
Atualização:

Carlos Eduardo Entini

PUBLICIDADE

PALO ALTO – O século 21 corre risco de se tornar um “buraco negro” sem informações a seu respeito. O alerta, soado em fevereiro, veio de fonte graduada: Vint Cerf, vice-presidente do Google e um dos pioneiros da internet. “Corremos o risco de perder muito da nossa história”, explicou o executivo, que lembrou que nossas fotos, emails, tweets e toda a World Wide Web, existem apenas em formato digital, correndo sério risco de não serem recuperáveis no futuro. “Se você quisesse ver o que estava na web em 1994, você teria problemas em conseguir”, comparou.

O cenário descrito por Cerf já acontece. Um estudo desenvolvido e apresentado no encontro pela Biblioteca Nacional britânica, a partir de seu próprio arquivo web, mostrou que em 2013, 20% dos sites deixaram de existir e 30% tinha mudado de endereço, em relação ao ano anterior.

É essa a preocupação que norteou o Consórcio Internacional de Preservação da Internet, IIPC em inglês, realizada na semana passada. O evento reuniu mais de 140 pessoas de aproximadamente 40 países na Universidade de Stanford, em Palo Alto, na Califórnia. Na pauta, a preservação da internet e de softwares.

Cerf também participou do encontro do IIPC. Em entrevista ao Estado, declarou que se sentia mais aliviado ao ver a quantidade de pessoas presentes no encontro discutindo o tema.

Entre os projetos que merecem elogios, de acordo com Cerf, está o Olive Archive. Liderado pelo professor Mahadev Satyanarayanan, da Universidade de Carnegie Mellon, em Pittsburgh, a iniciativa conseguiu recuperar diversos softwares que hoje estão obsoletos, como Microsoft Office 6.0, de 1993, e o Netscape Navigator, de 1995.

Para Cerf, quando a internet foi criada, não havia a preocupação de preservar o conteúdo, nem o design da rede permitia isso. O objetivo dos usuários era basicamente compartilhar.

Publicidade

As diversas experiências apresentadas no encontro do IIPC mostram que o arquivamento web vem ganhando força ao redor do mundo. Já são centenas de iniciativas feitas em instituições públicas, privadas e governos. O país que está mais a frente são os EUA, com mais de 250 arquivos web.

Varredura

Os arquivos web variam de tamanho e propósito. Os maiores são os governamentais, que capturam todo o conteúdo gerado no país a partir da lista de domínios da internet. Em alguns países, a preservação digital está prevista em lei. É o caso da França, que estendeu o chamado “depósito legal” para o conteúdo digital, determinando assim que a Biblioteca Nacional da França tenha uma cópia de tudo que for produzido online no território francês.

Na outra ponta, existem os arquivos locais e específicos, que podem ser encontrados em muitas bibliotecas e instituições de ensino que organizam coleções sobre assuntos. Um exemplo é o da biblioteca de Columbia de Nova York, que tem uma biblioteca de sites sobre a evolução urbanística da cidade e sobre direitos humanos.

CONTiNUA APÓS PUBLICIDADE

O processo de captura do conteúdo a ser preservado é totalmente automático, feito por softwares. O mais usado é o Heritrix, de código aberto e desenvolvido por uma das maiores organizações não-governamentais de preservação digital, o Internet Archive. Esse tipo de ferramenta realiza uma varredura na rede conforme especificações previamente estabelecidas, como por exemplo, a busca por domínio. Essa operação é conhecida como “crawler”, e é basicamente o que fazem os buscadores como o Google. Em seguida, é feita a coleta dos sites escolhidos. Nesse processo pode entrar também o trabalho do curador responsável pela seleção do que deve ser capturado e arquivado, como acontece no caso da biblioteca de Columbia.

Nos casos em que a criação de uma estrutura para o arquivo web não é viável, é possível contratar o serviço do Archive It. Com o software, também desenvolvido pelo norte-americano Internet Archive, a instituição pode criar coleções, determinar o que vai ser coletado e gerenciar o conteúdo.

O Internet Archive é pioneiro na preservação web. Começou em 1996, e hoje já tem arquivado mais de 450 bilhões de páginas.

Publicidade

Big data

Em altaLink
Loading...Loading...
Loading...Loading...
Loading...Loading...

Além dos arquivos web preservarem a memória digital e contarem a história da internet, eles já estão mostrando uma outra virtude: produzir novas informações. A partir dos dados armazenados, será possível entender a própria dinâmica da internet. É o que propõe, por exemplo, Niels Brügger, da Universidade de Aarhurs, da Dinamarca. Seu projeto, já em andamento, é fazer um raio x da web dinamarquesa. No decorrer do tempo, com análise dos sites arquivados será possível saber as características da web através do tamanho dos sites, onde estão localizados no território, quais são as principais fontes tipográficas, cores utilizadas e outras características.

O Brasil ainda está fora dessa nova realidade. Sem uma política oficial de preservação, muitos de seus antigos sites sobrevivem graças ao Internet Archive. Daniel Gomes, do Arquivo da Web Portuguesa, fez uma estimativa do tamanho da web brasileira, caso fosse arquivada. Levando em consideração que o conteúdo nacional é cinco vezes maior do que o português, que cresce a 10 terabytes por ano, a brasileira teria na sua primeira coleta 50 terabytes.

Comentários

Os comentários são exclusivos para assinantes do Estadão.