Ricerca personalizzata

mercoledì 25 marzo 2009

Come recuperare automaticamente i contenuti di siti web cancellati o scomparsi

Molto spesso quando si pubblica un contenuto in Internet, lo si fa non tenendo conto di tutte le conseguenze che tale azione può avere, prima tra tutte il fatto che nulla può essere più realmente rimosso definitivamente dal Web, sia che si tratti delle pagine del proprio blog che dei dati personali che ultimamente tutti amiamo sparpagliare ovunque su Facebook.

Di seguito vedremo come a livello pratico sia possibile, grazie a due servizi online gratuiti e utilizzabili da tutti, recuperare dei contenuti web (si va dalle singole pagine al sito intero) anche se di fatto sono stati rimossi o modificati:

  • WayBack Machine è il più grande archivio storico presente in Internet che vanta un database di oltre 10 miliardi di pagine web. Esso consente di accedere per data ai contenuti storici dei siti archiviati: in questa maniera, anche se un sito non esiste più o ha subito delle pesanti rivisitazioni, grazie a WayBack è possibile comunque ricostruirne facilmente le evoluzioni ed i cambiamenti nel tempo.
  • Warrick è un tool online che consente di recuperare singole pagine o interi siti rimossi da Internet in maniera totalmente automatizzata. E’ sufficiente inserire l’url di partenza e la propria email, dopodiché Warrick avvierà in asincrono il processo di recupero sfruttando in maniera intelligente le seguenti fonti:
    • Internet Archive (su cui si basa anche WayBack Machine)
    • la cache di Google
    • la cache di Yahoo
    • la cache di Live Search

    Al termine del processo, che potrà durare alcuni giorni (dipende tutto dalla quantità di pagine), Warrick vi invierà un’email contenente le istruzioni per scaricare lo zip contenente i contenuti recuperati. E’ molto interessante il fatto che Warrick è disponibile anche come script Perl scaricabile e gestibile quindi direttamente dal proprio computer via linea di comando.

A mio avviso Internet è uno strumento incredibilmente potente, in grado di annullare le distanze ed abbattere le frontiere, ma nello stesso tempo nasconde anche trappole insidiose che possono essere evitate solo attraverso il giusto mix di due ingredienti fondamentali:

  • una corretta informazione
  • l’uso della ragione ;-)


Nessun commento:

Privacy Policy

This site uses Google AdSense for advertisements. The DoubleClick DART cookie is used by Google in the ads served on publisher websites displaying AdSense for content ads. When users visit an AdSense publisher's website and either view or click on an ad, a cookie may be dropped on that end user's browser. The data gathered from these cookies will be used to help AdSense publishers better serve and manage the ads on their site(s) and across the web. * Google, as a third party vendor, uses cookies to serve ads on this site. * Google's use of the DART cookie enables it to serve ads to you users based on your visit to this site and other sites on the Internet. * Users may opt out of the use of the DART cookie by visiting the Google ad and content network privacy policy. We use third-party advertising companies to serve ads when you visit our website. These companies may use information (not including your name, address, email address, or telephone number) about your visits to this and other websites in order to provide advertisements about goods and services of interest to you.

Questo sito utilizza Google AdSense per la pubblicità. Il DoubleClick DART cookie è utilizzato da Google per gli annunci pubblicati su siti web publisher AdSense per i contenuti, visualizzazzandone gli annunci. Quando un utente visita un sito web publisher AdSense e clicca su un annuncio, un cookie può essere rilasciato a tal fine, nel browser dell'utente. I dati raccolti da questi cookie verranno utilizzati per aiutare i publisher AdSense a servire meglio e a gestire gli annunci sul loro sito(i) in tutto il web. * Google, come parte di terzo fornitore, utilizza i cookie per la pubblicazione di annunci su questo sito. * L'uso del DART cookie consente a Google di pubblicare annunci per gli utenti, e si basa sulla vostra visita a questo sito e su altri siti su Internet. * Gli utenti possono scegliere di utilizzare i DART cookie visitando i contenuti sulla privacy nell'annuncio di Google. Usiamo società di pubblicità per la pubblicazione di annunci di terze parti, quando si visita il nostro sito web. Queste aziende possono utilizzare le informazioni (non compreso il vostro nome, indirizzo, indirizzo e-mail, o numero di telefono) sulle visite a questo e ad altri siti web, al fine di fornire la pubblicità su beni e servizi di vostro interesse.