Internet Archive

Das Internet Archive in San Francisco ist ein gemeinnütziges Projekt, das 1996 von Brewster Kahle gegründet wurde und seit 2007 den offiziellen Status einer Bibliothek hat. Gestartet wurde es als reines Webarchiv, bei dem man mit der sogenannten Wayback Machine archivierte Websites betrachten kann. Schon von 1999 an wurde es um weitere Archive erweitert, die somit eine digitale Bibliothek darstellen, welche heute große Sammlungen von Texten und Büchern, Audiodateien, Videos, Bildern und Software umfasst. Das Internet Archive hat sich die Langzeitarchivierung digitaler Daten in frei zugänglicher Form zur Aufgabe gemacht und legt dabei auch Wert auf Zugangsmöglichkeiten für blinde oder anders eingeschränkte Nutzer.

Neben der Funktion als Archiv versteht sich das Internet Archive auch als Aktivist für ein offenes und freies Internet sowie den Erhalt und die Verbreitung gemeinfreier Werke.^[1]

Entstehung und Geschichte

Altes Logo bis 2001

Brewster Kahle, Gründer von Alexa Internet und des Internet Archives (2015)

Spiegelserver mit den Daten von San Francisco in der ägyptischen Bibliotheca Alexandrina

Brewster Kahle gründete das Internet Archive im Mai 1996 als Non-Profit-Organisation nach Paragraph 501(c)(3) des US-amerikanischen Einkommensteuerrechts. Es erhielt gleich zu Beginn eine große Datenlieferung von Alexa Internet. Es speichert im Rahmen der Web-Archivierung sogenannte Mementos, d. h. Momentaufnahmen von Webseiten und Usenet-Beiträgen.^[2]

Von 1999 an wurde durch die Aufnahme der Prelinger Archives und später weiterer Sammlungen das Ziel auf eine umfassende frei zugängliche Bibliothek erweitert. Heute umfasst das Internet Archive eine Sammlung von über zehn Millionen Büchern und Texten, fast drei Millionen Videos und Filmen, über drei Millionen Audiodateien, 150.000 Computerprogrammen und mehr als einer Million Bilddateien. Das Webarchiv der Wayback Machine enthält inzwischen mehr als 330 Milliarden Webseiten.^[3]

Die Daten werden in vier Rechenzentren auf 20.000 Festplatten gespeichert. Ein Spiegelserver der Daten von San Francisco befindet sich unter anderem in der ägyptischen Bibliotheca Alexandrina. Im August 2014 erreichte die Sammlung eine Größe von 18,5 Petabytes.^[4]

Das Archiv ist vom US-Bundesstaat Kalifornien seit Anfang Mai 2007 offiziell als Bibliothek anerkannt.^[5]

Seit den Wahlen vom 8. November 2016 plant das Internetarchiv nach Aussage auf seiner Website, eine permanent aktualisierte Kopie in Kanada zu hinterlegen.^[6]

Dienste

Webarchiv

Die Wayback Machine („Take Me Back“) ist ein Onlinedienst, mit dem man die gespeicherten Webseiten in verschiedenen Versionen abrufen kann. Die zu speichernden Seiten werden über den Dienst Alexa Internet ausgewählt. Alle dort hinterlegten URLs werden regelmäßig aufgerufen und archiviert. Man kann eine noch nicht gespeicherte Internet-Ressource auch von Hand, durch Suchen nach der Seite und anschließendes Bestätigen der Aufnahme, aufnehmen lassen (Dateiinhalte, z. B. JPG-Bilder, werden ohne vorherige Nachfrage gespeichert). Der Gesamtumfang betrug im November 2009 etwa 150 Milliarden Seiten und wuchs bis Oktober 2016 auf über 273 Milliarden Seiten an.

Mit Archive-It wurde 2006 ein weiteres Webarchiv-Service für individuelle Webarchivierung bereitgestellt. Hierbei haben Institutionen und Einzelpersonen die Möglichkeit, digitale Sicherungen ihrer Sammlungen anzulegen und die Freigabe der Daten selbst festzulegen. Archive-It verfügt über 400 Partner aus 16 Staaten weltweit, wobei sich diese vor allem aus Universitäten, staatlichen Archiven, Museen und Kunstbibliotheken, öffentlichen Bibliotheken sowie weiteren öffentlich-rechtlichen Institutionen und NGOs zusammensetzen. Archive-It bietet für teilnehmende Partner eine Volltextsuche auf ihre Inhalte, aber auch die Möglichkeit, mit Metadaten angereicherte strukturierte Datensätze für Forscher zu exportieren.^[7]

Die Aufnahme der Prelinger Archives^[8] im Jahr 1999 war die erste über die Webarchivierung hinausgehende Erweiterung des Internet Archives. Es enthält heute gut drei Millionen Videos und Filme, die unter freier Lizenz oder Public Domain stehen. Es wird hier auch an einem Archiv für Fernsehsendungen gearbeitet.

Textarchiv

In dem Million Book Project werden durch das Internet Archive Bücher, die durch das Ablaufen des Copyrights (US-amerikanisches Urheberrecht) oder aus anderen Gründen gemeinfrei geworden sind, digitalisiert und zum Herunterladen zur Verfügung gestellt. Die Digitalisate sind Teil der Open Library. Inzwischen sind mehr als zehn Millionen Bücher und Texte archiviert.

Es werden mehrere Scan-Center (2009 insgesamt zwölf) unterhalten, zum Beispiel in Richmond. Gescannt wird per Auftrag, berechnet werden pro Seite zehn US-Cent (Stand 2009). Die Auftraggeber, meist Bibliotheken, erhalten das Digitalisat, eine per OCR erzeugte Textdatei, eine persistente Internetadresse sowie die Möglichkeit, die Digitalisate auf den Servern des Vereins zu speichern.^[9] Weiterhin bestehen Kooperationsvereinbarungen mit selbst digitalisierenden Bibliotheken für einzelne Dienste, wie OCR und redundantes Hosting.

Softwarearchiv

Die Library of Congress hat im Dezember 2006 sechs Ausnahmen des US-Copyright-Gesetzes Digital Millennium Copyright Act gewährt. Das Internet Archive darf somit Computer-Software oder -Spiele, welche zu Abandonware wurden, mit der Absicht der Erhaltung speichern, wenn die Originalhardware, -formate oder -technik veraltet sind. 2013 begann das Internet Archive damit, Spieleklassiker als spielbares Webbrowser-Streaming via M.E.S.S.-Emulation anzubieten, z. B. das Atari-2600-Videospiel E.T. the Extra-Terrestrial. Vom 23. Dezember 2014 an werden zu Lehr- und Forschungszwecken mithilfe von DOSBox-Emulation im Browser tausende von klassischen DOS-Computerspielen präsentiert.^[10]

Internet Archive in San Francisco (1996–2009)

Neue Zentrale des Internet Archive seit November 2009 in einer ehemaligen „Christian Science“-Kirche

Internet Archive in der Bibliotheca Alexandrina. Hinter den Glasscheiben stehen die Racks mit den Archivcomputern.

Video einer Vorführung der Digitalisierungstechnik des Internet Archives von Brewster Kahle, 29. März 2013.

Audioarchiv

Das Audioarchiv enthält bereits seit 2017 über drei Millionen Tonaufnahmen. Diese reichen von Radiosendungen und Radio-Features über Hörbücher, Dichterlesungen, Live-Konzertmitschnitten bis hin zu Musik, die von Benutzern hochgeladen wurde. Das Archiv kann auch genutzt werden, um Podcasts zu veröffentlichen.^[11]

Bildarchiv

Im Bildarchiv sind bereits mehr als 1 1/4 Millionen Bilddateien verfügbar. Es handelt sich dabei um Abbildungen von Kunstwerken, so existiert eine Sammlung von Abbildungen des Metropolitan Museum of Art mit über 100.000 Einträgen, Abbildungen von historischen Landkarten, astronomische Aufnahmen der NASA, Schallplattencover sowie auch frei verfügbare Aufnahmen von Privatpersonen.

Bucharchiv – digitale Scans zitierten Bücher

Um die Glaubwürdigkeit von referenzierten Zitaten aus Büchern in der Wikipedia zu verbessern, gibt es seit 2019 eine Kooperation^[12] zwischen der Wikipedia und dem Internet Archiv. Es wurde damit begonnen, den Quellenangaben in Wikipedia-Artikeln digitale Scans der zitierten Bücher anzufügen.^[13] Auf jeweils zwei Seiten wird die fragliche Passage dargestellt. Ein Beispiel hierfür ist das Zitat Nummer 104 (Stand 14. November 2019) im englischsprachigen Artikel über Martin Luther King.

Finanzierung

Das Internet Archive finanziert sich durch Spenden und Zuwendungen diverser Stiftungen, Institute und Vereinigungen aus den Bereichen Bildung, Forschung, Wissenschaften etc. Im April 2019 wurden vom Internet Archive folgende Geldgeber angegeben: Andrew W. Mellon Foundation, Council on Library and Information Resources, United Nations Democracy Fund, Federal Communications Commission Universal Service Program for Schools and Libraries (E-Rate), Institute of Museum and Library Services (IMLS), Knight Foundation, Laura and John Arnold Foundation, National Endowment for the Humanities (Office of Digital Humanities), National Science Foundation, The Peter and Carmen Lucia Buck Foundation, The Philadelphia Foundation, Rita Allen Foundation.^[14]

Siehe auch

Internet Archive - Artikel in der deutschen Wikipedia
WebCite - Artikel in der deutschen Wikipedia
Archive.is - Artikel in der deutschen Wikipedia

Weblinks

Commons: Internet Archive – Sammlung von Bildern, Videos und Audiodateien

Offizielle Website Internet Archive (englisch)
Offizielle Website WayBack Machine (englisch)
Mirrorseite des Webarchivs bei Bibliotheca Alexandrina
Steffan Heuer: Online in die Vergangenheit, Technology Review, 21. Dezember 2004
Vorlage:Webarchiv/Wartung/SternBeispiel Archivversionen für die de.wikipedia.org (Archivversionen)
Elektrischer Reporter S01E07 - Brewster Kahle über das Internet-Archiv. 2006; abgerufen am 11. August 2013. Mario Sixtus für Handelsblatt I.com (HI), BlinkenTV, veröffentlicht 16. März 2011, youtube.com (Video 14:34, deutsch/englisch)
Jonathan Minard (Regisseur), John Behrens, Alexander Porter, Fearghal O'dea: Dokumentation über das Internet Archive (2012). Abgerufen am 11. August 2013 (english).
Adrian Lobe: „Wayback Machine“. Netz-Gedächtnis der Menschheit lagert in einer Kirche. In: Frankfurter Allgemeine Zeitung, 30. Mai 2015.
Jürgen Schmieder: Wo das ganze Netz gespeichert wird. In: Süddeutsche Zeitung, 19. Mai 2017.

Einzelnachweise

↑ Internet Archive, Prelinger Archives, and Project Gutenberg Literary Archive Foundation: FILED ON BEHALF OF PETITIONERS – INTEREST OF AMICI CURIAE
↑ About the Internet Archive abgefragt am 29. Oktober 2016.
↑ archive.org: Explore more than 332 billion web pages saved over time
↑ archive.org
↑ Internet Archive forum: Internet Archive officially a library
↑ Brewster Kahle: Help Us Keep the Archive Free, Accessible, and Reader Private. In: Internet Archive Blogs. 29. November 2016, abgerufen am 21. April 2017 (english).
↑ Archive-It About Us
↑ Prelinger Archives: Thousands Of Old Films To Watch, Remix & Use In Your Own Projects makeuseof.com, abgefragt am 29. Oktober 2016.
↑ Das digitale Alexandria. In: Die Zeit. 4/2008.
↑ Each New Boot a Miracle by Jason Scott (23. Dezember 2014)
↑ How to Host Podcast MP3 on Archive.org. In: TurboFuture. (turbofuture.com [abgerufen am 4. August 2017]).
↑ Wikipedia:Wikimedia:Woche/2019-11-14. In: Wikipedia. 14. November 2019 (wikipedia.org [abgerufen am 14. November 2019]).
↑ Süddeutsche Zeitung: Fotobeweis. Abgerufen am 14. November 2019.
↑ About the Internet Archive. In: Homepage. Internet Archive, 2019, abgerufen am 23. April 2019.

Dieser Artikel basiert (teilweise) auf dem Artikel Internet Archive aus der freien Enzyklopädie Wikipedia in der Fassung 194313658 vom 04. December 2019 und steht unter der GNU Lizenz für freie Dokumentation und der Creative Commons Attribution/Share Alike. Auf Wikipedia ist eine Liste der Autoren verfügbar. Veränderungen seither in Imedwiki. Veränderungen seither in Wikipedia.Weiteres zum Import aus Wikipedia siehe Seite Imedwiki:Import aus Wikipedia.

[1] Internet Archive, Prelinger Archives, and Project Gutenberg Literary Archive Foundation: FILED ON BEHALF OF PETITIONERS – INTEREST OF AMICI CURIAE

[2] About the Internet Archive abgefragt am 29. Oktober 2016.

[3] rchive.org: Explore more than 332 billion web pages saved over time

[4] rchive.org

[5] Internet Archive forum: Internet Archive officially a library

[6] Brewster Kahle: Help Us Keep the Archive Free, Accessible, and Reader Private. In: Internet Archive Blogs. 29. November 2016, abgerufen am 21. April 2017 (english).

[7] Archive-It About Us

[8] Prelinger Archives: Thousands Of Old Films To Watch, Remix & Use In Your Own Projects makeuseof.com, abgefragt am 29. Oktober 2016.

[9] Das digitale Alexandria. In: Die Zeit. 4/2008.

[10] Each New Boot a Miracle by Jason Scott (23. Dezember 2014)

[11] How to Host Podcast MP3 on Archive.org. In: TurboFuture. (turbofuture.com [abgerufen am 4. August 2017]).

[12] Wikipedia:Wikimedia:Woche/2019-11-14. In: Wikipedia. 14. November 2019 (wikipedia.org [abgerufen am 14. November 2019]).

[13] Süddeutsche Zeitung: Fotobeweis. Abgerufen am 14. November 2019.

[IntArch-14] About the Internet Archive. In: Homepage. Internet Archive, 2019, abgerufen am 23. April 2019.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]