Web-Archivierung: Unterschied zwischen den Versionen

[unmarkierte Version]

Aktuelle Version vom 19. April 2022, 10:16 Uhr

Web-Archivierung bezeichnet das Sammeln und dauerhafte Ablegen von Netzpublikationen mit dem Zweck, in der Zukunft Öffentlichkeit und Wissenschaft einen Blick in die Vergangenheit bieten zu können. Ergebnis des Vorgangs ist ein Web-Archiv.

Die größte internationale Einrichtung zur Web-Archivierung ist das Internet Archive in San Francisco (USA), das sich als Archiv des gesamten World Wide Web versteht. Staatliche Archive und Bibliotheken in vielen Ländern unternehmen Anstrengungen zur Sicherung der Netzüberlieferung in ihrem Bereich.

Die deutschen Archivgesetze definierten ab 1987 die Archivierung digitaler Unterlagen als Pflichtaufgabe der staatlichen Archive, die Umsetzung dieses Auftrags läuft aber erst an. Im Jahr 2006 wurde das DNBG (Gesetz zur deutschen Nationalbibliothek) verabschiedet, das den Auftrag der Deutschen Nationalbibliothek auf die Archivierung von Websites ausdehnt. Auch die Bundesländer planen, ihre Pflichtexemplar-Gesetze in diesem Sinne zu ändern, oder haben die Änderung bereits vollzogen.

Archivierungsziele

Web-Archivierung verfolgt das Ziel, einen definierten Ausschnitt der im Internet vorhandenen Web-Präsenzen in systematischer Form abzubilden. Hierfür sind eine übergreifende Sammlungspolitik, ein Auswahlverfahren und die Häufigkeit der Archivierung vorab zu klären.

Eine archivierte Website sollte mit allen multimedialen Funktionen (HTML-Code, Stylesheets, JavaScript, Bilder und Video) auf Dauer erhalten werden. Der späteren Beschreibung, Nutzung und Erhaltung dienen Metadaten wie Provenienz, Übernahmezeitpunkt, MIME-Type und Umfang der Daten. Die Metadaten sichern Authentizität und Integrität der digitalen Archivalien.

Nach der Übernahme sind technische und juristische Vorkehrungen zu treffen, um eine ständige öffentliche Zugänglichkeit zu garantieren und eine nachträgliche Veränderung der Archivalien zu verhindern.^[1]

Begrifflichkeiten

Original Resource: Eine originale Quelle, die aktuell im Internet vorhanden ist oder vorhanden sein sollte und für die ein Zugriff auf einen früheren Zustand benötigt wird.^[2]^[3]
Memento: Ein Memento einer originalen Quelle ist eine Ressource, die den originalen Zustand einer Quelle zu einem definierten Zeitpunkt kapselt.^[2]^[3]
TimeGate: Ein TimeGate ist eine Ressource, die auf Basis eines vorgegebenen Datums und einer Zeitangabe jenes Memento findet, welches dieser zeitlichen Vorgabe am besten entspricht.^[2]^[3]
TimeMap: Eine TimeMap ist eine Ressource, welche eine Liste aller Mementos ausgibt, die für die originale Quelle je angelegt wurden.^[2]^[3]

Auswahlverfahren

Unspezifisch: Bei diesem Auswahlverfahren wird eine ganze Domain nach und nach in ein Archiv geschrieben. Das Verfahren funktioniert wegen des großen Speicherbedarfs nur bei kleineren Domains (netarkivet.dk).
Auswahlliste: Eine Liste von Institutionen wird vorab festgelegt. Die Stabilität der mit den Institutionen verbundenen URLs ist regelmäßig zu prüfen.
Nutzung von Zugriffsstatistiken: In Zukunft ist ein „intelligentes“ Harvesting (dt. Ernten) denkbar, das aufgrund von Zugriffszählungen diejenigen Teile des Web (oder einer Auswahl) archiviert, die besonders hohe Zugriffsraten aufweisen.

Übernahmemethoden

Remote harvesting

Die üblichste Archivierungsmethode ist die Nutzung eines Webcrawlers. Ein Web-Crawler ruft die Inhalte einer Website wie ein menschlicher Nutzer ab und schreibt die Ergebnisse in ein Archivobjekt.

Genauer betrachtet bedeutet das ein rekursives Durchsuchen von Webseiten anhand der darauf gefundenen Links, ausgehend von einem gewissen Startbereich, der entweder eine Webseite oder auch eine Liste an Webseiten, die durchsucht werden sollen, sein kann. Aufgrund mengenmäßiger Limitationen, etwa wegen Dauer oder Speicherplatz, sind diverse Einschränkungen hinsichtlich Tiefe und der zu archivierenden Dateiarten möglich.

Bei größeren Projekten kommt hierbei der Bewertung von Webseiten zur URL-Reihung eine besondere Bedeutung zu. Im Verlauf eines Crawl-Vorganges können sich unter Umständen sehr viele Webadressen ansammeln, die dann entweder in einer Liste nach dem FIFO-Verfahren oder als Prioritätswarteschlange abgearbeitet werden. Für letzteren Fall kann man sich die Webseiten dabei in einer Heap-Struktur vorstellen. Jede Webseite an sich bildet einen eigenen Heap und jeder darin gefundene Link zu einer weiteren Webseite bildet wiederum einen Unterheap, der ein Element im Heap der vorhergehenden Webseite darstellt. Das hat auch den Vorteil, dass im Fall einer überlaufenden URL-Liste zuerst diejenigen mit der niedrigsten Priorität durch neue Einträge ersetzt werden.

Die Ausgangsstruktur auf dem Server lässt sich allerdings im Archiv nur selten exakt nachbauen. Um bereits im Vorfeld einer Spiegelung eventuell auftretende technische Probleme ausschließen zu können, bietet es sich an, vorab eine Analyse der Webseite durchzuführen. Dies verdoppelt zwar in den meisten Fällen den Datenverkehr, verkürzt aber die aufzuwendende Arbeitszeit im Fehlerfall erheblich.^[4]

Beispiele für Webcrawler sind:

Heritrix
HTTrack
Offline Explorer

Archivierung des Hidden Web

Das Hidden Web oder Deep Web bezieht sich auf Datenbanken, die oft die eigentlichen Inhalte einer Website repräsentieren und nur auf Anfrage eines Nutzers ausgegeben werden. Auch dadurch ändert sich das Web ständig und es erscheint, als würde dieses eine unendliche Größe besitzen. Zur Übernahme dieser Datenbanken ist eine Schnittstelle erforderlich, die meist auf XML beruht. Für einen solchen Zugang sind die Tools DeepArc (Bibliothèque nationale de France) und Xinq (National Library of Australia) entwickelt worden.

Transactional archiving

Dieses Verfahren dient der Archivierung der Ergebnisse eines Nutzungsprozesses von Websites. Es ist für Einrichtungen von Bedeutung, die aus rechtlichen Gründen einen Nachweis über ihre Nutzung zu führen haben. Voraussetzung ist die Installation eines Zusatzprogramms auf dem Webserver.

Siehe auch

Web-Archivierung - Artikel in der deutschen Wikipedia
Compliant Transaction Recording - Artikel in der deutschen Wikipedia
Content-Lifecycle - Artikel in der deutschen Wikipedia
Elektronische Archivierung - Artikel in der deutschen Wikipedia
Langzeitarchivierung - Artikel in der deutschen Wikipedia
Open Archives Initiative - Artikel in der deutschen Wikipedia
Web ARChive - Artikel in der deutschen Wikipedia

Umsetzungen

Die „Wayback Machine“ des Internet Archives
Archive.is
WebCite

Weblinks

International Internet Preservation Consortium (IIPC) – Internationales Konsortium mit der Aufgabe, Informationen und Wissen aus dem Internet für künftige Generationen zu übernehmen, zu erhalten und zugänglich zu machen
International Web Archiving Workshop (IWAW) – Jährlich stattfindender Workshop zur Web-Archivierung
The Library of Congress, Digital Collections and Programs
Library of Congress, Web Archiving
Web archiving bibliography – Literaturliste zur Web-Archivierung
Web archiving discussion list – Diskutiert technische, organisatorische und rechtliche Fragen der Web-Archivierung
Literatur von Michael L. Nelson – wissenschaftliche Artikel auf dblp.uni-trier.de
Arbeitskreis Elektronische Archivierung der Vereinigung Deutscher Wirtschaftsarchivare (AKEA)

Einzelnachweise

↑ Steffen Fritz: Rewriting History. (PDF) with WARC files. Januar 2016, archiviert vom Original am 9. November 2017; abgerufen am 9. November 2017 (english).
↑ ^{Hochspringen nach: 2,0} ^2,1 ^2,2 ^2,3 RfC 7089 HTTP Framework for Time-Based Access to Resource States – Memento
↑ ^{Hochspringen nach: 3,0} ^3,1 ^3,2 ^3,3 Memento Guide: Introduction. Abgerufen am 5. Oktober 2018 (english).
↑ Steffen Fritz: Praxisreport: Verfahren zur Evaluierung der Archivierbarkeit von Webobjekten In: ABI Technik Nr. 2, 2015, S. 117–120. doi:10.1515/abitech-2015-0015

Dieser Artikel basiert (teilweise) auf dem Artikel Web-Archivierung aus der freien Enzyklopädie Wikipedia in der Fassung 193749872 vom 14. November 2019 und steht unter der GNU Lizenz für freie Dokumentation und der Creative Commons Attribution/Share Alike. Auf Wikipedia ist eine Liste der Autoren verfügbar. Veränderungen seither in Imedwiki. Veränderungen seither in Wikipedia.Weiteres zum Import aus Wikipedia siehe Seite Imedwiki:Import aus Wikipedia.

[1] Steffen Fritz: Rewriting History. (PDF) with WARC files. Januar 2016, archiviert vom Original am 9. November 2017; abgerufen am 9. November 2017 (english).

[rfc7089-2] {Hochspringen nach: 2,0} ^2,1 ^2,2 ^2,3 RfC 7089 HTTP Framework for Time-Based Access to Resource States – Memento

[mementoweb-3] {Hochspringen nach: 3,0} ^3,1 ^3,2 ^3,3 Memento Guide: Introduction. Abgerufen am 5. Oktober 2018 (english).

[tech_analyse-4] Steffen Fritz: Praxisreport: Verfahren zur Evaluierung der Archivierbarkeit von Webobjekten In: ABI Technik Nr. 2, 2015, S. 117–120. doi:10.1515/abitech-2015-0015

[1]

[2]

[3]

[4]

@@ Zeile 1: / Zeile 1: @@
-'''Web-Archivierung''' bezeichnet das Sammeln und dauerhafte Ablegen von [[Netzpublikation]]en mit dem Zweck, in der Zukunft Öffentlichkeit und Wissenschaft einen Blick in die Vergangenheit bieten zu können. Ergebnis des Vorgangs ist ein '''Web-Archiv'''.
+'''Web-Archivierung''' bezeichnet das Sammeln und dauerhafte Ablegen von [[Wikipedia:Netzpublikation|Netzpublikation]]en mit dem Zweck, in der Zukunft Öffentlichkeit und Wissenschaft einen Blick in die Vergangenheit bieten zu können. Ergebnis des Vorgangs ist ein '''Web-Archiv'''.
 Die größte internationale Einrichtung zur Web-Archivierung ist das [[Internet Archive]] in San Francisco (USA), das sich als Archiv des gesamten World Wide Web versteht. Staatliche Archive und Bibliotheken in vielen Ländern unternehmen Anstrengungen zur Sicherung der Netzüberlieferung in ihrem Bereich.
-Die deutschen [[Bundesarchivgesetz (Deutschland)|Archivgesetze]] definierten ab 1987 die Archivierung digitaler Unterlagen als Pflichtaufgabe der staatlichen Archive, die Umsetzung dieses Auftrags läuft aber erst an. Im Jahr 2006 wurde das DNBG (Gesetz zur deutschen Nationalbibliothek) verabschiedet, das den Auftrag der [[Deutsche Nationalbibliothek|Deutschen Nationalbibliothek]] auf die Archivierung von Websites ausdehnt. Auch die Bundesländer planen, ihre [[Pflichtexemplar]]-Gesetze in diesem Sinne zu ändern, oder haben die Änderung bereits vollzogen.
+Die deutschen [[Wikipedia:Bundesarchivgesetz (Deutschland)|Archivgesetze]] definierten ab 1987 die Archivierung digitaler Unterlagen als Pflichtaufgabe der staatlichen Archive, die Umsetzung dieses Auftrags läuft aber erst an. Im Jahr 2006 wurde das DNBG (Gesetz zur deutschen Nationalbibliothek) verabschiedet, das den Auftrag der [[Deutsche Nationalbibliothek|Deutschen Nationalbibliothek]] auf die Archivierung von Websites ausdehnt. Auch die Bundesländer planen, ihre [[Wikipedia:Pflichtexemplar|Pflichtexemplar]]-Gesetze in diesem Sinne zu ändern, oder haben die Änderung bereits vollzogen.
 == Archivierungsziele ==
 Web-Archivierung verfolgt das Ziel, einen definierten Ausschnitt der im Internet vorhandenen Web-Präsenzen in systematischer Form abzubilden. Hierfür sind eine übergreifende Sammlungspolitik, ein Auswahlverfahren und die Häufigkeit der Archivierung vorab zu klären.
-Eine archivierte Website sollte mit allen multimedialen Funktionen ([[HTML-Code]], [[Stylesheet]]s, [[JavaScript]], Bilder und Video) auf Dauer erhalten werden. Der späteren Beschreibung, Nutzung und Erhaltung dienen [[Metadaten]] wie [[Provenienzprinzip|Provenienz]], Übernahmezeitpunkt, [[MIME-Type]] und Umfang der Daten. Die Metadaten sichern [[Authentizität]] und [[Integrität (Informationssicherheit)|Integrität]] der digitalen Archivalien.
+Eine archivierte Website sollte mit allen multimedialen Funktionen ([[Wikipedia:HTML-Code|HTML-Code]], [[Wikipedia:Stylesheet|Stylesheet]]s, [[Wikipedia:JavaScript|JavaScript]], Bilder und Video) auf Dauer erhalten werden. Der späteren Beschreibung, Nutzung und Erhaltung dienen [[Wikipedia:Metadaten|Metadaten]] wie [[Wikipedia:Provenienzprinzip|Provenienz]], Übernahmezeitpunkt, [[Wikipedia:MIME-Type|MIME-Type]] und Umfang der Daten. Die Metadaten sichern [[Wikipedia:Authentizität|Authentizität]] und [[Wikipedia:Integrität (Informationssicherheit)|Integrität]] der digitalen Archivalien.
 Nach der Übernahme sind technische und juristische Vorkehrungen zu treffen, um eine ständige öffentliche Zugänglichkeit zu garantieren und eine nachträgliche Veränderung der Archivalien zu verhindern.<ref>{{Internetquelle |autor=Steffen Fritz |url=https://fritz.wtf/post/rewrhist/rewrHist.pdf |titel=Rewriting History |titelerg=with WARC files |datum=2016-01 |archiv-url=https://web.archive.org/web/20171109130036/https://fritz.wtf/post/rewrhist/rewrHist.pdf |archiv-datum=2017-11-09 |zugriff=2017-11-09 |format=PDF |sprache=en}}</ref>
@@ Zeile 33: / Zeile 33: @@
 == Übernahmemethoden ==
 === ''Remote harvesting'' ===
-Die üblichste Archivierungsmethode ist die Nutzung eines [[Webcrawler|Webcrawlers]]. Ein Web-Crawler ruft die Inhalte einer Website wie ein menschlicher Nutzer ab und schreibt die Ergebnisse in ein Archivobjekt.
+Die üblichste Archivierungsmethode ist die Nutzung eines [[Wikipedia:Webcrawler|Webcrawlers]]. Ein Web-Crawler ruft die Inhalte einer Website wie ein menschlicher Nutzer ab und schreibt die Ergebnisse in ein Archivobjekt.
-Genauer betrachtet bedeutet das ein [[Rekursion|rekursives]] Durchsuchen von Webseiten anhand der darauf gefundenen Links, ausgehend von einem gewissen Startbereich, der entweder eine Webseite oder auch eine Liste an Webseiten, die durchsucht werden sollen, sein kann. Aufgrund mengenmäßiger Limitationen, etwa wegen Dauer oder Speicherplatz, sind diverse Einschränkungen hinsichtlich Tiefe und der zu archivierenden Dateiarten möglich.
+Genauer betrachtet bedeutet das ein [[Wikipedia:Rekursion|rekursives]] Durchsuchen von Webseiten anhand der darauf gefundenen Links, ausgehend von einem gewissen Startbereich, der entweder eine Webseite oder auch eine Liste an Webseiten, die durchsucht werden sollen, sein kann. Aufgrund mengenmäßiger Limitationen, etwa wegen Dauer oder Speicherplatz, sind diverse Einschränkungen hinsichtlich Tiefe und der zu archivierenden Dateiarten möglich.
-Bei größeren Projekten kommt hierbei der Bewertung von Webseiten zur URL-Reihung eine besondere Bedeutung zu. Im Verlauf eines Crawl-Vorganges können sich unter Umständen sehr viele Webadressen ansammeln, die dann entweder in einer Liste nach dem [[First In – First Out|FIFO]]-Verfahren oder als [[Vorrangwarteschlange|Prioritätswarteschlange]] abgearbeitet werden. Für letzteren Fall kann man sich die Webseiten dabei in einer Heap-Struktur vorstellen. Jede Webseite an sich bildet einen eigenen [[Dynamischer Speicher|Heap]] und jeder darin gefundene Link zu einer weiteren Webseite bildet wiederum einen Unterheap, der ein Element im Heap der vorhergehenden Webseite darstellt. Das hat auch den Vorteil, dass im Fall einer überlaufenden URL-Liste zuerst diejenigen mit der niedrigsten Priorität durch neue Einträge ersetzt werden.
+Bei größeren Projekten kommt hierbei der Bewertung von Webseiten zur URL-Reihung eine besondere Bedeutung zu. Im Verlauf eines Crawl-Vorganges können sich unter Umständen sehr viele Webadressen ansammeln, die dann entweder in einer Liste nach dem [[Wikipedia:First In – First Out|FIFO]]-Verfahren oder als [[Wikipedia:Vorrangwarteschlange|Prioritätswarteschlange]] abgearbeitet werden. Für letzteren Fall kann man sich die Webseiten dabei in einer Heap-Struktur vorstellen. Jede Webseite an sich bildet einen eigenen [[Wikipedia:Dynamischer Speicher|Heap]] und jeder darin gefundene Link zu einer weiteren Webseite bildet wiederum einen Unterheap, der ein Element im Heap der vorhergehenden Webseite darstellt. Das hat auch den Vorteil, dass im Fall einer überlaufenden URL-Liste zuerst diejenigen mit der niedrigsten Priorität durch neue Einträge ersetzt werden.
 Die Ausgangsstruktur auf dem Server lässt sich allerdings im Archiv nur selten exakt nachbauen. Um bereits im Vorfeld einer Spiegelung eventuell auftretende technische Probleme ausschließen zu können, bietet es sich an, vorab eine Analyse der Webseite durchzuführen. Dies verdoppelt zwar in den meisten Fällen den Datenverkehr, verkürzt aber die aufzuwendende Arbeitszeit im Fehlerfall erheblich.<ref name="tech_analyse">Steffen Fritz: ''Praxisreport: Verfahren zur Evaluierung der Archivierbarkeit von Webobjekten'' In: ''ABI Technik'' Nr. 2, 2015, S. 117–120. [[doi:10.1515/abitech-2015-0015]]</ref>
@@ Zeile 43: / Zeile 43: @@
 Beispiele für Webcrawler sind:
 * Heritrix
-* [[HTTrack]]
+* [[Wikipedia:HTTrack|HTTrack]]
 * Offline Explorer
 === Archivierung des ''Hidden Web'' ===
-Das Hidden Web oder [[Deep Web]] bezieht sich auf Datenbanken, die oft die eigentlichen Inhalte einer Website repräsentieren und nur auf Anfrage eines Nutzers ausgegeben werden. Auch dadurch ändert sich das Web ständig und es erscheint, als würde dieses eine unendliche Größe besitzen. Zur Übernahme dieser Datenbanken ist eine Schnittstelle erforderlich, die meist auf [[Extensible Markup Language|XML]] beruht. Für einen solchen Zugang sind die Tools [[DeepArc]] ([[Bibliothèque nationale de France]]) und [[Xinq]] ([[National Library of Australia]]) entwickelt worden.
+Das Hidden Web oder [[Wikipedia:Deep Web|Deep Web]] bezieht sich auf Datenbanken, die oft die eigentlichen Inhalte einer Website repräsentieren und nur auf Anfrage eines Nutzers ausgegeben werden. Auch dadurch ändert sich das Web ständig und es erscheint, als würde dieses eine unendliche Größe besitzen. Zur Übernahme dieser Datenbanken ist eine Schnittstelle erforderlich, die meist auf [[Wikipedia:Extensible Markup Language|XML]] beruht. Für einen solchen Zugang sind die Tools [[DeepArc]] ([[Wikipedia:Bibliothèque nationale de France|Bibliothèque nationale de France]]) und [[Xinq]] ([[Wikipedia:National Library of Australia|National Library of Australia]]) entwickelt worden.
 === ''Transactional archiving'' ===
@@ Zeile 63: / Zeile 63: @@
 === Umsetzungen ===
 * Die „Wayback Machine“ des [[Internet Archive]]s
-* [[Archive.is]]
+* [[Wikipedia:Archive.is|Archive.is]]
-* [[WebCite]]
+* [[Wikipedia:WebCite|WebCite]]
 == Weblinks ==
@@ Zeile 79: / Zeile 79: @@
 <references />
-[[Kategorie:Technischer Sonterartikel]]
+[[Kategorie:Technischer Sonderartikel]]
-{{Wikipedia}}
+{{QuelleWikipedia|datum=14. November 2019|oldid=193749872|oldid-lokal=4288}}