Differences

This shows you the differences between two versions of the page.

--- social:leaks [2026/02/05] – hayati
+++ social:leaks [2026/02/05] (current) – [Epstein Files (2026)] hayati
@@ Line 38: / Line 38: @@
   * [[https://www.reddit.com/r/DataHoarder/comments/1qrk3qk/removed_by_reddit/|Reddit 2]]
-Magnet links und torrents finden sich hier für die schwierigeren Datensätze (data sets).
+Magnet links und torrents finden sich hier für die schwierigeren Datensätze (data sets). Siehe unten: da sind die Magnet links übersichtlich zusammengestellt.
 Zum Auskundschaften aller 'Pages' - mit bis zu 50 Dokument-Links je Page - konnte ich dieses Python-Skript auf [[https://pastebin.com/zbF0Rmfx|PasteBin-Link]] ausmachen. Unter Linux - auch in einer //Windows Subsystem for Linux// (WSL) kriege ich es zumindest für die Ermittlung der Dokumente zum Laufen. Es nutzt Playwright und automatisiert den Seitenabruf mit einem Chromium-Browser.
 Mit minimaler Anpassung der Pfade lief das - in mehreren Versuchen durch - und ermittelte mir 279'753 Einzeldokumente aus knapp 20'500 Pages. Ergebnis ist die JSON-Datei ''dataset9_index.json''.
-Für die Nutzung vorher
-<code>
-python3 -m pip install --upgrade pip
-python3 -m pip install playwright
-playwright install
-</code>
 Mit dem Download der Einzeldokumente der PDFs hat das Skript ein Problem: Es hängt je PDF Datei!
-Mit der Ergänzung der Kommandozeilen-Auswertung (ganz unten) um:
 <code>
-    elif cmd == "printurls":
+./parse_dataset9.py printurls >urls.txt
-        with open(INDEX_FILE, 'r') as f:
-            all_files = json.load(f)
-        for file_info in all_files:
-            url = file_info['url']
-            print(f"{url}")
-</code>
-und dem Kommandozeilenaufruf
-<code>
-./parse\ dataset9.py printurls >urls.txt
 </code>
@@ Line 73: / Line 53: @@
 die ich dann mit einem simplen Bash Skript ''get_all_urls.sh'' unter Nutzung von ''wget'' herunterlade ..
-<code>
+Das von mir angepasste python sowie das neue bash-Skript inkl. der ermittelten ''dataset9_index.json'' und ''urls.txt'' findet sich hier [[https://codingspirit.de/parse_dataset9.zip|https://codingspirit.de/parse_dataset9.zip]] mit einer Größe von 2,5 MB.
-#!/bin/bash
-T="$1"
-if [ -z "$T" ]; then
-  T="1"
-fi
-mkdir DataSet_9
-cd DataSet_9
-N=$T
-# grep .m4a ../urls.txt | while read LINE; do
-# grep .mp4 ../urls.txt | tail -n "+$T" | while read LINE; do
-tail -n "+$T" ../urls.txt | while read LINE; do
-  echo "$N : $LINE" |tee -a ../get_all.log
-  wget --no-verbose -c --header='Cookie: justiceGovAgeVerified=true' "$LINE" 2>&1 |tee -a ../get_all.log
-  N=$[$N + 1]
-done
-</code>
 Hinterher sollte ich die Fehler aus dem Log File ''get_all.log'' ermitteln können.