User Tools

Site Tools


social:leaks

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
social:leaks [2026/02/05] hayatisocial:leaks [2026/02/05] (current) – [Epstein Files (2026)] hayati
Line 38: Line 38:
   * [[https://www.reddit.com/r/DataHoarder/comments/1qrk3qk/removed_by_reddit/|Reddit 2]]   * [[https://www.reddit.com/r/DataHoarder/comments/1qrk3qk/removed_by_reddit/|Reddit 2]]
  
-Magnet links und torrents finden sich hier für die schwierigeren Datensätze (data sets).+Magnet links und torrents finden sich hier für die schwierigeren Datensätze (data sets). Siehe unten: da sind die Magnet links übersichtlich zusammengestellt.
  
 Zum Auskundschaften aller 'Pages' - mit bis zu 50 Dokument-Links je Page - konnte ich dieses Python-Skript auf [[https://pastebin.com/zbF0Rmfx|PasteBin-Link]] ausmachen. Unter Linux - auch in einer //Windows Subsystem for Linux// (WSL) kriege ich es zumindest für die Ermittlung der Dokumente zum Laufen. Es nutzt Playwright und automatisiert den Seitenabruf mit einem Chromium-Browser. Zum Auskundschaften aller 'Pages' - mit bis zu 50 Dokument-Links je Page - konnte ich dieses Python-Skript auf [[https://pastebin.com/zbF0Rmfx|PasteBin-Link]] ausmachen. Unter Linux - auch in einer //Windows Subsystem for Linux// (WSL) kriege ich es zumindest für die Ermittlung der Dokumente zum Laufen. Es nutzt Playwright und automatisiert den Seitenabruf mit einem Chromium-Browser.
  
 Mit minimaler Anpassung der Pfade lief das - in mehreren Versuchen durch - und ermittelte mir 279'753 Einzeldokumente aus knapp 20'500 Pages. Ergebnis ist die JSON-Datei ''dataset9_index.json''. Mit minimaler Anpassung der Pfade lief das - in mehreren Versuchen durch - und ermittelte mir 279'753 Einzeldokumente aus knapp 20'500 Pages. Ergebnis ist die JSON-Datei ''dataset9_index.json''.
- 
-Für die Nutzung vorher 
-<code> 
-python3 -m pip install --upgrade pip 
-python3 -m pip install playwright 
-playwright install 
-</code> 
  
 Mit dem Download der Einzeldokumente der PDFs hat das Skript ein Problem: Es hängt je PDF Datei! Mit dem Download der Einzeldokumente der PDFs hat das Skript ein Problem: Es hängt je PDF Datei!
- 
-Mit der Ergänzung der Kommandozeilen-Auswertung (ganz unten) um: 
  
 <code> <code>
-    elif cmd == "printurls": +./parse_dataset9.py printurls >urls.txt
-        with open(INDEX_FILE, 'r') as f: +
-            all_files = json.load(f) +
-        for file_info in all_files: +
-            url = file_info['url'+
-            print(f"{url}"+
- +
-</code> +
- +
-und dem Kommandozeilenaufruf +
-<code> +
-./parse\ dataset9.py printurls >urls.txt+
 </code> </code>
  
Line 73: Line 53:
 die ich dann mit einem simplen Bash Skript ''get_all_urls.sh'' unter Nutzung von ''wget'' herunterlade .. die ich dann mit einem simplen Bash Skript ''get_all_urls.sh'' unter Nutzung von ''wget'' herunterlade ..
  
-<code> +Das von mir angepasste python sowie das neue bash-Skript inklder ermittelten ''dataset9_index.json'' und ''urls.txt'' findet sich hier [[https://codingspirit.de/parse_dataset9.zip|https://codingspirit.de/parse_dataset9.zip]] mit einer Größe von 2,5 MB.
-#!/bin/bash +
- +
-T="$1" +
-if [ -z "$T" ]; then +
-  T="1" +
-fi +
-mkdir DataSet_9 +
-cd DataSet_9 +
-N=$T +
- +
-# grep .m4a ../urls.txt | while read LINE; do +
-# grep .mp4 ../urls.txt | tail -n "+$T" | while read LINE; do +
-tail -n "+$T" ../urls.txt while read LINE; do +
-  echo "$N $LINE" |tee -a ../get_all.log +
-  wget --no-verbose -c --header='Cookie: justiceGovAgeVerified=true' "$LINE" 2>&1 |tee -a ../get_all.log +
-  N=$[$N + 1] +
-done +
-</code>+
  
 Hinterher sollte ich die Fehler aus dem Log File ''get_all.log'' ermitteln können. Hinterher sollte ich die Fehler aus dem Log File ''get_all.log'' ermitteln können.
social/leaks.1770247595.txt.gz · Last modified: by hayati