CR303 Warum KI-Crawler so übermäßig belastend sein können und wie man sie loswird ()
Der Anlass für das Chaosradio 303 war eine gefühlt gehäufte Anzahl von Beschwerden in den letzten Monaten über das Ärgernis KI-Crawler, hier ein typisches Beispiel:

Das Team des Chaosradio 303: Constanze, Marcus, Jonas und Leah (v.o.n.u.).
Der Aufwand, den jede einzelne Person, die ihr Zeug nicht gescraped haben will, nun betreiben muss, um AI crawler zu blocken. Es ist wirklich unfassbar, dass dafür niemand zur Rechenschaft gezogen wird. Wenn alles auf deiner Website Nein sagt, die robots.txt ein großes Nein-Schild hochhält und du auch öffentlich ganz klar gegen AI positioniert bist, sollte es ein Straftatbestand sein, Crawler in deine Richtung zu schicken.
Wir sprechen in dieser Sendung über diese KI-Crawler. Es sind automatisierte Computerprogramme, die das Netz durchsuchen. Sie sammeln dabei Daten ein, um Sprachmodelle (gemeinhin oft „KI“ genannt) zu trainieren, oft jedoch ohne Zustimmung der Anbieter. Während einige dieser Bots oder Crawler ein gut vorhersagbares Verhalten zeigen, nimmt das missbräuchliche Scraping zu. Das kann übermäßig belastend werden.
Wir reden auch über bisher geltende Konventionen wie die besagte robots.txt und darüber, wie man die uneingeladenen Gäste realistisch wieder loswerden kann. Natürlich kommen wir dabei nicht an der Frage vorbei, wer die Verantwortung trägt. Wir reden auch über konkrete Beispiele aus dem Alltag eines Hosting-Unternehmens.
Marcus Richter spricht mit Jonas und Leah, die bei Uberspace auch mit KI-Crawlern kämpfen, und mit Constanze Kurz im Chaosradio 303 über die KI-Bots und über Ideen für bessere Regeln und technische Schutzmechanismen. Und sind eigentlich die ganzen Leute, die KI-Assistenten nutzen, mitverantwortlich für die schulterzuckende Ignoranz der KI-Crawler-Betreiber? Das alles – und noch viel mehr – diskutieren wir in diesem Podcast.
Leah ist Mit-Administratorin der Mastodon-Instanz chaos.social. Außerdem ist sie Leiterin des Infrastrukturbereichs beim Hosting-Unternehmen Uberspace und ärgert sich regelmäßig über die unnötige Arbeit, die ihr die KI-Systeme machen. Jonas führt Uberspace seit fast fünfzehn Jahren.
Wie heißt denn dieses App-Framework, das mein Handy zu einem Exit-Node macht, und wie erkenne ich Apps, die damit gebaut wurden?
TL-DR: selbst schuld
Dise Folge war leider inhaltlich sehr schwach. Es wurde davon gesprochen, daß die Kosten durch die ganzen Crawler viel zu hoch sein, aber keine Zahlen genannt. Das mit den hundertfachen Kosten war vermutlich keine wörtlich gemeinte Zahl.
Daß archive.org Webseiten von Band ausliefert, bezweifle ich. Der Bandroboter mag das Band in 20 Sekunden eingelegt haben, aber wenn man erst einmal einen Kilometer weit spulen muß, dauert es Minuten.
Wenn man einen Kalender mit nur drei Terminen hat, warum dann überhaupt die Klickorgie für den Anwender? Man könnte diese drei Termine einfach direkt anzeigen, ohne irgendwelche Links zu Wochen-, Monats- und Jahresübersicht. Aber waren es nicht die Webseitenbetreiber, die diese Klickorgien eingeführt haben? 20 Bilder zum Durchklicken, damit man viele Klicks auf der Seite hat und 20 verschiedene Werbebanner anzeigen kann. Und diese Leute beschweren sich jetzt über zu viele Aufrufe. Aber was haben die für Hardware, wenn das Ding nur zwei Aufrufe gleichzeitig bedienen kann, einen C64? Und wer beschwert sich denn da über zu viel Traffic? Die Webseitenbetreiber, die den Surfer mit Müll zuschütten. http://www.chaosradio.de hat 1,55 MB Stylesheets, tagesschau.de lädt zweimal über 2 MB Javascript. Manche Seiten machen das gerne auch noch mit no-cache-Direktive und die Werbebanner sind mittlerweile auch schon Videos. Da scheint der Traffic billig genug zu sein. CPU-Ressourcen scheinen auch kein Problem zu sein, denn man wird überall gezwungen, HTTPS statt HTTP zu nutzen.
Eine gänige robots.txt üst übrigens „User-agent: * Disallow: /“, Google ignoriert das und es stört anscheinend niemanden. Bei den „bösen KI-Firmen“ ist das plötzlich „unverschämt“. Ich habe kein Intersse an den Werbebannern, mit denen man zugeknallt werden soll und habe auch keine Lust, Informationen unnötig kompliziert einzusammeln. Ich hätte gerne ein maschinenlesbares Web. Ich hätte gerne einen Suchindex neben Google und Bing. Ich hätte gerne Informationen, ohne Cookie-Banner wegzuklicken, Captchas zu lösen und ohne daß mein Browser per Jacascript irgendwelche Rechenaufgaben lösen muß. Und an all dem sind nicht die Crawler oder die EU Schuld, sondern die Webseiten-Betreiber. Ich sehe es daher als Notwehr, den User-Agent zu ädern und die Inhalte zu extrahieren.