WEBVTT

NOTE
Podcast: Chaosradio
Episode: Lästige KI-Crawler ignorieren große Nein-Schilder
Publishing Date: 2026-01-12T09:00:38+01:00
Podcast URL: https://chaosradio.de
Episode URL: https://chaosradio.de/cr303-laestige-ki-crawler-ignorieren-grosse-nein-schilder

00:00:00.020 --> 00:00:07.880
Hallo und herzlich willkommen zum Chaos Radio 303 und wir beschäftigen uns heute mit KI,

00:00:08.340 --> 00:00:15.620
aber mit einem Nischenthema für die meisten in Anführungszeichen normalen Menschen, würde ich sagen.

00:00:15.780 --> 00:00:19.239
Also mit dem man im Alltag, wenn man nicht in einem bestimmten Bereich arbeitet,

00:00:19.380 --> 00:00:21.320
wahrscheinlich wenig in Berührung bekommt.

00:00:22.120 --> 00:00:27.200
Und Chaos Radio ist ja oft nicht tagesaktuell, sondern wir greifen so Themen

00:00:27.200 --> 00:00:30.800
auf, wo man denkt, die könnte man mal erklären oder irgendwas ist explodiert

00:00:30.800 --> 00:00:33.640
und dann denken wir vier Wochen später, das könnte man ja mal erklären.

00:00:33.880 --> 00:00:38.860
Ich habe ungelogen bei diesem Chaos Radio zum Zeitpunkt der Aufnahme,

00:00:38.979 --> 00:00:42.240
also eine Stunde bevor wir die Aufnahme machen, einen Mastodontuit gesehen,

00:00:42.640 --> 00:00:44.120
den möchte ich kurz zitieren.

00:00:44.120 --> 00:00:48.960
Der Aufwand, den jede einzelne Person, die ihr Zeug nicht gescrapt haben will,

00:00:49.040 --> 00:00:51.520
nun betreiben muss, um AI-Crawler zu blocken.

00:00:51.600 --> 00:00:55.440
Es ist wirklich unfassbar, dass dafür niemand zur Rechenschaft gezogen wird,

00:00:55.600 --> 00:00:57.620
schreibt Weird Mustard.

00:00:58.060 --> 00:00:59.700
Jetzt musst du aber einiges erklären.

00:00:59.700 --> 00:01:05.340
Jetzt müssen wir einiges erklären. Wir wollen heute über KI-Crawler reden und

00:01:05.340 --> 00:01:07.560
ich begrüße recht herzlich erstmal Conz. Guten Tag.

00:01:07.700 --> 00:01:08.620
Hallo, guten Tag.

00:01:08.800 --> 00:01:13.800
Wie immer beim Chaos Radio dabei. Und dann ist schon die Frage,

00:01:13.900 --> 00:01:18.380
was sind KI-Crawler, warum ist das ein Problem? Und ich mache es einmal ganz kurz.

00:01:19.860 --> 00:01:24.560
KI basiert auf Daten. Die Daten müssen irgendwie herkommen. Und dann wird das

00:01:24.560 --> 00:01:28.220
zum Beispiel gemacht, indem man einfach als große Firma, ich glaube es war Meta,

00:01:28.360 --> 00:01:31.040
illegal irgendwo Bücher runterlädt und die dann da reinmacht.

00:01:31.340 --> 00:01:35.220
Oder man durchsucht das Web. Und das macht man automatisiert.

00:01:35.320 --> 00:01:37.740
Man crawlt es und dann geht es um Crawlout. Was das alles bedeutet,

00:01:37.840 --> 00:01:38.840
das lassen wir uns genauer erklären.

00:01:39.300 --> 00:01:41.640
Heute nehme ich von Lea und Jonas. Hallo und guten Tag.

00:01:42.760 --> 00:01:43.000
Hi.

00:01:44.290 --> 00:01:52.090
Ihr seid beide von Uberspace, das, und ich lese jetzt die sozusagen von euch

00:01:52.090 --> 00:01:53.010
mitgegebene Kurzbiofond,

00:01:53.290 --> 00:01:57.830
formal ein Einzelunternehmen ist, sich aber in der Realität eher wie ein überdurchschnittlich

00:01:57.830 --> 00:02:01.890
gut organisiertes Kollektiv mit weniger Plenum und viel Eigenverantwortung verhält.

00:02:02.330 --> 00:02:04.450
Gestatten Sie mir dazu eine kurze Frage, hä?

00:02:05.910 --> 00:02:06.470
Ja.

00:02:06.950 --> 00:02:09.510
Also Uberspace, muss man erstmal sagen, ist ein Hoster.

00:02:10.110 --> 00:02:14.630
Genau. Wir sind ein Web-Hosting-Unternehmen und ich habe das gegründet,

00:02:14.690 --> 00:02:15.590
also ich bin der Inhaber.

00:02:16.190 --> 00:02:19.290
Und für die Formulierung muss ich meinem Kollegen Luthur danken,

00:02:19.370 --> 00:02:23.730
der die so schön auf den Punkt gebracht hat, weil es bei uns nicht nur darum

00:02:23.730 --> 00:02:26.790
geht, wie wir die Technik so realisieren wollen.

00:02:26.889 --> 00:02:30.570
Ich meine, Hoster gibt es wie Sand am Meer und ich glaube, wir sind aus vielerlei

00:02:30.570 --> 00:02:33.290
Gründen auch rein technisch ein bisschen cooler.

00:02:34.370 --> 00:02:40.590
Uns unterscheidet aber vor allem, dass wir auch als Unternehmen ein bisschen anders agieren.

00:02:40.770 --> 00:02:44.410
Also wir haben ein Produkt, bei dem die Leute sich den Preis selber auswählen.

00:02:44.530 --> 00:02:49.790
Wir haben teamintern unsere Gehälter offengelegt und wählen auch unsere Gehälter selbst.

00:02:50.010 --> 00:02:54.610
Wir wählen unsere Arbeitszeiten und unseren Arbeitsumfang selbst.

00:02:55.270 --> 00:02:58.350
Das ist halt das, was mit dem kollektiven Charakter gemeint ist.

00:02:58.590 --> 00:03:03.550
Also wir kommen hier schon zusammen und treffen eigentlich alle wesentlichen

00:03:03.550 --> 00:03:08.449
Entscheidungen. gemeinsam unter einer sehr stark freiheitlich geprägten Prämisse.

00:03:09.130 --> 00:03:14.430
Und trotzdem ist es formal eben so, ich bin derjenige, der als Unternehmer gilt,

00:03:14.570 --> 00:03:18.290
die anderen sind angestellt bei mir und ich gebe mir aber große Mühe,

00:03:18.370 --> 00:03:21.230
dass man das im Arbeitsalltag eigentlich nicht so merkt.

00:03:21.290 --> 00:03:25.190
Es muss halt jemanden geben, der für die Verantwortung den Kopf hinhält und

00:03:25.190 --> 00:03:28.090
der irgendwie die Finanzen zusammenhält und das bin dann eben ich.

00:03:28.290 --> 00:03:30.190
Aber den ganzen Rest machen wir gemeinsam.

00:03:30.710 --> 00:03:33.550
Okay, das heißt, aber sozusagen für die, die gar nicht tief drin sind,

00:03:33.670 --> 00:03:36.070
also dieser Toaster heißt, ihr stellt Infrastruktur zur Verfügung,

00:03:36.210 --> 00:03:40.090
also wenn Menschen etwas im Internet machen wollen und nicht einen Rechner in

00:03:40.090 --> 00:03:43.410
ihren eigenen DSL-Anschluss, wirklich ganz basic formuliert,

00:03:44.390 --> 00:03:47.710
stellen wollen, dann können sie Dinge bieten und da gibt es halt so große und

00:03:47.710 --> 00:03:49.770
eben solche Firmen wie euch.

00:03:50.330 --> 00:03:54.110
Lea kennt man aus dem Chaos-Radio-Kontext vielleicht schon aus einer alten Folge,

00:03:54.510 --> 00:03:59.950
weil sie nicht nur eben bei Uberspace auch Leiterin des Infrastrukturbereichs

00:03:59.950 --> 00:04:03.110
ist, was ein schöner Titel ist, sondern auch mit Rixx zusammen,

00:04:03.270 --> 00:04:06.390
Administratorin der Masterlohn-Instanz "chaos.social".

00:04:07.130 --> 00:04:15.650
So, und bevor wir damit anfangen, ich gebe immer gerne alle Verantwortung für

00:04:15.650 --> 00:04:19.390
die Erklärung von Fachdingen ab, bevor wir damit anfangen, warum man als Web-Hoster,

00:04:20.310 --> 00:04:23.370
sich mit KI-Crawlern beschäftigt, ich habe es da schon ganz kurz angedeutet,

00:04:23.470 --> 00:04:29.430
könnt ihr mal ganz kurz sagen, was sind Crawler und was sind KI-Crawler und

00:04:29.430 --> 00:04:30.750
warum gibt es die und was machen die?

00:04:32.270 --> 00:04:38.230
Crawler sind im Prinzip klein oder groß, je nachdem nach Aufwand.

00:04:38.390 --> 00:04:43.850
Es ist ein Programm, das sich sozusagen anhand von Links, ganz einfach mal gesagt,

00:04:44.029 --> 00:04:49.490
durch das Web durchhangelt und dabei die Daten in der Datenbank speichert,

00:04:49.730 --> 00:04:53.970
damit die dann später zum Beispiel für eine Suche oder auch eine KI ausgewertet werden können.

00:04:53.970 --> 00:04:57.610
KI-Crawler sind dann das Gleiche eben für KI.

00:04:57.930 --> 00:05:02.570
Die sammeln eben die Daten im Netz ein, also Nachrichten, Inhalte,

00:05:03.149 --> 00:05:05.830
Bilder, die man gepostet hat, alles Mögliche, was sie in die Finger kriegen

00:05:05.830 --> 00:05:10.630
und das wird dann benutzt, um später damit sozusagen die KI,

00:05:10.950 --> 00:05:15.589
das Modell zu trainieren, auf deren Basis dann die Ausgaben von generativer

00:05:15.589 --> 00:05:17.510
KI zumindest wieder erscheinen.

00:05:17.510 --> 00:05:22.230
Ich würde jetzt gerne zu Crawlern selber noch ein bisschen was fragen.

00:05:22.310 --> 00:05:24.390
Kennt ihr euch darin auch aus, wie die funktionieren?

00:05:24.770 --> 00:05:28.050
Oder nur sozusagen um die Effekte, die die hinterlassen?

00:05:29.710 --> 00:05:31.310
Mehr theoretisch als praktisch.

00:05:31.310 --> 00:05:33.310
Ich will mal eine Anführungsfrage noch stellen, weil du gerade gesagt hast,

00:05:33.750 --> 00:05:36.110
die gehen sozusagen, die hangeln sich links lang.

00:05:36.270 --> 00:05:39.710
Also klingt sozusagen wie jemand fängt auf einer Webseite an und klickt dann

00:05:39.710 --> 00:05:43.970
alle Links, die er findet und hofft dann irgendwann das ganze Netz durchsurf

00:05:43.970 --> 00:05:45.710
zu haben, aber das ja eben automatisiert.

00:05:46.770 --> 00:05:50.250
Weißt du, wie das läuft? Also wie so Crawler anfangen? Haben die dann so einen

00:05:50.250 --> 00:05:51.350
Grundstock an Webseiten?

00:05:51.430 --> 00:05:55.850
Keine Ahnung. Man fängt in der Wikipedia an und macht dann alles durch oder wie das abläuft?

00:05:56.750 --> 00:06:01.470
Also genauer wissen wir das nicht. Wir machen ja jetzt selbst keine Suchmaschinen oder sowas.

00:06:03.089 --> 00:06:06.470
Aber das ist ein bisschen schwer zu sagen, weil ich sag mal so,

00:06:06.670 --> 00:06:10.350
irgendwann Anfang der 2000er oder so, als die ersten größeren Suchmaschinen

00:06:10.350 --> 00:06:14.089
aufgetaucht sind, da wird das im Zweifel so gewesen sein, dass sie sich nach

00:06:14.089 --> 00:06:15.310
und nach durchgehangelt haben.

00:06:15.310 --> 00:06:19.690
Aber inzwischen hat zum Beispiel ein Google oder ein Microsoft oder sonstige

00:06:19.690 --> 00:06:25.370
einfach sehr große Datenbanken schon mit ganz, ganz vielen Seiten und die scannen

00:06:25.370 --> 00:06:28.570
sie dann eben und dann gucken sie eben von da aus wieder, wohin geht es weiter.

00:06:29.590 --> 00:06:33.650
Eine Seite, die nie verlinkt ist, ist tatsächlich relativ schwer zu finden.

00:06:34.830 --> 00:06:38.330
Ich würde da gerne noch ergänzen. Zum einen ist es ja bis heute auch möglich,

00:06:38.530 --> 00:06:42.910
dass man gerade ganz neue Internetseiten, die noch nirgendwo verlinkt sind,

00:06:43.070 --> 00:06:45.230
bei Google explizit anmelden kann.

00:06:45.470 --> 00:06:48.310
Sozusagen mit der Bitte kommt vorbei und crawlt mich.

00:06:48.930 --> 00:06:54.890
Und Websites können auch eine XML-Datei, die Sitemap XML bereitstellen,

00:06:55.010 --> 00:06:58.710
mit der sie einer Suchmaschine sogar einen Hinweis geben können,

00:06:58.870 --> 00:07:03.710
was alles so für interessante Crawlens, Werte, URLs bei ihnen zu finden sind.

00:07:04.570 --> 00:07:08.630
Suchmaschinen sind aber halt nur ein möglicher Anwendungszweck für Crawler.

00:07:08.910 --> 00:07:13.770
Es gibt natürlich auch ganz andere, die spezialisiert sind, zum Beispiel so Preiscrawler.

00:07:13.910 --> 00:07:18.130
Ich meine, wer Websites kennt wie Guideshals oder so, die machen im Grunde auch

00:07:18.130 --> 00:07:23.170
nichts anderes, als bei anderen Unternehmen nach Informationen zu crawlen,

00:07:23.270 --> 00:07:24.930
sie also regelmäßig abzurufen.

00:07:25.210 --> 00:07:30.130
Nur da, wo beide Seiten das gleichermaßen wünschen, entstehen dann oftmals eher

00:07:30.130 --> 00:07:33.970
richtig definierte Schnittstellen und es ist dann nicht mehr so völlig random,

00:07:34.170 --> 00:07:37.390
so wir hangeln uns irgendwo lang und gucken mal, was wir zufällig finden.

00:07:37.650 --> 00:07:44.430
Das ist bei den KI-Crawlern jetzt wiederum aber eigentlich das größte Ärgernis, was die gerade so tun.

00:07:44.530 --> 00:07:48.790
Aber das heißt sozusagen, für Crawler gibt es eigentlich nur ein Anwendungsgebiet,

00:07:48.850 --> 00:07:50.930
nämlich das Web-Indexieren.

00:07:51.700 --> 00:07:55.320
Und das macht man vor allen Dingen aus zwei Gründen. Entweder für Suchergebnisse,

00:07:55.860 --> 00:07:58.680
also entweder sozusagen für Websuchung oder sozusagen für spezialisierte Suchung,

00:07:58.780 --> 00:07:59.880
wie zum Beispiel Preissuchmaschinen.

00:08:01.160 --> 00:08:08.020
Oder eben um eine möglichst komplette Datenbank von Webinhalten zu haben,

00:08:08.160 --> 00:08:09.820
um dann damit drauf KI-Training zu machen.

00:08:09.820 --> 00:08:14.180
Oder irgendwas anderes. Also zum Beispiel gibt es ja auch, was ein guter Fall

00:08:14.180 --> 00:08:20.560
davon wäre, dass Archive.org, die das Web auch crawlen und die Websites speichern,

00:08:20.720 --> 00:08:22.300
um sie eben für die Nachwelt zu erhalten.

00:08:22.540 --> 00:08:24.640
Weil manchmal verschwinden ja Websites auch einfach.

00:08:24.900 --> 00:08:27.880
Ja, und es gibt auch natürlich wissenschaftliche Crawler. Also Crawler sind

00:08:27.880 --> 00:08:29.440
jetzt nicht an sich irgendwie böse.

00:08:29.800 --> 00:08:33.640
Das ist dann nur ein Vergleich einfach der Menge.

00:08:34.820 --> 00:08:36.480
Also vernachlässigenswert.

00:08:36.480 --> 00:08:40.460
Es gibt eben auch Regeln sozusagen, wie man das gut machen kann.

00:08:40.580 --> 00:08:42.760
Dann gibt es so das eine, die kann man auf seine Website legen,

00:08:42.840 --> 00:08:45.640
wie die Robots.txt und sagen, okay, das hier darfst du scannen,

00:08:45.740 --> 00:08:46.780
das darfst du nicht scannen.

00:08:47.960 --> 00:08:53.059
Und sagt Gute, listen dann zum Beispiel auch ihre IP-Adressen auf,

00:08:53.120 --> 00:08:57.320
von denen sie das machen, erklären, wer sie sind, haben eine URL drin in ihrem

00:08:57.320 --> 00:09:01.299
User-Agent, also sozusagen der String, mit dem sie sich identifizieren,

00:09:02.299 --> 00:09:03.880
wer da gerade zugreift.

00:09:04.660 --> 00:09:08.820
Und das kann man gut machen oder man kann es eben auch schlecht machen.

00:09:08.900 --> 00:09:12.000
Ich will noch eines kurz sagen zu Archive.org. Da gibt es sogar die Wayback-Maschinen,

00:09:12.140 --> 00:09:14.460
wo man sozusagen wie Zeitreisen durchs Internet kann.

00:09:14.700 --> 00:09:17.360
Und die Inhalte, die da sind, werden also auch mithilfe dieser Crawler,

00:09:17.380 --> 00:09:19.620
habe ich jetzt gerade gelernt, erstellt.

00:09:19.840 --> 00:09:24.700
Und das, was du gesagt hast, also Robots.txt ist eine kleine Textdatei,

00:09:24.780 --> 00:09:26.460
die man auf seinen Web-Server packen kann.

00:09:26.880 --> 00:09:29.720
Und wenn es richtig läuft, kommt also, wenn ich es richtig verstanden habe,

00:09:29.780 --> 00:09:32.880
ein Crawler an und sagt, Hallo, ich bin ein Crawler, der dann sozusagen auch

00:09:32.880 --> 00:09:36.840
einen Namen hat, den man vielleicht irgendwie bei sich dann auch schon reinschreiben kann.

00:09:36.980 --> 00:09:39.660
Und in dieser Texte, da kann man im übertragenen Sinne reinschreiben,

00:09:39.740 --> 00:09:42.140
nein, bitte nicht. Oder ja, bitte hier lang.

00:09:43.429 --> 00:09:44.110
Genau so ist es.

00:09:44.490 --> 00:09:49.309
Okay, und dann zu den, also bei der Wayback-Maschine zum Beispiel kenne ich,

00:09:49.450 --> 00:09:51.330
da kann man so einen Kalender aufrufen,

00:09:51.549 --> 00:09:56.010
so über Jahre gehen und dann sind da verschiedene Daten und da denke ich jetzt,

00:09:56.110 --> 00:09:58.010
okay, dann wird wahrscheinlich das auch sozusagen der Zeitpunkt sein,

00:09:58.130 --> 00:09:59.610
wann das gecrawled worden ist.

00:09:59.710 --> 00:10:03.450
Und das ist dann manchmal, an einem Tag gibt es mehrere sogenannte Snapshots,

00:10:03.590 --> 00:10:06.970
manchmal passiert monatelang nichts. Konz schüttelt den Kopf.

00:10:07.130 --> 00:10:11.210
Das ist letztlich ein Diff, also da wird der nur offiziell, wenn es eine Veränderung gegeben hat.

00:10:12.870 --> 00:10:16.270
Das ist ein Diff. Du meinst sozusagen, in der Wayback-Maschine sind nur die

00:10:16.270 --> 00:10:18.890
Daten aufgezeichnet, wo sich die Webseite verändert hat?

00:10:19.850 --> 00:10:23.090
Okay, das ist für mich jetzt überraschend, weil ich oft schon rumgesurft bin

00:10:23.090 --> 00:10:24.630
und dann ist es oft alles sehr gleich.

00:10:25.090 --> 00:10:27.309
Aber das ist ein Detail, was wir an einer anderen Stelle besprechen können.

00:10:27.429 --> 00:10:29.390
Wir wollen heute nicht über das Archiv sprechen.

00:10:29.809 --> 00:10:34.450
So, KI-Crawler, also ist ja die Frage, wann sammeln KI-Inhalte?

00:10:35.130 --> 00:10:36.429
Und das machen sie...

00:10:37.830 --> 00:10:40.590
Also es gibt ja das eine, zu sagen, eine KI, ohne dass ich es genau erklärt

00:10:40.590 --> 00:10:41.870
soll, eine KI muss trainiert werden.

00:10:42.010 --> 00:10:44.230
Das heißt, man braucht irgendwann einen relativ großen Datensatz,

00:10:44.429 --> 00:10:46.690
wo man die Software draufwirft.

00:10:47.670 --> 00:10:53.530
Wenn ich es aber richtig verstehe, ist es doch so, KI brauchen quasi an zwei Stellen Daten.

00:10:53.690 --> 00:10:57.850
Nämlich das eine ist für dieses Grundlagentraining und das andere ist,

00:10:58.090 --> 00:11:03.370
viele KI-Chatbots kann man ja quasi als so eine Art Suchmaschine verwenden.

00:11:04.510 --> 00:11:07.790
Das heißt, wie eine richtige Suchmaschine, crawlen die nicht nur einmal,

00:11:08.049 --> 00:11:09.590
sondern eigentlich immer wieder? Ist das richtig?

00:11:10.490 --> 00:11:15.490
Genau. Also zum einen, wir müssen jetzt erstmal ganz kurz einen Begriff vielleicht

00:11:15.490 --> 00:11:20.190
klarstellen am Anfang, nämlich KI ist nicht unbedingt gleich KI.

00:11:20.190 --> 00:11:23.330
Wir reden jetzt, glaube ich, hier primär über die generative KI.

00:11:24.470 --> 00:11:29.070
Es gibt zum Beispiel auch noch KI im Gesundheitswesen, das dann nur auf ganz

00:11:29.070 --> 00:11:33.390
speziellen Daten trainiert ist oder für Wettervorhersagen.

00:11:33.450 --> 00:11:35.010
Das sind dann ganz spezielle andere Fälle.

00:11:35.510 --> 00:11:39.650
Ich glaube, wir reden jetzt mehr über diese generative KI, weil die haben besonders diese Crawler.

00:11:41.010 --> 00:11:45.890
Also das, was man wahrscheinlich meistens als ChatGPT oder Perplexity oder Claude

00:11:45.890 --> 00:11:47.850
oder DeepSeek oder was auch immer kennt.

00:11:47.850 --> 00:11:51.809
Genau. Und die kommen eben zum einen regelmäßig,

00:11:52.290 --> 00:11:59.830
zum Teil alle paar Stunden, haben aber in der Regel inzwischen nicht nur sozusagen

00:11:59.830 --> 00:12:03.470
den Crawler, der die Daten erstmal zum Trainieren sammelt, wie du gesagt hast,

00:12:04.049 --> 00:12:07.750
sondern sie haben auch noch einen zweiten Client, der dann das Ganze sozusagen

00:12:07.750 --> 00:12:13.570
ad hoc, wenn ein User gerade irgendwie eine Anfrage stellt, zum Beispiel fasse

00:12:13.570 --> 00:12:17.830
mir diese Website zusammen, dann diese Website abruft und dann läuft dieses Modell erst.

00:12:17.850 --> 00:12:20.370
Auf den Daten. Das muss man da auch immer sehr unterscheiden.

00:12:20.370 --> 00:12:24.309
Okay, also wenn ich jetzt frage, irgendwie sag mir doch mal,

00:12:24.410 --> 00:12:28.710
was auf chaos.social los ist, dann wird nicht eine interne Repräsentation,

00:12:28.790 --> 00:12:32.150
die früher abgerufen wurde, der Webseite verwendet, sondern geht in dem Moment

00:12:32.150 --> 00:12:33.730
sozusagen, geht die Software los?

00:12:34.600 --> 00:12:40.160
Genau, also wer sich noch erinnern kann vor, so in den Anfangszeiten von ChatGPT,

00:12:40.520 --> 00:12:42.940
ich weiß gerade gar nicht mehr, zwei, drei, vier, fünf Jahre,

00:12:43.040 --> 00:12:46.300
ich habe kein gutes Zeitgefühl, aber da war es dann tatsächlich so.

00:12:46.300 --> 00:12:50.880
Im November 2022 ging sozusagen die erste Version offiziell an den Start.

00:12:50.880 --> 00:12:55.040
Danke schön. Also zu dem Zeitpunkt, wer sich da noch daran erinnern kann,

00:12:55.400 --> 00:13:00.240
wenn man da ChatGPT gefragt hat nach Dingen, die eine gewisse Aktualität haben,

00:13:00.540 --> 00:13:05.060
hat man sogar relativ explizit eine Antwort bekommen, die ungefähr so lautete

00:13:05.060 --> 00:13:13.000
wie, ich bin mit dem Datenbestand des Internets bis 2021 oder so trainiert worden

00:13:13.000 --> 00:13:15.140
und alles, was danach war, weiß ich nicht.

00:13:15.140 --> 00:13:20.200
Und das ist inzwischen eben eine Neuerung der moderneren ChatGPT-Versionen,

00:13:20.300 --> 00:13:23.880
dass die eben auch dazu in der Lage sind, nicht nur aus dem,

00:13:23.960 --> 00:13:27.040
womit sie bereits trainiert worden sind, Antworten geben zu können,

00:13:27.200 --> 00:13:30.000
sondern auch gewissermaßen zu googeln.

00:13:30.620 --> 00:13:35.380
Ganz simpel, wenn man sie halt was fragt und sich live zusätzliche Ergebnisse,

00:13:35.560 --> 00:13:39.640
gerade auch von hoher Aktualität, reinzuziehen und die aber dynamisch in sein

00:13:39.640 --> 00:13:41.320
Sprachmodell mit reinzulernen.

00:13:42.780 --> 00:13:46.420
Wir werden jetzt gleich sozusagen ausführlich drüber reden, warum das ein Problem

00:13:46.420 --> 00:13:50.780
ist, aber bevor wir dazu kommen, möchte ich generell fragen,

00:13:50.900 --> 00:13:53.320
warum das überhaupt ein Problem sein kann, also in dem Sinne von,

00:13:54.340 --> 00:13:55.880
wenn man alles, was ihr jetzt erklärt habt,

00:13:57.200 --> 00:14:00.300
kann man sozusagen, also die Leute, die tief into it sind, sehen das Problem

00:14:00.300 --> 00:14:02.920
wahrscheinlich gleich, aber für alle anderen sozusagen, denkt man ja,

00:14:03.020 --> 00:14:06.640
okay, so ein Crawler ist ja vor allen Dingen Aufwand für die Leute,

00:14:06.940 --> 00:14:08.300
die den Crawler betreiben.

00:14:08.300 --> 00:14:10.800
Nämlich, die müssen ja irgendwie eine Software schreiben, diese Software muss

00:14:10.800 --> 00:14:13.840
verstehen, wie Webseiten funktionieren, dann müssen diese Daten abgerufen werden,

00:14:13.940 --> 00:14:16.500
die müssen ordentlich irgendwie abgespeichert werden.

00:14:16.560 --> 00:14:20.040
Das muss alles möglichst schnell und effizient gehen, damit das irgendwie alles gut funktioniert.

00:14:20.440 --> 00:14:22.460
So und ihr seid jetzt quasi...

00:14:23.700 --> 00:14:27.020
Ich verallgemeine euch heute sozusagen immer so ihr auf der anderen Seite des

00:14:27.020 --> 00:14:28.620
Crawlers, die es ankommt.

00:14:29.880 --> 00:14:35.580
Also erstmal ganz allgemein gefragt, wie werden Leute, die Webseiten betreiben

00:14:35.580 --> 00:14:39.400
oder beziehungsweise die, die Infrastruktur betreiben, auf der Webseiten betrieben

00:14:39.400 --> 00:14:42.560
werden, von einem Crawler beeinflusst?

00:14:42.640 --> 00:14:46.440
Also was, wenn ein Crawler ankommt, was macht das mit euch?

00:14:48.500 --> 00:14:48.980
Okay.

00:14:51.180 --> 00:14:55.620
Als erstes, was macht es mit uns? Fangen wir mal an. Im besten Fall ist das

00:14:55.620 --> 00:15:01.740
für unsere Infrastruktur wie jede andere Anfrage von auch einem Menschen genauso.

00:15:02.340 --> 00:15:06.220
Die Seite wird angefragt, wir liefern die Daten aus, die werden verarbeitet

00:15:06.220 --> 00:15:08.780
und dann ist die Person wieder weg.

00:15:08.780 --> 00:15:09.300
Mhm.

00:15:10.260 --> 00:15:14.740
So. Eine KI ist aber häufig dann eben so, dass sie dann die ganze Seite abruft,

00:15:14.940 --> 00:15:17.220
auch viel schneller als ein Mensch macht.

00:15:18.580 --> 00:15:22.660
Und dann muss man natürlich hoffen, dass das auch gut programmiert ist,

00:15:23.420 --> 00:15:27.020
weil sonst fragt das noch viel schneller und noch viel öfter das ab.

00:15:27.860 --> 00:15:31.200
Und manchmal gibt es dann auch so Funktionen wie Kalender oder Sonstiges,

00:15:31.400 --> 00:15:33.700
wo sich dann die Crawler drin verheddern sozusagen.

00:15:34.280 --> 00:15:39.560
Und dann fragen sie für jedes Datum bis in alle Ewigkeit die Daten von der Website ab.

00:15:41.000 --> 00:15:45.820
Und das erhöht dann in der Masse auch bei uns immer weiter die Last auf dem

00:15:45.820 --> 00:15:51.640
System, bis halt irgendwann die Ressourcen, die für, sag ich mal,

00:15:51.720 --> 00:15:53.780
eine Website zur Verfügung stehen, begrenzt sind.

00:15:54.540 --> 00:15:58.920
Und dann fängt das Ganze an, eben für alle auch langsam zu werden oder Fehler zu werfen.

00:16:00.020 --> 00:16:02.820
Das muss man vielleicht sozusagen einmal sagen, weil ich glaube,

00:16:02.980 --> 00:16:07.100
für Menschen, die nicht selber Web-Posting betreiben, ist das so ein bisschen

00:16:07.100 --> 00:16:08.160
aus der Abteilung Magie.

00:16:09.860 --> 00:16:12.900
Also ich glaube die einfachste zu formulieren ist eine Webseite aufzurufen,

00:16:13.780 --> 00:16:18.360
verursacht einen Aufwand also ein Computer muss da Dinge berechnen und in der

00:16:18.360 --> 00:16:23.200
Tat ist es so dass Webseiten auch auf verschiedenen großen Infrastrukturen betrieben

00:16:23.200 --> 00:16:26.320
werden also zum Beispiel meine privaten Podcasts sind auf einem,

00:16:27.380 --> 00:16:31.080
ist egal die Fachbegriffe sind auf einem sehr kleinen sozusagen Account weil

00:16:31.080 --> 00:16:36.180
da passiert halt nichts vielleicht 1000 Hörer über zwei Wochen oder so Also

00:16:36.180 --> 00:16:40.320
das Chaosradio mit irgendwie mittleren fünfstelligen Zahlen ist halt auf einer

00:16:40.320 --> 00:16:43.020
dickeren Maschine mit einer dickeren Anleitung,

00:16:43.120 --> 00:16:46.360
also nur um zu sagen, es gibt Unterschiede in dem, was es ist.

00:16:46.880 --> 00:16:52.240
Und von dem, was du jetzt sagst, höre ich also, okay, die Crawler können in

00:16:52.240 --> 00:16:57.200
sehr kurzer Zeit so hohen Aufriss verursachen, dass sozusagen die Dimensionierung

00:16:57.200 --> 00:16:59.560
einer Maschine irgendwie nicht mehr reicht.

00:17:01.020 --> 00:17:05.240
Genau. Also es kommt immer darauf an, was für eine Technik wird eingesetzt,

00:17:05.340 --> 00:17:07.359
um eine Website online zu bringen.

00:17:07.500 --> 00:17:12.920
Das kann im simpelsten Fall eine statische Datei sein, eine statische HTML-Seite.

00:17:13.780 --> 00:17:18.260
Die lässt sich dann milliardenfach aufrufen, ohne dass das irgendwie ein signifikantes

00:17:18.260 --> 00:17:23.660
Problem darstellt. Aber in der Praxis sind Websites heutzutage halt sehr viel

00:17:23.660 --> 00:17:24.880
dynamischer aufgebaut.

00:17:25.240 --> 00:17:28.700
Nehmen wir mal WordPress als so ein ganz verbreitetes Content-Management-System.

00:17:29.280 --> 00:17:33.480
Das heißt, wenn da irgendeine x-beliebige Anfrage reinkommt,

00:17:33.619 --> 00:17:35.800
dann landet die erstmal beim Webserver.

00:17:35.960 --> 00:17:41.060
Der Webserver redet dann mit PHP, mit einer Programmiersprache,

00:17:41.140 --> 00:17:45.520
die im Hintergrund läuft. Das PHP wiederum redet mit einer Datenbank und guckt

00:17:45.520 --> 00:17:47.820
dann, okay, was für ein Artikel ist das?

00:17:47.900 --> 00:17:50.380
Was muss ich dazu für Informationen zusammenstellen?

00:17:51.040 --> 00:17:52.880
Und da hängt es halt stark davon ab.

00:17:54.460 --> 00:17:57.900
Was weiß ich, wie viele Plugins da zum Beispiel zum Einsatz kommen,

00:17:58.020 --> 00:18:00.140
wie komplex diese Website gebaut ist.

00:18:00.640 --> 00:18:04.520
Und da wird es insofern ein bisschen gefährlich, weil für ganz,

00:18:04.619 --> 00:18:09.980
ganz viele Leute Performance-Optimierung erstmal überhaupt kein relevantes Thema ist.

00:18:09.980 --> 00:18:15.359
Also wenn die Website mit einigermaßen Komplexität gebaut ist und dann dauert

00:18:15.359 --> 00:18:19.260
es halt vielleicht nicht 100 Millisekunden, sondern eine Sekunde,

00:18:19.460 --> 00:18:21.000
damit die Seite abgerufen wird,

00:18:21.680 --> 00:18:25.760
dann gibt es viele Seitenbetreiber, die sagen, naja, ich habe 25 Besucher am

00:18:25.760 --> 00:18:27.480
Tag, das ist mir völlig egal.

00:18:27.480 --> 00:18:32.680
Und dann ist es auch uns als Hoster völlig egal, weil die generierte Last auf

00:18:32.680 --> 00:18:34.240
den Servern kaum messbar ist.

00:18:34.520 --> 00:18:39.800
Wenn dann aber so ein KI-Crawler vorbeikommt und von genau dieser Website jetzt

00:18:39.800 --> 00:18:47.140
100.000 Requests abverlangt, dann entsteht dabei halt eine Auslastung an Ressourcen,

00:18:47.320 --> 00:18:49.780
die kaum noch abzubilden ist.

00:18:49.780 --> 00:18:53.680
Also man merkt es zum Beispiel, wir hatten ja schon das Stichwort Wayback Machine,

00:18:53.800 --> 00:18:57.599
da kann man sich vorstellen, dass da nicht irgendwie ein Rechner mit einer SSD

00:18:57.599 --> 00:19:00.900
steht, auf der das gesamte Internet als Kopie gespeichert ist,

00:19:01.000 --> 00:19:04.200
sondern das sind solche Datenmengen, da reden wir eben auch von so Dingen,

00:19:05.200 --> 00:19:09.420
Dass Sachen vielleicht auf irgendwelchen Tapes oder so gespeichert werden,

00:19:09.520 --> 00:19:11.640
die in Schränken archiviert werden.

00:19:11.640 --> 00:19:15.380
Wo man sich vorstellen kann, wenn ich da jetzt irgendwie klicke,

00:19:16.060 --> 00:19:21.420
dann dauert es bei der Wayback Machine ja auch durchaus 10, 20 Sekunden oder

00:19:21.420 --> 00:19:24.859
so, bis ich die alte Version dieser Website zu sehen bekomme,

00:19:25.340 --> 00:19:29.420
weil die halt zum Beispiel im Hintergrund auf eine Art und Weise archiviert

00:19:29.420 --> 00:19:34.080
ist, dass ein Roboterarm irgendwo hinfahren muss, um sich irgendwo ein Tape

00:19:34.080 --> 00:19:36.980
rauszusuchen und dieses Tape dann auszulesen.

00:19:36.980 --> 00:19:41.859
Da kann man sich schnell vorstellen, erstens, dass das wenig performant ist,

00:19:41.940 --> 00:19:44.400
aber es kommt ja auch nicht drauf an auf Performance.

00:19:45.359 --> 00:19:48.580
Bei der Wayback Machine. Und man kann sich aber eben auch vorstellen,

00:19:48.720 --> 00:19:52.420
wenn dann so ein KI-Crawler vorbeikommt und sagt, gib mir mal random aus deinem

00:19:52.420 --> 00:19:56.020
ganzen Bestand lauter Seiten und ich stelle mir so einen Roboterarm vor,

00:19:56.099 --> 00:19:58.900
der da völlig am Qualmen ist, weil er kaum hinterherkommt.

00:19:59.720 --> 00:20:06.020
Also es passieren Dinge auf einem Server, die im Zweifelsfall sehr aufwendig sein können.

00:20:06.300 --> 00:20:08.800
Und Lea hatte schon das Beispiel mit dem Kalender gebracht.

00:20:09.119 --> 00:20:13.619
Da hast du halt vielleicht eine Terminübersicht und dann gibt es aber den Kalender,

00:20:13.700 --> 00:20:16.700
dann hast du die Übersicht nochmal nach Tagen und dann gibt es aber auch eine

00:20:16.700 --> 00:20:22.359
Wochenübersicht und vielleicht eine Monatsübersicht und dann gibt es irgendwelche Tags.

00:20:22.359 --> 00:20:27.119
Und ein Mensch würde so eine Funktion vielleicht ein-, zweimal benutzen,

00:20:27.240 --> 00:20:29.359
um bis zu dem Ziel zu kommen, wo er hinkommt,

00:20:30.200 --> 00:20:32.880
während aber so ein KI-Crawler das alles durchgeht, der sagt,

00:20:32.940 --> 00:20:36.340
jetzt nehme ich mir die Wochenansicht vor, dann nehme ich die erste Kalenderwoche

00:20:36.340 --> 00:20:39.740
und die zweite und die dritte und dann nehme ich mir den ersten Monat und den

00:20:39.740 --> 00:20:41.500
zweiten Monat und den dritten Monat und so weiter.

00:20:41.900 --> 00:20:45.460
Die kommt am Ende natürlich trotzdem nur auf die drei Termine,

00:20:45.560 --> 00:20:50.500
die da vielleicht drinstehen in dem Kalender, aber hat sozusagen jeden erdenklichen

00:20:50.500 --> 00:20:53.780
Weg, der zu diesen Terminen hinführt, dann auch einmal genommen.

00:20:55.160 --> 00:20:59.240
Also die Frage, die sich mir jetzt sofort aufdringt, ist, ihr habt ja anfangs

00:20:59.240 --> 00:21:00.800
beschrieben erstmal, was Crawler sind.

00:21:01.720 --> 00:21:08.660
Und es gibt ja, also das Internet ist jetzt schon länger als die Gen-KI-Crawler, über die wir reden.

00:21:08.900 --> 00:21:11.760
Und das heißt also gerade sowas wie ein Google-Crawler oder sowas,

00:21:12.460 --> 00:21:16.660
also oder andersrum. Ich stelle mir das Web als sozusagen so eine Art Vertrag vor.

00:21:16.859 --> 00:21:20.200
Also jeder hostet seine Seiten und es gibt halt Crawler und die kommen halt.

00:21:20.200 --> 00:21:22.980
Vorbei, weil sonst würden Suchmaschinen einfach überhaupt gar nicht funktionieren.

00:21:25.560 --> 00:21:30.280
Und ich entnehme sozusagen aber dem Gesprächsbedürfnis über das Thema,

00:21:30.420 --> 00:21:32.640
ja nicht nur von euch, sondern ich hatte ja eben heute auch diesen Tut,

00:21:35.400 --> 00:21:38.680
also was ist denn der Unterschied? Könnt ihr das sagen? Also sagen,

00:21:38.760 --> 00:21:41.200
sind die irgendwie schlechter programmiert? Kommen die häufiger vorbei?

00:21:42.580 --> 00:21:46.880
Verursachen die mehr Aufwand? Also was ist sozusagen, warum war es vorher okay

00:21:46.880 --> 00:21:48.000
und jetzt ist es nicht okay?

00:21:48.220 --> 00:21:51.540
Machen die was anders oder ist es eher so ein Punkt von, okay,

00:21:51.640 --> 00:21:54.560
wir waren als Web darauf eingerichtet, jetzt ganz pauschal gesprochen,

00:21:54.720 --> 00:21:56.840
dass halt ab und zu mal so ein Suchcrawler vorbeikommt.

00:21:56.980 --> 00:22:00.859
Aber jetzt sind es dann einen Crawler pro Tag fünf und das ist einfach zu viel.

00:22:00.980 --> 00:22:08.020
Also wo ist der Unterschied, der qualitative zwischen dem Crawling vor KI und jetzt danach?

00:22:08.920 --> 00:22:15.700
Also zum einen muss man sagen, dass, glaube ich, die alten Suchmaschinencrawler

00:22:15.700 --> 00:22:20.280
einfach auch historisch, dadurch, dass sie über Jahre und viele Jahre entwickelt wurden,

00:22:20.880 --> 00:22:27.220
deutlich robuster sind und weniger Fehler haben als die für KI gegenwärtig.

00:22:27.280 --> 00:22:30.380
Das heißt, die sind früher auch mal in solche Problemfälle reingerannt,

00:22:30.520 --> 00:22:32.240
aber machen das nicht mehr inzwischen.

00:22:32.980 --> 00:22:38.619
Also die sind sozusagen ausgereifter. Zum anderen, ja, es waren weniger, deutlich weniger.

00:22:38.960 --> 00:22:43.740
Jetzt macht ja quasi gefühlt jedes Startup irgendwie seinen eigenen Datenbestand und wühlt da drin rum.

00:22:44.820 --> 00:22:49.960
Dazu haben sie sich damals auch noch mehr an diese Regeln wie diese robots.txt-Datei

00:22:49.960 --> 00:22:52.780
gehalten. Das machen sie heute auch nicht mehr.

00:22:54.349 --> 00:22:59.010
Und, ja, das sind so die Gründe, sag ich mal, dass das ein großer Unterschied ist.

00:22:59.290 --> 00:23:01.730
Konntest du die ganze Zeit so aus, als ob sie Zahnschmerzen hat?

00:23:01.849 --> 00:23:05.670
Naja, es gab ja mal einen Grund, warum wir uns überlegt haben,

00:23:05.730 --> 00:23:06.930
warum wir so ein Chaosradio machen.

00:23:07.030 --> 00:23:08.849
Und das ist so ungefähr, würde ich sagen, schon ein Jahr her,

00:23:08.950 --> 00:23:14.390
wo plötzlich alle anfingen, sich zu beschweren. Ja, weil der Schwall an KI-Bots immer größer wurde.

00:23:14.609 --> 00:23:19.570
Und das ist ja auch so ein bisschen der Nachhall von einer großen Vendetta,

00:23:19.690 --> 00:23:24.570
die sich eben um diese KI dreht. und ist ja nicht nur die riesengroßen Tech-Konzerne.

00:23:25.270 --> 00:23:28.910
Und ich glaube, das ist ein Element, was jetzt noch nicht angesprochen wurde.

00:23:29.210 --> 00:23:32.310
Du hast ja eigentlich nur zwei Möglichkeiten, so einen Crawler fernzuhalten.

00:23:32.470 --> 00:23:38.310
Entweder eben die schon angesprochenen robots.txt, die ja letztlich eine Absprache ist.

00:23:38.670 --> 00:23:42.630
Man kann sich daran halten und die meisten alten Suchmaschinen-Crawler haben

00:23:42.630 --> 00:23:43.849
sich daran gehalten. Oder eben

00:23:43.849 --> 00:23:46.550
Access-Controller. Du machst einen Zukunftskontroller. Kannst du auch.

00:23:48.170 --> 00:23:51.450
Aber ich glaube, es gibt noch diese andere Seite. Nämlich zu sagen,

00:23:51.609 --> 00:23:54.530
Die meisten Leute, die eine Webseite haben, wollen ja gefunden werden.

00:23:54.670 --> 00:23:59.250
Das heißt, die Abmachung war ja auch irgendwie okay, denn man möchte ja im Web gefunden werden.

00:24:00.150 --> 00:24:03.790
Bei KI-Bots sieht die Sache, glaube ich, differenzierter aus.

00:24:03.910 --> 00:24:08.390
Es gibt die AI-Slop-Hater, die sowieso damit nichts zu tun haben wollen und

00:24:08.390 --> 00:24:12.849
schon gar nicht irgendwie Kosten haben wollen aufgrund von großen Sprachmodellen

00:24:12.849 --> 00:24:14.010
und den Tech-Konzernen.

00:24:14.010 --> 00:24:18.590
Und dann gibt es aber auch den ganzen Streit um zum Beispiel Urheberrechte,

00:24:19.030 --> 00:24:21.770
kreativen Rechte, Stilnachahmung und so was.

00:24:22.010 --> 00:24:26.349
Und die ganzen Rechtsstreitigkeiten, die sich abspielen, die einfach noch nicht gelöst sind.

00:24:26.790 --> 00:24:31.030
Und wo, glaube ich, mehr Gegenwehr gegen diese Art von Crawling,

00:24:31.109 --> 00:24:33.390
nicht nur, weil die schlechter technisch gemacht ist, sondern eben auch,

00:24:33.490 --> 00:24:34.410
weil die einen anderen Zweck erfüllt.

00:24:35.250 --> 00:24:39.210
Und ich glaube, hier hat sich so eine Gemengenlage gebildet.

00:24:40.310 --> 00:24:45.690
Also einmal von der Seite die crawlen und wie die das technisch machen,

00:24:45.890 --> 00:24:47.570
dann die Menge, aber auch der Grund.

00:24:48.210 --> 00:24:51.690
Und ich glaube, das normale Suchmaschinencrawling war für die meisten auch in

00:24:51.690 --> 00:24:55.210
Ordnung, denn das Netz ist ja auch sozusagen so gebaut, dass die meisten Leute

00:24:55.210 --> 00:24:56.130
gefunden werden wollen.

00:24:57.200 --> 00:24:59.780
Also ich glaube, deshalb ist es dazu gekommen. Der letzte Aspekt,

00:24:59.880 --> 00:25:06.000
den ich da noch anmerken würde, wäre, es gibt ja jetzt seit einer Weile Bemühungen,

00:25:07.840 --> 00:25:12.220
Vielleicht zu einer neuen Lösung zu kommen, weil eben auch viele von den KI-Crawlern

00:25:12.220 --> 00:25:15.500
die Robots.txt nicht beachten.

00:25:15.700 --> 00:25:18.180
Also sich darüber hinwegsetzen, was früher eine Konvention war.

00:25:18.700 --> 00:25:22.360
Und weil man auch auf die Idee gekommen ist, dass man technisch vielleicht ein

00:25:22.360 --> 00:25:27.440
paar andere Regeln braucht für diese Art von Bots, weil die ja eben auch andere Funktionen ausfüllen.

00:25:27.920 --> 00:25:33.360
Also es ist so ein bisschen, die Heise hatte kürzlich einen Nachruf,

00:25:33.580 --> 00:25:40.700
jetzt ist es tot, nämlich die Robux TXT, jetzt sozusagen diese Ära des Web zu Ende.

00:25:40.700 --> 00:25:45.700
Also es ist so ein Tipping-Point erreicht, so schätze ich es zumindest ein.

00:25:46.760 --> 00:25:52.280
Würdet ihr denn dem zustimmen? Also ist sozusagen die Anzahl der KI-Crawler,

00:25:52.360 --> 00:25:56.340
die vorbeikommen, immer noch mehr und immer noch schlechter oder ist da jetzt

00:25:56.340 --> 00:25:59.540
schon sozusagen oben die Bergspitze erreicht?

00:26:01.780 --> 00:26:03.180
Puh, gute Frage.

00:26:05.520 --> 00:26:09.340
Also ich würde sagen, die Spitz ist noch nicht ganz erreicht.

00:26:09.500 --> 00:26:14.080
Wir bewegen uns aber auf den Gipfel zu, weil eben viele,

00:26:14.440 --> 00:26:20.680
auch viele große Firmen wie Cloudflare oder andere, die sich sozusagen vor andere Websites setzen,

00:26:21.040 --> 00:26:26.400
inzwischen Filtermöglichkeiten genau dafür anbieten, beziehungsweise Überlösung nachdenken,

00:26:26.540 --> 00:26:30.500
wie das Ganze vielleicht gerechter gestaltet werden kann, im Sinne von,

00:26:30.640 --> 00:26:36.100
man bekommt dann eben einen ganz kleinen Betrag oder Ähnliches.

00:26:37.270 --> 00:26:40.870
Man muss aber auch sagen, unabhängig davon, dass sich das ändert,

00:26:40.990 --> 00:26:48.070
ändert sich inzwischen auch sehr viel dadurch, dass es diese Tools wie ChatGPT oder andere gibt,

00:26:48.470 --> 00:26:55.070
dass Menschen diese KI-Tools als Suchmaschine benutzen.

00:26:55.670 --> 00:27:00.770
Das hatten wir ja schon ganz am Anfang, dass manchmal die dann nochmal separat

00:27:00.770 --> 00:27:02.370
nachfragen, nicht nur fürs Trainieren.

00:27:03.210 --> 00:27:08.130
Und man sieht inzwischen ganz viel auch, dass Websites und anderes,

00:27:08.210 --> 00:27:13.170
da wo früher auf Suchmaschinen optimiert wurde, das jetzt eben auf KI optimiert wird.

00:27:13.330 --> 00:27:16.790
Und wir hören auch von manchen KundInnen immer mal wieder,

00:27:17.170 --> 00:27:23.090
dass sie das auch möchten, dass ihre Inhalte von der KI wiederum initiiert werden,

00:27:23.270 --> 00:27:28.130
weil eben Leute da gerade nach Produkten oder sonst was suchen und dann natürlich

00:27:28.130 --> 00:27:29.130
auch gefunden werden wollen.

00:27:29.770 --> 00:27:33.670
Also das ist eine ganz schwierige Gemengelage, wie du ja schon beschrieben hast.

00:27:33.870 --> 00:27:36.290
Also auch eine gewisse Konvergenz, die sich hier abzeichnet.

00:27:36.330 --> 00:27:41.730
Dazwischen suchen und AI-Suche oder eine Mischung daraus, nicht wahr?

00:27:43.170 --> 00:27:43.390
Genau.

00:27:44.330 --> 00:27:48.410
Ja, ich würde gerne noch ergänzen. Du hast es schon ganz gut beschrieben,

00:27:48.510 --> 00:27:51.930
dass es mit der robots.txt eigentlich so eine Art Vertrag war.

00:27:52.190 --> 00:27:58.670
Oder es gab sowas wie einen Respekt davor. Ich kann meine Website so optimieren,

00:27:58.870 --> 00:28:00.530
dass sie bei Google gut gefunden wird.

00:28:00.830 --> 00:28:05.070
Ich kann aber genauso gut auch die bewusste Entscheidung treffen,

00:28:05.070 --> 00:28:07.210
zu sagen, ich sperre Google jetzt aus.

00:28:07.450 --> 00:28:14.110
Und das ist halt genau das, was im Moment mit den KI-Bots-Stich nicht möglich ist.

00:28:14.570 --> 00:28:19.650
Also die setzen sich einfach auf technischer Ebene so ziemlich über alles hinweg,

00:28:19.750 --> 00:28:20.970
was man so versuchen kann.

00:28:21.230 --> 00:28:24.370
Also da kommen wir vielleicht später noch ein bisschen so zur Technik.

00:28:24.470 --> 00:28:28.270
Aber das, wo ich früher an den Requests den Googlebot einfach erkennen konnte,

00:28:28.430 --> 00:28:30.170
weil da drin stand, hallo, ich bin der Googlebot.

00:28:30.430 --> 00:28:32.550
Und wenn ich das nicht wollte, konnte ich den sperren.

00:28:33.530 --> 00:28:37.710
So tut es halt mit den KI-Bots auch nicht mehr. Und das heißt, die Entscheidung,

00:28:38.170 --> 00:28:42.810
ob ich jetzt gerne aktiv dazu beitragen möchte, dass das KI-Modell trainiert

00:28:42.810 --> 00:28:47.770
wird oder ob ich das gezielt vermeiden möchte, ist für mich gar keine Wahl,

00:28:48.010 --> 00:28:49.510
die ich im Moment treffen kann.

00:28:49.510 --> 00:28:54.610
Also man kann sich den quasi nur so straßenkampfmäßig mit allen möglichen technischen

00:28:54.610 --> 00:28:59.710
Mitteln, Sperrungen hier und da so halbwegs dagegen erwehren.

00:29:00.090 --> 00:29:04.090
Aber es ist eben genauso das, wie es auch aus dem eingänglichen Tut hervorging.

00:29:04.310 --> 00:29:10.370
Man muss sich da explizit gegen wehren. Ansonsten ist die Wahl für einen schon

00:29:10.370 --> 00:29:11.970
getroffen und man ist ein Teil davon.

00:29:13.090 --> 00:29:17.590
Und selbst in den Details, ich konnte in der Robots TXT glaube ich sogar sowas

00:29:17.590 --> 00:29:20.390
wie eine Crawl-Frequenz festlegen.

00:29:20.510 --> 00:29:23.950
Wenn ich weiß, meine Seite performt nicht so wahnsinnig, dann kann ich aktiv

00:29:23.950 --> 00:29:26.150
sagen, hier ist meine Sitemap XML,

00:29:26.730 --> 00:29:31.650
das sind genau die 15 Seiten, die du bitte crawlst und den Rest bitte nicht

00:29:31.650 --> 00:29:35.710
und bitte komm auch nicht häufiger als einmal in drei Tagen vorbei.

00:29:36.250 --> 00:29:40.670
Und da ist das Ausmaß, mit dem KI-Crawler vorbeikommen, eben auch ein ganz anderes,

00:29:40.830 --> 00:29:43.690
was zur Verschärfung des Problems beiträgt.

00:29:43.690 --> 00:29:47.770
Also könnte man zusammengefasst sagen, Crawling ist eine Technologie,

00:29:47.910 --> 00:29:50.030
die ist eigentlich sozusagen gut abgehangen,

00:29:50.230 --> 00:29:57.750
aber sozusagen die neue Iteration dieser Technologie hält sich also weder an

00:29:57.750 --> 00:30:02.390
das, was man technisch schon darüber gelernt hat, noch sozusagen an die Agreements,

00:30:02.910 --> 00:30:08.310
die das Web bis jetzt gestaltet haben, weil die und ja, liebe HörerInnen,

00:30:08.350 --> 00:30:09.750
das ist jetzt immer eine Pauschalisierung.

00:30:09.750 --> 00:30:13.330
Wir reden jetzt von "die KI-Crawler", natürlich hat jede Firma ihre eigenen und

00:30:13.330 --> 00:30:16.310
so weiter und so fort. Dann gibt es bestimmt auch den einen guten.

00:30:17.850 --> 00:30:23.930
Aber es ist sozusagen in der Regel verstoßen die dagegen?

00:30:24.470 --> 00:30:26.550
Nehme ich das richtig sozusagen mit aus dem Subtext?

00:30:27.690 --> 00:30:33.050
Ich würde es tatsächlich so formulieren, also ich habe keine tiefergehende Kenntnis

00:30:33.050 --> 00:30:37.650
darüber, wie KI-Crawler technisch funktionieren, aber es entsteht so ein gewisser

00:30:37.650 --> 00:30:40.630
Eindruck anhand dessen, was wir sehen.

00:30:40.750 --> 00:30:46.390
Und ich habe so die Vorstellung, dass KI-Crawler gewissermaßen mit dem Auftrag

00:30:46.390 --> 00:30:50.150
ins Netz geschickt werden, eine Seite zu crawlen und dann tun sie gewissermaßen

00:30:50.150 --> 00:30:52.470
alles, was dafür nötig ist.

00:30:52.470 --> 00:30:57.170
Und dann stellen sie zum Beispiel fest, oh, wenn ich mich CloudBot oder so nenne,

00:30:57.510 --> 00:30:58.830
dann werde ich ausgesperrt.

00:30:58.930 --> 00:31:02.470
Aber ich stelle fest, wenn ich mich Internet Explorer 11 nenne,

00:31:02.770 --> 00:31:06.430
dann werde ich mich ausgesperrt. Also nenne ich mich doch Internet Explorer 11.

00:31:06.630 --> 00:31:11.690
Und damit kommen die zum Ziel und der Weg dorthin ist eigentlich zweitrangig.

00:31:12.090 --> 00:31:14.610
Das ist halt auch das, was das Sperren dann so schwierig macht.

00:31:15.330 --> 00:31:18.670
Ich will nochmal so sagen, also wir haben jetzt schon darüber gesprochen,

00:31:18.910 --> 00:31:21.810
auch, dass es möglicherweise auch nicht technische Gründe gibt,

00:31:21.950 --> 00:31:24.190
um KI-Crawler nicht zulassen zu wollen.

00:31:25.090 --> 00:31:33.350
Aber jetzt ihr als Hoster habt ja sozusagen im Vorgeplänkel auch sozusagen formuliert,

00:31:33.390 --> 00:31:34.670
das ist ein Ärgernis mit dem ich wollte.

00:31:34.870 --> 00:31:38.950
Was genau ist das, was bei euch passiert? Also was verursacht das Ärgernis?

00:31:39.250 --> 00:31:41.730
Habt ihr da einen Mehraufwand? Wodurch wird der verursacht?

00:31:43.930 --> 00:31:47.570
Also erstmal muss man sagen, wir haben halt viele, viele tausend Kunden,

00:31:47.950 --> 00:31:51.390
das heißt mit vielen, vielen tausend Websites,

00:31:51.690 --> 00:31:56.490
das heißt die KI-Bots kommen nicht nur auf einer Seite nach und nach vorbei,

00:31:56.650 --> 00:32:01.850
sondern sie kommen zum Teil auch auf hunderten Seiten gleichzeitig vorbei und

00:32:01.850 --> 00:32:05.890
wie gesagt verheddern sich manchmal auf Einzelnen, was dann die Last hochtreibt,

00:32:06.030 --> 00:32:09.870
was dann wiederum dazu sorgt, dass es auch für andere Leute langsamer wird.

00:32:12.270 --> 00:32:14.670
Und das ist, sage ich mal, das größte Problem, das wir haben.

00:32:14.730 --> 00:32:18.030
Wir können unsere Dienstleistungen, dass die Seiten schnell erreichbar sind,

00:32:18.610 --> 00:32:22.450
nur schwer zur Verfügung stellen, wenn, um es mal salopp zu sagen,

00:32:22.570 --> 00:32:29.110
ein Unternehmen, das Milliarden von Venture Capital hat, auf uns plötzlich einprügelt

00:32:29.110 --> 00:32:31.170
und sagt, gib mir mal alle Daten,

00:32:31.450 --> 00:32:34.390
die ihr so zu dieser Seite habt.

00:32:36.390 --> 00:32:39.510
Und was kann man dagegen tun? Oder kann man was dagegen tun?

00:32:40.010 --> 00:32:45.750
Ist das ein politisches Problem? Also wenn ich, ihr habt ein politisches Problem,

00:32:45.950 --> 00:32:49.130
Konz Karcho wieder mit den Augen gerollt, meine ich in dem Sinne von man kann

00:32:49.130 --> 00:32:51.210
es technisch nicht klären, sondern es müsste anders geregelt werden.

00:32:51.810 --> 00:32:55.770
Was ich jetzt verstanden habe, ist es gab früher oder es gibt eine Robots TXT

00:32:55.770 --> 00:33:00.390
und früher galt mal wenn da drin steht nein, dann nein.

00:33:01.050 --> 00:33:06.450
Es gab früher haben sich Crawler in der Regel so benannt, wie sie waren.

00:33:06.590 --> 00:33:11.250
Nämlich als Crawler von Firma XY und dann konnte man sie mehr oder weniger technisch aussperren.

00:33:12.010 --> 00:33:15.190
Wenn du die ganze Zeit so ein Gesicht machst, dann musst du es auch formulieren.

00:33:17.810 --> 00:33:22.870
Naja, es tut mir leid, dass ich nicht ein neutrales Gesicht machen kann.

00:33:23.050 --> 00:33:27.510
Aber es ist natürlich auch nicht zu idealisieren. Auch schon früher gab es Ärger

00:33:27.510 --> 00:33:31.310
mit Crawlern, die auch versucht haben, gegen die Konvention zu handeln.

00:33:31.430 --> 00:33:34.710
So ist es nicht. Ich glaube, das Problem ist ja nicht, dass sich einer mal darüber

00:33:34.710 --> 00:33:37.670
hinweg setzt, sondern tatsächlich die Größe, die jetzt ja schon so ein bisschen

00:33:37.670 --> 00:33:42.370
angedeutet war und dass die auch ganz klar reagieren auf Gegenmaßnahmen,

00:33:42.510 --> 00:33:44.550
die von vielen getroffen wurden, als es immer mehr wurde.

00:33:45.030 --> 00:33:48.110
Also ich glaube, das hat sich eben zu so einem, ich fand den Begriff so schön,

00:33:48.610 --> 00:33:52.510
zu so einer Straßenschlacht entwickelt, wo man versucht, Wege zu finden,

00:33:52.970 --> 00:33:54.510
sozusagen zu minimieren.

00:33:54.650 --> 00:33:58.570
Also das ist so ein Aufrüsten und das ist, glaube ich, für mich der große Unterschied.

00:33:58.870 --> 00:34:00.030
Aber dazu wollte ich doch gerade kommen.

00:34:02.470 --> 00:34:06.830
Ich wollte jetzt erst mal fragen, es gibt diese einfachen Wege,

00:34:07.030 --> 00:34:13.449
die früher sozusagen als Agreement da waren, die nicht alle immer eingehalten

00:34:13.449 --> 00:34:14.750
haben, die jetzt nicht mehr funktionieren.

00:34:14.890 --> 00:34:19.170
Was ist denn die nächste Stufe in diesem Kampf? Also was kann man denn machen?

00:34:20.150 --> 00:34:25.230
Genau, also vielleicht nochmal ganz kurz so ein bisschen den Rahmen beschreibend anzunehmen.

00:34:26.640 --> 00:34:31.140
Also zum Teil sehen wir zum Beispiel von ByteDance, das sind die Leute mit TikTok,

00:34:31.840 --> 00:34:36.000
dass wir da die Anfragen von bis zu 20.000 IPs bekommen.

00:34:37.580 --> 00:34:42.380
Durchgehend. Weil die einfach so viele VNs in irgendwelchen Clouds hochziehen.

00:34:42.760 --> 00:34:46.760
Und dann quasi nur einen Request davon machen. Und dann kommt schon wieder die nächste.

00:34:47.480 --> 00:34:49.040
Was das dann schwierig macht.

00:34:50.280 --> 00:34:51.320
Also sperren, schwierig ne?

00:34:51.940 --> 00:34:55.140
Das sind jetzt schon wieder viele Informationen auf einmal, glaube ich. Also das heißt,

00:34:55.640 --> 00:34:59.840
eine Sache, die man gegen Crawler machen kann, ist, versuchen rauszufinden,

00:34:59.940 --> 00:35:04.540
woher sie kommen, also die IP-Adresse herausfinden, also die Telefonnummer im

00:35:04.540 --> 00:35:08.800
Internet und dann sagen so, nee, Anfragen von dieser IP-Adresse, nein.

00:35:08.800 --> 00:35:14.580
So, das wäre also eine weitere Möglichkeit, sozusagen sowas zu sperren und das

00:35:14.580 --> 00:35:16.360
wird dann umgangen im Sinne von,

00:35:16.520 --> 00:35:24.140
im Sinne von jemand gibt sich technisch einfach sehr viele IPs und dann was

00:35:24.140 --> 00:35:26.660
pro IP nur eine Anfrage. Genau.

00:35:27.400 --> 00:35:34.460
Zum Teil im Prinzip jede Anfrage schickst du mit einem neuen Namen raus und

00:35:34.460 --> 00:35:38.340
dann kannst du zwar sagen, okay, ich sperre den jetzt,

00:35:38.660 --> 00:35:44.820
aber dann kommt der Bot schon wieder mit dem nächsten Namen um die Ecke,

00:35:45.219 --> 00:35:49.300
den du dann theoretisch wieder blocken musst und so weiter.

00:35:49.300 --> 00:35:53.440
Also wir machen jetzt zum Beispiel gegenwärtig, wir achten schon zum Teil auf

00:35:53.440 --> 00:35:58.360
diesen Namen, mit denen sie sich melden und wenn da zu viele Anfragen kommen,

00:35:58.440 --> 00:35:59.800
dann sagen wir, okay, jetzt setze

00:35:59.800 --> 00:36:02.980
dich mal auf die ruhige Bank und jetzt bist du mal für einen Tag weg.

00:36:04.590 --> 00:36:07.949
Und dann darf die IP theoretisch wieder. Und wenn sie sich dann wieder daneben

00:36:07.949 --> 00:36:11.930
benimmt, dann kommt sie wieder auf die stille Bank, aber diesmal für zwei Tage.

00:36:13.430 --> 00:36:17.250
Ist das so ein tagesaktuelles Ding? Also man schraubt jetzt eigentlich mittlerweile

00:36:17.250 --> 00:36:21.150
jeden Tag daran rum, wie viele Zugriffe.

00:36:21.150 --> 00:36:25.810
Von irgendwo kommen und passt diese Filter an? Nee, also die haben wir aktuell

00:36:25.810 --> 00:36:27.110
mehr oder minder statisch.

00:36:27.190 --> 00:36:33.290
Man muss aber schon immer im Blick behalten, unter welchen Namen sie sich dann

00:36:33.290 --> 00:36:35.050
melden und das anpassen.

00:36:35.410 --> 00:36:40.010
Also es ist schon etwas, sag ich mal, wo man wöchentlich oder alle paar Wochen

00:36:40.010 --> 00:36:42.850
schon ein bisschen drauf gucken muss und das anpassen muss.

00:36:44.390 --> 00:36:48.910
Und jetzt können wir sozusagen noch zum nächsten Schritt kommen,

00:36:49.150 --> 00:36:50.370
wo es dann schwierig wird.

00:36:51.270 --> 00:36:55.870
Es gab jetzt letztes Jahr, hatte Heise auch berichtet, zum Beispiel einen

00:36:58.540 --> 00:37:04.460
Software-Baukasten, den viele Apps benutzt haben und wo die auch aktiv auf Leute

00:37:04.460 --> 00:37:08.920
zugegangen sind und gesagt haben, hier willst du diesen Toolbox bei dir nicht einbauen.

00:37:09.420 --> 00:37:14.420
Und dann konnten Leute oder Unternehmen als Dienstleistung sozusagen über dein

00:37:14.420 --> 00:37:17.880
Handy zum Beispiel ihre Anfragen leiten.

00:37:18.320 --> 00:37:18.600
What?

00:37:19.219 --> 00:37:19.820
Genau.

00:37:20.580 --> 00:37:23.699
Warte, also nur für mal Fertig, also quasi,

00:37:25.000 --> 00:37:29.500
nehmen wir mal eines meiner die Computerspiele auf dem Smartphone und dann gibt

00:37:29.500 --> 00:37:33.180
es sozusagen, wenn ich ein Computer, also ein Smartphone-Game programmieren

00:37:33.180 --> 00:37:39.260
will, benutze ich dafür einen Baukasten und in diesem Baukasten enthalten ist eine Schnittstelle,

00:37:40.440 --> 00:37:43.880
die dann der Betreiber des Spiels wissentlich oder unwissentlich...

00:37:43.880 --> 00:37:44.680
Der wird dafür bezahlt.

00:37:45.000 --> 00:37:46.199
Der wird dafür bezahlt.

00:37:46.640 --> 00:37:46.900
Genau.

00:37:47.480 --> 00:37:51.520
Also das finde ich total interessant, weil das ja vielleicht sozusagen auch eine Erklärung ist,

00:37:52.020 --> 00:37:56.080
wofür verdienen diese ganzen Billo-Freet-to-Play-Spiele ihr Geld durch Werbung

00:37:56.080 --> 00:37:59.580
und vielleicht dann auch wow und das heißt dann wird mein Handy dazu benutzt,

00:37:59.680 --> 00:38:05.620
um einen KI-Crawler zu transportieren und die IP-Adresse ist dann sozusagen meine.

00:38:06.020 --> 00:38:08.960
Genau. Das ist nämlich das nächste Problem.

00:38:09.199 --> 00:38:13.739
Wir sehen auch manchmal, dass die Angriffe oder so Anfragen,

00:38:13.820 --> 00:38:19.760
die dann auch nach KI-Bot aussehen, von hunderttausenden Endkunden Anschlüssen kommen.

00:38:21.239 --> 00:38:23.180
Und da kann man dann auch nicht mehr wirklich was blocken.

00:38:24.380 --> 00:38:27.320
Ich wollte gerade sagen, also mir scheint das sozusagen, also dieser,

00:38:27.500 --> 00:38:30.040
was war der Kampf? Wie der Kampfbegriff?

00:38:30.620 --> 00:38:31.020
Straßenkampf.

00:38:31.219 --> 00:38:35.980
Der Straßenkampf mit den KI-Crawlern wird zunehmend schwieriger,

00:38:36.080 --> 00:38:37.500
weil man sie nicht identifizieren kann.

00:38:37.580 --> 00:38:41.260
Weil man weder weiß, woher sie kommen, noch wie sie heißen.

00:38:41.840 --> 00:38:45.199
Genau. Noch halten sie sich an die Regeln, die man so identifizieren kann.

00:38:45.500 --> 00:38:48.460
Gibt es denn dann noch mehr, was man machen kann?

00:38:48.560 --> 00:38:52.060
Also sagen, Fragen, die auf eine bestimmte, Also gibt es irgendwie was technisch,

00:38:52.140 --> 00:38:55.020
was man erkennen kann? Will man vielleicht eine KI einsetzen?

00:38:56.400 --> 00:38:59.180
Das machen tatsächlich einige Unternehmen, glaube ich sogar schon.

00:39:01.420 --> 00:39:06.160
Oder zumindest sie trainieren auf den Anfragen eine KI, die dann speziell dazu

00:39:06.160 --> 00:39:09.380
gedacht ist, um Anfragen von KIs wiederum zu erkennen.

00:39:12.600 --> 00:39:16.520
Vielleicht noch ganz kurz eine ganz kleine Kurve. Was nämlich auch häufig ein

00:39:16.520 --> 00:39:20.640
Problem ist, es gibt dann ja Anbieter für Content Delivery Networks,

00:39:20.640 --> 00:39:23.520
Das ist, wenn man eine Seite hat, zum Beispiel, um einen Podcast mit vielen

00:39:23.520 --> 00:39:24.760
hundert Folgen zu hosten.

00:39:27.219 --> 00:39:31.360
Dann schaltet man die davor, um die Last für die Server hintendran klein zu halten.

00:39:32.520 --> 00:39:36.560
Allerdings sehen wir dann wiederum nur deren IPs und die können wir nicht blocken.

00:39:38.469 --> 00:39:40.070
Das heißt, wenn ich einen KI-Caller

00:39:40.070 --> 00:39:45.010
benutze, der über so ein Content-Delivery-Netzwerk seine Anfragen stellt.

00:39:45.130 --> 00:39:49.090
Dann… Kannst du auch nichts machen, weil sonst würde ich ja den Zugriff für

00:39:49.090 --> 00:39:50.989
alle Nutzenden blocken.

00:39:51.790 --> 00:39:54.170
Ach so, die vergiften dann quasi.

00:39:54.510 --> 00:39:55.790
Genau, die vergiften die Daten.

00:39:56.510 --> 00:40:01.230
Also das heißt, ihr empfangt Anfragen, da denkt ihr so, okay,

00:40:01.290 --> 00:40:05.210
das sind bestimmt KI-Anfragen, dann könnt ihr aber sozusagen nicht die IP-Adressen

00:40:05.210 --> 00:40:08.969
sperren, weil ihr könnt dann immer nur alles blocken.

00:40:09.110 --> 00:40:13.870
Was von dieser Richtung kommt. Genau, weil wir wissen in dem Fall,

00:40:14.590 --> 00:40:20.590
okay, das ist, was weiß ich, Cloud-Schläge als großer Anbieter und die fragen

00:40:20.590 --> 00:40:25.050
halt von dem Server mit dieser IP ganz viele Seiten ab und da sind hunderte,

00:40:25.170 --> 00:40:28.949
tausende Nutzende hintendran und nicht nur diese KI-Bots.

00:40:29.430 --> 00:40:31.350
Also es ist wirklich eine Katz-und-Maus-Spieler.

00:40:32.310 --> 00:40:39.489
Also gerade bei diesen CDNs ist es dann schon so, dass die in den HTTP-Headern

00:40:39.489 --> 00:40:44.510
die Original-IP mitliefern, für die, die jetzt einen Request durchleiten.

00:40:45.250 --> 00:40:50.630
Das heißt, ich kann nicht mehr auf IP-Ebene filtern, was ja so eine klassische

00:40:50.630 --> 00:40:54.010
Firewall-Aufgabe ist, einfach IP-basiert Pakete wegfiltern.

00:40:54.210 --> 00:41:00.370
Das ist halt frühzeitige, sehr effiziente Filterung. Ich kann natürlich zu einem

00:41:00.370 --> 00:41:05.710
späteren Zeitpunkt in meinem Stack schon in HTTP-Header reinschauen und da dann

00:41:05.710 --> 00:41:07.790
auch nochmal nach IPs filtern.

00:41:08.050 --> 00:41:11.969
Da bin ich aber technisch viel tiefer in meinem eigenen Stack dann schon drin

00:41:11.969 --> 00:41:15.030
und muss ergo auch sehr viel mehr Ressourcen aufwenden.

00:41:15.670 --> 00:41:20.810
Und das ist sowas, was wir im Moment nicht machen, weil es effizient nicht so

00:41:20.810 --> 00:41:23.969
wirklich möglich ist, was in der Folge heißt, dass überall da,

00:41:24.050 --> 00:41:28.350
wo wir Dinge sperren wollen, wir die bekannten Content Delivery Networks im

00:41:28.350 --> 00:41:30.270
Grunde außen vor lassen müssen.

00:41:30.650 --> 00:41:36.070
In der Hoffnung, dass die selbst auch so ein bisschen KI-Filterung betreiben.

00:41:37.570 --> 00:41:41.830
Ich bin ehrlich, nur als an dem Punkt, wo ich sagen muss, ich bin nicht neidisch auf euren Job.

00:41:44.330 --> 00:41:47.989
Man muss auch ehrlich sein, es nimmt einem manchmal den Spaß dran ein bisschen.

00:41:48.270 --> 00:41:50.830
Wenn man so eine Woche wieder nur gegen KI-Bots gekämpft hat,

00:41:50.969 --> 00:41:53.270
dann ist das schon manchmal ein bisschen frustrierend.

00:41:53.630 --> 00:41:56.770
Ich glaube, was man jetzt in den letzten Monaten beobachten konnte,

00:41:56.770 --> 00:42:00.230
ist so eine typische Reaktion von der technischen Community.

00:42:01.550 --> 00:42:05.250
Also sie haben so Überhand und alle haben sich darüber beschwert und sich überlegt,

00:42:05.350 --> 00:42:08.489
wie sie ihre in der Regel die Zugriffskontrollen verbessern können.

00:42:09.690 --> 00:42:14.850
Und dann gab es so ein, ich würde mal sagen, so zwei Dutzend Blogbeiträge,

00:42:14.969 --> 00:42:18.710
wie man sozusagen das verteuern könnte für die.

00:42:18.850 --> 00:42:24.070
Also sich zu überlegen, wie man die auf andere Weise abwehren könnte. Genau.

00:42:25.890 --> 00:42:29.690
Habt ihr das wahrgenommen? Habt ihr jemals überlegt, sowas auch einzusetzen?

00:42:29.989 --> 00:42:30.250
Ja.

00:42:31.430 --> 00:42:32.870
Also habt ihr Labyrinthe?

00:42:33.710 --> 00:42:37.390
Nein, Labyrinthe haben wir nicht. Labyrinthe haben wir aus dem Grund nicht,

00:42:37.670 --> 00:42:39.890
weil wir sagen, okay, dann generiert das eben.

00:42:39.890 --> 00:42:42.730
Im Interesse der Hörer, also vielleicht kann man sich sozusagen zusammenreimen,

00:42:42.830 --> 00:42:48.890
aber Labyrinthe ist sozusagen, man versucht den KI-Crawler nicht wegzublocken,

00:42:48.949 --> 00:42:52.630
sondern man sagt, klar, komm mal her, komm mal her, geh mal da lang.

00:42:52.910 --> 00:42:58.330
Und da lang ist dann sozusagen eine unendliche Menge von, quasi wie der Kalender,

00:42:58.430 --> 00:42:59.430
den ihr vorhin beschrieben habt.

00:42:59.670 --> 00:43:02.390
Also man versucht sozusagen an Daten zu kommen, aber da kommt nie was,

00:43:02.489 --> 00:43:05.130
sondern man geht immer noch sozusagen einen Link weiter, aber da steht nie was.

00:43:05.130 --> 00:43:07.969
Genau, wie so eine optische Täuschung von Escher oder so.

00:43:10.510 --> 00:43:12.630
Okay, das ist eine interessante Metapher.

00:43:13.190 --> 00:43:16.430
Okay, das gibt es also technisch. Da steht man natürlich auch wieder vor der

00:43:16.430 --> 00:43:21.730
Herausforderung, wie erkenne ich den KI-Bot, aber dann könnte man ihn da hinschicken

00:43:21.730 --> 00:43:24.050
und das macht ihr aber nicht, weil….

00:43:24.590 --> 00:43:28.290
Also ich glaube, da geht es um zwei verschiedene Dinge. Es gibt Seiten,

00:43:28.530 --> 00:43:33.130
die gewissermaßen bewusst zum Ziel haben, die KI-Crawler nicht fernzuhalten,

00:43:33.370 --> 00:43:39.610
sondern ganz im Gegenteil, sie möglichst lange auf der Seite zu halten und ihnen Blödsinn zu geben.

00:43:39.610 --> 00:43:45.370
Also da geht es quasi mehr darum, den Datenbestand des KI-Modells zu vergiften,

00:43:45.570 --> 00:43:50.830
denn diese KI-Modelle, die suchen natürlich nach möglichst flüssiger Sprache,

00:43:50.969 --> 00:43:54.230
mit der sie ihre Sprachmodelle trainieren können.

00:43:54.230 --> 00:43:58.310
Und wenn Sie aber halt auf eine Seite treffen, die Ihnen nur Kauderwelsch liefert,

00:43:58.410 --> 00:44:03.090
das in gar keiner Sprache irgendeinen Sinn ergibt und jedes einzelne Wort dieses

00:44:03.090 --> 00:44:08.170
Kauderwelschs ist ein Link auf eine weitere Seite, die noch mehr Kauderwelsch liefert,

00:44:08.510 --> 00:44:12.630
dann ist so ein bisschen der Gedanke dahinter, wir halten uns den Crawler nicht vom Leib,

00:44:12.770 --> 00:44:16.350
aber wir geben dem nur Stuss zu lesen und zwar auf eine Art und Weise,

00:44:16.469 --> 00:44:22.550
die wir sehr effizient bedienen können, die für den Crawler aber unendliche

00:44:22.550 --> 00:44:26.270
Mengen an Trainingsmaterial liefert, das Blödsinn ist.

00:44:26.790 --> 00:44:30.130
Da sage ich ganz ehrlich, in meinem Interesse ist das eigentlich nicht,

00:44:30.350 --> 00:44:32.830
denn dann sind die Crawler trotzdem noch bei uns.

00:44:32.989 --> 00:44:38.510
Eine gewisse Last generiert es trotzdem und der Crawler wird nicht hergehen

00:44:38.510 --> 00:44:41.449
und nach einer halben Stunde sagen, da kommt ja immer Blödsinn,

00:44:41.550 --> 00:44:45.510
ich höre mal auf, bei dir weiter zu crawlen. Da fehlt mir ein bisschen die Fantasie für.

00:44:46.630 --> 00:44:51.010
Zumal ja auch noch das Problem besteht mit dieser Variante, dass es trotzdem,

00:44:51.290 --> 00:44:54.050
wie du ja schon gesagt hast, nicht nur bei uns, sondern auch auf der Seite der

00:44:54.050 --> 00:44:57.770
KI-Crawler, der KI-Unternehmen Ressourcen braucht.

00:44:59.050 --> 00:45:03.810
Und sagen wir es mal so, dieses ganze KI-Umfeld ist jetzt nicht das energieeffizienteste.

00:45:04.710 --> 00:45:09.270
Da muss man sich natürlich überlegen, ob man sozusagen dafür sorgen will,

00:45:09.350 --> 00:45:12.350
dass da noch mehr Energie verbrannt wird oder ob man halt einfach sagt, nee, du hier nicht.

00:45:13.510 --> 00:45:18.130
Und dafür gibt es dann auch noch andere Möglichkeiten. Also neben diesen Labyrinthen,

00:45:18.270 --> 00:45:22.530
um die KI-Crawler zu beschäftigen und das möglichst teuer an der Stelle zu machen,

00:45:22.610 --> 00:45:23.810
gibt es noch eine andere Variante.

00:45:24.550 --> 00:45:30.810
Das ist sozusagen der Proof of Work. Das heißt, man muss eine kleine Berechnung ausführen,

00:45:31.190 --> 00:45:33.989
also eine kleine Software, die man vor seine Website zum Beispiel schaltet,

00:45:34.290 --> 00:45:37.890
die dann in Browser eine kleine Berechnung

00:45:37.890 --> 00:45:43.270
per JavaScript, also eine Programmiersprache für Browser, ausführt.

00:45:43.270 --> 00:45:49.590
Und die Idee dahinter ist dann, diese Berechnung für eine Seite auszuführen,

00:45:50.190 --> 00:45:52.810
die ein Mensch aufruft, ist relativ gering.

00:45:52.910 --> 00:45:55.830
Das dauert dann maximal, sage ich mal, 1, vielleicht 2 Sekunden.

00:45:56.770 --> 00:46:00.810
Wenn jetzt allerdings so ein KI-Crawler hunderte Seiten sehr,

00:46:00.870 --> 00:46:07.290
sehr schnell hintereinander abruft, dann machen diese jeweils 2 Sekunden und

00:46:07.290 --> 00:46:10.330
diese Berechnung relativ viel Aufwand und,

00:46:11.949 --> 00:46:18.870
Und das sollte dann dazu führen, zum Beispiel, dass die das Ganze abbrechen,

00:46:19.070 --> 00:46:21.670
weil sie sagen, das ist nicht mehr wirtschaftlich machbar, ich gehe woanders hin.

00:46:22.230 --> 00:46:25.710
Wenn du Berechnung sagst, meinst du jetzt sozusagen, da wird der Computer berechnet

00:46:25.710 --> 00:46:27.930
was, nicht der Mensch, der da vorsitzt und die Webseite aufruft?

00:46:28.010 --> 00:46:29.210
Genau, der Computer berechnet was.

00:46:30.510 --> 00:46:33.850
Aber ich möchte mal zurück zu dem Vergiften kommen, weil das finde ich natürlich

00:46:33.850 --> 00:46:39.390
sozusagen aus einem Schadefreude-Aspekt einen sehr witzigen Gedanken,

00:46:39.590 --> 00:46:44.130
dass man also nicht nur die Ressourcen des Crawlers in die Länge zieht,

00:46:44.210 --> 00:46:47.630
sondern eben auch noch das, was dahinter passiert sozusagen,

00:46:47.969 --> 00:46:53.110
verquatscht, indem man die Daten, mit denen die KI-Chatbots dann arbeiten,

00:46:54.610 --> 00:46:55.930
vergiftet eben, ist schon das richtige Wort.

00:46:55.930 --> 00:47:02.850
Aber ihr sagt, das macht zwar Spaß, aber ist aus einer Nachhaltigkeitsperspektive halt teuer.

00:47:03.410 --> 00:47:07.350
Und wenn man da sozusagen ein bisschen interdisziplinär denkt und auch an die

00:47:07.350 --> 00:47:11.449
Klimakatastrophe, ist das halt witzig, aber nicht zu empfehlen.

00:47:12.290 --> 00:47:18.989
Genau, das Ziel sollte eigentlich sein, nicht das ewig zu beschäftigen und früher

00:47:18.989 --> 00:47:22.670
oder später wird es dafür auch Lösungen und Erkennungsalgorithmen geben,

00:47:23.010 --> 00:47:29.210
sondern zu sagen, okay, wir müssen wieder zu einem fairen Umgang miteinander an der Stelle kommen.

00:47:30.070 --> 00:47:32.430
Aber da siehst du mich ehrlich gesagt skeptisch.

00:47:33.230 --> 00:47:34.610
Oh, ich bin auch super skeptisch.

00:47:34.610 --> 00:47:39.690
Genau, also was ich mich gerade frage, nachdem ich es jetzt gelernt habe,

00:47:39.790 --> 00:47:43.969
ist, die einzige pragmatische Lösung…,

00:47:45.060 --> 00:47:50.980
die wahrscheinlich kurzfristig funktionieren würde, ist einfach alles dicker

00:47:50.980 --> 00:47:54.900
zu machen, damit diese KI-Crawler-Anfragen sozusagen technisch geschluckt werden

00:47:54.900 --> 00:47:56.260
können und nichts mehr langsamer machen.

00:47:56.540 --> 00:48:00.260
Was ja dann wiederum hieße, also bei euch ist das natürlich was Besonderes,

00:48:00.320 --> 00:48:04.280
wenn die Kunden ihre Preise selber festlegen können, aber bei einem normalen

00:48:04.280 --> 00:48:06.739
Hoster würde das bedeuten, die Produkte würden einfach teurer.

00:48:06.940 --> 00:48:11.360
Weil man sagt einfach so, pass auf, wir leben im Zeitalter des KI-Crawlers.

00:48:11.520 --> 00:48:13.920
Web-Hosting, wenn du eine Webseite betreiben willst, ist es teurer,

00:48:13.920 --> 00:48:16.460
weil die Crawler halt alle kommen hier, das kostet jetzt keine Ahnung,

00:48:16.540 --> 00:48:17.860
einen Euro mehr im Monat oder was auch immer.

00:48:18.460 --> 00:48:21.800
Das ist die einzige Lösung, die ich... Das würden wir genauso machen müssen.

00:48:23.800 --> 00:48:26.940
Deswegen sagen wir, wir blocken das, was zumindest mal so schlimm ist,

00:48:27.020 --> 00:48:28.480
dass es uns riesige Probleme macht.

00:48:30.040 --> 00:48:34.300
Man muss dann sich halt natürlich auch fragen, wie vermittelt man das unseren

00:48:34.300 --> 00:48:37.719
oder irgendwelchen Kunden, dass sie jetzt mehr zahlen müssen,

00:48:37.860 --> 00:48:44.440
weil irgendwelche Unternehmen mit sehr, sehr viel Geld, der Meinung sind,

00:48:45.660 --> 00:48:50.420
ihre Inhalte auch noch kostenfrei, sage ich mal, ohne irgendwelche Vergütung

00:48:50.420 --> 00:48:54.199
oder sonst was zu nutzen und damit weiter unten Geld zu verdienen.

00:48:55.120 --> 00:48:58.100
Das ist insofern dann natürlich ein ganz interessanter Punkt,

00:48:58.160 --> 00:49:00.580
wenn man es jetzt mit Unternehmen zu tun hat,

00:49:00.820 --> 00:49:05.320
die weniger aus dem Web-Hosting-Bereich, sondern eher so aus dem Cloud-Bereich

00:49:05.320 --> 00:49:11.500
kommen, weil im Cloud-Bereich der Kernpunkt des Produkts eigentlich ist,

00:49:11.500 --> 00:49:13.520
dass das in alle Richtungen skalierbar ist.

00:49:13.780 --> 00:49:16.780
Beliebig viel Speicherplatz, beliebig viel CPU-Gessourcen,

00:49:17.690 --> 00:49:22.570
Und da kann es dann möglicherweise auch eine Kostenfalle werden.

00:49:22.830 --> 00:49:26.570
Also wenn man sich an irgendwelche Newsmeldungen erinnert von Leuten,

00:49:26.570 --> 00:49:30.670
die irgendwas in der Amazon Cloud oder so gehostet haben und plötzlich kam dann

00:49:30.670 --> 00:49:34.870
irgendwie so eine 100.000 Dollar Traffic-Rechnung.

00:49:35.310 --> 00:49:39.469
Das ist dann natürlich genau der Punkt, wo wir sagen, naja, wir als Webhoster,

00:49:39.570 --> 00:49:45.690
wir rufen einen definierten Preis auf, um einen gewissen Umfang an Ressourcen

00:49:45.690 --> 00:49:49.650
bereitzustellen, der in der Regel für die meisten Websites reicht.

00:49:50.090 --> 00:49:54.070
Und deshalb ist es ein Problem, wenn jetzt KI-Crawler vorbeikommen und aber

00:49:54.070 --> 00:50:00.690
das Zehnfache oder das Hundertfache von dem abrufen wollen, was wir an Ressourcen dimensioniert haben.

00:50:00.890 --> 00:50:05.090
Da kann man natürlich dickere Hardware dann einfach hinstellen, um mehr zu beantworten.

00:50:05.710 --> 00:50:09.210
Aber wie eben schon diese Beispiele von Cloud-Providern zeigen,

00:50:09.410 --> 00:50:13.230
die rechnen das dann halt eiskalt ab. Die sagen, wir mussten so und so viel

00:50:13.230 --> 00:50:18.790
CPU-Zeit aufwenden, um diese ganzen Anfragen zu beantworten und das steht jetzt auf deiner Rechnung.

00:50:19.030 --> 00:50:21.870
Da fallen also auch Leute manchmal ganz schön auf die Nase damit.

00:50:21.870 --> 00:50:26.690
Also das heißt, wirtschaftlich gesehen ist ihr als Hoster, der,

00:50:26.910 --> 00:50:31.150
ich weiß nicht, ob statische Setups das richtige, aber definierte Setups sozusagen

00:50:31.150 --> 00:50:34.750
verkauft, das ist erstmal euer Problem, wenn es sozusagen so viel wird.

00:50:35.570 --> 00:50:40.350
Aber bei der Cloud-Infrastruktur, ich glaube, wir können jetzt nicht ins Detail

00:50:40.350 --> 00:50:44.310
gehen und Cloud generell erklären, aber sozusagen die eben darauf basiert,

00:50:44.470 --> 00:50:50.310
dynamisch Ressourcen zur Verfügung zu stellen, wälzen die, wie so oft bei so digitalen Produkten,

00:50:51.050 --> 00:50:54.930
Plattformbetreiber das Risiko dann auf die KundInnen ab.

00:50:54.930 --> 00:50:59.450
Ja, bei uns ist es dann halt eher so, dass wir sagen,

00:51:00.210 --> 00:51:06.050
zum Beispiel WordPress und da läuft PHP als Programmiersprache und die kann

00:51:06.050 --> 00:51:11.310
in unserem Setup bis zu 20 Anfragen gleichzeitig bearbeiten.

00:51:11.410 --> 00:51:15.150
Das heißt, wenn mehr Anfragen eingehen als diese 20 gleichzeitigen,

00:51:15.350 --> 00:51:17.310
dann müssen die anderen warten.

00:51:18.230 --> 00:51:22.290
Effekt für mich als Website-Betreiber ist dann in der Zeit, dann ist meine Website

00:51:22.290 --> 00:51:26.210
on or offline, wenn gerade ein Crawler vorbeikommt und praktisch die ganzen

00:51:26.210 --> 00:51:28.370
Ressourcen für sich beansprucht.

00:51:28.590 --> 00:51:34.170
Wir dimensionieren diese 20 parallelen Anfragen eben auf der Basis,

00:51:34.230 --> 00:51:39.490
dass wir sagen, in der Regel reichen zwei parallele Requests völlig aus,

00:51:39.530 --> 00:51:42.690
um die Website für tausende von Besuchern verfügbar zu machen.

00:51:42.890 --> 00:51:45.070
Dann muss 20 ja wohl locker reichen.

00:51:46.490 --> 00:51:51.050
Dann ziehen wir halt die Grenze, aber diese Grenze wird von KI-Crawlern eben

00:51:51.050 --> 00:51:53.570
regelmäßig gerissen und dann ...

00:51:54.930 --> 00:51:57.570
Dann stehen wir ja quasi an dem Punkt, dass wir entscheiden müssen,

00:51:57.690 --> 00:52:02.590
gut, werfen wir da jetzt mehr Ressourcen drauf, die uns niemand bezahlt oder

00:52:02.590 --> 00:52:06.770
ziehen wir eine Grenze an Ressourcen, die gegenüber unseren Userinnen und Usern heißt,

00:52:07.350 --> 00:52:11.770
deine Website ist dann jetzt eben weitestgehend offline, weil voll überlastet

00:52:11.770 --> 00:52:16.910
mit Crawler-Requests und wir gehen eben den Weg, dass wir sagen, wir versuchen,

00:52:17.110 --> 00:52:21.830
diese Crawler-Requests möglichst so einzudämmen, dass noch alles mit den vorhandenen

00:52:21.830 --> 00:52:23.810
Ressourcen abgebildet werden kann.

00:52:24.770 --> 00:52:29.090
Mir scheint, das ist jetzt überall der Ansatz, aber vielleicht sollte man hinzufügen,

00:52:29.210 --> 00:52:30.530
dass die Verantwortlichen,

00:52:30.790 --> 00:52:36.670
die wir auch mal kurz benennen sollten, nämlich diejenigen, die diese Crawler

00:52:36.670 --> 00:52:39.930
quasi in Auftrag geben, Probleme natürlich auch erkannt haben.

00:52:40.370 --> 00:52:44.210
Also wenn sich irgendwie ganz viele Hoster und auch weltweit beschweren,

00:52:44.330 --> 00:52:46.150
dann geht ja meistens so Prozesse los.

00:52:46.150 --> 00:52:50.610
Also im Sinne von, dass das für die auch zum Problem wird oder im Sinne von,

00:52:50.690 --> 00:52:53.990
dass die denken, okay, wenn wir für andere Leute ein Problem so groß machen,

00:52:54.090 --> 00:52:55.030
fällt das irgendwo davon zurück?

00:52:55.030 --> 00:53:02.350
Ja klar. Die nehmen wahr, dass Leute, mit denen sie auch auf anderen Ebenen

00:53:02.350 --> 00:53:04.930
ja kooperieren müssen, hier ein Problem sehen und zwar ein größeres.

00:53:05.170 --> 00:53:07.310
Also da ist so ein Box gesagt, der da losgeht.

00:53:08.670 --> 00:53:10.570
Tatsächlich, also das hat sich jetzt ein bisschen so angehört,

00:53:10.630 --> 00:53:12.850
als wenn, so richtig haben wir dafür nicht eine Lösung.

00:53:13.890 --> 00:53:16.390
Obwohl Lea schon so ein paar Andeutungen hatte, wo es vielleicht in Zukunft

00:53:16.390 --> 00:53:19.630
hingeht. Also einmal diese Lösung, die Cloudware angeboten hat,

00:53:19.810 --> 00:53:21.690
also da steckt ja eine gewisse Monetarisierung drin.

00:53:21.690 --> 00:53:24.470
Aber zum anderen ist es auch so, dass die großen Konzerne sagen,

00:53:24.630 --> 00:53:27.570
hey, wir könnten uns quasi ein Update

00:53:27.570 --> 00:53:34.550
oder eine neue Form von Robots TXT vorstellen, die dann anders heißt.

00:53:36.170 --> 00:53:40.370
Und auf die einigen wir uns und wir können vielleicht ein bisschen fein granular

00:53:40.370 --> 00:53:45.350
darstellen, was da drin stehen kann, was soll so ein Bot dürfen,

00:53:45.690 --> 00:53:48.690
so ein Keycrawler, also die machen ja durchaus Vorschläge.

00:53:51.640 --> 00:53:55.700
Glaubt ihr oder nehmt ihr die überhaupt wahr und glaubt ihr,

00:53:56.140 --> 00:53:59.540
könnte eine Lösung sein, dass man sozusagen einen neuen Vertrag macht, eine neue Konvention?

00:54:01.960 --> 00:54:03.740
Also natürlich wäre das schön.

00:54:07.340 --> 00:54:12.120
Und der Punkt ist, dass es weltweit sehr schwierig werden wird,

00:54:12.280 --> 00:54:14.800
sich da auf eine Sache zu einigen.

00:54:14.860 --> 00:54:17.800
Das kriegen wir ja sozusagen, wenn man sich mal die Weltpolitik anguckt,

00:54:17.840 --> 00:54:18.880
eh immer schlechter hin.

00:54:20.940 --> 00:54:27.500
Und das sind eben auch sehr unterschiedliche Interessen, die dahinter stecken, sage ich mal.

00:54:27.780 --> 00:54:32.300
Ihr setzt da nicht besonders drauf. Was ist denn mit rechtlich oder regulatorisch?

00:54:32.300 --> 00:54:33.040
Wäre ja auch eine Lösung.

00:54:33.200 --> 00:54:36.960
Ich würde gerne nachher noch über die juristische Komponente sprechen.

00:54:37.400 --> 00:54:41.040
Ich würde vorhin nochmal nachfragen, weil Lea hatte das vorhin so kurz angeschnitten,

00:54:41.160 --> 00:54:43.700
du hast es gerade auch nochmal kurz aufgerufen, dieses mit der Monetarisierung.

00:54:43.980 --> 00:54:50.620
Ist die Idee, dass man quasi sagt, okay, uns als KI-Crawler klar,

00:54:50.780 --> 00:54:53.960
dass wir Aufwand verursachen, der irgendwann sozusagen auch wirtschaftlich ist,

00:54:54.040 --> 00:54:55.220
aber wir profitieren ja auch davon.

00:54:55.300 --> 00:55:00.680
Das heißt, wir geben für jeden Crawl-Vorgang ein kleines bisschen Geld an wen

00:55:00.680 --> 00:55:03.000
eigentlich? Die Web-Hoster, die Webseitenbesitzer?

00:55:03.240 --> 00:55:06.800
Ist das die Idee? Ich habe von dem Prinzip noch nie gehört.

00:55:07.200 --> 00:55:09.440
Kann das einer von euch mal erklären kurz?

00:55:10.420 --> 00:55:14.480
Die Idee stammt von Cloudflare, glaube ich.

00:55:14.680 --> 00:55:18.980
Das ist so ein großer, sehr, sehr großer Anbieter der

00:55:20.580 --> 00:55:26.020
Ursprünglich aus der Idee kommt, sozusagen Schutz vor Angriffen für Websites

00:55:26.020 --> 00:55:30.820
zu machen und sich sozusagen zwischen die Leute, die auf die Seite zugreifen

00:55:30.820 --> 00:55:33.580
wollen und den Server schaltet, der die Daten liefert.

00:55:34.480 --> 00:55:37.620
Die sind also schon in dieser idealen Position, um zu sagen,

00:55:38.220 --> 00:55:43.860
okay, wenn jetzt hier ein KI-Bot kommt, dann melde ich dem, dass die Seite,

00:55:43.880 --> 00:55:46.760
die hinten dran ist, dafür eine Gebühr möchte.

00:55:47.160 --> 00:55:52.060
Und dann kann der KI-Bot sozusagen sagen, okay, das ist mir wichtig genug.

00:55:52.060 --> 00:55:58.940
Ich gebe diesem Zwischenhändler sozusagen ein bisschen Geld,

00:55:59.240 --> 00:56:01.960
der lässt das dann durch und dann

00:56:01.960 --> 00:56:07.680
kriege ich als Seitenbetreiber dafür vielleicht ein paar Cent oder so.

00:56:07.940 --> 00:56:11.420
Wenn ich mich bei Cloudfair dafür registriere natürlich nur.

00:56:11.600 --> 00:56:14.420
Genau, das ist dann einfach nur nochmal wieder ein Business,

00:56:14.640 --> 00:56:18.800
das sich sozusagen dazwischensetzt und mit dem Problem sozusagen Geld verdient.

00:56:18.880 --> 00:56:20.560
Das ist keine richtige Lösung für das Problem.

00:56:21.060 --> 00:56:21.660
Okay.

00:56:22.600 --> 00:56:26.140
Es ist an der Stelle auch ein bisschen was anderes, weil es an dieser Stelle

00:56:26.140 --> 00:56:32.140
um eine Monetarisierung der Inhalte geht und weniger darum,

00:56:32.480 --> 00:56:37.800
für die Nutzung von Ressourcen auch Seiten des Hosting-Anbieters zu kompensieren.

00:56:37.920 --> 00:56:42.320
Denn das ist ein Punkt, der bislang noch relativ kurz nur zur Sprache kam.

00:56:42.880 --> 00:56:48.820
Das ganze Internet ist ja voller Inhalte, die durchaus einem Copyright unterliegen.

00:56:48.820 --> 00:56:52.460
Und ich glaube, das ist durchaus auch was, was zumindest bei mir persönlich

00:56:52.460 --> 00:56:56.040
große Widerstände gegen dieses KI-Crawling auslöst.

00:56:56.500 --> 00:57:01.200
Wenn ich an meine Anfänge im Internet zurückdenke, an so Geschichten wie Kochbuch

00:57:01.200 --> 00:57:04.020
oder so, wer sich noch daran erinnern kann. Ja, okay.

00:57:05.660 --> 00:57:06.940
Weiß, wovon ich rede.

00:57:07.080 --> 00:57:09.920
Aber sozusagen, jetzt sind das so ein bisschen alte Menschen unter sich.

00:57:10.020 --> 00:57:13.080
Jetzt müsst ihr ganz kurz erklären, was mit Marions Kochbuch auf sich hat.

00:57:13.340 --> 00:57:17.800
Ich erkläre das. Marions Kochbuch, das war eine Website mit Rezepten.

00:57:17.960 --> 00:57:21.320
Und bei den Rezepten waren Fotos von dem Essen, das sie gekocht hat.

00:57:21.680 --> 00:57:25.400
Und also diese Fotos haben, ich würde mich mal aus dem Fenster lehnen,

00:57:26.000 --> 00:57:29.060
keine besonders große Schöpfungshöhe gehabt. Ich mein' da hat man

00:57:29.460 --> 00:57:30.740
ein Brötchen auf dem Teller.

00:57:30.900 --> 00:57:32.100
Das sehen Gerichte anders.

00:57:32.100 --> 00:57:35.560
So, da ist aber eben der springende Punkt.

00:57:36.160 --> 00:57:40.080
Die Betreiber von Marions Kochbuch haben quasi jeden abgemahnt,

00:57:40.200 --> 00:57:43.700
der es gewagt hat, dieses Bildmaterial irgendwo zu verwenden,

00:57:43.880 --> 00:57:46.660
obwohl da wirklich keine große Kunst dahinter stand.

00:57:47.120 --> 00:57:51.040
Also da sind Gerichtsverfahren wirklich wegen Fotos von einem Brötchen auf dem

00:57:51.040 --> 00:57:56.340
Teller geführt worden und es wurde erbittert um das Urheberrecht gestritten und...

00:57:57.440 --> 00:58:01.560
Auch wenn das ein bisschen lächerlich sein mag, an der Stelle ist Urheberrecht

00:58:01.560 --> 00:58:03.840
ja durchaus ein relevantes Thema.

00:58:04.080 --> 00:58:08.540
Also nicht alles, was auf einer Website steht, ist gleich Public Domain und

00:58:08.540 --> 00:58:10.860
kann von jedem einfach so benutzt werden.

00:58:10.860 --> 00:58:15.200
Was vielleicht ein bisschen in den seriösen Bereich geht, sind diese ganzen

00:58:15.200 --> 00:58:19.740
Bilddatenbanken, wo Leute halt Bilder aus Datenbanken verwendet haben,

00:58:19.880 --> 00:58:25.320
so Stockfotos und dann später irgendwie für unlizenzierte Verwendung abgemahnt worden sind.

00:58:25.700 --> 00:58:29.200
Da ging es aber auch wirklich darum, dass jemand Rechte an Bildern verkaufen wollte.

00:58:29.200 --> 00:58:35.520
Und jetzt machen wir aber den Sprung zu den KI-Crawlern, die einfach alles, was da ist,

00:58:35.960 --> 00:58:41.360
legal, illegal, scheißegal, halt einfach alles crawlen und ihre KI-Modelle darauf

00:58:41.360 --> 00:58:46.580
trainieren und sich, das ist so meine Interpretation, ein bisschen darauf verlassen,

00:58:47.240 --> 00:58:51.740
dass man denen keine Urheberrechtsverletzung im eigentlichen Sinne nachweisen

00:58:51.740 --> 00:58:56.160
kann, weil die ja nicht das Bild verwenden, um das zu reproduzieren,

00:58:56.240 --> 00:58:57.980
weiter zu verkaufen oder wie auch immer,

00:58:58.460 --> 00:59:02.500
sondern sie verwenden es halt sehr indirekt als Trainingsmaterial.

00:59:02.800 --> 00:59:05.260
Und da kann ich mir jetzt eben vorstellen, dass zum Beispiel Leute,

00:59:05.340 --> 00:59:10.560
die eine Fotografie-Website betreiben, ich schaue mal zu meiner Kollegin auf die Seite,

00:59:11.760 --> 00:59:16.500
Dass die ein Interesse daran haben, dass ihre Bilder möglicherweise nicht zum

00:59:16.500 --> 00:59:19.460
Training von KI-Modellen genutzt werden wollen,

00:59:20.610 --> 00:59:24.370
Und umgekehrt kann ich aber auch nachvollziehen, gerade wenn man sieht,

00:59:24.470 --> 00:59:28.410
wer heute irgendwie was googelt, kriegt vor dem ersten Treffer schon mal die

00:59:28.410 --> 00:59:31.130
KI-generierte Antwort von Google angezeigt.

00:59:31.290 --> 00:59:33.210
Ich weiß nicht, ob das überall schon Default ist.

00:59:33.210 --> 00:59:34.970
Nein, ist nicht über iDefault.

00:59:35.810 --> 00:59:40.330
Okay, dann wird es zumindest hier und da so ein bisschen ausgerollt.

00:59:40.570 --> 00:59:44.250
Aber auf jeden Fall geht es halt in so eine Richtung, dass wir uns,

00:59:44.330 --> 00:59:49.790
glaube ich, darauf zubewegen, dass konventionelle Suchmaschinen-Ergebnisse ganz

00:59:49.790 --> 00:59:53.170
massiv an Bedeutung verlieren werden, weil die KI ja schon die,

00:59:53.410 --> 00:59:57.110
ich sage jetzt mal in Anführungszeichen, die man im Chaos Radio nicht sieht,

00:59:58.030 --> 01:00:00.930
in Anführungszeichen die richtigen Ergebnisse liefert.

01:00:00.930 --> 01:00:05.790
Und wenn das so ist und Firmen Produkte verkaufen wollen,

01:00:05.990 --> 01:00:10.390
die bisher möglichst hoch bei Google gerankt worden sind, dann wäre sozusagen

01:00:10.390 --> 01:00:12.950
das übersetzte Interesse ja auch, ich möchte,

01:00:13.110 --> 01:00:17.030
dass meine Produkte und ihre Beschreibungen und ganz viele positive Reviews

01:00:17.030 --> 01:00:23.370
in KI-Suchmaschinen auftauchen, damit sie in KI-Antworten dann am Ende auch ihren Platz finden.

01:00:23.370 --> 01:00:28.610
Und das ist so gesehen ja auch irgendwie ein legitimes Interesse,

01:00:28.770 --> 01:00:33.650
das sich aber schlecht abbilden lässt, wenn wir alle noch in dem Straßenkampfmodus

01:00:33.650 --> 01:00:38.650
sind, dass wir sagen, wir müssen einfach alles wegblocken, was auch nur wie ein Crawler aussieht.

01:00:38.650 --> 01:00:43.150
Und wir kriegen da durchaus auch nur ganz selten, zugegebenermaßen,

01:00:43.210 --> 01:00:47.350
aber schon erste Anfragen von Usern, die sagen, finde ich eigentlich gar nicht

01:00:47.350 --> 01:00:49.510
so toll, dass ihr diese ganzen Crawler wegblockt.

01:00:49.570 --> 01:00:54.470
Ich möchte da nämlich in dem Large Language Model gerne vertreten sein mit meinen Informationen.

01:00:54.650 --> 01:00:57.510
Ich habe dazu gleich eine Detailfrage. Ich will aber eine Sache sagen.

01:00:57.610 --> 01:01:00.910
Ich glaube, wir schaffen es heute in diesem Chaos Radio nicht,

01:01:01.680 --> 01:01:06.960
über die urheberrechtliche Perspektive, also sagen die auch von vorne bis hinten aufzurollen.

01:01:07.200 --> 01:01:13.760
Ich glaube, da kann man sich darauf zurückziehen zu sagen, die großen KI-Plattformen

01:01:13.760 --> 01:01:18.740
haben bewiesen in der Vergangenheit, dass ihnen das Urheberrecht egal ist.

01:01:19.480 --> 01:01:23.160
Also ich glaube sozusagen, es tut mir leid, aber ich glaube,

01:01:23.240 --> 01:01:25.560
wir müssen diese Auslassung heute machen. Wir sprechen heute vor allen Dingen

01:01:25.560 --> 01:01:26.940
über die technische Komponente.

01:01:29.320 --> 01:01:32.500
Nachfrage bei euch. Ich nehme mir jetzt sozusagen dem, was ihr sagt,

01:01:32.720 --> 01:01:37.360
auch mit, dass wenn ihr sozusagen die wegblockt, dann blockt ihr die sozusagen

01:01:37.360 --> 01:01:41.880
für eure gesamte Firma weg und es ist sozusagen schwierig zu sagen,

01:01:42.380 --> 01:01:47.120
Kunde X, Y und Z wollen keine KI-Crawler, aber Kunde A, B und C würden gerne

01:01:47.120 --> 01:01:48.480
im Endeffekt sagen, das ist okay.

01:01:49.340 --> 01:01:53.760
Es ist halt immer auch für uns eine Frage, wie viele Ressourcen können wir da reinstecken?

01:01:54.180 --> 01:01:57.480
Also das heißt, technisch ginge ist,

01:01:57.480 --> 01:01:59.000
das pro Kunde aufzuteilen,

01:01:59.080 --> 01:02:02.320
aber es wäre dann noch mal aufwendiger. Das ist das Problem?

01:02:02.920 --> 01:02:06.280
Genau. Also man kann theoretisch das beliebig feingranular machen.

01:02:06.400 --> 01:02:12.120
Das wird dann halt mit jedem Mal viel, viel aufwendiger und damit natürlich auch viel, viel teurer.

01:02:13.260 --> 01:02:15.420
Die eine Frage, die jetzt vielleicht doch ein bisschen so richtig geht,

01:02:15.460 --> 01:02:19.280
ich weiß nicht, ob Konst da Ahnung hat, ist, inwiefern sich denn eigentlich,

01:02:20.970 --> 01:02:25.610
Suchmaschinen-Crawler von KI-Crawlern unterscheiden. Oder ob die über dieselbe,

01:02:25.810 --> 01:02:29.430
also bei KI-Crawlern hat man sich ja drauf geeinigt, sozusagen,

01:02:29.790 --> 01:02:34.630
da gab es ja auch Leistungsschutzrecht, also Verlage haben ja auch versucht, irgendwie da,

01:02:35.470 --> 01:02:39.010
Überrechtsdinge über, tatsächlich nicht das Crawlen, sondern das Anzeigen von,

01:02:40.010 --> 01:02:42.450
Zeitungsschlagzeilen in Google-Suchergebnissen und sagen, ob man da überrechts.

01:02:43.430 --> 01:02:47.410
Aber so als gleiche könnte man vielleicht schon jetzt zum Verdacht kommen und

01:02:47.410 --> 01:02:51.810
sagen, naja gut, aber es ist ja beides irgendwie dasselbe. die wollen das ja

01:02:51.810 --> 01:02:55.410
wissen, um das dann darzustellen. Oder ist das ein Unterschied?

01:02:56.130 --> 01:03:01.810
Na, ich glaube, ja, da wird bestimmt auch ganz viel rechtlich noch gestritten werden.

01:03:02.370 --> 01:03:05.450
Und man muss sich auch immer klar machen, dass Urheberverwertungsrechte nicht

01:03:05.450 --> 01:03:08.310
gleich sind. Also wir haben eine andere europäische Tradition als die Armees,

01:03:08.390 --> 01:03:09.390
wo immer die Konzerne herkommen.

01:03:09.570 --> 01:03:13.170
Und die Gerichtsverfahren werden gerade da ausgetragen. Und es gibt ja auch

01:03:13.170 --> 01:03:16.190
schon die ersten Kompensationszahlungen in einem hohen Bereich.

01:03:16.790 --> 01:03:21.050
Aber ich würde sagen, edeltrechtlich geklärt ist. was kommen wird,

01:03:22.010 --> 01:03:23.610
ist man ja trotzdem technisch erstmal vor dem Problem.

01:03:24.070 --> 01:03:28.230
Und deswegen glaube ich, dass die Zwischenlösung, bevor sich da vielleicht nach

01:03:28.230 --> 01:03:32.730
vielen Jahren zahlreiche, detaillreiche rechtliche Regelungen ergeben haben,

01:03:32.810 --> 01:03:38.310
doch eher sein wird, dass man sich auf eine Nachfolge der Robots-TXT eidigen wird.

01:03:38.310 --> 01:03:42.250
Und das wird man wohl auch im Einvernehmen mit den technischen Konzernen machen,

01:03:42.370 --> 01:03:45.910
dass man die Vorschläge, die die Tech-Companies wie Microsoft oder so selber

01:03:45.910 --> 01:03:50.250
reingeben in diesen Prozess, dass man die annimmt, das wird es wohl nicht sein.

01:03:50.470 --> 01:03:54.810
Aber dass man in der Zwischenzeit, bevor da irgendeine Form von wetterfester

01:03:54.810 --> 01:04:00.090
rechtliche Regelung gibt, das kann ja ewig dauern, wird das wahrscheinlich eher

01:04:00.090 --> 01:04:04.050
auf sowas hinauslaufen. Denn die zeigen ja ein bisschen entgegenkommen.

01:04:05.270 --> 01:04:08.290
Außerdem, also was ihr beiden jetzt so ein bisschen ausdrückt,

01:04:08.430 --> 01:04:13.370
ist für mich eigentlich typisch für die ganze technische Community.

01:04:13.630 --> 01:04:19.030
Es gibt eine große Skepsis gegenüber dem Verhalten dieser Konzern und damit auch ihrer Crawler.

01:04:20.280 --> 01:04:27.740
Das ist eigentlich ja auch ein guter Anfangspunkt, um so eine Debatte zu führen.

01:04:28.680 --> 01:04:31.780
Denn die technische Community, die mit den Auswirkungen und den Ärgernissen

01:04:31.780 --> 01:04:34.480
zu tun hat, die sind ja nun nicht gerade Joachim Sassar, der Rest der Welt schon.

01:04:35.000 --> 01:04:41.800
Aber die, die sozusagen mit der bad side und dem bad stuff von diesem KI-Hype

01:04:41.800 --> 01:04:43.220
zu tun haben, sind eben nicht so begeistert.

01:04:43.280 --> 01:04:46.200
Und ich glaube, deswegen wird das eher so eine Zwischenlösung sein.

01:04:47.100 --> 01:04:48.880
Rechtlich würde ich mich da auf gar nichts verlassen.

01:04:49.480 --> 01:04:52.320
Also wie gesagt, ich vermute, dass es auch einfach eine Zwischenlösung geben

01:04:52.320 --> 01:04:59.720
muss, weil sich die KI vielmehr sozusagen ihr Geschäftsmodell erhalten wollen.

01:05:00.860 --> 01:05:03.860
Und das basiert darauf eben, dass sie nicht überall geblockt werden.

01:05:04.820 --> 01:05:08.260
Ich sollte vielleicht mal sagen, wie so ein Prozess laufen soll.

01:05:08.400 --> 01:05:12.020
Also der ist ja nicht abgeschlossen, aber es gibt ja internationale Journalisierungs-

01:05:12.020 --> 01:05:17.540
und Normungsinstitutionen, wie zum Beispiel die IETS. und die überlegt zum Beispiel

01:05:17.540 --> 01:05:21.560
gerade jetzt in diesen Tagen darüber, ob sie so einen Nachfolger etabliert.

01:05:21.740 --> 01:05:24.580
Der hat so ein ganz langer partizipativer Diskussionsprozess,

01:05:24.700 --> 01:05:26.520
der dann am Ende vielleicht zu irgendwas führen wird.

01:05:27.040 --> 01:05:31.300
Denn irgendwas, was global funktioniert oder zumindest halbwegs global,

01:05:31.460 --> 01:05:34.540
müsste es ja sein. Und da schieren jetzt gerade so alle drauf.

01:05:35.940 --> 01:05:39.740
Ich habe doch noch, mir geht ja um den Kopf, doch noch vielleicht eine kleine

01:05:39.740 --> 01:05:43.120
rechtliche Frage. Und die beginnt erst mal mit einer DDoS-Attack.

01:05:43.880 --> 01:05:52.740
Es gibt ja es gibt ja also einen Angriff eine Webseite außer Betrieb zu setzen,

01:05:52.880 --> 01:05:54.780
indem man einfach so viele Angriffe,

01:05:55.660 --> 01:05:58.720
Abfragen sozusagen auf der Webseite durchführt dass die nicht mehr hinterherkommt

01:05:58.720 --> 01:06:02.280
und dann kaputt ist weiß jemand von euch ist es,

01:06:02.380 --> 01:06:05.020
wir können jetzt in Deutschland sagen ist das eine Straftat,

01:06:05.100 --> 01:06:10.980
ist das ein Cybercrime eine DDoS-Attacke ist Sabotage ist Sabotage sozusagen,

01:06:12.810 --> 01:06:18.930
Und wenn eine DDoS-Attacke Sabotage ist, müsste dann nicht eigentlich ein KI-Crawler,

01:06:19.010 --> 01:06:23.070
der gegen die Robots TXT verstößt, auch ein Cyber-Verbrechen sein?

01:06:23.590 --> 01:06:27.690
Ich würde sagen nicht, denn die Robots TXT ist tatsächlich eine Konvention.

01:06:27.970 --> 01:06:29.830
Die ist ja kein Vertrag oder so.

01:06:30.270 --> 01:06:33.470
Aber natürlich würde ich mir manchmal wünschen, dass besonders Betroffene,

01:06:33.610 --> 01:06:38.410
die sehr viel Aufwand haben, dass die es auch mal rechtlich klären würden.

01:06:38.410 --> 01:06:44.030
Das wäre schon toll, aber das wird jetzt nicht Uberspace sein,

01:06:44.050 --> 01:06:46.150
die sozusagen da den Kampf aufnehmen.

01:06:47.270 --> 01:06:49.370
Das ist richtig. Und...

01:06:52.150 --> 01:06:55.730
die rechtliche Komponente davon finde ich auch insofern relativ schwierig,

01:06:56.010 --> 01:06:58.970
weil die in der Praxis kaum durchgesetzt wird.

01:06:59.050 --> 01:07:02.610
Denn was wir bei DDoS-Attacken halt in der Regel überhaupt nicht haben,

01:07:02.610 --> 01:07:07.670
ist irgendeine Attribuierung dessen, den wir dafür jetzt anzeigen können.

01:07:07.670 --> 01:07:13.450
Die kommen ja von Hunderttausenden von IP-Adressen, vielleicht noch mehr.

01:07:14.230 --> 01:07:19.410
Und wen will man da anzeigen? Also da kann man natürlich Anzeige gegen Unbekannt erstatten.

01:07:19.790 --> 01:07:23.730
Ich habe das in meiner Vergangenheit so oft gemacht, was dann zu schon wieder

01:07:23.730 --> 01:07:27.210
Verfahren eingestellt, weil ein Täter nicht ermittelt werden konnte,

01:07:27.890 --> 01:07:32.070
geführt hat, dass sich das für mich inzwischen innerlich, obwohl es natürlich

01:07:32.070 --> 01:07:36.270
eine Straftat ist, eine DDoS auszuüben, aber das habe ich innerlich völlig aufgegeben,

01:07:36.270 --> 01:07:38.130
sowas verfolgen zu wollen.

01:07:38.370 --> 01:07:45.090
Ich hatte jetzt sozusagen in meinem Gehirn mit wirren, also in meinen Gehirngängen

01:07:45.090 --> 01:07:50.110
mit wirren Gedanken hatte ich so, man baut so einen Labyrinth und darin versteckt

01:07:50.110 --> 01:07:51.630
man eine ganz spezifische,

01:07:52.350 --> 01:07:57.770
eineindeutige Information und die taucht dann irgendwann in dem Chatbot auf,

01:07:57.930 --> 01:07:59.530
der dieses Labyrinth bereist hat,

01:08:00.010 --> 01:08:03.930
und dann kann man also attribuieren, also kann sagen, du warst bei mir,

01:08:04.030 --> 01:08:06.990
sonst hättest du diese Information nicht, weil die haben wir nur für dich gebaut

01:08:06.990 --> 01:08:10.330
und man weist dann den wirtschaftlichen Schaden nach,

01:08:10.890 --> 01:08:14.270
der sozusagen natürlich entstanden ist und deswegen war das gut.

01:08:14.990 --> 01:08:17.890
Das ist immer so ein Wunsch, manchmal denke ich so, ich kann das Rechtssystem

01:08:17.890 --> 01:08:20.170
doch Dinge machen, aber es ist natürlich...

01:08:20.170 --> 01:08:23.630
Es ist ein interessanter Gedanke, wobei ich schon sagen würde,

01:08:24.090 --> 01:08:33.030
rein technisch ist eine DDoS-Attacke von einem KI-Crawler kaum bis gar nicht zu unterscheiden.

01:08:33.250 --> 01:08:37.229
Die Unterscheidung liegt halt tatsächlich in der Intention, die dahinter steht,

01:08:37.330 --> 01:08:40.330
dass der KI-Caller natürlich immer sagen wird, wir wollten doch nur das Beste,

01:08:40.490 --> 01:08:44.070
wir wollten doch nur deine Informationen, damit wir in unseren tollen Antworten

01:08:44.070 --> 01:08:45.250
immer auf dich hinweisen konnten.

01:08:47.290 --> 01:08:49.630
Wie will man das nachweisen am Ende?

01:08:51.250 --> 01:08:55.030
Ich habe eigentlich, ich hätte noch so eine Abwehrfrage an Lea,

01:08:55.110 --> 01:08:58.610
die damit zu tun hat, wie wir diese Chaos Radio mal gestartet haben.

01:08:58.710 --> 01:09:01.370
Ich hatte nämlich am Anfang überlegt, naja, wen könnte man fragen,

01:09:01.530 --> 01:09:04.689
irgendwie so bei diesen Crawlern und der Abwehr.

01:09:04.850 --> 01:09:08.250
Und da dachte ich natürlich auch gleich an Chaos Social und hatte Rix und Lea angefragt.

01:09:09.010 --> 01:09:12.850
Und Lea meinte dann zu mir, ja nö, also bei Chaos Social haben wir eigentlich ja kein Problem.

01:09:13.530 --> 01:09:16.030
War das denn sozusagen, war das denn tatsächlich der Unterschied,

01:09:16.229 --> 01:09:20.470
wenn du, also wir waren nicht ganz klar, warum eigentlich.

01:09:20.470 --> 01:09:26.830
Ja, warum hat ein Hoster-Problem, aber ihr könntet mit den Zugriffskontrollen

01:09:26.830 --> 01:09:31.050
und Plakaden eigentlich ganz gut lösen bei Chaos Social. Was ist sozusagen der Unterschied?

01:09:32.890 --> 01:09:35.729
Genau, das ist nämlich der größte Unterschied, warum wir kein so großes Problem

01:09:35.729 --> 01:09:38.910
haben. Wir blockieren einfach viel, viel extremer.

01:09:39.450 --> 01:09:42.149
Achso, und das würden natürlich Kunden, achso.

01:09:42.870 --> 01:09:48.930
Genau, bei uns gibt es wachsende Listen im Internet mit den ganzen User Agents

01:09:48.930 --> 01:09:51.810
und sonstigen Netzen, von denen diese KI-Bots kommen.

01:09:52.890 --> 01:09:56.970
Und bei Cross-Social sagen wir einfach, wir werfen die alle da rein und eine

01:09:56.970 --> 01:10:00.450
Anfrage davon reicht und dann bist du dauerhaft gesperrt.

01:10:00.450 --> 01:10:01.729
Ja, okay, achso.

01:10:01.729 --> 01:10:05.530
Das können wir bei Uberspace nicht machen.

01:10:05.950 --> 01:10:09.729
Weil A, gibt es da zu viele False Positives im Zweifelsfall.

01:10:10.670 --> 01:10:14.390
Zum anderen, hat man ja auch schon erwähnt, es gibt dann doch KundInnen,

01:10:14.450 --> 01:10:18.370
die dann doch irgendwie möchten, dass die KI darauf zugreift oder dass sie die

01:10:18.370 --> 01:10:20.189
Seite zusammenfassen kann oder Sonstiges.

01:10:20.870 --> 01:10:25.850
Und bei Chaos.storstl können wir da einfach viel rigoroser damit umgehen.

01:10:26.010 --> 01:10:32.090
Auch, weil wir eben ja nur eine sozusagen, sozusagen Applikationen da laufen

01:10:32.090 --> 01:10:33.830
haben und nicht hunderte verschiedene.

01:10:34.390 --> 01:10:36.930
Das heißt, es ist viel einfacher, diese eine Seite zu schützen,

01:10:37.130 --> 01:10:45.450
als diese ganze diverse Technologieplattform, das, was so bei einem Host da letztlich landet.

01:10:45.830 --> 01:10:47.950
Ah, okay, das ist eigentlich auch, wenn du jetzt so erklärst,

01:10:47.970 --> 01:10:49.770
wie mich selbstverständlich.

01:10:49.770 --> 01:10:55.649
Also Carosocial, eine Mastodon-Instanz, die, also kann man da,

01:10:56.090 --> 01:10:58.450
jetzt noch eine Neugierfrage, kann man da ganz viel auch schon machen,

01:10:58.530 --> 01:10:59.430
dadurch, dass man einfach sagt,

01:11:00.410 --> 01:11:04.850
wenn du keine Mastodon-Instanz bist, die bei uns zugreifen, dann sind wir erstmal

01:11:04.850 --> 01:11:06.850
skeptisch, weil dann bist du wahrscheinlich ein KI-Crawler.

01:11:07.950 --> 01:11:09.290
Weil ganz viel Traffic...

01:11:11.550 --> 01:11:14.830
Es greifen ja auch die ganzen Leute, die diese Plattform nutzen, darauf zu.

01:11:15.330 --> 01:11:20.030
Es sind ja nicht nur die Mastodon-Instanzen untereinander. Also die User,

01:11:20.130 --> 01:11:21.250
vergiss mal nicht die User.

01:11:22.790 --> 01:11:23.450
Aber wenn,

01:11:24.700 --> 01:11:26.979
Es führt zu weit, das muss ich vielleicht mal so sagen.

01:11:27.720 --> 01:11:32.200
Ja, also ich kann dir sagen, es gibt da auch Sachen, also zum Teil sind da Verbindungen

01:11:32.200 --> 01:11:36.100
zwischen Instanzen signiert und authentifiziert und so weiter.

01:11:36.280 --> 01:11:38.880
Also da gibt es schon Techniken, die das so ein bisschen einschränken zumindest.

01:11:39.740 --> 01:11:44.000
Glaubt ihr, dass, also wenn wir ein bisschen zum Webhosting zurückgehen,

01:11:44.060 --> 01:11:47.899
es gibt ja sozusagen Webhosting, also Software, die man benutzen kann,

01:11:48.399 --> 01:11:51.280
wenn man selber eine Webseite betreiben will, zum Beispiel sowas wie ein WordPress

01:11:51.280 --> 01:11:53.820
eben, wahrscheinlich für die vielsten, das einfachste Beispiel.

01:11:54.979 --> 01:11:58.180
Glaubt ihr, man könnte da sozusagen so Plugins irgendwie anbieten?

01:11:58.800 --> 01:12:03.200
Anti-KI-Crawler-Plugins, die dann so nicht tagesaktuell sind,

01:12:03.280 --> 01:12:05.700
aber so halbwegs Stand der Technik, falls man das nicht will?

01:12:06.500 --> 01:12:12.580
Also das gibt es zum Teil schon. Zum Teil gibt es eben, hatten wir ja vorhin

01:12:12.580 --> 01:12:17.220
schon erwähnt, diese Tools, die dann so eine kleine Rechenaufgabe geben.

01:12:17.560 --> 01:12:20.260
Das hält das Ganze auch deutlich zurück.

01:12:21.680 --> 01:12:25.960
Also da gibt es schon Möglichkeiten. Es wird auch, sage ich mal,

01:12:26.160 --> 01:12:29.360
jetzt dadurch, dass das Problem eben größer wird, dass das ein bewusstes Problem

01:12:29.360 --> 01:12:33.399
wird, das dauert natürlich immer dann, bis da die Communities irgendwie was auch entwickelt haben.

01:12:33.920 --> 01:12:38.479
Aber ich gehe davon aus, dass es da auch die ersten Sachen schon als Implementierung

01:12:38.479 --> 01:12:39.640
auch für WordPress oder so gibt.

01:12:39.820 --> 01:12:43.260
Das klickt bei WordPress natürlich auch einer derjenigen war,

01:12:43.420 --> 01:12:46.620
die wegen der weiten Verbreitung als erstes stark betroffen war und viele,

01:12:46.700 --> 01:12:50.899
die das eben selber betreiben, wollten das, waren die mahnt. Das ist schon länger.

01:12:50.899 --> 01:12:54.140
Ich bin anscheinend auch nicht sozusagen daran kaputt gegangen,

01:12:54.240 --> 01:12:55.080
muss ich mal nachgucken. Jonas?

01:12:56.790 --> 01:13:02.970
Das ist schön und gut, dass es das gibt. Es kommt aber in dem gesamten Stack

01:13:02.970 --> 01:13:07.770
aus dem Web-Server-Frontend und dann kommt PHP ins Spiel und dann wird WordPress-Code geladen.

01:13:07.850 --> 01:13:11.630
Da kommt es halt erst relativ spät in diesem ganzen Stack zum Einsatz.

01:13:11.630 --> 01:13:16.010
Das heißt, je nachdem, wie viele Anfragen da so reinprasseln,

01:13:16.590 --> 01:13:20.710
dringen die schon so weit vor, dass sie trotzdem schon ein Problem darstellen,

01:13:21.110 --> 01:13:27.070
selbst wenn dann am Ende dieses WordPress-Plugin sagt, dass es dazu gerne keine Antwort geben möchte.

01:13:27.070 --> 01:13:31.250
Also es wäre schon sinnvoller, weiter vorne in dem Stack anzusetzen.

01:13:31.430 --> 01:13:36.149
Außerdem ist es was, was uns als Hoster, wenn Crawler vorbeikommen,

01:13:36.250 --> 01:13:40.510
die unsere Infrastruktur insgesamt überlasten, dass halt nicht nur die eine

01:13:40.510 --> 01:13:43.510
Website betroffen ist, wo wir im Zweifelsfall sagen würden, naja,

01:13:43.630 --> 01:13:45.689
dann ist halt die eine Website tot.

01:13:46.800 --> 01:13:47.780
Können wir jetzt nichts machen.

01:13:49.800 --> 01:13:52.460
Aber für uns sind natürlich eben auch gerade Lösungen relevant,

01:13:52.680 --> 01:13:56.340
die wir in dem Stack so weit vorne schon einsetzen können, weil wir ja nicht

01:13:56.340 --> 01:14:00.960
in die Websites unserer User eingreifen können und Leuten irgendwie sagen können,

01:14:01.060 --> 01:14:04.040
hey, dein WordPress war offline, weil so ein Crawler vorbeikam.

01:14:04.040 --> 01:14:07.880
Wir haben dir da mal so ein Plugin installiert, um das abzuhalten.

01:14:08.220 --> 01:14:13.300
Aber im Zweifelsfall sind halt wir diejenigen, die um die Uhr einen Alarm abkriegen,

01:14:13.420 --> 01:14:17.500
weil irgendwo ein Web-Server nicht mehr performant antwortet und suchen insofern

01:14:17.500 --> 01:14:22.140
nach den technischen Lösungen, die wir schon eine, mindestens eine Ebene drüber einsetzen können.

01:14:22.280 --> 01:14:25.920
Ich meinte das sozusagen wirklich eher für, also aus Konsumentinnensicht,

01:14:26.000 --> 01:14:29.660
also so jemand wie ich, ich bin ja kein Web-Hoster, aber sozusagen macht es,

01:14:29.860 --> 01:14:33.180
oder ich kann es ja mal direkt fragen, so würdest du, ich bin nicht bei euch,

01:14:33.280 --> 01:14:35.800
aber wenn ich bei euch wäre, würde ich dann sagen, nee, lieber nicht das Plugin

01:14:35.800 --> 01:14:39.780
installieren oder ist das sozusagen so ein kleines Ärgernis,

01:14:39.860 --> 01:14:42.720
ein kleines Sandkorn im Getriebe der KI-Crawler?

01:14:43.260 --> 01:14:47.280
Es ist ein kleines Sandkorn, das ist das eine und wir arbeiten allerdings auch

01:14:47.280 --> 01:14:51.660
daran, dass zum Beispiel manche dieser Tools, die dann für diese kleine Berechnung

01:14:51.660 --> 01:14:52.560
vorne dran schalten kannst,

01:14:53.120 --> 01:14:56.460
dass wir sozusagen dir sehr simpel mit einem Klick, sag ich mal,

01:14:56.820 --> 01:15:02.320
oder einem einfachen Befehl ermöglichen, das möglichst früh vorne dran einzusetzen,

01:15:02.320 --> 01:15:03.979
damit du das dann nicht irgendwie komplett

01:15:04.750 --> 01:15:07.970
technisch verstehen musst, wie das einzurichten ist, sondern wir dir da schon helfen.

01:15:08.270 --> 01:15:10.610
Aber ist es dann auch deine Entscheidung als Kunde, das ist doch eigentlich

01:15:10.610 --> 01:15:14.790
eine gute Sache, das würden doch diejenigen begrüßen, das sollte man dir vielleicht

01:15:14.790 --> 01:15:17.170
auch mal sagen, das ist ja nicht jeder irgendwie KI-kritisch,

01:15:17.670 --> 01:15:19.610
sondern es gibt ja auch Leute, die...

01:15:19.610 --> 01:15:24.229
Das ist immer so eine Bubble, in der wir leben, die haben irgendwie alles Skepsis.

01:15:25.450 --> 01:15:30.330
Also, ganz kurze Seitenstraße, ich finde tatsächlich sozusagen an der Art und

01:15:30.330 --> 01:15:38.149
Weise, wie die großen KI-Unternehmen in der Welt agieren auch problematisch.

01:15:38.890 --> 01:15:43.070
Also Lea hat ganz am Anfang gesagt, du sagst jetzt KI, aber KI meint ja heute

01:15:43.070 --> 01:15:44.290
das, aber es gibt noch viel mehr.

01:15:44.810 --> 01:15:49.490
Und ich finde, ich bin ja sozusagen tendenziell eher Technikfreund und ich komme

01:15:49.490 --> 01:15:53.670
gar nicht dazu, darüber nachzudenken, was könnte man denn damit Fröhliches oder

01:15:53.670 --> 01:15:57.250
Optimistisches machen, weil man die ganze Zeit damit beschäftigt ist,

01:15:57.450 --> 01:15:59.550
irgendwie gegen diesen Mist anzukämpfen, der da gibt.

01:16:01.189 --> 01:16:04.090
Also wie gesagt, es ist halt eine Bubble, die sowas denkt und es ist halt nicht

01:16:04.090 --> 01:16:07.830
weit verbreitet, aber ich glaube schon, es ist so oder ich wünschte mir manchmal

01:16:07.830 --> 01:16:10.790
zu sagen, dass sie mehr realisieren, dass sie auch so ein bisschen ins eigene

01:16:10.790 --> 01:16:15.229
Knie schießen, wenn man die Welt sozusagen so krass übernimmt.

01:16:15.310 --> 01:16:18.210
Aber hey, Kapitalismus, was kann man anderes machen?

01:16:19.170 --> 01:16:21.770
Vielleicht um deiner Seitenstraße ganz kurz noch ein Stück zu folgen.

01:16:22.450 --> 01:16:26.450
Man muss natürlich auch sagen, neben KI-Bots gibt es auch noch jede Menge andere

01:16:26.450 --> 01:16:30.810
Bots, die dann wirklich nur noch bösartig sind und versuchen irgendwie Angriffe

01:16:30.810 --> 01:16:33.729
auszuführen und so weiter, die dann auch Probleme machen.

01:16:33.970 --> 01:16:35.649
Und da kann man schon so,

01:16:35.810 --> 01:16:40.290
Was wir im Schnitt sehen, sagen, wir sind schon je nach Seite,

01:16:40.510 --> 01:16:42.970
sage ich mal, wenn es eine kleine Seite ist, vielleicht anteilig mehr,

01:16:43.090 --> 01:16:45.229
wenn es eine große Seite ist, mit vielen Anfragen ist vielleicht weniger,

01:16:45.430 --> 01:16:49.149
schon so bei, sagen wir mal, so zwischen 30 und 70 Prozent aller Anfragen,

01:16:49.250 --> 01:16:52.410
im Schnitt vielleicht so 50, sind inzwischen von Bots.

01:16:54.710 --> 01:16:59.770
Und ja, das ist halt, auch wenn wir wieder auf dieses Thema Nachhaltigkeit und so weiter zurückgehen.

01:17:00.560 --> 01:17:03.479
Vielleicht auch nicht so sinnvoll, wenn 50 Prozent der Leistung,

01:17:03.520 --> 01:17:07.760
die da alle bereithalten, nur dafür ist, dass die sich untereinander sinnlos

01:17:07.760 --> 01:17:14.660
unterhält und gar nicht wirklich was Wertschöpfendes macht.

01:17:14.720 --> 01:17:17.720
Was meinst du mit bösartige Bots? Also Bots, die versuchen, die Webseite kaputt

01:17:17.720 --> 01:17:21.300
zu machen oder anzugreifen oder zu übernehmen? Ja, genau. Okay. Genau. Toll.

01:17:21.880 --> 01:17:24.240
Fantastisch. Da habe ich mir bis jetzt gerade keine Sorgen drüber gemacht.

01:17:24.560 --> 01:17:26.020
Gut, dass ich das jetzt auch weiß.

01:17:26.860 --> 01:17:32.220
Ich würde gerne noch einen Gedanken dazu einbringen, weil es ja auch gar nicht,

01:17:32.479 --> 01:17:36.540
wir nehmen das so als gegeben hin, dass KIs dadurch lernen,

01:17:36.939 --> 01:17:43.100
dass sie Crawler losschicken, die das Internet abgrasen nach Informationen und

01:17:43.100 --> 01:17:46.960
sich dabei, Copyright-Thema wollten wir außen vor lassen, aber die sich blöd,

01:17:47.100 --> 01:17:49.160
simpel gesagt nicht ums Copyright scheren.

01:17:49.820 --> 01:17:54.820
Das ist ja einfach nur so, weil sich die großen Tech-Konzerne das so ausgedacht haben.

01:17:54.960 --> 01:17:58.899
Man könnte ja im Prinzip auch ganz andere Ansätze fahren, so wie jeder,

01:17:59.000 --> 01:18:03.360
der irgendwie ein Buch veröffentlicht, eine Kopie an die Deutsche Nationalbibliothek

01:18:03.360 --> 01:18:04.300
geben muss beispielsweise,

01:18:04.939 --> 01:18:09.000
könnte man ja das ganze System auch ganz auf den Kopf stellen und könnte sagen,

01:18:09.140 --> 01:18:12.860
wenn ich Inhalte habe, die ich gerne in KI-Sprachmodellen sehen will,

01:18:13.600 --> 01:18:16.620
dann gibt es für mich eine Möglichkeit, wo ich die da reinkippen kann.

01:18:16.620 --> 01:18:20.360
Und dafür muss man nicht zehnmal am Tag bei mir vorbeikommen und gucken,

01:18:20.460 --> 01:18:22.939
ob vielleicht da was Neues steht, sondern wenn was Neues steht,

01:18:23.020 --> 01:18:24.460
dann werfe ich das da ein.

01:18:25.240 --> 01:18:30.020
Aber da gehe ich davon aus, dass die großen Anbieter davon ausgehen,

01:18:30.100 --> 01:18:34.439
dass sie da nur ein Promille, wenn überhaupt, des ganzen Contents kriegen würden

01:18:34.439 --> 01:18:37.300
und dass es für sie die sehr viel leichtere Möglichkeit ist,

01:18:37.439 --> 01:18:39.820
mit ganz vielen technischen Ressourcen einfach zu sagen, ey,

01:18:40.200 --> 01:18:41.300
wir machen, was wir wollen.

01:18:41.800 --> 01:18:43.899
Vor allem reicht es dann im Zweifelsfall auch einfach nicht,

01:18:43.979 --> 01:18:46.060
um diese Modelle ausreichend gut zu trainieren.

01:18:47.189 --> 01:18:50.130
Ich habe gerade überlegt, ob vielleicht noch eine andere Möglichkeit ist,

01:18:50.330 --> 01:18:55.290
wie das KI-Crawler-Problem sich erledigt, dass irgendwann alles,

01:18:55.430 --> 01:18:57.149
was es früher gab, gecrawled ist.

01:18:57.370 --> 01:19:01.229
Und immer mehr vom Web ist ja auch KI-generierter Content, Slop,

01:19:01.670 --> 01:19:03.630
wie wir das in unserer Bubble zu bezeichnen kriegen.

01:19:04.110 --> 01:19:08.350
Also ob deswegen das vielleicht KI-Crawling total überflüssig wird,

01:19:08.430 --> 01:19:12.550
weil man sich dadurch Labyrinth hin oder her so viel Mist einhandelt,

01:19:12.830 --> 01:19:14.130
dass es gar keinen Sinn mehr macht.

01:19:15.170 --> 01:19:19.630
Also ich habe da so meine düstere Zukunftsfantasie.

01:19:19.750 --> 01:19:21.510
Oh no! Welche?

01:19:22.610 --> 01:19:26.950
Also zum einen wird eben das Problem sein, dass es irgendwann einfach so viel

01:19:26.950 --> 01:19:31.689
von diesem Slope auch da ist, dass es auch immer aufwendiger wird,

01:19:31.689 --> 01:19:35.790
das auseinanderzuhalten und das eben die Modelle im Zweifelsfall kaputt macht.

01:19:36.490 --> 01:19:38.450
Beziehungsweise man das dann nur noch auf dem alten trainieren kann.

01:19:38.450 --> 01:19:42.530
Und was ich da tatsächlich vielleicht sehe, auch in der Hinsicht,

01:19:42.610 --> 01:19:46.010
dass jetzt diese KI-Unternehmen ihre eigene Browser starten und so weiter,

01:19:46.649 --> 01:19:51.229
dass langfristig vielleicht auch darauf hinausläuft, dass genau die Firmen,

01:19:51.310 --> 01:19:54.130
die das Internet aktuell vollmühlen, nenne ich es mal,

01:19:54.649 --> 01:19:59.130
dir dann einen gefilterten Zugang anbieten, der diesen Müll wegfiltert,

01:19:59.189 --> 01:20:02.750
damit du überhaupt noch was Realistisches findest. Natürlich gegen eine kleine Gebühr.

01:20:03.550 --> 01:20:07.450
Es sieht eigentlich gar nicht so aus. Der erste Browser, was die Browser nennen,

01:20:07.530 --> 01:20:11.070
was eigentlich ja kein Browser ist, den die jetzt vorgestellt haben,

01:20:11.149 --> 01:20:12.550
der ist eigentlich ein Closed System.

01:20:12.790 --> 01:20:16.070
Der hat gar keinen Links. Der will gar nicht mehr die Leute ins Netz leiten.

01:20:16.410 --> 01:20:19.390
Da bleibt man quasi drin. Da kriegt man immer nur AI-Antworten.

01:20:19.890 --> 01:20:23.130
Genau, muss ich vielleicht kurz sagen. Also der neue Trend bei KI-Anbietern

01:20:23.130 --> 01:20:25.630
ist einen eigenen Webbrowser auf den Markt zu bringen.

01:20:25.750 --> 01:20:29.010
Also das ist zumindest zu verkaufen. Ich glaube perplexig, wie waren die ersten.

01:20:29.189 --> 01:20:31.050
OpenAI hat jetzt irgendwie auch nachgezogen.

01:20:31.510 --> 01:20:35.330
Und das Versprechen ist halt, dann bist du im Internet und dann ist die KI immer gleich da.

01:20:36.460 --> 01:20:41.560
Aber du kriegst da keine Links. Ich habe neulich den ersten Review davon gelesen,

01:20:41.660 --> 01:20:45.920
da hat jemand einen populären Popstar Taylor Swift irgendwie eingetippt,

01:20:45.960 --> 01:20:48.540
aber er kam nie auf die Webseite von Taylor Swift.

01:20:49.060 --> 01:20:53.520
Also das bleibt dann alles unter sich mit generiertem Content.

01:20:54.060 --> 01:20:58.180
Ich habe von Theresa Hannig, einer Schriftstellerin gerade, die schreibt eine

01:20:58.180 --> 01:21:00.479
Kolumne für die Taz und hat das als Buch ausgemacht übermorgen.

01:21:00.880 --> 01:21:05.500
Und da gibt es unter anderem sozusagen, sie ist für optimistische Utopien zuständig.

01:21:05.899 --> 01:21:08.260
Da gab es unter anderem die Geschehen, die sagen, also in der Zukunft wird es

01:21:08.260 --> 01:21:11.939
dann so sein, es gibt halt zwei Internets, nämlich das, was wir jetzt kennen,

01:21:12.680 --> 01:21:15.560
was dann sozusagen verbottet ist und dann gibt es aber noch ein zweites,

01:21:15.680 --> 01:21:19.360
da sind nur Menschen unterwegs, also da gibt es sozusagen nur wirklich,

01:21:19.360 --> 01:21:24.100
wenn du da kein human, organic grown human bist, dann darfst du da nicht rein.

01:21:24.420 --> 01:21:26.580
Das fand ich sehr interessant, weil ich das sage. So, aber,

01:21:27.750 --> 01:21:34.090
Also um zum Abschluss zu kommen, es gibt momentan für die, also es gibt eigentlich

01:21:34.090 --> 01:21:37.910
nichts zu tun als Mensch, der nicht bei einem Hoster arbeitet oder so.

01:21:38.010 --> 01:21:44.030
Es gibt gerade keine Demonstrationen, kein Ding, was man machen kann,

01:21:44.130 --> 01:21:50.530
sondern momentan haben wir heute viel gelernt, wie das funktioniert und was das Problem ist.

01:21:51.110 --> 01:21:54.070
Aber im Prinzip heißt es für die meisten normalen Menschen abwarten.

01:21:55.090 --> 01:21:58.410
Also normalen Menschen im Sinne von, normal ist immer so ein Scheißwort, Entschuldigung.

01:21:58.689 --> 01:22:04.870
Also für die Menschen, die sich nicht beruflich oder als berufende Hobbyisten

01:22:04.870 --> 01:22:07.790
mit dem Thema beschäftigen, sondern die quasi ein Leben haben,

01:22:07.870 --> 01:22:10.890
wo die Digitalität Alltag ist, die aber nicht tiefer den Themen drinstecken.

01:22:10.990 --> 01:22:12.729
Man kann momentan nur warten.

01:22:13.750 --> 01:22:17.590
Man kann dem Ganzen ja auch kaum ausweichen. Das ist ja das Schwierige.

01:22:17.590 --> 01:22:22.250
Ja, also ich würde jetzt schon mitnehmen, von dem, was ihr sagt,

01:22:22.370 --> 01:22:24.670
manchmal ist es ja so ein bisschen Panik im Netz. Ich habe schon den Eindruck,

01:22:24.750 --> 01:22:26.149
dass ihr das Problem beherrschen könnt.

01:22:26.450 --> 01:22:30.270
Es nervt halt und es frisst Ressourcen, aber ihr könntet erstmal beherrschen.

01:22:30.430 --> 01:22:33.570
Das ist jetzt mein Eindruck. und das andere ist, ich würde zurückspielen.

01:22:33.890 --> 01:22:38.250
Also ich meine, jeder, dem KI aufgedrängt wird und der KI nutzt,

01:22:38.350 --> 01:22:43.290
muss halt im Hinterkopf haben, dass man übrigens auch noch dieses Ärgernis damit in die Welt lässt.

01:22:43.890 --> 01:22:47.470
Also letztlich, das passiert ja nicht, sondern es sind ja Menschen, die das tun.

01:22:48.010 --> 01:22:51.570
Sowohl die Nutzer wie auch die Anbieter. Insofern, man kann nicht für den Anbieter

01:22:51.570 --> 01:22:52.490
zurückspielen, die es nutzen.

01:22:52.610 --> 01:22:54.670
Also es ist ja nicht nur, dass es Energie verbrennt wie Blöde,

01:22:54.770 --> 01:22:58.930
sondern es nervt oben meine freundlichen Hoster von dem an. Und zwar alle.

01:22:59.850 --> 01:23:04.729
Das und man kann sich ja natürlich auch überlegen, ob die Unternehmen vielleicht

01:23:04.729 --> 01:23:06.570
auch so sympathisch sind, die das betreiben.

01:23:08.800 --> 01:23:14.060
Die Beurteilung überlassen wir dann ganz vorurteilsfrei euch, liebe HörerInnen.

01:23:14.620 --> 01:23:18.800
Jonas und Lea, vielen lieben Dank, dass ihr heute da wart und uns mal ausführlich

01:23:18.800 --> 01:23:22.460
erklärt habt, was das Problem ist und was man nicht machen kann.

01:23:22.460 --> 01:23:25.060
Das war für mich zumindest sehr lehrreich. Dankeschön.

01:23:25.600 --> 01:23:26.100
Sehr gerne.

01:23:26.979 --> 01:23:28.260
Und vielen Dank, Conz.

01:23:29.200 --> 01:23:30.560
Tschüss, bis nächstes Mal.

01:23:30.580 --> 01:23:33.880
Und mir bleibt nur noch eins zu sagen, lasst euch nicht überwachen,

01:23:34.060 --> 01:23:38.120
auch nicht durch KI-Crawler und verschlüsselt immer schön eure Backups. Tschüss.
