Je mehr, desto besser

CR197 Oder: Was man aus Überwachungsdaten lernen kann. ()

Zwei häufige Argumente von Leuten, denen Überwachung egal ist, sind: „Ich habe doch eh nichts zu verbergen!“ und „Das sind eh zu viele Daten, um die alle zu durchsuchen.“

Im Chaosradio geht es deshalb darum, was man mit Daten anstellen kann, nachdem sie durch Überwachung mitgeschnitten wurden. Was passiert mit den endlos langen Textwüsten aus Nachrichten, Blogposts und Chats? Welche Daten lassen sich daraus gewinnen? Welche inhaltlichen Erkenntnisse? Wie schnell kommt man zu Ergebnissen? Wie teuer ist die Hardware, die man dafür braucht?

Und was haben Zombiefilme damit zu tun?

Bei der Analyse all dieser Daten helfen dem Moderator Marcus Richter die Gäste im Studio Joachim Scharloth, Anna Biselli, Simon Willnauer und Andreas Bogk.

23 Gedanken zu „Je mehr, desto besser

  1. Pingback: Je mehr, desto besser.

  2. Toller Podcast, gerne wieder! An einer Stelle wurde kurz erwähnt, dass ein großer Teil der Forschung zur Textanalyse an deutschen Unis betrieben wurde, und dass viele der Ergebnisse dieser Forschung ohne Veröffentlichung zu den Geheimdiensten gewandert sind. Könnt ihr eine detaillierte Quelle für diese These empfehlen? Gedankt!

  3. Als jemand der täglich Information Retrieval beruflich in grossem Massstab bei einer der Web-Grössen macht:

    1. Warum Prof. Scharloth? Der Mann ist nun bei NLP (Natural Language Processing), Statistical Learning oder Information Retriavel kaum nicht in Erscheinung getreten. Warum nicht einmal an jemanden wie Hermann Ney (RWTH Aachen), Hinrich Schütze (LMU) oder Hans Uszkoreit/ Manfred Pinkal (Saarbrücken) herantreten? Die hätten vielleicht mehr als Allgemeinplättze abgegeben. Traurig, dass der Mann im Clubumfeld nun die Referenz ist.

    2. Es geht bei vielfach nicht um Textanalyse. Mindestens ebenso interessant ist, was man unter ist Graph-Mining Mining subsumiert. Unser Surf- und Kommunikationsverhaltenn: Das alles sind Graphen: Beziehungen zwischen Entitäten. Google grünndete Google+ wegen der Bedeutung von Social Graphs. Wenn ich nach Hans Müller suche, dannn nüzt mir Textanalyse gar nichts: Nach welcher der vielen Hans Müllers ich möglicherweise suche( ein Fussballer, ein Arbeitskollege, ein Bekannter…), daruüber gibt der Social Graph aufschluss. Deshalb interessiert sich die NSA für Metadaten. Das ist oft sehr viel aufschlussreicher als die eigentlichen Inhalte. Vor allem sind diese sehr viel einfacher auswertbar – vor allem auf Sprachübergreifend.

    3. Linguistik ist da gar nicht so wahnsinnig interessant. Letztlich arbeitet man dann doch immer mit n-grams (n=3-7, d.h. mit relativ kurzen Wort-Sequenzen) und dann Statistik darauf.
    Tiefergehende linguistische Konzepte haben sich im grossen Massstab als wenig effizient herausgestellt – insbesondere sind Sie auch sehr abhändig von bestimmten Sprachen. Statistik im grossen Masstab auf solchen n-grams hingegen funktioniert vergleichsweise sehr gut. Trotz aller schwächen haben Rechtschreibkorrektur, Übersetzung und Autovervollständigung insbesondere auf der Basis ernorme Fortschritte erzielt.

    • Weil diese Sendung nicht für „jemand der täglich Information Retrieval beruflich in grossem Massstab bei einer der Web-Grössen macht“ gedacht war, sondern dazu dienen sollte, die Grundlagen zu zeigen und einfach und deutlich zu erklären, was möglich sein könnte.

      Und da hat Joachim Scharloth durch seinen Vortrag auf dem 30c3 und ein bereits geführtes Interview gezeigt, dass er das kann, während die anderen Namen nicht auf unserer Agenda waren.

      Und es hat sich gezeigt, dass sich Textanalyse dafür besser eignet als Graph-Mining, weil es weit weniger abstrakt ist. Deine Beurteilung, dass Linguistik „nicht so wahnsinnig interessant“ ist, teile ich nicht, da das bis jetzt eine der wenigen Techniken, die über Beziehungsmodelle hinaus erlaubt, einen Einblick in die Kommunikation und damit möglicherweise Psyche und Seelenleben der Überwachten zu nehmen.

      Aber wenn du dich gerne noch einmal zu dem Thema auslassen magst: Ich bin immer auf der Suche nach interessanten Podcastpartnern. 🙂

    • Vielleicht kann ich dein Missverständnis ein bisschen auflösen: Er kommt halt nicht aus Informatik oder Computerlinguistik, sondern aus Diskursanalyse und Korpuslinguistik. Das scheint nicht dein Gebiet zu sein, sonst würdest du seine (für diesen Bereich sehr datenintensiven) Arbeiten ganz sicher kennen. Wegen seiner Sozialisierung außerhalb von Informatik und CL bringt er meiner Meinung nach auch ein paar neue Ideen in die Diskussion ein und ist in der Lage, die Forschung auch kulturwissenschaftlich zu framen. Und er macht das halt ein bisschen linguistischer als mit n-Grammen. Dass er den Praktiken gegenüber kritisch ist, wird ja in der Sendung auch ziemlich deutlich.
      Disclosure: Ich habe bei ihm studiert und er ist ein großartiger Prof.

  4. Liebes Chaosradio 🙂
    Es fiel das Wort schizohren, deshalb dieser Post hier.

    Umgangssprachlich wird schizophren häufig synonym zu widersprüchlich oder absurd verwendet. Auch die gespaltene Persönlichkeit wird sehr häufig mit einer Schizophrenie in Verbindung gebracht. Doch das ist alles falsch.

    Schizophrenie heißt NICHT „gespaltene Persönlichkeit”

    Zwar ist das Wort Schizophrenie ursprünglich griechisch und heißt übersetzt so viel wie gespaltene Seele. Mit einer gespaltenen Persönlichkeit – also zwei verschiedenen Personen in einem Menschen – hat das Krankheitsbild Schizophrenie aber nichts zu tun. Dennoch hält sich diese Vorstellung in den Köpfen vieler Menschen hartnäckig und dies wohl auch dank Hollywood.

    Ich bin schitzophren, aber das merkt man mir nicht an, weil ich genauso bin wie alle gesunden auch. Ich hab da sicher Glück, es geht natürlich viel schlimmer, aber es gibt auch genug Menschen mit dieser Botenstoff Erkrankung die nicht in das Geselschaftliche Bild der Widersprüchlichkeit passen. Ich bin nicht wiedersprüchlich und auch nicht absurd. Hätte nie gedacht wie verletzend Sprache sein kann.

    “Das ist doch schwul” – diskriminiert Homosexuelle.
    “Das ist doch behindert” – diskriminiert Behinderte
    “Das ist doch schizophren” – diskriminiert Psychisch erkrankte.

    Aus der Stigmatisierung erwächst also Diskriminierung innerhalb der Gesellschaft, die sich auf vielfältige Weise ausdrückt: von einer Abneigung, Menschen mit einer schizophrenen Erkrankung zu beschäftigen bis hin zur sozialen Ausgrenzung.

    Ich weiß erst seit einem Jahr das ich eine Botenstoff-Erkrankung hab, und ich wusste das alles auch nicht.
    Mir geht es nur darum ein bißchen aufzuklären.

    Hoffe auf Verständnis für mein Anliegen.

    grüße Daniela

    • Als jemand ohne Innensicht aber mit Interesse an Psychologie (wenn auch nicht so sehr an Psychiatrie) würde ich behaupten, dass es gar kein großes Bewusstsein für das Krankheitsbild der Schizophrenie gibt. Also subjektiv abgeleitet davon, dass mir als Interessiertem nur der Name etwas sagt und ich wohl auch von der beanstandeten Wortbedeutung von „schizophren“ falsch auf multiple Identitäten geschlossen hätte. Ehrlich gesagt wundert es mich, dass der Begriff in den Katalogen überhaupt noch geführt wird, erscheint er doch etwas altmodisch.

      Zu deiner Aufzählung. Bei „schwul“ gibt es entweder keinen Zusammenhang mit Homosexualität oder der Zusammenhang wird über Vorurteile wie vermeintliche Effeminisierung hergestellt. „behindert“ zielt meistens auf die Unterstellung ab nur eingeschränkte geistige Fähigkeit erklären den bemängelten Umstand, ist insofern schonmal zu breit, da Behinderungen ein weiteres Spektrum umfassen, und in der Konstruktion schlicht unnötig. „schizophren“ ist aber eine tatsächliche Zweitbedeutung, die sich dem Wortsinn nach auch aus dem Griechischen herleiten lässt, und mittlerweile eine vom Krankheitsbild losgelöste Bedeutung hat (wobei, nur als Nebenbemerkung Ambivalenz teilweise als Symptom aufgeführt wird).

      Also das wird dir vermutlich vermessen vorkommen, aber wäre es nicht einfacher der Indikation einen neuen Namen zu geben und dafür zu lobbyieren? Oder sei es erstmal nur für den Eigengebrauch. Du verwendest doch selbst den Begriff Botenstoff-Erkrankung. Die Zweitbedeutung von schizophren ist ziemlich weit verbreitet und der Begriff scheint zumindestens von der heutigen Beschreibung des Krankheitsbildes her zu schließen sowieso nicht besonders passend.

    • @Daniela

      Danke dass Du Dich für die Randgruppe der Schizophrene einsetzt.

      Wichtig wäre zu erwähnen, dass Schizophrenie auch eine Identität ist. Ich hatte sehr mühe die Krankheit zu akzeptieren, es geht um Identität: Man will nicht der Amokläufer sein von der die Presse oder Hollywood berichtet: „Es ist alles klar, der Mörder war Schizophren, Fall gelöst“ — alle relevanten Variabeln eines komplexes System rausgekürzt.

      Mir hilft es wenn ich vor nicht-Schizos (wie ein Komiker) Sprüche über mich mache wie: „Yay, dann kann ich alleine meine eigene WG gründen“ auch wenn mir klar ist, dass das wissenschaftlich nicht haltbar ist, coping strategie. 🙂

      Gruss
      Marc

  5. André, in Deutschland leiden aktuell rund 800.000 Menschen an einer Schizophrenie und die haben alle im laufe Ihres lebens gesagt gekriegt vom Arzt das sie schitzophen sind und meinst Du nicht das es verletztend ist, wenn deine Stoffwechselerkrankung für absurd und wiedersprüchlich steht und nicht nur das, sondern auch die meißten denken das es sich um 2 Personen in einem Körper handelt, was absoluter Quatsch ist. Natürlich weiss das kaum einer, ich ja auch nicht bevor das bei mir festegstellt wurde.

    Im zweifel lässt man das Wort einfach weg , weil es Stigmatiesurng fördert. Wenn ich vor fremden Leuten sagen würde , das ich diese Botenstoff-Erkrankung habe, würde alle Blicke direkt auf mich fallen. Und das wohl grösstenteils durch Filme und wegen dem geflügelten Wort, welches für wiedersprüchlich steht. Es ärgert mich am meißten das wir hier über eine Krankheit sprechen, es ist eine Krankheit die als Methapher herhählt. Das mit der gespaltene Seele ist nicht der Ursprung für dieses geflügelte Wort, sondern weil es hier um Psychisch kranke geht, die sind halt absurd und sonderbar. Daher kommt der Ursprung. Heute ist die Krankheit gut behandelbar.

    Was mich entäuscht ist das Menschen die ich für aufgeklärt halte, trotztdem dieses Wort wohl weiter im Radio benutzen wollen und das nur weil es ja im Duden so steht. Dann darf man das ja. Nein! Sprache muss gefählt sein und darf nicht ausgrenzen und isolieren.

    Lieber monoxid, mir wäre sehr drann gelegen wenn du es, zumindestens im Radio, nicht mehr benutzt, weil es Vorurteile fördert und einen traurig machen würde, wenn ein so reflektierter Mensch, trotz dem neuen Wissen das es 800.000 Menschen potentiel verletzt.

    Egal ob das noch im Duden steht, der ist nicht in Stein gemeisselt.
    Im zweifel einfach weglassen, so funktioniert Sprache am besten.

    gruss und Hoffnung auf Verständnis
    daniela

    ps Hoffe klang jezt nicht zu böse, aber mal ehrlich Recht habe ich doch!

    • Wenn dich das beruhigt, ich liege auch mit anderen Projekten politisch korrekter Sprache über Kreuz, meistens weil ich die Analyse nicht teile, ein bisschen ist das auch hier so. Aber ich glaube auch daran, dass jeder das Recht hat, Sprache zu verändern, insofern sehe ich nichts Falsches an deinem Appell an Monoxyd.

      Ich wollte auch gar nicht Abrede stellen, dass es für Betroffene ein Problem mit der Doppelbedeutung gibt, habe aber eben eine andere Lösung angeboten. Tatsächlich habe ich auch nochmal einen Moment länger darüber nachgedacht, bevor ich dir meine erste Antwort schrieb: Bei „schwul“ wie „behindert“ geht es darum einen Zustand als Lebensnormalität zu akzeptieren, aber eine psychische Störung wird, wieder du auch nochmal bekräftigst, als Krankheit angesehen. Insofern will man eigentlich gar keine Identifikation mit dem Zustand, also zumindestens nicht mit dem Krankheitswert, sondern er soll als etwas Überwindbares verstanden werden. Und wenn das Wort „schizophren“ einerseits durch seinen typischen Nebengebrauch verbrannt ist, andererseits das Krankheitsbild auch nicht besonders klar beschreibt, könnte man die Bezeichnung auch modernisieren. Ich hätte nicht das Gefühl hier jemanden etwas „wegzunehmen“ und ich denke, es wäre auch leicht zu vermitteln, wenn man die Krankheit anders nennt, weil das Wort schizophren häufig falsch verstanden wird. Ich würde auch erwarten, dass man die Fachsprache und -literatur leichter anpassen kann, als den Sprachgebrauch der Bevölkerung umzukrempeln.

      • Ja, das stimmt wohl, dass das länger dauern kann die Bevölkerung zu überzeugen, ein Wort nicht mehr zu benutzen, wenn die alle wie du erstmal anfangen darüber zu diskutieren. Schön die eigene Theorie an dir selbst bewiesen, bravo.

        Man könnte aber, wenn man – von einer Betroffenen! – gebeten wird ein Wort nicht mehr zu benutzen, weil es für diese (und ggf. andere) Person(en) verletzend ist, dass einfach mal zu versuchen, wie schwieig kann das sein? Gleichberechtigung ist nur solange toll, solange es uns Priviligierte nicht einschärnkt, oder wie?

  6. Andre ich gebe dir ja recht. Ich glaub die Ärzteschaft davon zu überzeugen wird noch schwieriger 🙂

    Es ist halt so: Wenn man das auf das Privatleben runterbricht, dann ist da das Verständnis vorhanden. Jeden Bekannten den ich das gesagt haben , der wird dieses Wort nicht mehr benutzten. Ist naiv von mir zu glauben, das ein Bewustsein in der Geselschaft vorhanden ist; wie verletztend Sprache sein kann. Das merkt man erst, wenn man mal selber betroffen ist. Julia Probst alias ein Augenschmaus, kämpft nicht umsonst für eine saubere Sprache. Weil es wirklich weh tut.

    Dachte wir wären vielleicht weiter. Muss aber dazu sagen das ich Jörg Langer von gamersglobal auch aufgeklärt habe, da war das Verständis sofort vorhanden. Er schrieb als antwort:

    Ich alle beide?
    Aber Scherz beiseite: danke für den Hinweis.

    Also es geht auch anders, zum Glück!

    gruss Daniela

  7. Filmempfehlung Dokumentarfilm „Das Netz“: Lutz Dammbeck und der Unabomber.
    Wurde 2005 mit 1 Preis ausgezeichnet bei den FilmFest Osnabrück und lief auf ARTE dort kann man den auch bestellen.

Schreibe einen Kommentar zu Christoph Antworten abbrechen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert