• @dreiwert@szmer.info
    link
    fedilink
    21 year ago

    Falls wirklich die Trainings-Pipeline + Trainings-Datensatz offengelegt wird, dann könnte ein Machine Learning Experte zumindest irgendetwas damit anfangen. So richtig nachvollziehbar ist es ja aber selbst für die direkt involvierten Experten nie und ich gehe eben schwer davon aus, dass höchstens das Blackbox-Modell veröffentlicht wird.

    Ist halt die Frage, welchen Massstab man anlegt. Es gibt auch grosse Codebases ohne irgendwelche generierten Modelle, bei denen trotzdem keine Einzelperson mehr durchblickt. Egal was man alles offenlegt. Programmierer sind da zudem auch haeufig verwoehnt. Naturwissenschaftler haben das Problem seit jeher, dass auch umfassendster Austausch von Forschungsergebnissen keine Allwissenheit bewirkt.

    Bzgl. genereller Offenlegung von Machine Learning bin ich absolut bei dir. Ein großes Problem, das ich aber sehe, ist, dass (nützliches) Machine Learning bisher quasi nur von großen Unternehmen durchführbar ist.

    Privatpersonen oder auch kleine Vereine können zwar theoretisch das Tooling der großen Nutzen, weil Tensorflow, PyTorch und Co. open-source sind, aber es braucht einiges an Infrastruktur, um Daten sammeln und längere Trainings durchführen zu können.

    Das halte ich ebenfalls nicht fuer ein ML-spezifisches Problem. Zuweilen begegnen einem auch Open-Source-Codebases, die man als Privatperson i.A. nicht bauen kann. Manchmal aendert sich das, wenn sich Compiler weiterentwickeln. Bei generativen Sprachmodellen gibt es die gleiche Entwicklung. Erstmals begegnet als Technologie, fuer die man viel Zugkraft braucht, um sie zu betreiben. Dann optimiert auch fuer kleinere Plattformen: https://arstechnica.com/information-technology/2023/03/you-can-now-run-a-gpt-3-level-ai-model-on-your-laptop-phone-and-raspberry-pi/

    Solche Forschung daran, wie man Modelle auch auf kleineren Plattformen nutzbar macht, ist auch nur effizient moeglich, wenn erstmal die Forschung von den grossen Plattformen veroeffentlicht wird.

    Natuerlich bleibt das Gefaelle. Aber das ist ein Problem, das man separat angehen muesste, und das nicht durch blosses Offenlegen von Informationen angegangen werden kann. Braucht es “Buergercluster”, damit alle einmal probieren koennen hochdimensionierte Tasks laufen zu lassen und damit zu experimentieren? Inwieweit kann man das Problem mit Scale-Out und Peer-To-Peer-Plattformen loesen, so dass man gemeinschaftlich groessere Modelle betreiben kann?

    Wenn ich jedenfalls sehe, dass an europaeischen Unis in Big-Data-Vorlesungen Studierenden empfohlen wird, doch die Experimentierplattfomen von Amazon/Google/Microsoft/wasauchimmer zu nutzen, statt dass man daran arbeitet, wenigstens an den Unis selbst geeignete Plattformen bereitzustellen, dann ist offensichtlich, dass zu wenig fuer die Demokratisierung von datenintensivem Rechnen getan wird.

    Teilweise benötigt es auch extrem stumpfe Tätigkeiten, wie tausende Aufnahmen machen + labeln, die Zuverlässigkeit des Blackbox-Modells durchprobieren, dann Daten aussortieren / neu aufnehmen usw., die niemand in der Freizeit machen will.

    Aufnahmen labeln kann man doch wunderbar crowdsourcen. Nutzer lassen sich haeufig “freiwillig” ihre Mitarbeit abpressen, wenn z.B. der Zahlungsdienstleister einen Captcha-Dienst vorschaltet und man dann eben Modelle trainieren darf, damit man die Zahlung anweisen darf. Oder Mastodon-Instanzbetreiber verlangen Bildbeschreibungen, damit man auf dem Server bleiben darf. Laesst sich sicherlich adaptieren.

    Hier braeuchte es vor allem eine Demokratisierung der Weiternutzungsrechte. Warum haben wir kein Copyleft fuer solche Microtasks, damit alle Mitwirkenden spaeter an den resultierenden Modell Teilhaberechte haben?

    Wir stehen noch am Anfang dieser Technologie, daher will ich es noch nicht ganz abschreiben, dass das mal für Privatpersonen nutzbar wird, aber wirkt für mich schon wie das Paradebeispiel von Technologie, die nur funktioniert, wenn man extrem viele Geldscheine dagegen wirft.

    Das war bereits beim ersten Computer der Fall.

    • Ephera
      link
      fedilink
      Deutsch
      11 year ago

      Jo, stimmt natürlich schon, dass Computer, Programmieren und Co. auch nicht gerade in Nachbars Werkstatt entstanden sind. Mal schauen, wohin die Reise führt.

      Warum haben wir kein Copyleft fuer solche Microtasks, damit alle Mitwirkenden spaeter an den resultierenden Modell Teilhaberechte haben?

      Naja, Copyleft nutzt Copyright, um entsprechende Bedingungen zu forcieren. Und Copyright/Urheberrecht kann erst geltend gemacht werden, wenn ein gewisser Aufwand dahinter steckt bzw. das Ergebnis eine gewisse Komplexität hat. Diese Nichtanwendbarkeit von Copyright ist aber in den meisten Fällen etwas Gutes und will man lieber nicht abschaffen.

      Auch das ist natürlich nur der Status Quo, es können ähnliche Gesetze speziell für diesen Zweck geschrieben werden, aber die müssten in sehr vielen Staaten Anklang finden, damit Unternehmen nicht einfach auf andere Staaten ausweichen.

      • @dreiwert@szmer.info
        link
        fedilink
        11 year ago

        Naja, Copyleft nutzt Copyright, um entsprechende Bedingungen zu forcieren. Und Copyright/Urheberrecht kann erst geltend gemacht werden, wenn ein gewisser Aufwand dahinter steckt bzw. das Ergebnis eine gewisse Komplexität hat. Diese Nichtanwendbarkeit von Copyright ist aber in den meisten Fällen etwas Gutes und will man lieber nicht abschaffen.

        Ob das “in den meisten Faellen etwas Gutes” tatsaechlich noch stimmt, da bin ich mir nicht sicher. Das mit der Schoepfungshoehe stammt meines Erachtens noch aus einer Realitaet, die heute so nicht mehr besteht. Und in Zeiten, in denen es umfangreiche wissenschaftliche Forschung zur Schaffung groesserer Leistungen aus solchen Mikrobeitraegen gibt, muesste es vielleicht ueberdacht werden. Dass das auch geschieht, sah man z.B. beim Leistungsschutzrecht fuer Verleger. Aber nicht nur Verleger koennen hier einseitig benachteiligt sein.

        Mal ein Gedankenspiel dazu: Angenommen, man wuerde die fuer die Anwendung des Urheberrechts erforderliche Schoepfungshoehe abschaffen, ggf. die Voraussetzungen schaffen, um Ansprueche gesammelt geltend zu machen (ich bin mir nicht sicher, ob die Musterfeststellungsklage als deutsches Pendant zur amerikanischen Sammelklage hier anwendbar waere), aber als Regulativ eine Bagatellgrenze fuer Ansprueche gegen einzelne Personen festlegen. Wenn jetzt Leute z.B. online interagieren, sich mal zitieren etc., dann wuerde es sich im Allgemeinen ausgleichen, so dass die Bagatellgrenze greift. Man muesste sich schon aus oekonomischen Gruenden auf eine Art digitale Allmende einigen. Wenn aber einzelne Akteure die Leistungen systematisch auswerten und veredeln wuerden, koennte man jedes Mal gesammelt eine Gegenleistung fordern. Ggf. wuerde man so auch einen Anreiz schaffen, dass auch groessere Akteure ihre Prozesse und Daten oeffnen, um nicht angreifbar zu sein.

        Auch das ist natürlich nur der Status Quo, es können ähnliche Gesetze speziell für diesen Zweck geschrieben werden, aber die müssten in sehr vielen Staaten Anklang finden, damit Unternehmen nicht einfach auf andere Staaten ausweichen.

        Irgendwer muss immer den Anfang machen. Ich verstehe auch nicht, warum man jahrelange, trotz teilweise sogar gerichtlich bestaetigtem Verstoss gegen die EU-DSGVO, einfach ueber systematisches Datenausleiten aus der EU in die USA hinwegsah, aber jetzt beim Datenausleiten nach China (TikTok) schreit. Aber vielleicht ebnet dieser erste Schritt ja auch den Weg zu global bewussterem Umgang mit den Datenfluessen. Und vielleicht faengt man auch bei schoepferischen Leistungen irgendwo einmal konsequent an.