Technik kann mittlerweile Stimmen von Menschen sehr gut nachahmen. Das hat die Lip-Synch-Szene recht stark aufgewühlt.

Übersicht

  • JonXor - seines Zeichens Modder und Entwickler für Skyrim-Erweiterungen -
    • hat seit der Veröffentlichung des Spiels (2011) ein großes Projekt namens Wyrmstooth am Laufen,
    • welches neben einer großen Spielraumerweiterung auch eigene Synchronsprecher umfasste.
title: Grundgedanke zu angepassten AI-Stimmen
Die erweitere Spielwelt soll die Glaubwürdigkeit beibehalten und Interessierten einen Mehrwert bieten, auch in sprachlicher Hinsicht.  

2016-2021 - Vom großen Schweigen zur KI-Plaudertasche

  • 2016 verschwanden sowohl JonXor als auch Wyrmstooth von der Modding-Plattform,
    • um 2021 mit einem großen Update wieder aufzutauchen.
  • Anstelle von Synchronisation echter Stimmen wurden nun zwei TTS-KIs angewandt:
    • Googles Tacotron 2
    • und Nvidias WaveGlow.
  • Die Samples, unter anderem das aktualisierte Intro-Video, lassen vermuten, dass die so entwickelten Stimmgeneratoren menschliche Stimmen ersetzen könnten.
    • Modder könnten so mit geringerem Aufwand ganze Spielwelten mit professionellen Stimmen aus der Dose erstellen.

Andere Projekte in the Making

  • Auch Modder DanRuta hat mit seinem Sprachgenerator xVASynth (Nvidias FastPitch + WaveGlow einen Baukasten geschaffen,
    • der neben der ganzen neueren Elder Scrolls-Saga (ab Morrowind) auch die Fallout-Reihe ab Teil 3 unterstützt.
      • Insgesamt hält der Generator 53 Stimmen bereit.

Eine rechtliche Fußnote - was wird aus den “echten” menschlichen Stimmen?

  • Die Errungenschaften von KI im Synchronisationsbereich mögen auf dem ersten Blick innovativ und praktisch wirken,
    • doch was geschieht mit jenen, die ihre Stimme ursprünglich “gespendet” haben?
    • Wird es in Zukunft womöglich Lizensvereinbarungen geben?
      • vgl. Modelle einer GEMA-Gebühr
        • Audobasierte Tantieme für menschliche Urheber?

Sonstige Vermerke

  • Die Frage über den Besitz und die Verwendung der Stimme knüpft mE sehr gut an eine Simpsons-Folge an,
    • Homer Simpson mit der Synchronsprecherin June Bellamy über den Beruf der Lip Syncs:
sequenceDiagram
   Homer Simpson->>+June Bellamy: How did you get to be so good in Voice acting?
   June Bellamy-->>-Homer Simpson: Oh, just experience, I suppose.<br/>I started out as Road Runner.<br/>(imitating Road Runner) MEEP
    Homer Simpson->>+June Bellamy: You mean "Meep, meep"?
    June Bellamy-->>-Homer Simpson: No, they only paid me to say it once,<br/>then they doubled it on the soundtrack.<br/>Cheap bastards!
  • Die Folge wurde um 1997, also weit vor der Veröffentlichung und technischen Möglichkeiten für KI-Sprache, gedreht.
    • Wie war die Rechtslage damals?
  • Sprachgeneratoren auf Social Media, vor allem Online-Videos: Siehe TikTok Stimme.
    • Zahlreiche Werbeschaltungen und Videos werden bereits mit künstlichen Stimmen aufgemotzt.
  • In Japan sind schon seit längerer Zeit Sprachgeneratoren - Vocaloids - im Einsatz (Stichwort: Hatsune Miku).
    • Wie wird die Debatte um das Recht auf Sprache in diesem Fall gehandhabt?
    • In welchem Ausmaß werden Vocaloids außerhalb der Musikbranche eingesetzt?
      • Sprachgeneratoren wie auf TikTok, beruhen diese auf ähnlichen Prinzipien?
  • Stichwort Frankenbite:
    • Inwiefern werden AI-Powered voices bereits bei Tonaufnahmen von berühmten Personen angewendet?

Weiterführende Literatur

  1. ZK-030-TEC-Internet und neue Medien - Wissen und Schriftlichkeit auf Speed
  2. ZK-080-TEC-AI-Learning - Supervised & Unsupervised
  3. ZK-066-LNG-Sprache als ein Werkzeug unter Vielen
  4. ZK-024-ECN-Skimpflation - Weniger Output für mehr Input
  5. ZK-126-SOC-Culture of Uncare - Ignore the troublesome things
  6. ZK-005-PRD-Frankenbite - Die Realität zurechtgeschnitten

Tags

ANIMATION COMMUNICATION_und_Sprache GAMES_and_Worlds INTELLIGENZ_und_Co LEARN_THINGS MANIPULATION PERFORMANCE programming SCRIBE_and_Noticing STORY_and_Telling TECH_ROBS_AI TRADE_and_Negotiation