Künstliche Intelligenz - Ein KI-basiertes Sprachmodul für das Projekt medical tr.AI.ning

medical tr.AI.ning ist eine VR-Trainingsplattform für angehende Mediziner*innen. Im virtuellen Raum können Medizin-Studierenden mit intelligenten und authentischen Patienten interagieren und somit Behandlungssituationen einüben. medical tr.AI.ning war ein gemeinsames Forschungsprojekt der Universität und FH Münster, der Universität des Saarlandes und der Hochschule für Bildende Künste Saar, gefördert durch das BMBF.

Kunde
Universität Münster
Datum
Service
Künstliche Intelligenz

Um einen authentischen Arzt-Patienten-Dialog zu ermöglichen, haben wir im Rahmen dieses Projektes ein LLM-basiertes Modul zur Sprachinteraktion entwickelt. Mithilfe des Moduls können die Studierenden den virtuellen Patienten Fragen stellen und erhalten Antworten vom Patienten, die zur Behandlungssituation passen. Das Dialogsystem ist so gebaut, dass es flexibel als Modul in virtuelle Szenarien integriert werden kann.

1. Die Spracheingabe: Speech-to-Text

Die Studierenden können über ein im VR-Headset verbautes Mikrofon mit dem virtuellen Patienten sprechen. Eine Eingabe per Text ist auch möglich. Um das gesprochene Wort in einen Text für das KI-Modell zu übersetzen, nutzen wir das cloudbasierte Eingabemodell von Azure Cognitive Services.

2. Die Generierung der Antwort

Für die Generierung der Antwort mittels generativer KI haben wir die offizielle OpenAI API als auch Azure OpenAI angebunden. Wir nutzen vor allem das Modell GPT-4o. Durch das Framework LangChain können jederzeit weitere LLMs angebunden werden. Das Dialogsystem enthält einen System-Prompt, über den das LLM-Anweisungen zum Szenario und seiner Rolle erhält. Stellt die Studierende eine Frage an den Patienten, liefert das LLM eine zum Szenario und seiner Rolle passende Antwort.

3. Die Sprachausgabe: Text-to-Speech

Der Antworttext des LLMs muss nun in natürlicher Sprache ausgegeben werden. Für die Sprachsynthese nutzen wir Azure Cognitive Services und Elevenlabs.

Natürlicher Dialog als größte Herausforderung

Um einen natürlichen Dialog zu simulieren, müssen die Latenzen zwischen Frage und Antwort möglichst gering sein. Zudem darf der Patient nicht hölzern oder roboterhaft klingen. Er darf auch nicht weitersprechen, wenn die Studierende ihm ins Wort fällt. Mit all diesen Anforderungen stellte die Natürlichkeit der Sprachinteraktion die größte Herausforderung im Projekt dar.

Mithilfe einer smarten Anbindung können wir die Antworten direkt in Elevenlabs streamen und somit Latenzen minimieren. Zur Verbesserung der Sprach-Natürlichkeit evaluierten wir den Einsatz von SSML, einer strukturierten Eingabesprache für die Sprachsynthese, mit der man beispielsweise auch Betonungen und Pausen festlegen kann. Zudem sorgen Events (z.B. Beginn der Spracheingabe, Ende der Spracheingabe, etc.), die über Azure Cognitive Services übermittelt werden, dafür, dass Unterbrechungen der Sprachausgabe (ins Wort fallen) möglich sind. Das LLM ist so konfiguriert, dass es neben der Antwort auch Animationstrigger für das virtuelle Szenario generiert, z.B. Hinsetzen, Aufstehen, Winken usw.

Dank des LLM-basierten Sprachmoduls können die Medizin-Studierenden nun natürliche und realistische Arzt-Patienten-Gespräche einüben und simulieren. Der modulare Aufbau des Dialogsystems ermöglicht es, das System für weitere Szenarien flexibel weiterzuentwickeln und auszubauen.

Vielen Dank für die großartige Mitarbeit in unserem Projekt. Da gute und nachhaltige Softwareentwicklung auch in der universitären Forschung immer wichtiger wird, freut es mich außerordentlich, dass es dank der Unterstützung durch das IT-Büdchen gelungen ist, ein Sprachmodul für unsere Lehrvorhaben zu entwickeln. Die Zusammenarbeit war stets angenehm, und die Expertise des IT-Büdchens sowie die Flexibilität bezüglich der z. T. agil entwickelten Anforderungen waren ein großer Gewinn für unser KI-Vorhaben.

Prof. Dr. Benjamin Risse, Computer Vision & Machine Learning Systems Group

Was wir gemacht haben:

  • Künstliche Intelligenz
  • LLM
  • Text-to-Speech
  • Speech-to-Text
  • Elevenlabs
  • Azure Cognitive Services
  • Langchain
  • GPT-4o
Ein KI-basiertes Sprachmodul für medical tr.AI.ning | IT-Büdchen GmbH & Co. KG - IT-Büdchen GmbH & Co. KG