Hallo Maschine

Bild: ©mimi/stock.adobe.com

Die KWS wird mit einem sogenannten Wake-Word, wie Alexa! oder Hey Siri, aktiviert und übermittelt anschließend den Wunsch des Bedienenden an einen entfernten Server. Dieser analysiert den Sprachbefehl und sendet das Auswertungsergebnis an das Gerät zurück. Auf diesem Weg wird ein Musikwunsch erfüllt, ein Film auf die Playlist gesetzt oder das Weihnachtsgeschenk für die Liebste bestellt.

Diese Vorgehensweise bietet auch für die Industrie einige Vorteile, hebt Viacheslav Gromov, Geschäftsführer vom KI-Anbieter Aitad hervor: „Wenn der Mitarbeitende die Maschine in der Produktion mit seiner Stimme steuert, dann bedeutet das mehr Flexibilität. Er kann die Geräte aus der Ferne bedienen und muss keine Knöpfe mehr drücken oder auf dem Bildschirm der Maschine seine Eingabe eintippen. Zudem vermeidet man Keime und Bakterien, ein wichtiger Aspekt in der Medizin. Darüber hinaus kann ein Zuruf des Befehls Stopp schneller ausgeführt werden, als erst zur Maschine zu rennen und sie dort abzuschalten.“

Spracherkennung in der Praxis

Die Übertragung von Sprachsignalen an entfernte Server birgt Latenzzeiten, die in sicherheitsrelevanten Umgebungen nicht akzeptabel sind. Ebenso spielen das Manipulations- und Ausfallrisiko einer Netzwerkverbindung eine Rolle. Deshalb erfordert der Einsatz von Spracherkennung in sicherheitskritischen Umgebungen Lösungen, die lokal und in Echtzeit arbeiten. Innovative Sprachsteuerungsmodelle mit Embedded-KI erkennen nicht nur einzelne Wakewords, sondern bis zu 30 vordefinierte Begriffe, was komplexe Befehle ermöglicht. Ein Schlüsselwort aktiviert das System. Anschließend können komplexe Kombinationen dieser vordefinierten Wortgruppe gesprochen und von der KI ausgewertet werden, die zusammen mit den Mikrofonen auf dem gleichen kleinen Board sitzt (Embedded-KI-Systemkomponente).

Beispiele für solche Sprachbefehle mit Roboter als Wakeword sind:

„Roboter, starte Programm A auf Maschine 3“

„Roboter, Förderband 6 anhalten“

„Roboter, Motor 4 in Maschine 3, erhöhe die Drehzahl um 40%“

„Roboter, Rollstuhl, jetzt links abbiegen“

„Roboter, Notaus“

„Entscheidend ist hier ein maximales Sicherheitslevel, das durch die lokale Verarbeitung der Sprachdaten – ohne Cloud oder Server – gewährleistet wird. Da die Befehle in Echtzeit direkt im Chip ausgewertet werden, reagiert die Maschine außerdem schneller,“ erklärt Gromov weiter.

Frei konfigurierbar, echtzeitfähig und robust

Unternehmen können ihre Sprachsteuerung individuell konfigurieren, angefangen von den Wakewords bis hin zur Wortgruppe. Dies ermöglicht maßgeschneiderte Systeme, die auch in mehreren Sprachen verfügbar sind. Bei Bedarf sind synthetisch erzeugte Sicherheitsabfragen integrierbar.

Die Einsatzmöglichkeiten für Sprachsteuerungen sind breit gefächert:

  • Im Operationssaal kann der Chirurg das Hochfrequenzskalpell per Sprachbefehl starten, justieren und wieder abschalten.
  • Berührungsloses Steuern von Maschinen und Geräten in Produktion und Krankenhäusern.
  • Notaus per Sprachbefehl erspart im Ernstfall den Spurt zum Notaus-Schalter.
  • Menschen mit Assistenzbedarf können beispielsweise den Rollstuhl per Sprache steuern.

Anpassungsfähig in rauen Umgebungen

Innovative autarke Embedded-KI-Sprachsteuerungslösungen arbeiten nicht nur vollständig lokal und in Echtzeit, sondern bewähren sich auch in rauen Umgebungen. Die KI wird nicht nur mit den zu erkennenden Worten, sondern auch mit Störgeräuschen trainiert, um eine zuverlässige Spracherkennung sicherzustellen, selbst wenn es in der Umgebung laut ist. Die Integration eines zusätzlichen Mikrofons ermöglicht es, den Standort des Sprechers zu erkennen und störende Nebengeräusche zu eliminieren (Beamforming).

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert