Dr.-Ing. LOTHAR SEVEKE und 
Dr.-Ing. ULRICH KORDON

Spracherkenner-Zusatzmodul für U-880-Mikrorechner



Mitteilung aus dem VEB Robotron-Elektronik Dresden und der Sektion Informationstechnik der TU Dresden

Der Einsatz von Spracherkennern als neue Komponente der Rechnerperipherie erleichtert die Mensch-Maschine-Kommunikation. Die in diesem Beitrag vorgestellte Baugruppe und das Programm für U-880-Mikrorechner realisieren mit minimalem Aufwand die Erkennung von 50 isoliert gesprochenen Wörtern in Echtzeit. Dabei ist die Erkennungssicherheit bei dem Sprecher am größten, der dem Erkenner den gewünschten Wortschatz in seiner individuellen Aussprache übermittelt hat.

Mit der Anwendung der Mikrorechentechnik in immer neuen Bereichen der Volkswirtschaft entsteht das Bedürfnis, die Kommunikation mit informationsverarbeitenden Maschinen zu verbessern, d. h., sie den Gewohnheiten der zwischenmenschlichen Kommunikation und den neuen Einsatzbedingungen (Spezifik des Arbeitsplatzes, naive Nutzer) bestmöglich anzupassen. Dies wird in Ergänzung der konventionellen Tastaturen und alphanumerischen Anzeigen bisher vor allem durch grafische Ein- bzw. Ausgabemöglichkeiten realisiert. Es gibt jedoch auch Bestrebungen, die Lautsprache, das natürliche Kommunikationsmittel des Menschen, für den Informationsaustausch zu nutzen. Dazu werden sprachliche Äußerungen des Nutzers (Wörter oder kurze Wortfolgen) in Steuerinformationen für den Rechner umgewandelt bzw. werden Informationen des Rechners an den Nutzer in Lautsprache umgesetzt.
Der Ausgabekanal für Lautsprache, der Sprachsynthetisator, ist international in breitem Maße entwickelt. Neben der Erzeugung hochqualitativer Sprache für Auskunftssysteme und nachrichtentechnische Dienste werden im internationalen Maßstab billige Sprachsynthesechips, die gut verständliche, aber noch unnatürlich klingende Sprache erzeugen, auch in Konsumgüter eingebaut.
Mit der praktischen Nutzung des Spracheingabekanals wird seit einigen Jahren ebenfalls begonnen, wobei Spracherkenner die herkömmlichen Eingabemittel nicht etwa durchgehend ablösen sollen. Die Spracheingabe unterliegt gegenüber der Kommunikation zwischen menschlichen Partnern noch einigen Einschränkungen, die aus Grenzen der ökonomisch-technischen Machbarkeit, aber auch aus fehlendem Grundlagenwissen resultieren. Die technische Unzulänglichkeit kann hier nicht wie bei der Sprachsynthese durch die hervorragende menschliche Erkennungsfähigkeit ausgeglichen werden; das zu erkennende Signal wird durch subjektiv bedingte Sprechereinflüsse sogar noch zusätzlich gestört.
Die lautsprachliche Eingabe besitzt jedoch auch beim gegenwärtigen Entwicklungsstand in ausgewählten Einsatzfällen eine Reihe spezifischer Vorteile. So ist das Sprechen möglich, während außerdem mit Händen oder Augen andere Aufgaben gelöst werden, was beispielsweise an grafischen, Mikroskopie- oder an Sortierarbeitsplätzen von Bedeutung ist. Die Spracheingabe wird durch ungünstige Licht- und Witterungsverhältnisse kaum gestört, was ihren Einsatz bei der mobilen Datenerfassung in der Landwirtschaft, im Verkehrs- und Bauwesen begünstigt. Vor der Erkennung können Sprachsignale über Telefon oder Funksprechkanäle mit vorhandenen Geräten übertragen oder auf Magnetband gespeichert werden. Das Sprechen erfolgt außerdem mit mehr Aufmerksamkeit als die Betätigung einer Tastatur, wodurch sich Routinefehler verringern lassen.
Die hier beschriebene Spracherkenner-Baugruppe kann vor allem genutzt werden, um spezielle Hand- und Fußtastaturen zu ersetzen, um Arbeitsplätze einzusparen, an denen angesagte Informationen protokolliert werden, oder um, in Kombination mit einer Tastatur, Eingaben insgesamt zu effektivieren.
Da die breite Anwendung eines Spracherkenners wesentlich von seinem Preis abhängt, wurden Algorithmen für die Signalanalyse, das Lernen und das Erkennen entwickelt, die nur eine sehr einfache Zusatzschaltung, wenig Speicherplatz im Mikrorechner und einen geringen Rechenzeitaufwand benötigen.
 

Funktionsweise des Worterkenners

Der im VEB Kombinat Robotron in Kooperation mit der Technischen Universität Dresden entwickelte Spracherkennerzusatz kann bis zu 50 verschiedene, isoliert gesprochene Wörter erkennen. Der Wortschatz wird durch mehrmaliges Vorsprechen (fünf- bis achtmal) im Lernprozeß vom Anwender selbst festgelegt, wobei gleichzeitig die Ausspracheeigenheiten des jeweiligen Sprechers und die Geräuschumgebung gespeichert werden. Zwischen zwei zu erkennenden Wörtern muß eine Pause-von mindestens 200ms eingehalten werden. Das Erkennungsergebnis liegt 200ms nach dem jeweiligen Wortende in Form der im Lernvorgang vereinbarten Klassennummer vor. Die maximale Dauer einer zu erkennenden sprachlichen Äußerung beträgt 1,8 s.
Der Spracherkenner besteht aus einer Steckeinheit (Abmessungen etwa 100mm mal 95 mm), die die Schaltung enthält und über ein CTC (U 857) die Busschnittstelle zu einem U-880-Mikrorechner realisiert, und aus einem ROM-fähigen Programm (2 Kbyte), das 4Kbyte Arbeitsspeicher benötigt. Die wichtigsten Funktionsblöcke des Spracherkenners sind im Bild 1 dargestellt.

Bild 1: Funktionsblöcke des Einplatinen- Spracherkenners

Signalanalyse

Im Signalanalysator wird die vom Mikrofon gelieferte Sprach-Zeit-Funktion in eine Folge von Merkmalvektoren umgewandelt, die das Signal numerisch beschreiben. Dafür wurde ein Verfahren entwickelt, das in Beachtung der Tatsache, daß absolut begrenzte Sprache noch ausreichend verständlich ist, nur die Abstände zwischen benachbarten Nulldurchgängen im Signal auswertet. Es stellt einen Kompromiß zwischen Leistungsfähigkeit und Kosten dar, da einerseits alte Informationen aus der Amplitudendynamik verlorengehen und die Informationen über Oberwellenanteile gestört sind, andererseits diese Messung mit wenig Aufwand realisierbar ist.
Nach einer Verstärkung mit leichter Preemphasis wird das Sprachsignal, wie im Bild 2 gezeigt ist, durch zwei Analogfilter in einen tieffrequenten und einen hochfrequenten Anteil zerlegt. 

Bild 2: Bildung des Nulldurchgangshistogramms

Die getrennte Weiterverarbeitung beider Frequenzbereiche soll die "Verdeckung" der hoch- durch die niederfrequenten Signalanteile und umgekehrt vermindern. Der Messung der Nulldurchgangsabstände geht eine Umwandlung der beiden gefilterten analogen Signale in Rechteckimpulse voraus. Die Flanken der beiden Pulse lösen über die CTC im angeschlossenen Mikrorechner lnterrupts aus, deren Abstände mit Hilfe eines CTC-Zählkanals bestimmt werden. Die möglichen Nulldurchgangsabstände in den beiden Frequenzbereichen werden in je vier Intervallklassen (im Bild 2 als Kanäle bezeichnet) eingeteilt, deren Grenzen in der Frequenzebene denen der Frequenzgruppen im Wahrnehmungsbereich des menschlichen Innenohres entsprechen. Das Analyseprogramm ermittelt die Häufigkeit der Repräsentanten jeder Intervallklasse in einem Zeitfenster von etwa 26ms und bestimmt so ein sogenanntes Nulldurchgangshistogramm z. Durch Vergleich mit einem festen Schwellwert z(s) wird jeder der acht Häufigkeitswerte im Nulldurchgangshistogramm in nur einem Bit abgebildet (s. Bild 3). 

Bild 3: Bestimmung der Wortmuster

Für jede sprachliche Einheit entsteht so eine Folge von 8-bit-Merkmalvektoren, wobei jeder Vektor einen Signalabschnitt von 26 ms beschreibt und die Anzahl der Vektoren von der Sprechdauer abhängt.
Um die variable Signallänge, die aus unterschiedlicher Wortdauer bzw. Sprechgeschwindigkeit resultiert, auszugleichen, schließt sich daran eine Stufe an, die eine lineare Zeitnormierung der Merkmalvektorfolge ausführt (Bild3). Danach haben die Vektorfolgen aller möglichen Wörter eine einheitliche Länge von 16 Vektoren. Aus jedem Wort wird also ein Muster aus 8 bit x 16 = 128 bit erzeugt.
Bild 4 zeigt reale Muster von gesprochenen Ziffern, in denen Lautgrenzen gekennzeichnet sind.

Bild 4: Muster gesprochener Ziffern

Lernen

Das Anlernen des Spracherkenners durch den Nutzer selbst dient dem Aufbau eines sprecherspezifischen Referenzdatensatzes, in dem Muster aller geläufigen Aussprachevarianten der Wörter des gewählten Wortschatzes enthalten sein sollten. Der Nutzer spricht dazu die gewünschten Wörter in das Mikrofon und vergleicht das bei der ausgeführten Kontrollerkennung ermittelte Ergebnis mit dem von ihm beabsichtigten. Bei Nichtübereinstimmung ist eine entsprechende Korrektureingabe über eine Tastatur erforderlich. Durch dieses Prinzip bekommt der Sprecher schnell einen Eindruck von der Güte des aktuellen Referenzmustersatzes und der Nichteignung bestimmter Wörter. Er kann auch besonders schwierige Wörter häufiger anlernen. Treten keine Verwechslungen oder Rückweisungen mehr auf, kann er den Lernvorgang abbrechen. Je nach den phonetischen Abständen der gewählten Wörter und der Stabilität der Artikulation wird der Lernprozeß nach drei- bis achtmaligem Sprechen jedes vorkommenden Wortes beendet sein.
Die Durchführung dieses Lernvorganges erfordert mindestens eine numerische Anzeige für die erkannte Klassennummer und eine numerische Tastatur zur Eingabe der korrekten Wortklassennummer im verwendeten Mikrorechner. Für den erarbeiteten Referenzdatensatz sollte eine Speichermöglichkeit vorhanden sein, damit der Lernvorgang nicht bei jedem Einschalten des Erkenners oder Sprecherwechsel wiederholt werden muß. Nach dem Laden eines solchen Referenzdatensatzes ist aber in jedem Fall ein Nachlernvorgang anzuwählen, um die Referenzmuster wieder an die aktuelle Aussprachesituation des Sprechers anzupassen.
Der Lernalgorithmus besteht aus einem gesteuerten Speichern der durch das Sprechen der Lernprobe erzeugten Muster mit ihrer Wortklassenzuordnung im Referenzdatensatz. Es hat sich gezeigt, daß das Speichern eines mittleren Musters je Klasse, auch bei Verwendung einer größeren, Informationsmenge je Muster, bedingt durch die lineare Zeitnormierung, nicht zum Erfolg führt. Besser geeignet ist ein Verfahren, bei dem für jede deutlich abweichende Aussprachevariante ein neues Muster abgespeichert wird. Ein Clusteralgorithmus prüft bei jedem gesprochenen Wort, ob es durch ein bereits gespeichertes Muster der gleichen Klasse ausreichend repräsentiert wird oder ob das Muster neu in den Referenzspeicher aufzunehmen ist. Außerdem wird registriert, wie häufig welche Muster zu einem richtigen Erkennungsergebnis geführt haben. Auf diese Weise können Muster, die selten oder nicht mehr vorkommende Aussprachevarianten abbilden, wieder gestrichen werden. Der Referenzmustersatz paßt sich somit während des Lernvorgangs immer an die aktuelle Sprechweise an. Die Aufnahme neuer Muster in den Speicher und das Streichen unnötiger Muster werden durch Schwellwerte gesteuert. Mit ihnen wird ebenfalls eine obere Schranke für die maximal mögliche Musteranzahl je Klasse festgelegt, so daß ein unkontrolliertes Wachsen des Referenzmustersatzes vermieden wird und die Anpassung an den verfügbaren Speicherraum möglich ist.
 

Erkennen

Ist der Referenzmusterspeicher durch Lernen oder das Einlesen eines Referenzdatensatzes auf den Sprecher eingestellt, kann der Erkenner für die Spracheingabe eingesetzt werden. Der Erkennungsalgorithmus, der schon beim Lernen für die Kontrollerkennung wirksam wurde, beruht auf einem bitweisen Mustervergleich (Hammingdistanz) zwischen dem Muster des eben gesprochenen Wortes und allen Mustern der Wörter aus dem Referenzspeicher. Dabei wird das Referenzmuster mit der geringsten Distanz zum Eingangsmuster gesucht. Unterschreitet diese minimale Distanz einen vorgegebenen Schwellwert (Rückweisungsschwelle), wird die dem entsprechenden Referenzmuster zugeordnete Klassennummer als Erkennungsergebnis in der vereinbarten Speicherzelle abgelegt, andernfalls erfolgt eine Rückweisung. Das Wort ist dann noch einmal zu sprechen. Der Erkennungsalgorithmus wird von der Wortsignaldetektion aktiviert, die interruptgesteuert im Hintergrund arbeitet und das Vorhandensein von Sprachsignalen im Eingangssignal meldet. Er beginnt sofort bei Beginn einer Pause am sogenannten prognostizierten Wortende mit dem Vergleich der Muster. Erst nach dem Ablauf von 200 ms, die zur sicheren Erkennung des Wortendes notwendig sind, wird das Erkennungsergebnis freigegeben. Sollte sich die
Wortendprognose als. falsch erwiesen haben (z. B. nur Verschlußpause vor einem Explosivlaut wie bei "Acht" im Bild 4), beginnt der Erkennungsalgorithmus bei der nächsten Wortendprognose erneut.
 

Schaltungstechnische Realisierung

Die für den Spracherkenner erforderliche Zusatzschaltung hat folgende Aufgaben zu erfüllen:

Anpassung des Signalwandlers
Selektierung des Signals in zwei Frequenzkanäle
absolute Begrenzung der Signale in beiden Kanälen und Umformung in TTL-Signale
Unterstützung der Bestimmung von Nulldurchgangshistogrammen
Anpassung an den Rechnerbus
optische Bereitschaftsanzeige (kann ent fallen).

Das daraus resultierende Schaltbild zeigt Bild 5.

Bild 5: Schaltung des Zusatzmoduls (E3 und IORQ nicht miteinander verbunden, beide im Steuerbus)

Eingangsverstärker

Der Eingangsverstärker dient der Anpassung des verwendeten Mikrofons. Er besitzt Tiefpaßverhalten, um den Sprachfrequenzbereich auf den verarbeitbaren Bereich zu beschränken. Das hier verwendete Mikrofon SP75 vom VEB Funkwerk Kölleda besitzt einen eigenen Vorverstärker, so daß der Eingangsverstärker nur aus dem aktiven Tiefpaß besteht, der ab 7kHz einen Abfall von 12 dB/Oktave aufweist. Die Verstärkung des mit N(1) realisierten Tiefpasses zweiten Grades beträgt 40 dB. Die Resonanzüberhöhung verwirklicht eine leichte Preemphasis, die den Leistungsabfall des Sprachsignals bei hohen Frequenzen mindern soll.
Die Anschaltung der Mikrofonkapsel des SP75 einschließlich Vorverstärker erfolgt als Zweipol. Mit R(1) kann der Eingangspegel eingestellt werden. VD(1) und VD(2) dienen zu dessen Begrenzung.
 

Kanaltrennung

Die Aufteilung in die beiden Frequenzkanäle nehmen die durch N(2) und N(3) gebildeten Hoch- bzw. Tiefpässe zweiten Grades vor. Zur Gewährleistung der Stabilität wurde eine Verstärkung von v = 5 festgelegt. Die Trennfrequenz liegt bei 1 kHz, da dadurch die für das Sprachsignal charakteristischen Frequenzen des ersten und zweiten spektralen Maximums in getrennten Kanälen abgebildet werden. Die verwendeten Schaltungen der Filter zeichnen sich durch minimalen Bauelementeaufwand und Unempfindlichkeit gegen Toleranzen der frequenzbestimmenden Bauelemente aus. Zur Dimensionierung wurden die in [1] angegebenen Anwendungskriterien und Entwurfsbedingungen verwendet.
 

Amplitudenbegrenzung

Die Bildung der für eine digitale Auswertung erforderlichen amplitudenbegrenzten Signale erfolgt mit den Triggerstufen N(4) und N(5). VD(3) bis VD(6) dienen der Pegelbegrenzung. Da die verwendeten Operationsverstärker mit interner Frequenzkompensation eine zu geringe Spannungsanstiegsgeschwindigkeit aufwiesen, wurden zur Versteilerung der Flanken TTL-Schmitt-Trigger nachgeschaltet.
VD(7) und VD(8) begrenzen die Eingangsspannungen auf den TTL-Pegelbereich.
 

Digitalteil

Der Digitalteil unterstützt einerseits die Bildung der Nulldurchgangshistogrammfolgen, andererseits realisiert er die Ankopplung des Spracheingabemoduls an den Bus des verwendeten U-880-Mikrorechners. Grundelement des Digitaltells ist die ZählerZeitgeber-IS U 857 D (CTC). Die Kanäle 0 und 1 empfangen die Flanken der Eingangssignale für die Messung der Nulldurchgangsabstände. Kanal 2 dient als Zeitgeber für die Dauer der Analysezeitfenster. Über die Bussignale der CTC ist ein problemloser Anschluß an den steuernden Rechner möglich. Hier sind Treiber einzuschalten, die im Bild 5 nicht gezeigt sind. Der Spracheingabemodul belegt sechs E-A-Adressen. Neben den vier für die CTC sind noch zwei für das Ein- bzw. Ausschalten einer Sprechaufforderungsanzeige mit VD(9) erforderlich, die über ein RS-Flip-Flop angesteuert wird. Die verwendeten Adressen sind mit Rücksicht auf einen minimalen Bauelementeaufwand nicht wählbar.
 

Abgleich der Baugruppe

Der EingangspegelsteHer R(1) ist so einzustellen, daß die Hoch- bzw. Tiefpaßstufe auch bei Pegelspitzen mit unbegrenztem Signal angesteuert werden. Die Einstellung der Triggerschwellen von N(4) und N(5) erfolgt unterschiedlich. Um beide Kanäle gleich auszusteuern, haben sich im Hochpaßkanal eine Schwelle von -28dB bei 2kHz und im Tiefpaßkanal von -18dB bei 50OHz gegenüber Vollaussteuerung als optimal erwiesen. Im praktischen Einsatz ist eine Anpassung der Einstellung von R(1) an das Umgebungsgeräusch empfehlenswert.
 

Programm und Rechnereinbindung

Programmstruktur

Das Programm für den Betrieb des Spracherkenners umfaßt ein Hauptprogramm für das Anlernen mit je einem Eingang für das Neulernen (leerer Referenzspeicher) und das Weiterlernen (aufbauend auf schon vorhandenem Referenzwissen) und ein Unterprogramm für die Erkennung eines Signalabschnittes. Es ist als Assemblerquellprogramm verfügbar. Das zugehörige Maschinenprogramm mit einem Speicherbedarf von 2 Kbyte ist PROM-fähig und kann auf beliebige 1-Kbyte-Grenzen im Speicherraum des Wirtsrechners geladen werden. Es wird ein Arbeitsspeicher von 4 Kbyte benötigt, der an beliebigen 1-Kbyte-Grenzen beginnen kann. Das Programm gliedert sich in drei wesentliche funktionelle Segmente:

Anpassung an Wirtsrechner
Steuerroutinen für Lernen und Erkennen
Unterprogramme für Signalanalyse, Erkennung und Lernen.

Die ersten beiden Segmente können durch den Nutzer modifiziert werden.
 

Programmschnittstellen

Die Eingänge des Hauptprogramms LERNEN werden über folgende Adressen aufgerufen (mit JMP):

NEULERN: Lernen mit anfangs leerem Referenzspeicher
WEILERN: Lernen, aufbauend auf vorhandenem Referenzwissen.

Nach Abschluß des Lernprogramms erfolgt ein Sprung zu einer vereinbarten Adresse (z. B. Warmstart des Betriebssystems). In den 4Kbyte des Arbeitsspeichers liegt ein Referenzdatensatz vor, der auf ein peripheres Medium ausgelagert werden bzw. als Basis für Abarbeitung des Unterprogramms RECOG (Erkennung eines Signalabschnittes) dienen kann.
Eine Parameterübergabe ist bei dessen Aufruf nicht notwendig, Mit dem Aufruf wird die Eingabebereitschaft des Signalanalysators hergestellt. RECOG wird verlassen nach Abschluß der Erkennung (spätestens 200ms nach Überlauf des Eingabepuffers für 1,8s Signaldauer oder nach Erkennung der Pause am Ende eines Signalabschnittes), wenn nicht auf Rückweisung erkannt wird. Eine Rückweisung kann ein akustisches Signal auslösen und führt zur erneuten Eingabebereitschaft. Nach der Rückkehr aus dem Unterprogramm liegt im A-Register und in einer vereinbarten Speicherzelle das Symbol der erkannten Signalklasse vor (Übergabe auch für Basic geeignet).
 

Einbindung in den Wirtsrechner

Die unmittelbare Anpassung des Spracherkennerprogramms an die Umgebung im Wirtsrechner erfolgt durch Modifikation des Assemblerquellprogramms an deutlich gekennzeichneten Stellen. Es sind z. B. folgende Speicheradressen anzugeben:
 
 
PROM: Beginn des Programmbereiches (2 Kbyte)
RAMA: Beginn des Arbeitsspeichers (4 Kbyte)
OPSYS: Rückkehradresse aus dem Lernen
ERKER: Adresse der Speicherzelle für die Übergabe des Erkennungsergebnisses (1  byte)
CTKO: Beginn des Freibereiches in der Interrupttabelle des Betriebssystems (6 byte für  CTC-Kanäle 0 bis 32).

Drei aufeinanderfolgende Adressen im E-A-Adreßraum sind zu suchen:
 
CTCO: erste der drei E-A-Adressen, die auch im Adreßdekoder des Moduls einzustellen  ist.

Folgende Kommunikationsunterprogramme sind mit Hilfe des Betriebssystems des Wirtsrechners zu realisieren:
 
TEIBD: Eingabe eines Zeichens von der Tastatur
TAUBD: Ausgabe eines Zeichens zur Anzeigeeinrichtung
BEEP: Erzeugung eines akustischen Signals
BEREI: Einschalten einer Bereitschaftsanzeige und Blockierung aller Interruptquellen im  Wirtsrechner
BERAU: Ausschalten der Bereitschaftsanzeige und Freigabe der mit BEREI gesperrten  Interruptquellen
INKEY:  Abfrage Tastaturstatus für den Abbruch einer laufenden Signaleingabe.

Neben diesen programmtechnischen Anpassungen können zwei interne Programmkonstanten durch den Nutzer experimentell variiert werden, um eine optimale Anpassung des Erkenners an die Einsatzbedingungen zu erreichen:
 
RUESW: Rückweisungsschwelle
SWCLU: Schwellwert für das Streichen von Mustern aus dem Referenzsatz. Eine Vergrößerung des Standardwertes verringert die Musteranzahl, mit der eine Klasse im Referenzspeicher vertreten ist. Der notwendige Speicherbedarf für die Speicherung eines Klassenvorrates wird so gemindert, gleichzeitig wird jedoch die mögliche Variationsbreite innerhalb einer Singalklasse eingeschränkt.

Neben dieser Anpassung an die Rechnerumgebung sollte vor allem der Aufruf des Unterprogramms zur Erkennung eines Wortes optimal in die vom Anwendungsfall abhängige Kommunikation eingebunden werden, um die Effekte der Spracheingabe voll zu nutzen.
Je nach Anwendungsfall kann der Nutzer z. B. den Spracherkenner auf verschiedene Arten aktivieren. Der Erkenner ist entweder immer aktiv, oder er wird erst durch eine zusätzliche Steuerinformation (z. B. Taste oder Fußschalter) oder ein Schlüsselwort freigegeben. Besondes bei impulshaltigern Lärm oder anderen notwendigen sprachlichen Äußerungen des Nutzers ist es nicht günstig, wenn der Erkenner permanent aktiv ist. Ein ungewolltes Ansprechen ist dann nicht auszuschließen. Für solche Fälle hat sich die Aktivierung durch ein Schlüsselwort besonders bewährt. In dieser Betriebsart ist der Spracherkenner erst dann bereit, Erkennungsergebnisse abzugeben, wenn er aus der Fülle der auf ihn einwirkenden Geräusche ein bestimmtes Schlüsselwort erkannt hat. Dieses Schlüsselwort kann der Nutzer selbst wählen und muß es mit anlernen. Bei geschickter Wahl des Schlüssels (stark strukturiertes Wort) ist die Wahrscheinlichkeit eines ungewollten Ansprechens sehr gering. Da die Eingabegeschwindigkeit sich bei dieser Betriebsart verringert, eignet sie sich vor allem dort, wo verhältnismäßig wenig Eingaben je Zeiteinheit nötig sind. Die Eingabegeschwindigkeit kann erhöht werden, wenn der Spracherkenner durch ein Schlüsselwort freigegeben wird und dann aktiv bleibt, bis ein Abschlußwort erkannt wird. Innerhalb der durch Schlüssel- und Abschlußwort gebildeten Zeitspanne können beliebig viele Wörter eingegeben werden.
 

Besonderheiten der Bedienung

Beide Lernprogramme zeigen nach dem Start die Anzahl der im Arbeitsspeicher abgelegten Referenzmuster an (max. 200). Dem Nutzer wird damit eine Information über weitere Möglichkeiten zum Nachlernen gegeben. Durch einen Abbruch des Lernvorgangs und einen folgenden Aufruf von WEILERN ist eine ständige Kontrolle des Füllstandes des Referenzspeichers möglich.
Anschließend wird der Nutzer zur Eingabe der Probenkennung aufgefordert. Die Probenkennungen 0 bis 4 sind möglich. Ein Referenzsatz kann also aus maximal fünf unabhängigen Lernproben aufgebaut werden. Die Kennzeichnung der Probe dient der notwendigen Separierung der von verschiedenen Nachlernvorgängen stammenden Referenzmuster, um Verdeckungseffekte zu vermeiden (Streichung von noch wertvollen Mustern aus anderen Aussprachesituationen).
Durch die immer sicherer werdende Erkennung mit zunehmender Zahl der Lernproben ist der Erfolg des Lernvorgangs zu beobachten. Ebenso wird deutlich, welche Klassen sich durch den Erkenner nicht unterscheiden lassen. Dies sind phonetisch ähnliche Wörter, von denen dann eines durch ein Synonym ersetzt werden muß (z. B. "zwo" statt "zwei").
Zur Erreichung bestmöglicher Erkennungsergebnisse sollte der Lernvorgang erst abgebrochen werden, wenn alle Realisierungen der Lernstichprobe stabil richtig wiedererkannt werden. Ein objektives Maß für die Beendbarkeit des Lernens ist jedoch nur das Abnehmen der Musteranzahl bei weiterer Eingabe von Lernproben, d. h., der Erkenner "weiß" genug über die Signalquelle. Dies ist über die Anzeige der Musteranzahl beim Start von WEILERN kontrollierbar. Konvergiert die Musteranzahl nicht, artikuliert der Sprecher zu ungleichmäßig, oder die Signale sind durch Fremdeinflüsse zu stark gestört. Der Lernvorgang muß dann bei gefülltem Referenzspeicher abgebrochen werden.
Von wesentlicher Bedeutung für die Erkennungssicherheit bei der Verarbeitung von Lautsprache ist die Auswahl eines geeigneten Mikrofons und die Arbeit mit diesem. Es ist unbedingt ein mundnah zu tragendes, nahbesprechbares Mikrofon (z. B. SP 75 vom VEB Funkwerk Kölleda) zu verwenden. Das Mikrofon darf seine Lage (etwa 1 cm seitlich vor dem Mund) durch Bewegung des Kopfes nicht verändern und muß diese Lage auch nach dem erneuten Aufsetzen wieder einnehmen.
 

Einsatzergebnisse

Der Spracherkenner-Zusatzmodul wurde als billige, nachnutzbare Variante des Einplatinen-Spracherkenners ESE K 7824 von VEB Robotron Elektronik Dresden entwickelt. Mit einem international üblichen Test nach [2] wurde eine Erkennungsquote von 97% erreicht. Den ESE K 7824 erprobten Anwender in verschiedenen Bereichen der Volkswirtschaft. Die Erprobungsergebnisse sind in [3] ausführlich dargestellt.
Der Spracherkenner-Zusatzmodul wurde vom VEB Robotron-Meßelektronik "Otto Schön" Dresden für einen Spracheingabemodul des Kleincomputers KC87 nachgenutzt, der noch 1987 angeboten werden soll.
 

Literatur
[1] Herpy, M.: Analoge integrierte Schaltungen. Budapest: Akadémiai Kiadó,1976
[2] Doddington, G. R.; Schalk, T. B.: Speech recognition: turning theory to practice. IEEE spectrum, Philadelphia 18 (1981) 9, S. 26-32
[3] Seveke, L.: Einsatz von Spracherkennern. Nachrichtentechnik - Elektronik, Berlin 37 (1987) 1, S.34-36