Skip to main content

OK, eigentlich sollte hier der Text so stehen. Aber dann hätte mancher Leser bei mir an fortgeschrittenen Wahnsinn, Alkoholismus oder Liebe zu anderen bewusstseinsverändernden Substanzen geglaubt. Also doch eine Erklärung: Der folgende Text wurde mit der Iphone-App von Dragon Dictation gesprochen und nicht nachredigiert.

„Wenn sie in diesem Textrecht schreib-oder Grammatikfehler finden, dann stecken Sie sich diese an den Hut. Wenn dieser Text wurde nicht geschrieben, er wurde diktiert – mit der iPhone@von Dragon Big Tischen. Das Thema Spracherkennung und Sprachsteuerung ist für mich eines der spannendsten in der digitalen Welt. Vor einigen Jahren haben wir noch schlechte Witze gemacht über die Servicehotline ist Ihr uns nicht verstanden. Heute machen wir das nicht mehr, wenn Sie verstehen uns. Absatz in den USA bietet Fahrt bereits heute eine Sprachsteuerung im Auto. Der Fahrer kann die Navigation über seine Sprache steuern, sich E-Mails vorlesen lassen, Twitter Nachrichten aussprechen. Absatz das Thema Sprachsteuerung und Spracherkennung wird in unserem Alltag immer wichtiger werden, davon bin ich überzeugt. Welchen Weg das gehen wird? Keine Ahnung. Aber ich bin mir sicher, wir werden ein Auge darauf haben müssen.“

Das klingt teils krude – teils aber auch nicht so übel. Über die App kann der Nutzer auch direkt Tweets absenden oder Facebook-Statusmeldungen einsprechen. Und natürlich könnend diese vor dem Abschicken noch redigiert werden. Das ist als Gesamtpaket derzeit noch etwas umständlich – aber es zeigt, wohin die Reise geht. Das Thema Spracherkennung und -steuerung ist eines der für mich Spannendsten in der digitalen Welt.

Hier das sehr aalglatte Werbevideo:


Kommentare


Moritz 4. August 2010 um 9:28

besonders nett, dass er ausgerechnet das Wort Apple nicht erkennt – Markennamen scheinen noch nicht erfasst worden zu sein 😉

Antworten

Spielkind 4. August 2010 um 9:49

Auch schön, dass die App das Wort „App“ nicht kennt… aber ansonsten recht beeindruckend. Vor allem die Zeichensetzung und Satzgrenzen sitzen ganz gut… da haben Spracherkennungen sonst immer Probleme mit.

Antworten

Usul 4. August 2010 um 9:55

Richtig interessant wird Spracherkennung für mich erst, wenn Google auf den Zug aufspringt bzw. wenn Podcasts mit einer solchen Technologie zurück in die textuelle Ebene überführt werden! Endlich könnte man Radiosendungen, von denen es zwar einen Mitschnitt, aber kein manuelles Transkript gibt, in Textform mal schnell überfliegen (und bei gefallen ggf. trotzdem noch hören). Podcasts wären für Suchmachinen keine Blackbox mehr, und man könnte bei mehr als einstündigen Sprachaufnahmen mal schauen, ob es sich lohnt! Das ist für mich die Spracherkennungsanwendung der Zukunft.

Das ganze würde natürlich auch mit Videos funktioneren (natürlich nur der Audiospur). Automatische Untertitel wäre ein nützliches Abfallprodukt. Aber man könnte z. B. auch mal nach Zitaten suchen, die in einem Videobeitrag gefallen sind und man nur noch weiß, irgendwann hab ich da mal auf YouTube ein Video gesehen, da hat Politiker XY irgendwas wichtiges gesagt.

Antworten

Balkonschlaefer 4. August 2010 um 10:24

Wenn die Spracherkennung irgendwann richtig funktioniert, und Google das mit seinen Übersetzungsprogrammen koppelt, wirds in Zukunft Programme geben, die Telefongespräche automatisch übersetzen wird. Kann man mit Leuten telefonieren, obwohl man deren Sprache nicht kann.
Hat Google das in irgendeinem Projekt nicht eh langfristig vor zu entwickeln? Glaube sowas mal gelesen zu haben.

Antworten

Claus Michael Sattler 4. August 2010 um 11:31

Danke für diese wunderbare Kostprobe der Leistungsfähigkeit von Spracherkennungssystemen.

Ich hatte gestern selbst einen Webcast zu diesem Thema abgehalten. Ab heute abend steht der Film dieses Webcasts für den interessierten Zuschauer unter http://www.digitales-diktieren.info bereit.

Darf ich diese wunderbare Kostenprobe in meinem Blog verlinken?

Antworten

Journalisten testen Spracherkennung « blog.digitales-diktieren.info 4. August 2010 um 11:37

[…] haben es getestet und die Ergebnisse im eigenen Blog veröffentlicht. Informieren Sie sich unter https://www.indiskretionehrensache.de/2010/08/dragon-iphone-app/, welche Stilblüten Spracherkennungssysteme auch mit Ihren Texten treiben […]

Antworten

Armin 4. August 2010 um 12:48

@Balkonschlaefer & Usul,

aehm, auf den Zug ist Google schon lange aufgesprungen.

Ich habe das noch nicht gross benutzt und ausprobiert, aber mindestens auf meinem Nexus One (also Android, nehme daher an auch auf anderen Android phones wie dem Desire oder Droid) ist Spracherkennung schon lange drauf. Ist zwar noch „experimental“, aber dafuer kostenlos und „network based“.

Google Translate hat auch Spracherkennung, die Ausgabe erfolgt als Text den man sich dann auf Wunsch mit „text to speech“ vorlesen lassen kann. Wenn ich will kann ich mindestens bei Twidroyd (die Twitter app die ich benutze) und bei dem e-mail client auf Spracheingabe umstellen (einfach auf’s Mikrofon in der Tastatur klicken), das duerfte auch anderswo gehen.

Wie gesagt, ich habe das noch nicht gross ausprobiert, aber ich nehme an da das ganze ueber’s Netz auf Google’s Servern ablaeuft wird sich da bald noch einiges tun. Das was ich bei meinen eigenen Versuchen gesehen habe war entweder erstaunlich gut oder katastrophal schlecht.

Bei Videos versucht Google das auch schon, bei YouTube gibt’s eine „auto transcribe“ Funktion, von dem was ich bisher so gesehen haben mit gemischten Erfolgen.

(PS: dies bezieht sich alles auf die „Englische Version“, weiss nicht inwieweit das fuer Deutsch angeboten wird. Auf jeden Fall kann ich mir von Google Translate Englisch in Deutsch uebersetzen lassen und dann in Deutsch vorlesen lassen)

Antworten

chi 4. August 2010 um 13:50

@Moritz: Wo kommt Apple denn vor? Aber das Programm erkennt jedenfalls Dragon (wenn auch nicht Dictation), allerdings nicht Ford.

@Spielkind: Früher, bei „menschlichen“ Diktaten, hat man die Zeichensetzung mitdiktiert („Der Fahrer kann die Navigation über seine Sprache steuern Komma sich E-Mails vorlesen lassen Komma Twitter Nachrichten aussprechen Punkt“). Ich nehme an, das war hier auch so – das mehrfach mitprotokollierte, aber nicht umgesetzte „Absatz“ deutet darauf hin.

Antworten

Das Farliblog 4. August 2010 um 14:07

Lesetipps: Intervie-Traumata, iPhone Diktier-App, E-Post Kleingedrucktes und Darth Vaders Borderline (1)…

Die Lesetipps für heute sind: »Nun erzählen Sie doch mal!« Trauma-Expertin Kerstin Stellermann im ZEIT-Interview über die fehlende Zurückhaltung der Medien bei Unglücken wie der Loveparade. Liest Du, was ich sage? Thomas Knüwer experimentiert mit…

Antworten

Andreas Wollin 4. August 2010 um 15:06

Das mit dem „Absatz“ funktioniert nur noch nicht so gut… Aber sonst… cool.

Antworten

Andreas Wollin 4. August 2010 um 15:12

Nochwas: Gibt es denn die Möglichkeit, dass ich bei einer Mail auf „Antworten“ klicke und dann statt schwierigem Tippen auf der viel zu kleinen iPhone-Tastatur etwas einspreche?

Antworten

Gibro 6. August 2010 um 8:30

Ich laß gerade in den Kommentaren zur App, die es übrigens auch optimiert für das iPad gibt, dass die AGBs recht bedenklich sind, weil zur besseren Spracherkennung deine Kontakte durchforstet und an Dragon übermittelt werden, aber auch nur, wenn man dem einwilligst. Ich habe die App jetzt mal runtergeladen und werden schauen, ob es eine entsprechende Abfrage gibt, wenn nicht, wäre die App in der Tat etwas zweifelhaft.

Antworten

Thomas Knüwer 6. August 2010 um 8:32

Solch eine Abfrage gibt es in der Tat.

Antworten

Gibro 6. August 2010 um 8:36

Hier habe ich noch einmal die entsprechende Stelle aus den AGBs kopiert, der man erst einwilligen muß bevor man das Programm nutzen kann.

3.3. NAMES AND SPEECH DATA.  

(a) NAMES.  As part of the Service, Nuance can collect and use the contact names that appear in your address book (and no other information that appears in your address book) in order to tune, enhance and improve the speech recognition and other components of the Service.  You choose whether to permit Nuance to do so by  when you enable the Service.  You may elect at any time to prohibit Nuance from collecting the contact names, via the settings in the Software, at which point Nuance will delete all contact names that it has collected from your address book.  Nuance will not use the data you provide to contact any of the contact names that appear in your address book for any reason, nor will Nuance share contact names you provide with any third party.

Es werden aber offensichtlich nur Namen übergeben, die auch nicht an Dritte weitergegeben werden. Ich hoffe, die halten sich auch noch nach 3 Jahren daran.

Antworten

[Krtsch] der Woche XVIII 20. August 2010 um 8:04

[…] schreiben Sie!” Wäre mir die Firma nicht bekannt gewesen, hätte ich den Artikel komplett übersehen. Doch “Dragon” stellt auch professionelle Spracherkennung her, und […]

Antworten

Apples nächste Revolution: Sprache 5. Oktober 2011 um 18:04

[…] Die nächste, spannende Grenze für alle Unternehmen, die IT einsetzen (Ego-Booster-Zusatz: wie ich vor einem Jahr schon mal anmerkte). Was Apple da gestern unter dem Namen Siri zeigte, wirkt auf den ersten Blick verspielt. Doch es […]

Antworten

Du hast eine Frage oder eine Meinung zum Artikel? Teile sie mit uns!

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

*
*