OK, eigentlich sollte hier der Text so stehen. Aber dann hätte mancher Leser bei mir an fortgeschrittenen Wahnsinn, Alkoholismus oder Liebe zu anderen bewusstseinsverändernden Substanzen geglaubt. Also doch eine Erklärung: Der folgende Text wurde mit der Iphone-App von Dragon Dictation gesprochen und nicht nachredigiert.
“Wenn sie in diesem Textrecht schreib-oder Grammatikfehler finden, dann stecken Sie sich diese an den Hut. Wenn dieser Text wurde nicht geschrieben, er wurde diktiert mit der iPhone@von Dragon Big Tischen. Das Thema Spracherkennung und Sprachsteuerung ist für mich eines der spannendsten in der digitalen Welt. Vor einigen Jahren haben wir noch schlechte Witze gemacht über die Servicehotline ist Ihr uns nicht verstanden. Heute machen wir das nicht mehr, wenn Sie verstehen uns. Absatz in den USA bietet Fahrt bereits heute eine Sprachsteuerung im Auto. Der Fahrer kann die Navigation über seine Sprache steuern, sich E-Mails vorlesen lassen, Twitter Nachrichten aussprechen. Absatz das Thema Sprachsteuerung und Spracherkennung wird in unserem Alltag immer wichtiger werden, davon bin ich überzeugt. Welchen Weg das gehen wird? Keine Ahnung. Aber ich bin mir sicher, wir werden ein Auge darauf haben müssen.”
Das klingt teils krude – teils aber auch nicht so übel. Über die App kann der Nutzer auch direkt Tweets absenden oder Facebook-Statusmeldungen einsprechen. Und natürlich könnend diese vor dem Abschicken noch redigiert werden. Das ist als Gesamtpaket derzeit noch etwas umständlich – aber es zeigt, wohin die Reise geht. Das Thema Spracherkennung und -steuerung ist eines der für mich Spannendsten in der digitalen Welt.
Hier das sehr aalglatte Werbevideo:
Ähnliche Beiträge:
- “Bild” liest mit – manchmal
- Hoffnung für Verlage: Bush liest Zeitung
- Apple vs. Nokia – Dokument einer Demütigung
- Eilmeldung: Detonation bei Internet-Portal
- Das Aus für die “Bild” Iphone-App?
{ 12 comments… read them below or add one }
besonders nett, dass er ausgerechnet das Wort Apple nicht erkennt – Markennamen scheinen noch nicht erfasst worden zu sein
Auch schön, dass die App das Wort “App” nicht kennt… aber ansonsten recht beeindruckend. Vor allem die Zeichensetzung und Satzgrenzen sitzen ganz gut… da haben Spracherkennungen sonst immer Probleme mit.
Richtig interessant wird Spracherkennung für mich erst, wenn Google auf den Zug aufspringt bzw. wenn Podcasts mit einer solchen Technologie zurück in die textuelle Ebene überführt werden! Endlich könnte man Radiosendungen, von denen es zwar einen Mitschnitt, aber kein manuelles Transkript gibt, in Textform mal schnell überfliegen (und bei gefallen ggf. trotzdem noch hören). Podcasts wären für Suchmachinen keine Blackbox mehr, und man könnte bei mehr als einstündigen Sprachaufnahmen mal schauen, ob es sich lohnt! Das ist für mich die Spracherkennungsanwendung der Zukunft.
Das ganze würde natürlich auch mit Videos funktioneren (natürlich nur der Audiospur). Automatische Untertitel wäre ein nützliches Abfallprodukt. Aber man könnte z. B. auch mal nach Zitaten suchen, die in einem Videobeitrag gefallen sind und man nur noch weiß, irgendwann hab ich da mal auf YouTube ein Video gesehen, da hat Politiker XY irgendwas wichtiges gesagt.
Wenn die Spracherkennung irgendwann richtig funktioniert, und Google das mit seinen Übersetzungsprogrammen koppelt, wirds in Zukunft Programme geben, die Telefongespräche automatisch übersetzen wird. Kann man mit Leuten telefonieren, obwohl man deren Sprache nicht kann.
Hat Google das in irgendeinem Projekt nicht eh langfristig vor zu entwickeln? Glaube sowas mal gelesen zu haben.
Danke für diese wunderbare Kostprobe der Leistungsfähigkeit von Spracherkennungssystemen.
Ich hatte gestern selbst einen Webcast zu diesem Thema abgehalten. Ab heute abend steht der Film dieses Webcasts für den interessierten Zuschauer unter http://www.digitales-diktieren.info bereit.
Darf ich diese wunderbare Kostenprobe in meinem Blog verlinken?
@Balkonschlaefer & Usul,
aehm, auf den Zug ist Google schon lange aufgesprungen.
Ich habe das noch nicht gross benutzt und ausprobiert, aber mindestens auf meinem Nexus One (also Android, nehme daher an auch auf anderen Android phones wie dem Desire oder Droid) ist Spracherkennung schon lange drauf. Ist zwar noch “experimental”, aber dafuer kostenlos und “network based”.
Google Translate hat auch Spracherkennung, die Ausgabe erfolgt als Text den man sich dann auf Wunsch mit “text to speech” vorlesen lassen kann. Wenn ich will kann ich mindestens bei Twidroyd (die Twitter app die ich benutze) und bei dem e-mail client auf Spracheingabe umstellen (einfach auf’s Mikrofon in der Tastatur klicken), das duerfte auch anderswo gehen.
Wie gesagt, ich habe das noch nicht gross ausprobiert, aber ich nehme an da das ganze ueber’s Netz auf Google’s Servern ablaeuft wird sich da bald noch einiges tun. Das was ich bei meinen eigenen Versuchen gesehen habe war entweder erstaunlich gut oder katastrophal schlecht.
Bei Videos versucht Google das auch schon, bei YouTube gibt’s eine “auto transcribe” Funktion, von dem was ich bisher so gesehen haben mit gemischten Erfolgen.
(PS: dies bezieht sich alles auf die “Englische Version”, weiss nicht inwieweit das fuer Deutsch angeboten wird. Auf jeden Fall kann ich mir von Google Translate Englisch in Deutsch uebersetzen lassen und dann in Deutsch vorlesen lassen)
@Moritz: Wo kommt Apple denn vor? Aber das Programm erkennt jedenfalls Dragon (wenn auch nicht Dictation), allerdings nicht Ford.
@Spielkind: Früher, bei „menschlichen“ Diktaten, hat man die Zeichensetzung mitdiktiert („Der Fahrer kann die Navigation über seine Sprache steuern Komma sich E-Mails vorlesen lassen Komma Twitter Nachrichten aussprechen Punkt“). Ich nehme an, das war hier auch so – das mehrfach mitprotokollierte, aber nicht umgesetzte „Absatz“ deutet darauf hin.
Das mit dem “Absatz” funktioniert nur noch nicht so gut… Aber sonst… cool.
Nochwas: Gibt es denn die Möglichkeit, dass ich bei einer Mail auf “Antworten” klicke und dann statt schwierigem Tippen auf der viel zu kleinen iPhone-Tastatur etwas einspreche?
Ich laß gerade in den Kommentaren zur App, die es übrigens auch optimiert für das iPad gibt, dass die AGBs recht bedenklich sind, weil zur besseren Spracherkennung deine Kontakte durchforstet und an Dragon übermittelt werden, aber auch nur, wenn man dem einwilligst. Ich habe die App jetzt mal runtergeladen und werden schauen, ob es eine entsprechende Abfrage gibt, wenn nicht, wäre die App in der Tat etwas zweifelhaft.
Solch eine Abfrage gibt es in der Tat.
Hier habe ich noch einmal die entsprechende Stelle aus den AGBs kopiert, der man erst einwilligen muß bevor man das Programm nutzen kann.
3.3. NAMES AND SPEECH DATA.
(a) NAMES. As part of the Service, Nuance can collect and use the contact names that appear in your address book (and no other information that appears in your address book) in order to tune, enhance and improve the speech recognition and other components of the Service. You choose whether to permit Nuance to do so by when you enable the Service. You may elect at any time to prohibit Nuance from collecting the contact names, via the settings in the Software, at which point Nuance will delete all contact names that it has collected from your address book. Nuance will not use the data you provide to contact any of the contact names that appear in your address book for any reason, nor will Nuance share contact names you provide with any third party.
Es werden aber offensichtlich nur Namen übergeben, die auch nicht an Dritte weitergegeben werden. Ich hoffe, die halten sich auch noch nach 3 Jahren daran.
{ 4 trackbacks }