Outomatiese Spraakherkenning-tegnologie is al lank daar, maar het onlangs bekendheid verwerf nadat die gebruik daarvan algemeen geword het in verskeie slimfoontoepassings soos Siri en Alexa. Hierdie KI-gebaseerde slimfoontoepassings het die krag van ASR geïllustreer om alledaagse take vir ons almal te vereenvoudig.
Daarbenewens, namate verskillende industrie-vertikale verder na outomatisering beweeg, is die onderliggende behoefte aan ASR onderworpe aan oplewing. Daarom, laat ons hierdie wonderlike verstaan spraakherkenningstegnologie in-diepte en waarom dit as een van die mees deurslaggewende tegnologieë vir die toekoms beskou word.
'n Kort geskiedenis van ASR-tegnologie
Voordat ons voortgaan en die potensiaal van outomatiese spraakherkenning ondersoek, laat ons eers kyk na die evolusie daarvan.
Dekade | Evolusie van ASR |
---|---|
1950s | Spraakherkenningstegnologie is die eerste keer in die 1950's deur Bell Laboratories bekendgestel. Die Bell Labs het 'n virtuele spraakherkenner, bekend as 'Audrey', geskep wat die getalle tussen 1-9 kan identifiseer wanneer dit deur 'n enkele stem gepraat word. |
1960s | In 1952 het IBM sy eerste stemherkenningstelsel, 'Shoebox', bekendgestel. Shoebox kon sestien gesproke Engelse woorde verstaan en onderskei. |
1970s | Carnegie Mellon Universiteit het in die jaar 1976 'n 'Harpy'-stelsel ontwikkel wat meer as 1000 woorde kon herken. |
1990s | Na 'n lang wag van byna 40 jaar het Bell Technologies weer die bedryf deurbreek met sy inbelinteraktiewe stemherkenningstelsels wat menslike spraak kan dikteer. |
2000s | Dit was 'n transformerende tydperk vir ASR-tegnologie toe die groot tegnologiereus Google aan spraakherkenningstegnologie begin werk het. Hulle het gevorderde spraaksagteware geskep met 'n akkuraatheidskoers van ongeveer 80%, wat dit wêreldwyd gewild maak. |
2010s | Die afgelope dekade het 'n goue tydperk vir ASR geword, met Amazon en Apple wat hul eerste KI-gebaseerde spraaksagteware, Alexa en Siri, bekendgestel het. |
As ons voor 2010 beweeg, ontwikkel ASR geweldig en word dit meer en meer algemeen en akkuraat. Vandag is Amazon, Google en Apple die mees prominente leiers in ASR-tegnologie.
[Lees ook: Die volledige gids tot gespreks-KI ]
Hoe werk stemherkenning?
Outomatiese spraakherkenning is 'n taamlik gevorderde tegnologie wat uiters moeilik is om te ontwerp en te ontwikkel. Daar is duisende tale wêreldwyd met verskeie dialekte en aksente, so dit is moeilik om sagteware te ontwikkel wat dit alles kan verstaan.
ASR gebruik konsepte van natuurlike taalverwerking en masjienleer vir die ontwikkeling daarvan. Deur talle taalleermeganismes in die sagteware in te sluit, verseker ontwikkelaars die akkuraatheid en doeltreffendheid van spraakherkenningsagteware.
Outomatiese spraakherkenning (ASR) is 'n komplekse tegnologie wat staatmaak op verskeie sleutelprosesse om gesproke taal in teks om te skakel. Op 'n hoë vlak is die belangrikste stappe wat betrokke is:
- Oudio-opname: ’n Mikrofoon vang die gebruiker se spraak vas en sit die akoestiese golwe om in ’n elektriese sein.
- Oudiovoorverwerking: Die elektriese sein word dan gedigitaliseer en ondergaan verskeie voorverwerkingstappe, soos ruisvermindering, om die kwaliteit van die oudio-invoer te verbeter.
- Kenmerk onttrekking: Die digitale oudio word ontleed om akoestiese kenmerke te onttrek, soos toonhoogte, energie en spektrale koëffisiënte, wat kenmerkend is van verskillende spraakklanke.
- Akoestiese modellering: Die onttrekte kenmerke word vergelyk met vooraf-opgeleide akoestiese modelle, wat die klankkenmerke na individuele spraakklanke of foneme karteer.
- Taalmodellering: Die herkende foneme word dan saamgestel in woorde en frases deur gebruik te maak van statistiese taalmodelle wat die mees waarskynlike woordreekse op grond van konteks voorspel.
- dekodering: Die laaste stap behels die dekodering van die mees waarskynlike woordvolgorde wat by die insette klank pas, met inagneming van beide die akoestiese en taalmodelle.
Hierdie kernkomponente werk naatloos saam om hoogs akkurate spraak-na-teks-omskakeling moontlik te maak, selfs in die teenwoordigheid van agtergrondgeraas, aksente en uiteenlopende woordeskat.
[Lees ook: Wat is spraak-na-teks-tegnologie en hoe dit werk]
Real-World Voorbeelde van ASR
Outomatiese spraakherkenning is 'n wonderlike tegnologie wat vandag wyd gewild en waardevol geword het. Die hoë prominensie daarvan is omdat dit gebruikers in staat stel om verskeie take vinnig te voltooi deur gebruik te maak van handvrye beheer.
Virtuele assistente en slimtoestelle: ASR is 'n kernkomponent van virtuele assistente soos Siri, Alexa en Google Assistant, wat handvrye beheer en interaksie met 'n verskeidenheid slimhuistoestelle en aanlyndienste moontlik maak. Die gewildste produkte wat spraakherkenningstegnologie gebruik, is:
- Google Assistent: Google Assistant, wat in 2016 ontwikkel is, is die beste kletsgebaseerde sagteware vandag, met die hoogste akkuraatheidsyfer van meer as 95% in Amerikaanse Engels. Dit word rofweg deur honderde miljoene mense wêreldwyd gebruik.
- Apple Siri: Siri is die klassieke voorbeeld van ASR se beskikbaarheid in meer as 30 lande en 21 tale wêreldwyd. Siri is die eerste kletsgebaseerde stelsel wat die gebruik van spraak-tot-teks-tegnologie 'n rewolusie verander.
- Amazon Alexa: Alexa het vandag 'n huishoudelike naam en toestel geword, met 'n geskatte gebruikerstelling van meer as 100 miljoen mense wêreldwyd.
Gebruik gevalle vir spraakherkenningstegnologie
Benewens die gebruik van die ASR-tegnologie in kletsgebaseerde sagteware, is daar ander gebruiksgevalle van hierdie uitsonderlike tegnologie. Hier is 'n paar van hulle:
Motor en vervoer
ASR is geïntegreer in inligtingvermaakstelsels in die voertuig, wat bestuurders in staat stel om verskeie funksies, soos musiekweergawe, navigasie en klimaatbeheer, te beheer, deur stemopdragte te gebruik, wat veiligheid en gerief verbeter.
Gesondheidsorg en mediese transkripsie
ASR is besig om die gesondheidsorgbedryf te transformeer deur dokters in staat te stel om aantekeninge en rekords meer doeltreffend te dikteer, die dokumentasieproses vaartbelyn te maak en administratiewe bokoste te verminder.
Inbelsentrums en kliëntediens
ASR word wyd in oproepsentrums gebruik om die transkripsie van klantinteraksies te outomatiseer, agentproduktiwiteit te verbeter en die algehele klantervaring te verbeter.
Taalleer
ASR-tegnologie het 'n omwenteling in taalleer gemaak deur intydse terugvoer oor uitspraak en gesproke taalvaardighede te verskaf. Dit stel leerders in staat om hul spraakpatrone te verfyn, onmiddellike regstellings te ontvang en hul vlotheid op 'n meer doeltreffende wyse te verbeter.
Toeganklikheid vir gehoorgestremdes
ASR-tegnologie speel 'n deurslaggewende rol om digitale inhoud en ervarings meer toeganklik te maak vir individue met gestremdhede, soos om intydse onderskrifte vir gehoor te verskaf of stembeheer vir diegene met beperkte mobiliteit moontlik te maak.
Stembiometrie en sekuriteit
Die unieke kenmerke van 'n individu se stem kan as 'n vorm van biometriese verifikasie gebruik word. ASR-tegnologie speel 'n deurslaggewende rol in stembiometriese stelsels, wat 'n bykomende laag sekuriteit bied vir persoonlike identifikasie en toegangsbeheer.
Media en Uitsaaiwese
ASR word gebruik om geslote onderskrifte en onderskrifte vir lewendige en voorafopgeneemde inhoud te genereer, wat dit meer toeganklik maak vir kykers en nuwe vorme van interaktiewe media-ervarings moontlik maak.
Wat hou die toekoms in vir ASR-tegnologie?
Met die vooruitgang van KI en masjienleer word verwag dat outomatiese spraakherkenningstegnologie meer akkuraat, vinniger en meer natuurlik klink. Daarbenewens sal ASR-tegnologie waarskynlik algemeen wees in kliëntediens, onderwys, gesondheidsorg en meer. Vir organisasies moet die ontwikkeling van pasgemaakte ASR-gebaseerde besigheidsoplossings die volgende teiken wees.