Outomatiese spraakherkenning

Outomatiese spraakherkenning (ASR): Alles wat 'n beginner moet weet (in 2024)

Outomatiese Spraakherkenning-tegnologie is al lank daar, maar het onlangs bekendheid verwerf nadat die gebruik daarvan algemeen geword het in verskeie slimfoontoepassings soos Siri en Alexa. Hierdie KI-gebaseerde slimfoontoepassings het die krag van ASR geïllustreer om alledaagse take vir ons almal te vereenvoudig.

Daarbenewens, namate verskillende industrie-vertikale verder na outomatisering beweeg, is die onderliggende behoefte aan ASR onderworpe aan oplewing. Daarom, laat ons hierdie wonderlike verstaan spraakherkenningstegnologie in-diepte en waarom dit as een van die mees deurslaggewende tegnologieë vir die toekoms beskou word.

'n Kort geskiedenis van ASR-tegnologie

Voordat ons voortgaan en die potensiaal van outomatiese spraakherkenning ondersoek, laat ons eers kyk na die evolusie daarvan.

1950s

In die 1950's het Bell Labs 'n virtuele spraakherkenner, bekend as 'Audrey', geskep wat die getalle tussen 1-9 kan identifiseer wanneer dit deur 'n enkele stem gepraat word.

1960s

In 1952 het IBM sy eerste stemherkenningstelsel, 'Shoebox', bekendgestel wat sestien Engelse woorde kon verstaan ​​en onderskei.

1970s

Carnegie Mellon Universiteit het in die jaar 1976 'n 'Harpy'-stelsel ontwikkel wat meer as 1000 woorde kon herken.

1990s

Na 40 jaar het Bell Technologies weer die bedryf deurbreek met sy inbel-IVR-stelsels wat menslike spraak kan dikteer.

2000s

Google het gevorderde spraaksagteware geskep met 'n akkuraatheidskoers van 80%, wat dit wêreldwyd gewild maak.

2010s

Die afgelope dekade het 'n goue tydperk vir ASR geword, met Amazon en Apple wat hul eerste KI-gebaseerde spraaksagteware, Alexa en Siri, bekendgestel het.

As ons voor 2010 beweeg, ontwikkel ASR geweldig en word dit meer en meer algemeen en akkuraat. Vandag is Amazon, Google en Apple die mees prominente leiers in ASR-tegnologie.

[Lees ook: Die volledige gids tot gespreks-KI ]

Hoe werk stemherkenning?

Outomatiese spraakherkenning is 'n taamlik gevorderde tegnologie wat uiters moeilik is om te ontwerp en te ontwikkel. Daar is duisende tale wêreldwyd met verskeie dialekte en aksente, so dit is moeilik om sagteware te ontwikkel wat dit alles kan verstaan.

ASR gebruik konsepte van natuurlike taalverwerking en masjienleer vir die ontwikkeling daarvan. Deur talle taalleermeganismes in die sagteware in te sluit, verseker ontwikkelaars die akkuraatheid en doeltreffendheid van spraakherkenningsagteware.

Hier is 'n paar van die basiese stappe wat gebruik word om outomatiese spraakherkenning sagteware te ontwikkel:

  • Oordrag van stem na elektriese sein: Die vibrasies van 'n persoon se stem word met 'n mikrofoon vasgelê en in 'n golfagtige elektriese sein oorgedra.
  • Die transformasie van elektries in digitale sein: Die elektriese sein word verder omgeskakel na 'n digitale sein deur gebruik te maak van fisiese toestelle soos 'n klankkaart.
  • Registrasie van foneme by die sagteware: Die spraakherkenningsagteware ondersoek dan die digitale sein en registreer foneme om tussen die vasgelegde woorde te onderskei.
  • Rekonstrueer foneme na woorde: Nadat die digitale sein volledig verwerk is en al die foneme geregistreer is, word woorde gerekonstrueer, en sinne word gevorm.

Om die beoogde akkuraatheid te bereik, gebruik die sagteware die trigram-analisemetode, wat staatmaak op die gebruik van drie gereeld gebruikte woorde deur 'n spesifieke databasis. Die ASR-sagteware is 'n uitsonderlike tegnologie wat enige oudiopatroon afbreek, die klanke ontleed en daardie versamelde klanke in betekenisvolle teks en woorde transkribeer.

[Lees ook: Wat is spraak-na-teks-tegnologie en hoe dit werk]

Real-World Voorbeelde van ASR

Werklike Wêreld Voorbeelde Van Asr

Outomatiese spraakherkenning is 'n wonderlike tegnologie wat vandag wyd gewild en waardevol geword het. Die hoë prominensie daarvan is omdat dit gebruikers in staat stel om verskeie take vinnig te voltooi deur gebruik te maak van handvrye beheer. Die gewildste produkte wat spraakherkenningstegnologie gebruik, is:

  • Google Assistent
    Google Assistant, wat in 2016 ontwikkel is, is die beste kletsgebaseerde sagteware vandag, met die hoogste akkuraatheidsyfer van meer as 95% in Amerikaanse Engels. Dit word rofweg deur honderde miljoene mense wêreldwyd gebruik.
  • Appel Siri
    Siri is die klassieke voorbeeld van ASR se beskikbaarheid in meer as 30 lande en 21 tale wêreldwyd. Siri is die eerste kletsgebaseerde stelsel wat die gebruik van spraak-tot-teks-tegnologie 'n rewolusie verander.
  • Amazon Alexa
    Alexa het vandag 'n huishoudelike naam en toestel geword, met 'n geskatte gebruikerstelling van meer as 100 miljoen mense wêreldwyd.

Verken meer gebruiksgevalle vir spraakherkenningstegnologie

Benewens die gebruik van die ASR-tegnologie in kletsgebaseerde sagteware, is daar ander gebruiksgevalle van hierdie uitsonderlike tegnologie. Hier is 'n paar van hulle:

  • Voertuig spraakherkenning

    Voertuig spraakherkenning Vandag het ons die luukse om vir ons motor te sê wie om te bel, watter liedjie om te speel en waar om die bestemming te stel. Dit alles het moontlik geword as gevolg van spraak-tot-teks tegnologie. Dit is 'n geweldige stap in die veiligheidsaspek van jou bestuurservaring. Deur die behoefte om fisies met die skerm om te gaan, uit te skakel, voorkom die gebruik van ASR verlies van aandag wat tot 'n ongeluk kan lei.

  • Transkripsiedienste

    Transkripsiedienste ASR-tegnologie het die transkripsieproses vaartbelyn gemaak, wat vinnige en akkurate omskakeling van gesproke inhoud in geskrewe teks moontlik maak. Dit is van onskatbare waarde bewys vir nywerhede soos joernalistiek, regs- en mediese sektore, waar akkurate en tydige transkripsies van kardinale belang is.

 

  • Inbelsentrums en kliëntediens

    Inbelsentrums en kliëntediens Inbelsentrums het ASR-stelsels omhels om klantinteraksies te transkribeer, wat voorsiening maak vir beter dop, ontleding en kwaliteitbeheer. Deur gesproke gesprekke in teks om te skakel, stel ASR inbelsentrumagente en -bestuurders in staat om klantinteraksies te hersien en waardevolle insigte te onttrek om hul dienste te verbeter.

  • Taalleer

    Taalleer ASR-tegnologie het 'n omwenteling in taalleer gemaak deur intydse terugvoer oor uitspraak en gesproke taalvaardighede te verskaf. Dit stel leerders in staat om hul spraakpatrone te verfyn, onmiddellike regstellings te ontvang en hul vlotheid op 'n meer doeltreffende wyse te verbeter.

  • Toeganklikheid vir gehoorgestremdes

    Toeganklikheid vir Gehoorgestremdes ASR-stelsels was instrumenteel in die afbreek van kommunikasieversperrings vir individue met gehoorgestremdheid. Deur gesproke taal in geskrewe teks om te skakel, bied ASR-tegnologie intydse onderskrifdienste, wat oudio-inhoud meer toeganklik maak vir 'n wyer gehoor.

  • Stembiometrie en sekuriteit

    Stembiometrie en sekuriteit Die unieke kenmerke van 'n individu se stem kan as 'n vorm van biometriese verifikasie gebruik word. ASR-tegnologie speel 'n deurslaggewende rol in stembiometriese stelsels, wat 'n bykomende laag sekuriteit bied vir persoonlike identifikasie en toegangsbeheer.

 

Wat hou die toekoms in vir ASR-tegnologie?

Met die vooruitgang van KI en masjienleer word verwag dat outomatiese spraakherkenningstegnologie meer akkuraat, vinniger en meer natuurlik klink. Daarbenewens sal ASR-tegnologie waarskynlik algemeen wees in kliëntediens, onderwys, gesondheidsorg en meer. Vir organisasies moet die ontwikkeling van pasgemaakte ASR-gebaseerde besigheidsoplossings die volgende teiken wees.

Kry hulp vir jou ASR-gebaseerde projekte van Shaip-kundiges

Sosiale Deel