Outomatiese spraakherkenning

Verstaan ​​die versamelingsproses van oudiodata vir outomatiese spraakherkenning

Outomatiese spraakherkenningstelsels en virtuele assistente soos Siri, Alexa en Cortana het algemene dele van ons lewens geword. Ons afhanklikheid van hulle neem aansienlik toe namate hulle slimmer word. Van die aanskakel van ons ligte tot die maak van oproepe tot die verandering van TV-kanale, ons gebruik hierdie slim tegnologieë om alledaagse take te voltooi.

Het jy egter al ooit gewonder hoe hierdie spraakherkenningstelsels werk?

Wel, hierdie blog sal jou opvoed oor sommige van die grondbeginsels van outomatiese spraakherkenning. Ons sal ook die werking daarvan ondersoek en hoe funksionele virtuele assistente soos Siri gebou word.

Wat is outomatiese spraakherkenning?

Outomatiese spraakherkenning (ASR) is sagteware wat die rekenaarstelsel in staat stel om menslike spraak in teks om te skakel, deur verskeie kunsmatige intelligensie en masjienleeralgoritmes te gebruik.

Nadat die gegewe opdrag omgeskakel en ontleed is, reageer die rekenaar met 'n toepaslike uitset vir die gebruiker. ASR is die eerste keer in 1962 bekendgestel, en sedertdien het dit voortdurend sy bedrywighede verbeter en groot kollig gekry vanweë gewilde toepassings soos Alexa en Siri.

Het jy geweet outomatiese spraakherkenning staan ​​ook bekend as spraak-na-teks-leser? Lees meer daaroor in hierdie blog! 

Wat is die proses vir spraakversameling vir opleiding van ASR-modelle?

Spraakversamelingsproses

Spraakversameling het ten doel om verskeie voorbeeldopnames in te samel van verskeie gebiede wat gebruik word om ASR-modelle te voed en op te lei. ASR-stelsel lewer die hoogste doeltreffendheid wanneer groot datastelle spraak en oudio versamel en aan sy stelsel verskaf word.

Om naatloos te werk, moet die versamelde spraakdatastelle alle teikendemografie, tale, aksente en dialekte bevat. Die volgende proses wys hoe om die masjienleermodel in verskeie stappe op te lei:

  • Begin deur 'n demografiese matriks te bou

    Versamel hoofsaaklik die data vir verskillende demografieë soos die ligging, geslagte, taal, ouderdomme en aksente. Maak ook seker dat 'n verskeidenheid omgewingsgeraas soos straatgeraas, wagkamergeraas, openbare kantoorgeraas, ens.

  • Versamel en transkribeer die spraakdata

    Die volgende stap is om menslike klank- en spraakmonsters te versamel gebaseer op verskillende geografiese liggings om jou ASR-model op te lei. Dit is 'n belangrike stap en vereis dat menslike kundiges lang en kort uitsprake van woorde moet uitvoer om die opregte gevoel van die sin te kry en dieselfde sinne in verskillende aksente en dialekte te herhaal.

  • Skep 'n aparte toetsstel

    Sodra jy die getranskribeerde teks versamel het, is die volgende stap om dit met ooreenstemmende oudiodata te koppel. Segmenteer dan die data verder en sluit een stelling daarvan in. Nou, uit die gesegmenteerde datapare, kan jy ewekansige data uit 'n stel trek vir verdere toetsing.

  • Lei jou ASR-taalmodel op

    Hoe meer inligting jou datastelle het, hoe beter sal jou KI-opgeleide model presteer. Genereer dus verskeie variasies van teks en toesprake wat jy vroeër opgeneem het. Parafraseer dieselfde sinne deur verskillende spraaknotasies te gebruik.

  • Evalueer die uitset en herhaal ten slotte

    Meet ten slotte die uitset van jou ASR-model om sy werkverrigting reg te stel. Toets die model teen 'n toetsstel om die doeltreffendheid daarvan te bepaal. Betrek jou ASR-model gepas in 'n terugvoerlus om die verlangde uitset te genereer en enige gapings reg te stel.

[Lees ook: 'n Omvattende oorsig van outomatiese spraakherkenning]

Wat is die verskillende gebruiksgevalle van spraakherkenning?

Spraakherkenningstegnologie is vandag hoogs algemeen in baie nywerhede. Sommige nywerhede wat hierdie geweldige tegnologie gebruik, is soos volg:

  • Voedsel produksie Kos industrie: Voedselreuse soos Wendy's en McDonald's is daarop ingestel om hul klante-ervarings met behulp van ASR te verbeter. In baie van hul afsetpunte het hulle ten volle funksionele ASR-modelle ontplooi om bestellings te neem, en dit verder na die kookafdeling deur te gee om die klantbestelling gereed te maak.

     

  • telekommunikasie Telekommunikasie: Vodafone is een van die grootste telekommunikasieverskaffers ter wêreld. Dit het sy kliëntediens- en telefoonaflosdienste ontwerp deur gebruik te maak van ASR-modelle wat jou lei om verskillende navrae op te los en jou oproepe na betrokke departemente te herlei.

     

  • Reis En Vervoer Reis en vervoer: Google Android Auto of Apple CarPlay het algemeen geword. Die meeste mense gebruik dit om navigasiestelsels te aktiveer, boodskappe te stuur of musieksnitlyste te wissel. Met tegnologiese vooruitgang word sulke stelsels egter meer verfyn.
    BMW Intelligent Personal Assistant wat in sy BMW 3-reeks bekendgestel is, is baie slimmer as gewone stemassistente. Dit kan bestuurders in staat stel om motorverwante inligting te vind en die motor te bestuur deur stemopdragte te gebruik.
  • Media En VermaakMedia en vermaak: Ook die mediabedryf gebruik ASR in baie van sy projekte. Youtube het 'n AI-gebaseerde assistent bekendgestel wat regstreekse outo-onderskrifte genereer. Terwyl jy op die skerm praat, sal die assistent die onderskrifte verskaf om die video toeganklik te maak vir 'n groter groep Youtube-gebruikers.

 

[Lees ook: Wat is spraak-na-teks-tegnologie en hoe werk dit]

Hoe kan Shaip help?

Shaip is een van die voorste KI-opleidingsdienste wat kundigheid in verskeie areas van KI en ML besit. Hulle kan jou help met die bou van jou eie datastel wat vir verskillende toepassings en projekte gebruik kan word.

Sommige van die dienste wat deur Shaip gelewer word, is:

  • Outomatiese spraakherkenning (ASR)
  • Gesproke versameling
  • Transskepping
  • Versameling van spontane toespraak
  • Uitingversameling/ Wake-up Woorde,
  • Teks-na-spraak (TTS)

U kan van hierdie dienste gebruik maak om die beste resultate vir u KI-gebaseerde projekte te kry. Kom meer te wete oor hierdie dienste deur vandag na ons kundige span uit te reik!

Sosiale Deel