Gevallestudie: Outomatiese spraakherkenning

Meer as 8k oudio-ure ingesamel, 800 uur getranskribeer vir veeltalige stemtegnologie

Gesprek ai

Inleiding

Indië het 'n platform nodig gehad wat konsentreer op die skep van meertalige datastelle en KI-gebaseerde taaltegnologie-oplossings om digitale dienste in Indiese tale te verskaf. Om hierdie inisiatief van stapel te stuur, het die kliënt met Shaip saamgewerk om Indiese taal te versamel en te transkribeer om veeltalige spraakmodelle te bou.

Deel

Ure se data wat ingesamel is
10
Aantal bladsye wat geannoteer is
10 +
Projek Duur
< 1 maande

Uitdagings

Om die kliënt te help met hul Spraaktegnologie-spraakpadkaart vir Indiese tale, moes die span groot volumes opleidingsdata bekom, segmenteer en transkribeer om KI-model te bou. Die kritieke vereistes van die kliënt was:

Data-insameling

  • Verkry 8000 uur se opleidingsdata van afgeleë plekke in Indië
  • Die verskaffer om Spontane toespraak van Ouderdomsgroepe van 20-70 jaar in te samel
  • Verseker 'n diverse mengsel van sprekers volgens ouderdom, geslag, opvoeding en dialekte
  • Elke oudio-opname moet ten minste 16kHz wees met 16 bisse/monster.
Data-insameling

Datatranskripsie

Volg besonderhede oor transkripsie-riglyne rondom karakters en spesiale simbole, spelling en grammatika, hoofletters, afkortings, sametrekkings, individuele gesproke letters, syfers, leestekens, akronieme en initialismes, onvloeibare spraak, onverstaanbare spraak, nie-teikentale, nie-spraak

Data transkripsie

Kwaliteitskontrole en terugvoer

Alle opnames moet kwaliteit assessering en validering ondergaan, slegs gevalideerde spraakopnames moet afgelewer word

Oplossing

Met ons diepgaande begrip van gesprekke-KI, het ons die kliënt gehelp om die oudiodata in te samel, te transkribeer met 'n span kundige versamelaars, taalkundiges en annoteerders om 'n groot korpus oudiodata van afgeleë dele van Indië te bou.

Die omvang van werk vir Shaip het ingesluit, maar was nie beperk nie tot die verkryging van groot volumes oudio-opleidingsdata, die transkripsie van die data en die lewering van ooreenstemmende JSON-lêers wat die metadata bevat [vir beide sprekers en transkribeerders. Vir elke spreker sluit die metadata 'n anonieme spreker-ID, toestelbesonderhede, demografiese inligting soos geslag, ouderdom en opvoeding in, tesame met hul pinkode, sosio-ekonomiese status, tale gepraat en 'n rekord van hul lewensduur. Vir elke transkribeerder bevat die data 'n anonieme transkribeer-ID, demografiese besonderhede soortgelyk aan die sprekers s'n, hul transkripsie-ervaringsduur, en 'n deeglike uiteensetting van tale wat hulle kan lees, skryf en praat.

Shaip afgehaal 8000 ure se oudiodata / Spontane spraak op skaal en getranskribeer 800 ure terwyl verlangde vlakke van kwaliteit gehandhaaf word wat nodig is om spraaktegnologie vir komplekse projekte op te lei. Uitdruklike toestemmingsvorm is van elk van die deelnemers geneem. Die / Spontane toespraak wat ingesamel is, was gebaseer op beelde wat deur die Universiteit verskaf is. Van 3500 foto's 1000 is generies en 2500 hou verband met distrikspesifieke kultuur, feeste, ens. Beelde beeld verskeie domeine uit soos treinstasies, markte, weer, en meer.

Data-insameling

staatdistrikteOudio Hrstranskripsie
(Ure)
BiharSaran, Oos Champaran, Gopalganj, Sitamarhi, Samastipur, Darbhanga, Madhepura, Bhagalpur, Gaya, Kishanganj, Vaishali, Lakhisarai, Saharsa, Supaul, Araria, Begusarai, Jahanabad, Purnia, Muzaffarpur, Jamui2000200
UttarpradeshDeoria, Varanasi, Gorakhpur, Ghazipur, Muzzaarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun1000100
RajasthanNagaur, Churu20020
UttarakhandTehri Garhwal, Uttarkashi20020
ChhattisgarhBilaspur, Raigarh, Kabirdham, Sarguja, Korba, Jashpur, Rajnandgaon, Balrampur, Bastar, Sukma1000100
Wes-BengalPaschim Medinipur, Malda, Jalpaiguri, Purulia, Kolkatta, Jhargram, North 24 Parganas, Dakshin Dinajpur80080
JharkhandSahebganj, Jamtara20020
APGuntur, Chittoor, Visakhapatnam, Krishna, Anantapur, Srikakulam60060
TelanganaKarimnagar, Nalgonda20020
GoaNoord+Suid Goa10010
KarnatakaDakshin Kannada, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar1000100
MaharashtraSindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, Solapur70070
Totaal8000800

Algemene riglyne

Format

    • Oudio by 16 kHz, 16 bisse/monster.
    • Enkelkanaal.
    • Rou klank sonder transkodering.

styl

    • Spontane toespraak.
    • Sinne gebaseer op beelde wat deur die Universiteit verskaf is. Van 3500 beelde is 1000 generies en 2500 hou verband met distrikspesifieke kultuur, feeste, ens. Beelde beeld verskeie domeine uit soos treinstasies, markte, weer, en meer.

Opname agtergrond

    • Opgeneem in 'n stil, eggo-vrye omgewing.
    • Geen slimfoonversteurings (vibrasie of kennisgewings) tydens opname nie.
    • Geen vervormings soos knip of ver-veld-effekte nie.
    • Vibrasies vanaf foon onaanvaarbaar; eksterne vibrasies is aanvaarbaar as klank duidelik is.

Spreker spesifikasie

    • Ouderdom wissel van 20-70 jaar met gebalanseerde geslagsverspreiding per distrik.
    • Minimum van 400 moedertaalsprekers in elke distrik.
    • Sprekers moet hul huistaal/dialek gebruik.
    • Toestemmingsvorms verpligtend vir alle deelnemers.


Kwaliteitskontrole & Kritiese Gehalteversekering

Die QA-proses prioritiseer kwaliteitsversekering vir oudio-opnames en transkripsies. Oudiostandaarde fokus op presiese stiltes, segmenttydsduur, enkelsprekerhelderheid en gedetailleerde metadata, insluitend ouderdom en sosio-ekonomiese status. Transkripsiekriteria beklemtoon merker-akkuraatheid, woordwaarheid en korrekte segmentbesonderhede. Die aanvaardingsmaatstaf bepaal dat as meer as 20% van 'n oudiogroep aan hierdie standaarde misluk, dit verwerp word. Vir minder as 20% afwykings word vervangingsopnames met soortgelyke profiele vereis.

Datatranskripsie

Transkripsie riglyne beklemtoon akkuraatheid en woordelikse transkripsie slegs wanneer woorde duidelik en verstaanbaar is; onduidelike woorde word gemerk as [onverstaanbaar] of [onhoorbaar] gebaseer op die kwessie. Singrense in lang oudio word gemerk met , en geen parafrasering of regstelling van grammatikale foute word toegelaat nie. Woordelike transkripsie dek foute, slangs en herhalings, maar laat vals begin, vulklanke en hakkels weg. Agtergrond- en voorgrondgeluide word met beskrywende etikette getranskribeer, terwyl eiename, titels en nommers spesifieke transkripsiereëls volg. Luidsprekeretikette word vir elke sin gebruik, en onvoltooide sinne word aangedui met.

Projekwerkvloei

Die werkvloei beskryf die oudio-transkripsieproses. Dit begin met die aanboord en opleiding van deelnemers. Hulle neem oudio op met behulp van 'n toepassing, wat na 'n QA-platform opgelaai word. Hierdie klank ondergaan kwaliteitkontroles en outomatiese segmentering. Die tegnologiespan berei dan segmente voor vir transkripsie. Na handmatige transkripsie is daar 'n gehalteversekeringstap. Transkripsies word aan die kliënt afgelewer, en indien dit aanvaar word, word die aflewering as voltooi beskou. Indien nie, word hersienings gemaak op grond van kliënteterugvoer.

Uitkoms

Die hoë kwaliteit klankdata van kundige taalkundiges sal ons kliënt in staat stel om meertalige spraakherkenningsmodelle akkuraat op te lei en te bou in verskeie Indiese tale met verskillende dialekte in die vasgestelde tyd. Die spraakherkenningsmodelle kan gebruik word om:

  • Oorkom taalversperring vir digitale insluiting deur die burgers te verbind met die inisiatiewe in hul eie moedertaal.
  • Bevorder digitale bestuur
  • Katalisator om 'n ekosisteem te vorm vir dienste en produkte in Indiese tale
  • Meer gelokaliseerde digitale inhoud in die domeine van openbare belang, veral bestuur en beleid

Ons is in verwondering oor Shaip se kundigheid in die gespreks-KI-ryk. Die taak om 8000 uur se oudiodata te hanteer tesame met 800 uur se transkripsie oor 80 diverse distrikte was monumentaal, om die minste te sê. Dit was Shaip se diepgaande begrip van die ingewikkelde besonderhede en nuanses van hierdie domein wat die suksesvolle uitvoering van so 'n uitdagende projek moontlik gemaak het. Hul vermoë om naatloos te bestuur en deur die kompleksiteite van hierdie groot hoeveelheid data te navigeer, terwyl die versekering van topgehalte gehalte is werklik prysenswaardig.

Goue-5-ster

Versnel u gespreks-AI
toepassingsontwikkeling met 100%