Gevallestudie: Gesprek-KI

Meer as 3k uur se data wat ingesamel, gesegmenteer en getranskribeer is om ASR in 8 Indiese tale te bou

Uitingversameling
Die regering poog om sy burgers met maklike toegang tot internet en digitale dienste in hul eie moedertaal deur die Bhashini-projek in staat te stel.

BHASHINI, Indië se KI-gedrewe taalvertaalplatform, is 'n belangrike deel van die Digital India-inisiatief.

Die Bhashini-platform is ontwerp om kunsmatige intelligensie (KI) en natuurlike taalverwerking (NLP) gereedskap aan MSME's, beginners en onafhanklike innoveerders te verskaf, en dien as 'n openbare hulpbron. Die doel daarvan is om digitale insluiting te bevorder deur Indiese burgers in staat te stel om met die land se digitale inisiatiewe in hul moedertaal te kommunikeer.

Daarbenewens het dit ten doel om die beskikbaarheid van internetinhoud in Indiese tale aansienlik uit te brei. Dit is veral gerig op gebiede van openbare belang soos bestuur en beleid, wetenskap en tegnologie, ens. Gevolglik sal dit burgers aanspoor om die internet in hul eie taal te gebruik, wat hul aktiewe deelname bevorder.

Gebruik NLP om 'n diverse ekosisteem van bydraers, vennootskapsentiteite en burgers moontlik te maak met die doel om taalhindernisse te oorskry, en sodoende digitale insluiting en bemagtiging te verseker

Regte wêreld oplossing

Ontketen die krag van lokalisering met data

Indië het 'n platform nodig gehad wat sou konsentreer op die skep van meertalige datastelle en KI-gebaseerde taaltegnologie-oplossings om digitale dienste in Indiese tale te verskaf. Om hierdie inisiatief van stapel te stuur, het die Indiese Instituut vir Tegnologie, Madras (IIT Madras) met Shaip saamgewerk om Indiese taaldatastelle te versamel, segmenteer en transkribeer om meertalige spraakmodelle te bou.

Uitdagings

Om die kliënt te help met hul Spraaktegnologie-spraakpadkaart vir Indiese tale, moes die span groot volumes opleidingsdata bekom, segmenteer en transkribeer om KI-model te bou. Die kritieke vereistes van die kliënt was:

Data-insameling

 • Verkry 3000 uur se opleidingsdata in 8 Indiese tale met 4 dialekte per taal.
 • Vir elke taal sal die verskaffer Extempore Speech en
  Gesprekstoespraak van Ouderdomsgroepe van 18-60 jaar
 • Verseker 'n diverse mengsel van sprekers volgens ouderdom, geslag, opvoeding en dialekte
 • Verseker 'n diverse mengsel van opname-omgewings volgens spesifikasies.
 • Elke oudio-opname moet minstens 16kHz maar verkieslik 44kHz wees

Datasegmentering

 • Skep spraaksegmente van 15 sekondes en tydstempel die oudio tot die millisekondes vir elke gegewe spreker, tipe klank (spraak, gebabbel, musiek, geraas), draaie, uitsprake en frases in 'n gesprek
 • Skep elke segment vir sy geteikende klanksein met 'n 200-400 millisekonde vulling aan die begin en einde.
 • Vir alle segmente moet die volgende voorwerpe ingevul word, bv Begintyd, Eindtyd, Segment-ID, Hardheidvlak, Klanktipe, Taalkode, Luidspreker-ID, ens.

Datatranskripsie

 • Volg besonderhede oor transkripsieriglyne rondom karakters en spesiale simbole, spelling en grammatika, hoofletters, afkortings, sametrekkings, individuele gesproke letters, syfers, leestekens, akronieme, onvloeiend, spraak, onverstaanbare spraak, nie-teikentale, nie-spraak ens.

Kwaliteitskontrole en terugvoer

 • Alle opnames moet kwaliteit assessering en validering ondergaan, slegs gevalideerde toespraak moet gelewer word

Oplossing

Met ons diepgaande begrip van gesprekke-KI, het ons die kliënt gehelp om die data te versamel, segmenteer en transkribeer met 'n span kundige versamelaars, taalkundiges en annoteerders om 'n groot korpus oudiodatastel in 8 Indiese tale te bou

Die omvang van die werk vir Shaip het ingesluit, maar was nie beperk nie tot die verkryging van groot volumes oudio-opleidingsdata, segmentering van die oudio-opnames in veelvuldige, transkribeer van die data en die lewering van ooreenstemmende JSON-lêers wat die metadata bevat [SpeakerID, Age, Gender, Language, Dialect,
Moedertaal, Kwalifikasie, Beroep, Domein, Lêerformaat, Frekwensie, Kanaal, Tipe Oudio, Aantal sprekers, Aantal Vreemde Tale, Opstelling wat gebruik word, Smalband of Wyeband oudio, ens.]. 

Shaip het 3000 uur se oudiodata op skaal ingesamel terwyl die gewenste vlakke van kwaliteit gehandhaaf word wat nodig is om spraaktegnologie vir komplekse projekte op te lei. Uitdruklike toestemmingsvorm is van elk van die deelnemers geneem.

1. Data-insameling

2. Datasegmentering

 • Die oudiodata wat ingesamel is, is verder verdeel in spraaksegmente van 15 sekondes elk en tydstempel tot die millisekondes vir elke gegewe spreker, tipe klank, draaie, uitsprake en frases in 'n gesprek
 • Het elke segment geskep vir sy geteikende klanksein met 'n 200-400 millisekondes vulling aan die begin en einde van 'n klanksein.
 • Vir alle segmente was die volgende voorwerpe teenwoordig en gevul, dws begintyd, eindtyd, segment-ID, luidheidsvlak (hard, normaal, stil), primêre klanktipe (spraak, gebabbel, musiek, geraas, oorvleueling), taalkode spreker-ID, transkripsie, ens.

3. Kwaliteitskontrole en terugvoer

 • Alle opnames is vir kwaliteit beoordeel en slegs gevalideerde spraakopnames met WER van 90% en TOV van 90% is gelewer
 • Kwaliteitkontrolelys wat gevolg is:
     » Maksimum 15 sekondes segmentlengte
     » Transkripsie vanaf spesifieke domeine, naamlik: Weer, verskillende soorte nuus, gesondheid, landbou, onderwys, werk of finansies
     » Lae agtergrondgeraas
     » Geen oudiosnit af nie – Geen vervorming
     » Korrekte klanksegmentering vir transkripsie

4. Datatranskripsie
Alle gesproke woorde, insluitend huiwerings, vulwoorde, valse begin en ander verbale tics, is akkuraat in die transkripsie vasgevang. Ons het ook besonderhede-transkripsieriglyne oor hoofletters en kleinletters, spelling, hoofletters, afkortings, sametrekkings, syfers,
leestekens, akronieme, vloeiende spraak, nie-spraak geluide, ens. Verder is die werkvloei wat gevolg word vir versameling en transkripsie soos hieronder:

Uitkoms

Die hoë kwaliteit klankdata van kundige taalkundiges sal die Indiese Instituut vir Tegnologie - Madras in staat stel om meertalige spraakherkenningsmodelle akkuraat op te lei en te bou in 8 Indiese tale met verskillende dialekte in die vasgestelde tyd. Die spraakherkenningsmodelle kan gebruik word om:

 • Oorkom taalversperring vir digitale insluiting deur die burgers te verbind met die inisiatiewe in hul eie moedertaal.
 • Bevorder digitale bestuur
 • Katalisator om 'n ekosisteem te vorm vir dienste en produkte in Indiese tale
 • Meer gelokaliseerde digitale inhoud in die domeine van openbare belang, veral bestuur en beleid
Goue-5-ster

Ons was beïndruk met Shaip se kundigheid in gespreks-KI-ruimte. Hul algehele projekuitvoeringsbevoegdheid van verkryging, segmentering, transkribering en lewering van die vereiste opleidingsdata van kundige taalkundiges in 8 tale binne streng tydlyne en riglyne; terwyl die aanvaarbare standaard van gehalte steeds gehandhaaf word.”

Versnel u gespreks-AI
toepassingsontwikkeling met 100%

Voorgestelde kliënte

Bemagtig spanne om wêreldleidende KI-produkte te bou.