Musiek KI-gevallestudie

Singstemdataversameling

Stemgebaseerde sangoudioversameling vir EQ- en kompressiealgoritme-opleiding: vaslegging van linguistiese en musikale diversiteit

Stemgebaseerde sang-oudioversameling

projek Oorsig

Shaip het 'n vennootskap met 'n toonaangewende tegnologiemaatskappy aangegaan om diverse sang-oudio-opnames oor vier geprioritiseerde tale te versamel: Chinees, Arabies, Spaans en Russies. Die projek het ten doel gehad om data van hoë gehalte te verskaf vir die opleiding van AI-gebaseerde EQ en kompressie-algoritmes, wat noodsaaklik is vir die verbetering van outomatiese klankverwerking.

Die versameling het 40 deelnemers (10 per taal) uit verskeie genres ingesluit, met 'n fokus op opnames van ateljeegehalte met behulp van diverse mikrofone en omgewings.

Sing klankversameling

Sleutelstatistieke

4 tale: Chinees, Arabies, Spaans, Russies

10 sangers vir
taal (totaal 40)

20 uur of
sing klank

Klankformaat: 48 kHz PCM, mono, WAV

Oudio-transkripsie in inheemse tale

Projek Duur:
18 weke

Projek Omvang

Data-insameling

Die omvang het die versameling sangklank in vier geteikende tale ingesluit, opgeneem deur regte kunstenaars oor verskeie musikale genres. ’n Ateljee-omgewing is gebruik om opnames van hoë gehalte te verseker wat geskik is vir die opleiding van KI-modelle.

Sleutelvereistes

  • Deelnemers: 10 sangers per taal, met 'n gebalanseerde geslagsverspreiding (50% manlik, 50% vroulik).
  • Genres: 'n Verskeidenheid genres, self geïdentifiseer deur die kunstenaar, bekragtig vir konsekwentheid.
  • Opname omgewing: Ateljeegehalte, met veelvuldige mikrofooninstellings (dinamies, kondensor).
  • Klank-formaat: 48 kHz PCM, mono, WAV-lêers, sonder verwerking (bv. geen kompressie, EQ, galm).
  • transkripsie: Liedjies wat getranskribeer moet word in die taal wat hulle gesing word, met spesiale reëls vir tweetalige liedjies.
  • Tale: Chinees, Arabies, Spaans, Russies
  • transkripsie
    • Transkripsies moet in die taal van die opname verskaf word (bv. Hindi-reëls in Devanagari, gevolg deur Engels).
    • Maak seker dat elke segment nie langer as 15 sekondes is nie vir duidelikheid en akkuraatheid.
  • Vereistes vir oudio-opname
    • Minimum 3 mikrofooninstellings per opnamesessie.
    • 3 minute per liedjie, met 3 take per liedjie, wat diverse mikrofoonopnames vir elke deelnemer verseker.
    • Akoestiese omgewing van ateljeegehalte sonder agtergrondgeraas.

Uitdagings

Deelnemer Diversiteit

Om 'n gebalanseerde verspreiding van sangers volgens geslag, stemtoon/toonhoogte en musikale genre te verseker, was 'n komplekse uitdaging.

Datakonsekwentheid

Die handhawing van konsekwente mikrofooninstellings en -omgewing terwyl verskillende vokale optredes in verskeie tale vasgelê word.

Kwaliteitbeheer vir klank

Verseker ateljeegehalte klank sonder eksterne geraas, en akkurate transkripsie in verskeie tale.

Oplossing

Shaip het 'n omvattende oplossing gelewer om aan die projek se vereistes te voldoen deur:

  • Werf 40 sangers oor vier tale en verseker uiteenlopende verteenwoordiging in geslag, toonhoogte en musiekstyl.
  • Die uitvoer van opnames van ateljeegehalte met verskillende mikrofoontipes (dinamies, kondensor) om 'n wye reeks klankdata vas te vang.
  • Transkribeer opnames akkuraat in die tale wat gebruik word, volgens spesifieke reëls vir tweetalige liedjies.
  • Toestemming: Toestemmingsvorms sal van alle deelnemers afgehaal word voor opname.

Uitkoms

Die diverse sangklankdata wat ingesamel is, het die kliënt in staat gestel om 'n robuuste opleidingstel vir outomatiese EQ en kompressie-algoritmes te ontwikkel, wat die kwaliteit van oudioverwerking verbeter het. Die opnames van hoë gehalte en gedetailleerde metadata het verseker dat die KI-modelle verskeie musikale genres en linguistiese kompleksiteite kon hanteer. Sleuteluitkomste:

  • Hoë kwaliteit, diverse klankdata vir opleiding van KI-stelsels.
  • Akkurate transkripsie en metadata vir analise.
  • 'n Sterker grondslag vir AI-gebaseerde klankverwerkingsinstrumente.

Aflewerbares

  • 20 uur se klankopnames van ateljeegehalte (48 kHz PCM, mono WAV-lêers).
  • Transkripsies in die taal van die opname.
  • Metadata: mikrofoonfabrikaat/model, DAC/oudio-koppelvlak, sangerprofiel, genre-inligting.
  • JSON-formaat vir transkripsie met metadata.

Shaip se vermoë om die diversiteit van musikale talent en taalrykheid vas te vang was van onskatbare waarde vir die ontwikkeling van ons EQ en kompressie-algoritmes. Hul span het verseker dat elke aspek, van kunstenaarswerwing tot opnamekwaliteit, met presisie hanteer is, wat dit 'n noodsaaklike stap maak om ons outomatiese klankverwerkingstelsels te verfyn.

Ons is opreg dankbaar vir die vertroue en samewerking wat Shaip deur die proses getoon het. Ten spyte van ons streng en uitdagende tegniese vereistes, was hul toewyding, harde werk en aandag aan detail uitstaande. Dit was 'n plesier om saam met 'n span te werk wat so toegewyd is om uitnemendheid te lewer

Goue-5-ster