Die sukses van enige KI-model hang af van die kwaliteit van data wat in die stelsel ingevoer word. ML-stelsels werk op groot hoeveelhede data, maar daar kan nie van hulle verwag word om met net enige data te presteer nie. Dit moet wees hoë kwaliteit AI opleidingsdata. As die uitset van die KI-model outentiek en akkuraat moet wees, nodeloos om te sê, moet die data vir die opleiding van die stelsel van hoë standaarde wees.
Die data waarop die KI- en ML-modelle opgelei word, moet van uitstekende gehalte wees sodat die onderneming betekenisvolle en relevante insigte daaruit kan put. Tog is die verkryging van groot volumes heterogene data 'n uitdaging vir maatskappye.
Maatskappye moet staatmaak op verskaffers soos Shaip, wat streng datakwaliteitbestuurmaatreëls in hul prosesse implementeer om hierdie uitdaging die hoof te bied. Boonop onderneem ons by Shaip ook die voortdurende transformasie van ons stelsels om die ontwikkelende uitdagings die hoof te bied.
Inleiding tot Shaip se datakwaliteitbestuur
By Shaip verstaan ons die belangrikheid van betroubare opleidingsdata en die rol daarvan in die ontwikkeling van ML-modelle en die uitkoms van KI-gebaseerde oplossings. Benewens die keuring van ons werkers vir vaardighede, is ons ewe gefokus op die ontwikkeling van hul kennisbasis en persoonlike ontwikkeling.
Ons volg streng riglyne en standaard bedryfsprosedures wat op alle vlakke van die proses geïmplementeer word sodat ons opleidingsdata aan die kwaliteitmaatstaf voldoen.
Quality Management
Ons kwaliteitbestuurswerkvloei was instrumenteel in die lewering van masjienleer en KI-modelle. Met terugvoer-in-lus is ons kwaliteitbestuursmodel 'n wetenskaplik getoetste metode wat instrumenteel was in die suksesvolle lewering van verskeie projekte vir ons kliënte. Ons kwaliteit ouditprosesvloei verloop op die volgende manier.
- Hersiening van die kontrak
- Skep 'n ouditkontrolelys
- Dokumentverkryging
- Verkryging van 2-laag oudit
- Aantekening teks moderering
- Aantekening 2-laag oudit
- Lewering van Werk
- Kliëntterugvoer
Crowdsource Werker Seleksie en aanboord
Ons streng werkerskeuse en aanboordproses onderskei ons van die res van die kompetisie. Ons onderneem 'n presiese keuringsproses om slegs die mees bekwame annoteerders aan boord te bring, gebaseer op die kwaliteit kontrolelys. Ons oorweeg:
- Vorige ondervinding as 'n teksmoderator om te verseker dat hul vaardighede en ervaring aan ons vereistes voldoen.
- Prestasie in vorige projekte om te verseker dat hul produktiwiteit, kwaliteit en uitset op gelyke voet met die projekbehoeftes was.
- Uitgebreide domeinkennis is 'n vereiste vir die keuse van 'n spesifieke werker vir 'n spesifieke vertikale.
Ons keuringsproses eindig nie hier nie. Ons onderwerp die werkers aan 'n voorbeeldaantekeningtoets om hul kwalifikasies en prestasie te verifieer. Op grond van die prestasie in die verhoor, meningsverskil-analise en V&A, sal hulle gekies word.
Sodra die werkers gekies is, sal hulle 'n deeglike opleidingsessie ondergaan deur Project SOW, riglyne, steekproefmetodes, tutoriale en meer te gebruik, afhangende van die projekbehoefte.
Kontrolelys vir data-insameling
Dubbellaag kwaliteit kontrole word in plek gestel om te verseker net die opleidingsdata van hoë gehalte word deurgegee na die volgende span.
Vlak 1: Gehalteversekeringskontrole
Shaip se QA-span doen die Vlak 1-gehaltekontrole vir data-insameling. Hulle gaan al die dokumente na, en hulle word vinnig teen die nodige parameters bekragtig.
Vlak 2: Kritieke Kwaliteit Analise Kontroleer
Die CQA-span wat bestaan uit betroubare, ervare en gekwalifiseerde hulpbronne sal die oorblywende 20% van die terugwerkende monsters evalueer.
Sommige van die dataverkryging kwaliteit kontrolelys items sluit in,
- Is die URL-bron outentiek, en maak dit voorsiening vir data-webskraping?
- Is daar diversiteit in die kortlys-URL's sodat vooroordeel vermy kan word?
- Is die inhoud bekragtig vir relevansie?
- Sluit die inhoud modereringskategorieë in?
- Word prioriteitsdomeine gedek?
- Is die dokumenttipe verkry met inagneming van dokumenttipeverspreiding?
- Bevat elke modereringsklas die minimum volume blad?
- Word die Terugvoer-in-lus-proses gevolg?
Data-aantekeningkontrolelys
Soortgelyk aan die data-insameling, het ons ook twee lae kwaliteit kontrolelys vir data-aantekeninge.
Vlak 1: Gehalteversekeringskontrole
Hierdie proses verseker dat 100% van dokumente korrek bekragtig word teen die kwaliteit parameters wat deur die span en die kliënt gestel is.
Vlak 2: Kritieke Kwaliteit Analise Kontroleer
Hierdie proses verseker dat 15 tot 20% van die retrospektiewe monsters ook gevalideer en kwaliteit verseker word. Hierdie stap word onderneem deur die gekwalifiseerde en ervare CQA-span met 'n minimum van 10 jaar ondervinding in kwaliteitbestuur en Swartgordelhouers.
Die CQA-span verseker,
- Konsekwentheid in teksmoderering deur gebruikers
- Kontroleer of die korrekte frases en modereringsklasse vir elke dokument gebruik word
- Gaan die metadata na
Ons gee ook daaglikse terugvoer gebaseer op Pareto-analise om te verseker dat hul prestasie in ooreenstemming is met die kliënt se vereistes.
Ons sit nog 'n laag van prestasie-analise in om te fokus op die minste-presterende annoteerders wat onderste kwartielbestuur gebruik. Voor finale aflewering verseker ons ook dat monsterhigiëne-kontroles voltooi word.
Parameter Drempel
Afhangende van die projekriglyne en kliëntvereistes, het ons 'n parameterdrempel van 90 tot 95%. Ons span is toegerus en ervare om enige van die volgende metodes te onderneem om hoër kwaliteit bestuurstandaarde te verseker.
- F1 Telling of F Meet – om die prestasie van twee klassifiseerders te beoordeel – 2* ((Presisie * Herroep)/ (Presisie + Herroep))
- DPO of Defekte per Geleentheid metode word bereken as 'n verhouding van defekte gedeel deur die geleenthede.
Voorbeeld Ouditkontrolelys
Shaip se voorbeeldouditkontrolelys is 'n volledige aanpassingsprosedure wat aangepas kan word om aan die eise van die projek en kliënt te voldoen. Dit kan gewysig word op grond van die terugvoer wat van die kliënt ontvang is en na 'n deeglike bespreking gefinaliseer word.
- Taalkontrole
- URL en domeinkontrole
- Diversiteitskontrole
- Volume per Taal- en modereringsklas
- Geteikende sleutelwoorde
- Dokumenttipe en relevansie
- Kontroleer giftige frase
- Metadata-kontrole
- Konsekwentheidskontrole
- Aantekeningklaskontrole
- Enige ander verpligte tjeks volgens die kliënt se voorkeur
Ons neem streng maatreëls om datakwaliteitstandaarde te handhaaf, want ons verstaan dat alle KI-gebaseerde modelle data-gedrewe is. En, met opleidingsdata van hoë gehalte is 'n vereiste vir alle KI- en masjienleermodelle. Ons verstaan die kritiekheid van kwaliteit opleidingsdata en die belangrikheid daarvan vir die prestasie en sukses van jou KI-modelle.