'n Werkende KI-model is gebou op soliede, betroubare en dinamiese datastelle. Sonder ryk en gedetailleerd KI-opleidingsdata byderhand is dit beslis nie moontlik om 'n waardevolle en suksesvolle KI-oplossing te bou nie. Ons weet dat die projek se kompleksiteit die vereiste kwaliteit van data bepaal en bepaal. Maar ons is nie presies seker hoeveel opleidingsdata ons nodig het om die pasgemaakte model te bou nie.
Daar is geen eenvoudige antwoord op wat die regte hoeveelheid is nie opleidingsdata vir masjienleer word benodig. In plaas daarvan om met 'n balparkfiguur te werk, glo ons dat 'n rits metodes jou 'n akkurate idee kan gee van die datagrootte wat jy dalk benodig. Maar voor dit, laat ons verstaan hoekom opleidingsdata van kardinale belang is vir die sukses van jou KI-projek.
Die betekenis van opleidingsdata
Arvind Krishna, uitvoerende hoof van IBM, het tydens die Wall Street Journal se Future of Everything-fees gesê dat byna 80% van werk in 'n KI-projek gaan oor die insameling, skoonmaak en voorbereiding van data.' En hy was ook van mening dat besighede hul KI-ondernemings prysgee omdat hulle nie kan byhou met die koste, werk en tyd wat nodig is om waardevolle opleidingsdata in te samel nie.
Bepaling van die data steekproefgrootte help met die ontwerp van die oplossing. Dit help ook om die koste, tyd en vaardighede wat vir die projek benodig word, akkuraat te skat.
As onakkurate of onbetroubare datastelle gebruik word om ML-modelle op te lei, sal die gevolglike toepassing nie goeie voorspellings verskaf nie.
7 faktore wat die volume opleidingsdata wat benodig word, bepaal
Alhoewel die datavereistes in terme van volume om KI-modelle op te lei heeltemal subjektief is en van geval tot geval geneem moet word, is daar 'n paar universele faktore wat objektief beïnvloed. Kom ons kyk na die mees algemene.
Masjienleermodel
Opleidingsdatavolume hang af van of jou model se opleiding op leer onder toesig of sonder toesig loop. Terwyl eersgenoemde meer opleidingsdata benodig, doen laasgenoemde nie.
Toesig oor leer
Dit behels die gebruik van benoemde data, wat op sy beurt kompleksiteit by die opleiding voeg. Take soos beeldklassifikasie of groepering vereis etikette of attributies vir masjiene om te ontsyfer en te differensieer, wat lei tot die vraag na meer data.
Onbewaakte leer
Die gebruik van benoemde data is nie 'n mandaat in leer sonder toesig nie, en bring dus die behoefte aan enorme volumes data vergelykend af. Met dit gesê, sal die datavolume steeds hoog wees vir modelle om patrone op te spoor en ingebore strukture te identifiseer en dit te korreleer.
Veranderlikheid & Diversiteit
Vir 'n model om so regverdig en objektief as moontlik te wees, moet aangebore vooroordeel heeltemal verwyder word. Dit vertaal slegs na die feit dat meer volumes van diverse datastelle benodig word. Dit verseker dat 'n model menigte waarskynlikhede leer wat bestaan, wat dit toelaat om weg te bly van die generering van eensydige reaksies.
Datavergroting en oordragleer
Die verkryging van kwaliteitdata vir verskillende gebruiksgevalle oor nywerhede en domeine heen is nie altyd naatloos nie. In sensitiewe sektore soos gesondheidsorg of finansies is kwaliteitdata skaars beskikbaar. In sulke gevalle word datavergroting wat die gebruik van gesintetiseerde data behels die enigste pad vorentoe in opleidingsmodelle.
Eksperimentering En Bekragtiging
Iteratiewe opleiding is die balans, waar die volume opleidingsdata wat benodig word, bereken word na konsekwente eksperimentering en validering van resultate. Deur herhaalde toetsing en monitering
modelprestasie, kan belanghebbendes bepaal of meer opleidingsdata benodig word vir responsoptimalisering.
Hoe om opleidingsdatavolumevereistes te verminder
Ongeag of dit die begrotingsbeperking, sperdatum vir die mark of die onbeskikbaarheid van diverse data is, is daar 'n paar opsies wat ondernemings kan gebruik om hul afhanklikheid van groot volumes opleidingsdata te verminder.
Datavergroting
waar nuwe data uit bestaande datastelle gegenereer of gesintetiseer word, is ideaal vir gebruik as opleidingsdata. Hierdie data spruit uit en boots ouerdata na, wat 100% werklike data is.
Oordrag leer
Dit behels die wysiging van die parameters van 'n bestaande model om 'n nuwe taak uit te voer en uit te voer. As jou model byvoorbeeld geleer het om appels te identifiseer, kan jy dieselfde model gebruik en sy bestaande opleidingsparameters wysig om ook lemoene te identifiseer.
Vooraf opgeleide modelle
Waar bestaande kennis as wysheid vir jou nuwe projek gebruik kan word. Dit kan ResNet wees vir take wat verband hou met beeld-identifikasie of BERT vir NLP-gebruiksgevalle.
Werklike voorbeelde van masjienleerprojekte met minimale datastelle
Alhoewel dit onmoontlik klink dat sommige ambisieuse masjienleerprojekte met minimale grondstowwe uitgevoer kan word, is sommige gevalle verstommend waar. Berei voor om verbaas te wees.
Kaggle Verslag | Healthcare | Kliniese Onkologie |
'n Kaggle-opname toon dat meer as 70% van die masjienleerprojekte met minder as 10,000 XNUMX monsters voltooi is. | Met slegs 500 beelde het 'n MIT-span 'n model opgelei om diabetiese neuropatie in mediese beelde van oogskanderings op te spoor. | Deur die voorbeeld met gesondheidsorg voort te sit, het 'n span van Stanford Universiteit daarin geslaag om 'n model te ontwikkel om velkanker op te spoor met slegs 1000 beelde. |
Maak opgevoede raaiskote
Daar is geen towergetal met betrekking tot die minimum hoeveelheid data wat benodig word nie, maar daar is 'n paar reëls wat jy kan gebruik om by 'n rasionale getal uit te kom.
Die reël van 10
As 'n reël, om 'n doeltreffende KI-model te ontwikkel, moet die aantal opleidingsdatastelle wat benodig word, tien keer meer wees as elke modelparameter, ook genoem vryheidsgrade. Die '10' keer-reëls het ten doel om die veranderlikheid te beperk en die diversiteit van data te verhoog. As sodanig kan hierdie reël jou help om jou projek aan die gang te kry deur vir jou 'n basiese idee te gee oor die vereiste hoeveelheid datastelle.
Diep leer
Diep leermetodes help om modelle van hoë gehalte te ontwikkel as meer data aan die stelsel verskaf word. Dit word algemeen aanvaar dat om 5000 gemerkte beelde per kategorie genoeg te hê om 'n diep leeralgoritme te skep wat op gelyke voet met mense kan werk. Om buitengewoon komplekse modelle te ontwikkel, word ten minste 'n minimum van 10 miljoen geëtiketteerde items benodig.
Rekenaarvisie
As jy diep leer vir beeldklassifikasie gebruik, is daar konsensus dat 'n datastel van 1000 benoemde beelde vir elke klas 'n redelike getal is.
Leerkurwes
Leerkurwes word gebruik om die werkverrigting van die masjienleeralgoritme teen datahoeveelheid te demonstreer. Deur die modelvaardigheid op die Y-as en die opleidingsdatastel op die X-as te hê, is dit moontlik om te verstaan hoe die grootte van die data die uitkoms van die projek beïnvloed.
Die nadele van te min data
Jy mag dalk dink dit is nogal duidelik dat 'n projek groot hoeveelhede data benodig, maar soms misluk selfs groot besighede met toegang tot gestruktureerde data om dit te bekom. Opleiding op beperkte of nou datahoeveelhede kan die stop masjienleermodelle van die bereiking van hul volle potensiaal en verhoog die risiko om verkeerde voorspellings te verskaf.
Alhoewel daar geen goue reël is nie en rowwe veralgemening gewoonlik gemaak word om opleidingsdatabehoeftes te voorsien, is dit altyd beter om groot datastelle te hê as om aan beperkings te ly. Die databeperking waaraan u model ly, sou die beperkings van u projek wees.
Wat om te doen as jy meer datastelle benodig
Alhoewel almal toegang tot groot datastelle wil hê, is dit makliker gesê as gedaan. Die verkryging van toegang tot groot hoeveelhede datastelle van kwaliteit en diversiteit is noodsaaklik vir die projek se sukses. Hier gee ons jou strategiese stappe om data-insameling baie makliker te maak.
Maak datastel oop
Oop datastelle word gewoonlik as 'n 'goeie bron' van gratis data beskou. Alhoewel dit waar kan wees, is oop datastelle in die meeste gevalle nie wat die projek benodig nie. Daar is baie plekke vanwaar data verkry kan word, soos regeringsbronne, EU Oop-dataportale, Google Public-dataverkenners, en meer. Daar is egter baie nadele verbonde aan die gebruik van oop datastelle vir komplekse projekte.
Wanneer jy sulke datastelle gebruik, waag jy opleiding en toetsing jou model op verkeerde of ontbrekende data. Die data-insamelingsmetodes is oor die algemeen nie bekend nie, wat die projek se uitkoms kan beïnvloed. Privaatheid, toestemming en identiteitsdiefstal is beduidende nadele van die gebruik van oop databronne.
Aangevulde datastel
Wanneer jy 'n paar het hoeveelheid opleidingsdata maar nie genoeg om aan al jou projekvereistes te voldoen nie, jy moet datavergrotingstegnieke toepas. Die beskikbare datastel word herdoel om aan die behoeftes van die model te voldoen.
Die datamonsters sal verskeie transformasies ondergaan wat die datastel ryk, gevarieerd en dinamies maak. 'n Eenvoudige voorbeeld van datavergroting kan gesien word wanneer beelde hanteer word. 'n Prent kan op baie maniere aangevul word - dit kan gesny, verander, verander, in verskillende hoeke verander word, en kleurinstellings kan verander word.
Sintetiese data
Wanneer daar onvoldoende data is, kan ons ons wend tot sintetiese data-opwekkers. Sintetiese data kom handig te pas in terme van oordragleer, aangesien die model eers op sintetiese data en later op die werklike datastel opgelei kan word. Byvoorbeeld, 'n KI-gebaseerde selfbestuurvoertuig kan eers opgelei word om voorwerpe in te herken en te ontleed rekenaarvisie video speletjies.
Sintetiese data is voordelig wanneer daar 'n gebrek aan werklike lewe is data om op te lei en toets jou opgeleide modelle. Boonop word dit ook gebruik wanneer privaatheid en datasensitiwiteit hanteer word.
Pasgemaakte data-insameling
Gepasmaakte data-insameling is miskien ideaal om datastelle te genereer wanneer ander vorms nie die vereiste resultate inbring nie. Datastelle van hoë gehalte kan gegenereer word met behulp van webskraapnutsmiddels, sensors, kameras en ander gereedskap. Wanneer jy pasgemaakte datastelle benodig wat die werkverrigting van jou modelle verbeter, kan die verkryging van pasgemaakte datastelle dalk die regte stap wees. Verskeie derdeparty-diensverskaffers bied hul kundigheid aan.
Om hoëpresterende KI-oplossings te ontwikkel, moet die modelle opgelei word op goeie kwaliteit betroubare datastelle. Dit is egter nie maklik om ryk en gedetailleerde datastelle in die hande te kry wat uitkomste positief beïnvloed nie. Maar wanneer jy saam met betroubare dataverskaffers saamwerk, kan jy 'n kragtige KI-model met 'n sterk databasis bou.
Het jy 'n wonderlike projek in gedagte, maar wag jy vir pasgemaakte datastelle om jou modelle op te lei of sukkel jy om die regte uitkoms uit jou projek te kry? Ons bied uitgebreide opleidingdatastelle vir 'n verskeidenheid projekbehoeftes. Benut die potensiaal van Shaip deur met een van ons te praat data wetenskaplikes vandag en verstaan hoe ons in die verlede hoëpresterende, kwaliteit datastelle vir kliënte gelewer het.