Die sleutel tot die oorkoming van AI-ontwikkelingshindernisse

Meer betroubare data

Inleiding

Kunsmatige intelligensie het verbeelding begin opneem toe die Tin Man van 'The Wizard of Oz' in 1939 op die silwerdoek verskyn en sedertdien 'n stewiger vastrapplek in die tydgees gekry het. In die toepassing het AI-produkte egter gereelde oplewingsiklusse deurgemaak wat tot dusver die invloedrykste aannemings gestuit het.

Gedurende die oplewing het ingenieurs en navorsers geweldige vordering gemaak, maar wanneer hul aspirasies noodwendig die rekenaarvermoë wat destyds beskikbaar was, oortref, het 'n rustydperk gevolg. Gelukkig is die eksponensiële toename in rekenaarkrag wat deur Moore's Law in 1965 voorspel is, vir die grootste deel akkuraat geblyk, en die betekenis van hierdie toename is moeilik om te oordoen.

Ai-ontwikkelingshindernisse
Lees die e -boek: die sleutel om AI -ontwikkelingshindernisse te oorkom, of laai 'n PDF -weergawe van die e -boek af.

Die sleutel tot die oorkoming van AI-ontwikkelingshindernisse: betroubaarder data

Vandag het die gemiddelde persoon nou miljoene keer meer rekenaarkrag in sy sak as wat NASA die maanlanding in 1969 moes aflê. Dieselfde alomteenwoordige toestel wat gemaklik 'n oorvloed rekenaarkrag demonstreer, vervul ook nog 'n voorvereiste vir AI se goue era: 'n oorvloed data. Volgens insigte van die Information Overload Research Group is 90% van die wêreld se data die afgelope twee jaar geskep. Noudat die eksponensiële groei in rekenaarkrag uiteindelik saamgeval het met ewe meteore groei in die generering van data, ontplof AI-innovasies so dat sommige kenners dink dat hulle 'n vierde industriële rewolusie sal begin.

Data van die National Venture Capital Association dui aan dat die AI-sektor in die eerste kwartaal van 6.9 'n rekord van 2020 miljard dollar belê het. Dit is nie moeilik om die potensiaal van AI-instrumente raak te sien nie, want daar word reeds oral om ons getap. Sommige van die meer sigbare gebruiksgevalle vir KI-produkte is die aanbevelingsmotors agter ons gunsteling toepassings soos Spotify en Netflix. Alhoewel dit lekker is om 'n nuwe kunstenaar te ontdek om na te luister of 'n nuwe TV-program om na te kyk, is hierdie implementerings redelik laag. Ander algoritmes se puntetellings - deels om te bepaal waar studente tot die universiteit toegelaat word - en nog ander deursy kandidaat-CV's en besluit watter aansoekers 'n spesifieke werk kry. Sommige KI-instrumente kan selfs lewens- of doodsimplikasies hê, soos die KI-model wat kyk vir borskanker (wat beter is as dokters).

Ondanks bestendige groei in beide werklike voorbeelde van KI-ontwikkeling en die aantal opstart wat meeding om die volgende generasie transformasie-instrumente te skep, bly uitdagings vir effektiewe ontwikkeling en implementering. In die besonder is die uitvoer van KI net so akkuraat as wat die invoer toelaat, wat beteken dat die belangrikste gehalte is.

Ai-ontwikkelingshindernisse

Die uitdaging van inkonsekwente datakwaliteit in AI-oplossings

Daar word inderdaad ongelooflik baie data elke dag gegenereer: 2.5 miljoen grepe, volgens Social Media Today. Maar dit beteken nie dat dit u waardig is om u algoritme op te lei nie. Sommige data is onvolledig, ander is van lae gehalte en ander is eenvoudig onakkuraat, dus as u enige van hierdie foutiewe inligting gebruik, sal dit dieselfde eienskappe van u (duur) KI-datainnovasie tot gevolg hê. Volgens navorsing van Gartner sal ongeveer 85% van die KI-projekte wat in 2022 geskep is, onakkurate resultate lewer weens bevooroordeelde of onakkurate data. Alhoewel u maklik 'n aanbeveling van 'n liedjie kan oorslaan wat nie na u smaak pas nie, hou ander onakkurate algoritmes 'n aansienlike finansiële en reputasie-koste in.

In 2018 het Amazon begin met die gebruik van 'n AI-aangedrewe huurinstrument, wat sedert 2014 in produksie was, wat 'n sterk en onmiskenbare vooroordeel teenoor vroue gehad het. Dit blyk dat die rekenaarmodelle wat die instrument ondersteun, opgelei is met behulp van CV's wat meer as 'n dekade aan die maatskappy voorgelê is. Aangesien die meeste tegnologiese aansoekers mans was (en nog steeds is, miskien as gevolg van hierdie tegnologie), het die algoritme besluit om CV's te penaliseer met 'vrouens' wat oral ingesluit is - byvoorbeeld vrouesokkerkaptein of vrouegroep. Daar is selfs besluit om die aansoekers van twee vrouekolleges te straf. Amazon beweer dat die instrument nooit as die enigste maatstaf vir die evaluering van potensiële kandidate gebruik is nie, maar dat werwers na die aanbevelingsenjin gekyk het om nuwe werksgeleenthede te soek.

Die Amazon-huurinstrument is uiteindelik geskrap na jare se werk, maar die les bly aanhoudend en beklemtoon die belangrikheid van datakwaliteit by die opleiding van algoritmes en AI-instrumente. Hoe lyk data van 'n hoë gehalte? Kortom, dit merk hierdie vyf blokkies:

1. Relevant

Om as 'n hoë gehalte beskou te word, moet data iets waardevols in die besluitnemingsproses bring. Is daar 'n korrelasie tussen die status van 'n aansoeker as staatskampioen en hul prestasies op die werk? Dit is moontlik, maar dit lyk baie onwaarskynlik. Deur die onkruid van data wat nie relevant is nie, kan 'n algoritme fokus op die sorteer van die inligting wat die uitwerking werklik beïnvloed.

2. Akkuraat

Die gegewens wat u gebruik, moet die idees wat u toets akkuraat weergee. Indien nie, is dit nie die moeite werd nie. Amazon het byvoorbeeld sy huuralgoritme opgelei deur gebruik te maak van 10 jaar aansoekers-CV's, maar dit is onduidelik of die maatskappy eers die inligting oor die CV's bevestig het. Navorsing van die verwysingsonderneming Checkster toon dat 78% van die aansoekers lieg of dit sou oorweeg om op 'n werkaansoek te lê. As 'n algoritme byvoorbeeld aanbevelingsbesluite neem met die GPA van 'n kandidaat, is dit 'n goeie idee om eers die egtheid van die getalle te bevestig. Hierdie proses sal tyd en geld verg, maar dit sal ook ongetwyfeld die akkuraatheid van u resultate verbeter.

3. Behoorlik georganiseer en geannoteer

In die geval van 'n huurmodel gebaseer op CV's, is aantekeninge relatief maklik. In 'n sekere sin word 'n CV vooraf geannoteer, hoewel daar ongetwyfeld uitsonderings sal wees. Die meeste aansoekers noem hul werkservaring onder 'Ondervinding' en die relevante vaardighede onder 'Vaardighede'. In ander situasies, soos kankersifting, sal die data egter baie meer uiteenlopend wees. Inligting kan voorkom in die vorm van mediese beelding, die resultate van 'n fisiese ondersoek, of selfs 'n gesprek tussen die dokter en pasiënt oor die geskiedenis van die gesin se gesondheid en gevalle van kanker, onder andere inligting. Om hierdie inligting by te dra tot 'n akkurate opsporingsalgoritme, moet dit noukeurig georganiseer en geannoteer word om te verseker dat die KI-model leer om akkurate voorspellings te maak op grond van die regte afleidings.

4. Op datum

Amazon het probeer om 'n instrument te skep wat tyd en geld sou bespaar deur dieselfde huurbesluite weer te gee wat mense in baie minder tyd neem. Om die aanbevelings so akkuraat as moontlik te maak, moet data op datum gehou word. As 'n onderneming een keer 'n voorkeur getoon het vir kandidate met die vermoë om tikmasjiene te herstel, sou hierdie historiese aanstellings waarskynlik nie veel invloed gehad het op die geskiktheid van hedendaagse werksaansoekers vir enige vorm van rol nie. As gevolg hiervan sal dit verstandig wees om dit te verwyder.

5. Geskik uiteenlopend

Amazon-ingenieurs het verkies om 'n algoritme met 'n poel aansoekers op te lei wat oorweldigend manlik was. Hierdie beslissing was 'n kritieke fout, en dit is nie minder erg as gevolg van die feit dat dit die CV's was wat die onderneming destyds beskikbaar gehad het nie. Amazon-ingenieurs kon 'n vennootskap gehad het met gewaardeerde organisasies met soortgelyke beskikbare poste wat meer vroulike aansoekers ontvang het om die gebrek te vergoed, of dit sou kon verminder die aantal CV's van mans kunsmatig om by die aantal vroue en opgeleide en die algoritme gelei met 'n akkurater voorstelling van die bevolking. Die punt is dat data diversiteit is die sleutel, en tensy 'n daadwerklike poging aangewend word om vooroordeel in insette uit te skakel, sal bevooroordeelde uitsette dit doen seëvier.

Dit is duidelik dat data van hoë gehalte nie net uit die niet verskyn nie. In plaas daarvan moet dit noukeurig saamgestel word met die beoogde resultate in gedagte. In die KI-veld word dikwels gesê dat 'vullis in' vullis beteken '. Hierdie stelling is waar, maar dit onderskat die belangrikheid van kwaliteit. KI kan ongelooflike hoeveelhede inligting verwerk en van alles verander, van voorraadopnames tot huuraanbevelings tot mediese diagnoses. Hierdie vermoë oortref die vermoë van mense ver, wat ook beteken dat dit die resultate vergroot. Een bevooroordeelde menslike werwer kon net soveel vroue oor die hoof sien, maar 'n bevooroordeelde AI-werwer kon almal oor die hoof sien. In daardie sin beteken vullis nie net vullis nie; dit beteken dat 'n klein hoeveelheid "vullis" data in 'n hele stortingsterrein kan verander.

Oorkom van AI-ontwikkelingshindernisse

AI-ontwikkelingspogings sluit belangrike hindernisse in, ongeag in watter bedryf dit plaasvind, en die proses om van 'n haalbare idee na 'n suksesvolle produk te kom, is moeilik. Tussen die uitdagings van die verkryging van die regte data en die noodsaaklikheid om dit te anonimiseer om aan alle relevante regulasies te voldoen, kan dit voel asof dit maklik is om 'n algoritme te konstrueer en op te lei.

Om u organisasie alle voordele te gee wat nodig is in die poging om 'n baanbrekende nuwe AI-ontwikkeling te ontwerp, moet u dit oorweeg om saam te werk met 'n maatskappy soos Shaip. Chetan Parikh en Vatsal Ghiya het Shaip gestig om maatskappye te help om die oplossings te ontwikkel wat gesondheidsorg in die VSA kan transformeer. Na meer as 16 jaar in ons besigheid, het ons maatskappy gegroei tot meer as 600 spanlede, en ons het saam met honderde klante om oortuigende idees in KI-oplossings te omskep.

Met ons mense, prosesse en platform wat vir u organisasie werk, kan u die volgende vier voordele onmiddellik ontsluit en u projek katapulteer om suksesvol te voltooi:

1. Die vermoë om u datawetenskaplikes te bevry


Daar is geen oplossing nie, die AI -ontwikkelingsproses verg baie tyd, maar u kan altyd die funksies optimaliseer wat u span die meeste tyd bestee. U het u data -wetenskaplikes aangestel omdat hulle kundiges is in die ontwikkeling van gevorderde algoritmes en masjienleermodelle, maar die navorsing toon deurgaans aan dat hierdie werkers eintlik 80% van hul tyd bestee aan die verkryging, skoonmaak en organisering van die data wat die projek sal dryf. Meer as driekwart (76%) van data-wetenskaplikes meld dat hierdie alledaagse data-insamelingsprosesse ook hul minste gunsteling dele van die werk is, maar die behoefte aan kwaliteitsdata laat slegs 20% van hul tyd oor vir die werklike ontwikkeling, die interessantste en intellektueel stimulerende werk vir baie data -wetenskaplikes. Deur data deur middel van 'n derdeparty-verkoper soos Shaip te verkry, kan 'n onderneming sy duur en talentvolle data-ingenieurs toelaat om hul werk as data-oppassers uit te kontrakteer en eerder hul tyd te bestee aan die dele van AI-oplossings waar hulle die meeste waarde kan lewer.

2. Die vermoë om beter uitkomste te bereik

Baie AI-ontwikkelingsleiers besluit om oopbron- of skaargegewensdata te gebruik om uitgawes te verminder, maar op die langtermyn kos dit byna altyd meer. Hierdie tipe data is maklik beskikbaar, maar dit kan nie ooreenstem met die kwaliteit van versigtig saamgestelde datastelle nie. Veral data wat oorvloedig is, bevat baie foute, weglatings en onakkuraathede, en hoewel hierdie probleme soms onder die wakende oë van u ingenieurs tydens die ontwikkelingsproses uitgesorteer kan word, verg dit aanvullende herhalings wat nie nodig sou wees as u met 'n hoër -kwaliteit data van die begin af.

Vertrou op open source-data is nog 'n algemene kortpad met sy eie stel slaggate. 'N Gebrek aan differensiasie is een van die grootste probleme, want 'n algoritme wat opgelei word met behulp van open source data, word makliker herhaal as een wat op gelisensieerde datastelle gebou is. Deur hierdie roete te volg, nooi u kompetisie uit van ander deelnemers in die ruimte wat u pryse kan onderdruk en te eniger tyd markaandeel kan neem. As u op Shaip vertrou, verkry u toegang tot die hoogste gehalte data wat deur 'n bekwame bestuurde personeel saamgestel word, en ons kan u 'n eksklusiewe lisensie verleen vir 'n persoonlike datastel wat verhoed dat mededingers u hardverwante intellektuele eiendom maklik kan herskep.

3. Toegang tot ervare professionele persone

Toegang tot ervare professionele persone Al bevat u interne rooster vaardige ingenieurs en talentvolle data-wetenskaplikes, kan u AI-instrumente baat vind by die wysheid wat net deur ervaring kom. Ons vakdeskundiges het aanleiding gegee tot talle KI-implementasies in hul vakgebiede en onderweg waardevolle lesse geleer, en hul enigste doel is om u te help om joune te bereik.

Met domeinkenners wat data vir u identifiseer, organiseer, kategoriseer en etiketteer, weet u dat die inligting wat gebruik word om u algoritme op te lei, die beste moontlike resultate kan lewer. Ons doen ook gereeld gehalteversekering om seker te maak dat data aan die hoogste standaarde voldoen en nie net in 'n laboratorium nie, maar ook in 'n werklike situasie sal optree.

4. 'n Versnelde ontwikkelingstydlyn

KI-ontwikkeling vind nie oornag plaas nie, maar dit kan vinniger gebeur as u met Shaip saamwerk. Interne data-insameling en -aantekeninge skep 'n beduidende bedrywige knelpunt wat die res van die ontwikkelingsproses hou. Om met Shaip te werk, gee u onmiddellike toegang tot ons uitgebreide biblioteek met gereed-vir-gebruik-data, en ons kundiges kan met behulp van ons diep industrie-kennis en wêreldwye netwerk enige soort addisionele insette verkry wat u benodig. Sonder die las van aankope en annotasies, kan u span dadelik aan die werklike ontwikkeling werk, en ons opleidingsmodel kan help om vroeë onakkuraathede te identifiseer om die nodige herhalings om akkuraatheidsdoelwitte te bereik, te verminder.

As u nie gereed is om alle aspekte van u databestuur uit te kontrakteer nie, bied Shaip ook 'n wolkgebaseerde platform wat spanne help om verskillende soorte data doeltreffender te vervaardig, te verander en aan te teken, insluitend ondersteuning vir beelde, video, teks en klank. . ShaipCloud bevat 'n verskeidenheid intuïtiewe instrumente vir validering en werkvloei, soos 'n gepatenteerde oplossing om werklading op te spoor en te monitor, 'n transkripsie-instrument om komplekse en moeilike klankopnames te transkribeer, en 'n komponent vir kwaliteitskontrole om kompromislose gehalte te verseker. Die beste van alles is dat dit skaalbaar is, sodat dit kan groei namate die verskillende eise van u projek toeneem.

Die ouderdom van KI-innovasie begin nou eers, en ons sal ongelooflike vooruitgang en innovasies sien in die komende jare wat die potensiaal het om hele bedrywe te hervorm of selfs die samelewing as geheel te verander. By Shaip wil ons ons kundigheid gebruik om as transformerende krag te dien, wat die mees revolusionêre maatskappye in die wêreld help om die krag van KI-oplossings te benut om ambisieuse doelwitte te bereik.

Ons het diep ervaring in gesondheidsorgtoepassings en AI, maar ons het ook die nodige vaardighede om modelle op te lei vir bykans enige soort toepassing. Vir meer inligting oor hoe Shaip u kan help om u projek van idee tot implementering te neem, kyk na die vele bronne wat op ons webwerf beskikbaar is of kontak ons ​​vandag.

'N Versnelde ontwikkelingstydlyn

Kom ons praat

  • Deur te registreer stem ek saam met Shaip Privaatheidsbeleid en Algemene Diens en gee my toestemming om B2B-bemarkingskommunikasie van Shaip te ontvang.