KI-opleidingsdata

Data Wars 2024: Die etiese en praktiese stryd van KI-opleiding

As jy 'n Gen AI-model gevra het om lirieke te skryf vir 'n liedjie soos die Beatles sou hê en as dit 'n indrukwekkende werk gedoen het, is daar 'n rede daarvoor. Of, as jy 'n model gevra het om prosa in die styl van jou gunsteling skrywer te skryf en dit het die styl presies herhaal, is daar 'n rede daarvoor.

Selfs eenvoudig, jy is in 'n ander land en wanneer jy die naam van 'n interessante versnapering wat jy op 'n supermark-gang kry, wil vertaal, bespeur jou slimfoon etikette en vertaal die teks naatloos.

KI staan ​​by die steunpunt van al sulke moontlikhede en dit is hoofsaaklik omdat KI-modelle op groot volumes sulke data opgelei sou gewees het – in ons geval, honderde The Beatles se liedjies en waarskynlik boeke van jou gunsteling skrywer.

Met die opkoms van Generative AI is almal 'n musikant, skrywer, kunstenaar, of dit alles. Gen AI-modelle skep pasgemaakte kunswerke binne sekondes, afhangende van gebruikersaanwysings. Hulle kan skep Van Gogh-isque kunsstukke en laat selfs Al Pacino diensbepalings voorlees sonder dat hy daar was.

Fassinasie opsy, die belangrike aspek hier is etiek. Is dit regverdig dat sulke kreatiewe werke gebruik is om KI-modelle op te lei, wat geleidelik probeer om kunstenaars te vervang? Is toestemming verkry van eienaars van sulke intellektuele eiendomme? Is hulle billik vergoed?

Welkom by 2024: The Year of Data Wars

Oor die laaste paar jaar het data verder 'n magneet geword om die aandag van firmas te trek om hul Gen AI-modelle op te lei. Soos 'n baba is KI-modelle naïef. Hulle moet geleer en dan opgelei word. Dit is hoekom maatskappye miljarde, indien nie miljoene, data benodig om modelle kunsmatig op te lei om mense na te boots.

Byvoorbeeld, GPT-3 is opgelei op miljarde (honderde daarvan) tekens, wat losweg vertaal word na woorde. Bronne onthul egter dat triljoene sulke tekens gebruik is om die meer onlangse modelle op te lei.

Met sulke groot hoeveelhede opleidingsdatastelle wat benodig word, waar gaan groot tegnologiefirmas heen?

Akute tekort aan opleidingsdata

Ambisie en volume gaan hand aan hand. Namate ondernemings hul modelle opskaal en optimeer, benodig hulle selfs meer opleidingsdata. Dit kan voortspruit uit eise om opvolgende modelle van GPT te onthul of bloot verbeterde en presiese resultate te lewer.

Ongeag die geval, is dit onvermydelik om oorvloedige opleidingsdata te benodig.

Dit is waar ondernemings hul eerste padblokkade in die gesig staar. Om dit eenvoudig te stel, die internet word te klein vir KI-modelle om op te oefen. Dit beteken dat maatskappye se bestaande datastelle opraak om hul modelle te voed en op te lei.

Hierdie uitputtende hulpbron skrik belanghebbendes en tegnologie-entoesiaste, aangesien dit moontlik die ontwikkeling en evolusie van KI-modelle kan beperk, wat meestal nou verband hou met hoe handelsmerke hul produkte posisioneer en hoe sommige kwellende bekommernisse in die wêreld beskou word om met KI-gedrewe aangepak te word. oplossings.

Terselfdertyd is daar ook hoop in die vorm van sintetiese data of digitale inteling soos ons dit noem. In leek se terme is sintetiese data die opleidingsdata wat deur KI gegenereer word, wat weer gebruik word om modelle op te lei.

Alhoewel dit belowend klink, glo tegnologiekundiges dat die sintese van sulke opleidingsdata sal lei tot wat Habsburg KI genoem word. Dit is 'n groot bekommernis vir ondernemings, aangesien sulke ingeteelde datastelle feitefoute, vooroordeel kan bevat, of net brabbeltaal kan wees, wat die uitkomste van KI-modelle negatief kan beïnvloed.

Beskou dit as 'n Chinese Whisper-speletjie, maar die enigste kinkel is dat die eerste woord wat oorgedra word ook betekenisloos kan wees.

Die wedloop om KI-opleidingsdata te verkry

Verkryging van ai opleidingsdata Lisensiëring is 'n ideale manier om opleidingsdata te verkry. Alhoewel kragtig, is biblioteke en bewaarplekke eindige bronne. Dit beteken dat hulle nie aan die volumevereistes van grootskaalse modelle kan voldoen nie. 'n Interessante statistiek deel dat ons dalk nie data van hoë gehalte sal hê om modelle teen die jaar 2026 op te lei nie, wat die beskikbaarheid van data weeg op gelyke voet met ander fisiese hulpbronne in die werklike wêreld.

Een van die grootste fotobewaarplekke – Shutterstock het 300 miljoen beelde. Alhoewel dit genoeg is om met opleiding te begin, sal toetsing, validering en optimalisering weer oorvloedige data benodig.

Daar is egter ander bronne beskikbaar. Die enigste vangplek hier is dat hulle in grys gekleur is. Ons praat van die publiek beskikbare data vanaf die internet. Hier is 'n paar interessante feite:

  • Meer as 7.5 miljoen blogplasings word elke dag regstreeks geneem
  • Daar is meer as 5.4 miljard mense op sosiale media-platforms soos Instagram, X, Snapchat, TikTok, en meer.
  • Meer as 1.8 miljard webwerwe bestaan ​​op die internet.
  • Meer as 3.7 miljoen video's word elke dag alleen op YouTube opgelaai.

Boonop deel mense in die openbaar tekste, video's, foto's en selfs vakkundigheid deur slegs oudio-poduitsendings.

Dit is eksplisiet beskikbare stukke inhoud.

Dus, om dit te gebruik om KI-modelle op te lei, moet regverdig wees, nie waar nie?

Dit is die grys area wat ons vroeër genoem het. Daar is geen harde en vinnige mening oor hierdie vraag nie, aangesien tegnologiemaatskappye met toegang tot sulke oorvloedige volumes data vorendag kom met nuwe instrumente en beleidswysigings om hierdie behoefte te akkommodeer.

Sommige instrumente verander oudio van YouTube-video's in teks en gebruik dit dan as tekens vir opleidingsdoeleindes. Ondernemings hersien privaatheidsbeleide en gaan selfs tot die mate dat openbare data gebruik word om modelle op te lei met 'n voorafbepaalde voorneme om regsgedinge in die gesig te staar.

Teenmeganismes

Terselfdertyd ontwikkel maatskappye ook wat sintetiese data genoem word, waar KI-modelle tekste genereer wat weer gebruik kan word om die modelle soos 'n lus op te lei.

Aan die ander kant, om die skrapping van data teen te werk en te verhoed dat ondernemings wettige skuiwergate uitbuit, implementeer webwerwe plugins en kodes om data-scaping bots te versag.

Wat is die uiteindelike oplossing?

Die implikasie van KI in die oplossing van werklike bekommernisse is nog altyd gerugsteun deur edele bedoelings. Waarom moet die verkryging van datastelle om sulke modelle op te lei dan op grys modelle staatmaak?

Soos gesprekke en debatte oor verantwoordelike, etiese en verantwoordbare KI prominensie en sterkte kry, is dit op maatskappye van alle skale om oor te skakel na alternatiewe bronne wat withoedtegnieke het om opleidingsdata te lewer.

Dit is waar Shaip uitblink in. Met die begrip van die heersende bekommernisse rondom dataverkryging, het Shaip nog altyd gepleit vir etiese tegnieke en het konsekwent verfynde en geoptimaliseerde metodes toegepas om data uit diverse bronne te versamel en saam te stel.

White Hat-datastelle verkrygingsmetodologieë

Hoed-datastelle verkrygingsmetodologieë Ons eie data-insamelingsinstrument het mense in die middel van data-identifikasie en afleweringsiklusse. Ons verstaan ​​die sensitiwiteit van gebruiksgevalle waaraan ons kliënte werk en die impak wat ons datastelle op die uitkomste van hul modelle sal hê. Gesondheidsorgdatastelle het byvoorbeeld hul sensitiwiteit in vergelyking met datastelle vir rekenaarvisie vir outonome motors.

Dit is presies hoekom ons modus operandi nougesette kwaliteitkontroles en tegnieke behels om relevante datastelle te identifiseer en saam te stel. Dit het ons in staat gestel om maatskappye te bemagtig met eksklusiewe Gen AI-opleidingsdatastelle oor verskeie formate soos beelde, video's, oudio, teks en meer nisvereistes.

Ons Filosofie

Ons werk volgens kernfilosofieë soos toestemming, privaatheid en regverdigheid in die versameling van datastelle. Ons benadering verseker ook diversiteit in data, so daar is geen bekendstelling van onbewuste vooroordeel nie.

Terwyl die KI-ryk gereed maak vir die aanbreek van 'n nuwe era gekenmerk deur billike praktyke, is ons by Shaip van plan om die vlagdraers en voorlopers van sulke ideologieë te wees. As jy ongetwyfeld billike en kwaliteit datastelle is waarna jy soek om jou KI-modelle op te lei, kontak ons ​​vandag nog.

Sosiale Deel