Maak datastelle oop

Ontdek open source datastelle waarmee u ML -modelle kan oplei

Maak datastelle oop

Open Source -datastelle om aan die gang te kom met AI/ML -modelle

Die uitvoer van u AI- en ML-modelle is net so goed soos die data wat u gebruik om dit op te lei, dus die presisie wat u toepas op data-samevoeging en die merk en identifisering van die data is belangrik!

As u dus met 'n nuwe AI / ML-inisiatief wil begin en nou vinnig besef dat die vind van opleidingsdata van hoë gehalte een van die meer uitdagende aspekte van u projek sal wees, aangesien datastelle van hoë gehalte die brandstof is wat die AI behou / ML-enjin loop. Ons het 'n lys van oop datastelle opgestel wat u AI / ML-modelle van die toekoms vrylik kan gebruik en oplei.

SpesialisasieDatatipeDatastelnaamBedryf / Dept.Annotasie / gebruiksgevalBeskrywingLink
NLPTeksAmazon ResensiesE-handelSentimentanalise'N Stel van 35 Mn resensies en graderings van die afgelope 18 jaar in gewone teks met gebruikers- en produkbesonderhede.Link
NLPTeksWikipedia-skakeldataalgemeneMeer as 4 miljoen. artikels wat 1.9 miljard ton bevat. woord wat bestaan ​​uit woorde en frases sowel as paragrawe.Link
NLPTeksStandford Sentiment TreebankVermaakSentimentanaliseSentimentaantekeninge-datastel vir meer as 10,000 stukke resensies van Rotten Tomatoes in HTML-lêerformaatLink
NLPTeksTwitter Amerikaanse lugdiens sentimentlugrederySentimentanalise2015-tweets op US Airlines het in positiewe, negatiewe en neutrale kleure verdeelLink
CVImage Gesigte in die natuuralgemenegesig erkenningDatastel met meer as 13,000 XNUMX gesnyde gesigte met twee verskillende prente vir gesigsherkenning.Link
CVVideo, beeldUMDFaces-datastelalgemenegesig erkenningGeannoteerde datastel wat meer as 367,000 8,000 gesigte bevat van meer as XNUMX XNUMX onderwerpe wat stil- en videobeelde insluit.Link
CVImage BeeldnetalgemeneDatastel met meer as 14 Mn. beelde in verskillende lêerformate, georganiseer volgens die WordNet-hiërargie.Link
CVImage Google se oop beeldealgemene9 Mn. URL's om openbare beelde uit meer as 6,000 XNUMX kategorieë te kategoriseer.Link
NLPTeksMIMIC kritieke sorg databasisHealthcareRekenaarfisiologie-datastelle met ongedentifiseerde data van 40,000 pasiënte met kritieke sorg. Die datastel bevat inligting soos demografie, vitale tekens, medikasie, ens.Link
CVImageAmerikaanse nasionale reis- en toerismekantoortoerismeVoorsien breë foto's van die toerismebedryf met betroubare databasisse wat onderwerpe dek soos inkomende en uitgaande reis en internasionale toeriste-inligting.Link
NLPTeksDepartement van VervoertoerismeToerismedatastelle wat nasionale parke, bestuurdersregisters, brûe en spoorinligting, ens. InsluitLink
NLPAudioFlickr Audio Caption CorpusalgemeneMeer as 40 8,000 gesproke onderskrifte van XNUMX XNUMX foto's wat ontwerp is vir spraakpatrone sonder toesigLink
NLPAudioSpraakopdragte-datastelalgemeneSpraakherkenning, klankaantekening1 sekonde lang uitsprake van duisende individue, om basiese stemkoppelvlak te bou.Link
NLPAudioOmgewingsoudio-datastellealgemeneOmgewing klank datastelle wat klank bevat van tafels en akoestiese tafels.Link
NLPTeksCOVID-19 oop navorsingsdatastel HealthcareMediese KI'N Navorsingsdatastel wat bestaan ​​uit 45,000 19 wetenskaplike artikels oor COVID-XNUMX en die koronavirus-familie van virusse.Link
CVImageWaymo oop datastel AutomotiveDie mees uiteenlopende outonome ry-datastelle wat deur Waymo vrygestel isLink
CVImageVisuele genoom algemeneByskrifte van foto's'N Visuele kennisbasis met gedetailleerde onderskrifte van meer as 100 XNUMX beeldeLink
CVImageLabelme Openbare Regering.Groot stel beelde wat geannoteer is, is toeganklik via die Labelme MatlabLink
CVImageSPOEL100algemeneMeer as 100 verskillende voorwerpe wat vanuit verskillende hoeke gefotografeer is (dws 360 grade)Link
CVImageStanford Dogs-datastelalgemeneMeer as 20,500 120+ beelde is opgedeel in beeldstelle van XNUMX verskillende honderasseLink
CVImageBinnenshuise toneelherkenningalgemeneToneelherkenning'N Spesifieke datastel wat bestaan ​​uit 15620 beelde uit 67 binnenshuise kategorieë om toneelherkenningsmodelle te bouLink
CVImageVisualQAalgemene'N Datastel wat oop vrae bevat met betrekking tot 265,016 XNUMX foto's wat begrip van visie en taalbegrip vereis om te reageer.Link
NLPTeksMultidomein Sentimentanalise DatastelE-handelSentimentanaliseDatastel wat produkresensies van Amazon bevatLink
NLPTeksIMDB-resensiesVermaakSentimentanaliseDatastel wat 25000 filmoorsig bevat vir sentimentontledingLink
NLPTeksSentiment140algemeneSentimentanaliseDatastel wat 160,000 tweets bevat met voorafverwante emoticons vir hoër akkuraatheidLink
NLPTeksBlogger CorpusalgemeneSleutelwoord AnanlysisDatastel wat 681,288 blogposts van blogger.com bevat, wat bestaan ​​uit minimum 200 voorkoms van baie gebruikte Engelse woorde.Link
NLPTeksGedrangalgemeneChatbot-opleidingDatastel met meer as 200,000 XNUMX vrae wat gebruik kan word om masjienleermodelle op te lei om intelligent outomaties te reageerLink
NLPTeksSMS-strooiposversameling in EngelsTelecomStrooiposherkenning'N Stoorpos vir strooiposboodskappe wat bestaan ​​uit 5,574 Engelse SMS'sLink
NLPTeksYelp ResensiesalgemeneSentimentanalise'N Datastel met meer dan 5 miljoen beoordelingen gepubliceerd door YelpLink
NLPTeksUCI se SpambaseEnterpriseStrooiposherkenning'N Groot versameling strooipos, nuttig vir strooiposfiltering.Link
CVVideo, beeldBerkeley DeepDrive BDD100kAutomotiveOutonome voertuieEen van die grootste datastelsels vir selfbestuurde AI wat 1,100 uur ryervarings bevat in meer as 100,000 video's van verskillende tye van die dag uit New York en San Francisco.Link
CVVideoKomma.aiAutomotiveOutonome voertuie 'N Setsuurbestuurdatastel van 7 uur wat inligting bevat oor die spoed, versnelling, stuurhoek en GPS-koördinate van die motorLink
CVVideo, beeldCityscape-datastelAutomotiveSemantiese etiket vir outonome voertuie'N Datastel van 5,000 20,000 aantekeninge op pixelvlak plus 'n groter stel van 50 XNUMX swak geannoteerde rame in stereovideo-reekse, opgeneem uit XNUMX verskillende stedeLink
CVImageKUL België Verkeersteken DatastelAutomotiveOutonome voertuieMeer as 10000+ verkeerstekensaantekeninge uit die Vlaandere-streek, gebaseer op fisiese verkeerstekens van regoor België.Link
CVImageLISA: Laboratorium vir intelligente en veilige motors, UC San Diego-datastelleAutomotiveOutonome voertuie'N Ryk datastel wat verkeerstekens, opsporing van voertuie, verkeersligte en trajekpatrone bevat.Link
CVImageCIFAR-10algemeneVoorwerpherkenning'N Datastel bestaan ​​uit 50,000 10,000 beelde en 60,000 32 toetsbeelde (dws 32 10 XNUMX × XNUMX kleurbeelde in tien klasse) vir herkenning van voorwerpe.Link
CVImageMode MNISTFashion'N Beelddatastel wat bestaan ​​uit 60,000 10,000 voorbeelde en 'n toetsstel van 28 28 voorbeelde in 10 × XNUMX grysskaalbeelde, geassosieer met 'n etiket uit tien klasse.Link
CVImageIMDB-Wiki-datastelVermaakgesig erkenning'N Groot versameling gesigbeelde met byskrifte soos geslag en ouderdom. Van die totale 523,051 460,723 gesigsbeelde word 20,284 62,328 beelde verkry van XNUMX XNUMX bekendes van IMDB en XNUMX XNUMX van Wikipedia.Link
CVVideoKinetika-700algemeneDie datastel van hoë gehalte bestaan ​​vir elke aksieklas uit 650,000 700 videogrepe en bevat 600 menslike aksieklasse met minstens 10 videogrepe. Hier duur elke snit tien sekondes.Link
CVImageMS CocoalgemeneVoorwerpopsporing, segmenteringDie datastel bevat 328 2.5 beelde en het 'n totaal van 91 minute gevalle en XNUMX voorwerpe om grootskaalse voorwerpopsporing-, segmenterings- en data-onderskrifte-verwante ML-modelle op te lei.Link
CVImageMPII-datastel vir menslike houdingalgemeneOngeveer 25K foto's wat meer as 40K individue met geannoteerde liggaamsgewrigte bevat, word in die datastel opgeneem, wat gebruik word om menslike houdingsberamings te verwoord. Oor die algemeen dek die datastel 410 menslike aktiwiteite en elke prent is voorsien van 'n aktiwiteitsetiket.Link
CVImageMaak beelde oopalgemeneAantekeninge vir voorwerpliggingsBeelddatastel met ongeveer 9 Mn-beelde wat geannoteer is met etikette op beeldvlak, voorwerpsbakke, voorwerpsegmentering ens. begrensingskaste vir 16 voorwerkklasse op 600 Mn beelde.Link
CVVideoApollo Open Platform, deur Baidu Inc, ChinaAutomotiveBegrensende boks, LiDAR'N Ryk outonome ry-datastel wat ontwikkelaars van die nodige data in outonome bestuur voorsien om die doeltreffendheid van die innoverende iterasie te versnel.Link
CVVideo, beeldArgo, deur Argo, VSAAutomotiveGrensdoos, optiese vloei, gedragsetiket, semantiese etiket, baanmerk'N Selfbestuurde datastel wat bestaan ​​uit HD-kaarte met geometriese en semantiese metadata, dws baanlynlyne, baanrigting en rybare area. Die datastel word gebruik om ML-modelle op te lei, om akkurater persepsie-algoritmes te maak, wat sal help om selfbestuurde voertuie veilig te navigeer.Link
CVVideoBosch klein verkeersligte, deur Bosch Noord-Amerika ResearchAutomotiveBindende boks'N Datastel wat bestaan ​​uit 13427 kamerabeelde met 'n resolusie van 1280 * 720 om visie-gebaseerde verkeersligdeteksiestelsel te bou. Die datastel het meer as 24000 geannoteerde verkeersligte.Link
CVVideoBrain4Cars, deur Cornell Univ., Verenigde StateAutomotiveGedragsetiket'N Datastel wat bestaan ​​uit 'n verskeidenheid kajuitsensors (kameras, tasbare sensors, slimtoestelle, ens.) Om nuttige statistieke oor die bestuurder se waaksaamheid te haal. Ons algoritmes kan bestuurders wat lomerig of afgelei is, opspoor en die nodige alarms versterk om die beskerming te verbeter.Link
CVImageCULane, deur Chinese Univ. van Hong Kong, Beijing, ChinaAutomotiveBaanmerk'N Computer Vision-datastel oor die opsporing van verkeersbane, bestaande uit 55 uur se video's waarvan 133,235 88880 (9675-opleidingsstel, 34680-valideringstel en XNUMX toetsstel) rame is onttrek. Dit word versamel deur kameras gemonteer op ses verskillende voertuie wat deur verskillende bestuurders in Beijing bestuur word.Link
CVVideoDAVIS, deur Univ. van Zurich, ETH ¨ Zurich, Duitsland, SwitserlandAutomotive'N End-to-end voertuigbestuuropleidingstel wat gebruik maak van 'n DAVIS-gebeurtenis + raamkamera. Motordata soos stuur, gasklep, GPS, ens. Word gebruik om die samesmelting van raam- en gebeurtenisdata vir motorprogramme te evalueer.Link
CVVideoDBNet, deur Shanghai Jiao Tong Univ., Xiamen Univ., ChinaAutomotivePuntwolk, LiDAR'N Reële data van 1000 KM, wat in lyn is met video, puntwolk, GPS en bestuurdersgedrag vir diepgaande navorsing oor bestuursgedrag.Link
CVVideoDr (oog) ve, deur Univ. van Modena en Reggio Emilia, Modena, ItaliëAutomotiveGedragsetiketDatastel wat 74 videoreekse van elk 5 minute bevat, wat in meer as 500,000 XNUMX rame geannoteer is. Die datastel bestaan ​​uit geografiese verwysings, ryspoed, koers, en etiketteer ook bestuurders se blikfiksasies en hul tydelike integrasie wat taakspesifieke kaarte bied.Link
CVVideoETH Voetganger (2009), deur ETH Zürich, Zürich, SwitserlandalgemeneBindende boks'N Datastel van 74 video-reekse van elk 5 minute, wat in meer as 500,000 XNUMX rame geannoteer is. Die datastel bied posisies vir geo-verwysing, bestuurspoed, rigting en merk ook blikfiksasies vir bestuurders en hul tydelike integrasie, insluitend taakspesifieke kaarte.Link
CVVideoFord (2009), deur Univ. van Michigan, Michigan, VS.AutomotiveBounding Box, LiDAR'N Datastel wat saamgestel is deur 'n outomatiese landvoertuig wat gewapen is met 'n Velodyne 3D-lidar-skandeerder, twee vooruitkykende Rieg-lidars vir stootbesems, 'n tegniese en verbruikers-traagheidseenheid (IMU) en 'n Point Grey Ladybug3-omnidirectionele kamerastelsel.Link
CVVideoHCI Challenging Stereo, Bosch Corporation Research, Hildesheim, Duitslandalgemene'N Datastel van 'n paar miljoen rame van vasgelegde videotonele wat 'n wye verskeidenheid weersomstandighede, veelvuldige lae beweging en diepte bevat; situasies in die stad en platteland, ens.Link
CVVideoJAAD, deur York Universiteit, Oekraïne, KanadaAutomotiveGrensvak, Gedragsetiket"JAAD is 'n datastel vir die bestudering van gesamentlike aandag in die konteks van outonome bestuur. Die fokus is op gedrag van voetgangers en bestuurders op die kruispunt en faktore wat hulle beïnvloed. JAAD-datastel bied 'n versamelde versameling van 346 kort video's snitte (5-10 sek. lank) wat uit meer as 240 uur se ry-opnames van verskillende plekke in Noord-Amerika en Oos-Europa gehaal word. Omskrywings met okklusietikette word gebruik vir alle voetgangers, wat hierdie datastel geskik maak vir opsporing van voetgangers. Gedragsaantekeninge spesifiseer gedrag vir voetgangers wat met die bestuurder in aanraking kom of dit nodig het. Vir elke video is daar verskeie etikette (weer, liggings, ens.) en gedetailleerde gedragsetikette (bv. gestop, gestap, gekyk, ens.). Daarbenewens is 'n lys van demografiese eienskappe voorsien vir elke voetganger (bv. ouderdom, geslag, bewegingsrigting, ens.) sowel as 'n lys van sigbare elemente op die verkeerstoneel (bv. stopteken, verkeers sein, ens.) in elke raam. "Link
CVVideoKAIST Urban, deur KAIST, Suid-KoreaalgemeneLidarDie data-insameling bevat talle liggingsensors vir LiDAR-data en stereobeelde wat op 'n baie komplekse stedelike gebied gerig is (bv. Metropoolgebiede, komplekse geboue en woongebiede).Link
CVImageLISA Verkeersteken, deur Univ. van Kalifornië, San Diego, Verenigde StateAutomotiveBindende boksDie stel datastelle wat video's en geannoteerde rame bevat wat Amerikaanse verkeerstekens bevat. Dit word in twee fases vrygestel, een met slegs die foto's en een met beide foto's en video's.Link
CVImageMapillary Vistas, deur Mapillary AB, GlobalAutomotiveSemantiese etiket'N Fotodatastel op straatvlak vir die interpretasie van straattonele regoor die wêreld met pixel-akkurate en voorbeeldspesifieke menslike aantekeninge.Link
CVVideo, beeldSemantiese KITTI, deur die Universiteit van Bonn, Karlsruhe, DuitslandAutomotiveBegrensende boks, semantiese etiket, baanmerk'N Datastel wat 'n semantiese aantekening vir alle Odometry-maatstafreekse bevat. Die datastel annoteer verskillende soorte bewegende en nie-bewegende verkeer: insluitend motors, fietse, fietse, voetgangers en fietsryers, wat toelaat dat voorwerpe op die toneel bestudeer word.Link
CVVideoStanford Track, deur Stanford Univ., Verenigde StateAutomotiveObjekopsporing / klassifikasie LiDAR, GPS, kodes'N Datastel wat 14,000 benoemde voorwerpsnitte bevat, soos waargeneem deur 'n Velodyne HDL-64E S2 LIDAR in natuurlike straattonele, wat gebruik kan word om masjienleermodelle op te lei vir 3D-objekherkenning.Link
CVVideo, beeldDie Boxy-datastel, deur Bosch, Verenigde StateAutomotiveGrensbus / Voertuigopsporing'N Datastel vir voertuigopsporing wat 2 miljoen geannoteerde voertuie bevat vir die opleiding en ontleding van strategieë vir die herkenning van voorwerpe vir selfbesturende motors op snelweë.Link
CVVideoTME-snelweg, deur die Tsjeggiese tegniese universiteit, Noord-ItaliëAutomotiveBindende boks'N Datastel van 28 knipsels vir 'n totaal van 27 minute wat in 30,000+ voertuigaantekeningsraamwerke verdeel is. Annotasie is semi-outomaties vervaardig met behulp van die data van die laserskandeerder. Hierdie data-insameling behels wisselende verkeerscenario's, aantal bane, kromming van die pad en verligting, wat baie van die voorwaardes van die volle verkryging dek.Link
CVVideoLlamas sonder toesig, deur Bosch, Verenigde StateAutomotiveBaanmerk, LiDARDie Lama-datastel wat nie onder toesig is nie, is geannoteer deur outomatiese bestuurskaarte met hoë definisie te genereer, insluitend baanmerke wat op Lidar gebaseer is. Die outonome voertuig kan op hierdie kaarte gerig word en die baanmerke word in die kameraraam geprojekteer. Die 3D-projeksie word geoptimaliseer deur die teenstrydigheid tussen reeds waargenome en voorspelde beeldmerkers te minimaliseer.Link
NLPAudioFacebook AI veeltalige LibriSpeech (MLS)algemeneKlankaantekening / spraakherkenningFacebook AI Multilingual LibriSpeech (MLS) is 'n grootskaalse oopbron-datastel wat ontwerp is om navorsing oor outomatiese spraakherkenning (ASR) te bevorder. MLS bied meer as 50,000 8 uur klank in XNUMX tale: Engels, Duits, Nederlands, Frans, Spaans, Italiaans, Portugees en Pools. Link