Maak datastelle oop
Ontdek open source datastelle waarmee u ML -modelle kan oplei
Open Source -datastelle om aan die gang te kom met AI/ML -modelle
Die uitvoer van u AI- en ML-modelle is net so goed soos die data wat u gebruik om dit op te lei, dus die presisie wat u toepas op data-samevoeging en die merk en identifisering van die data is belangrik!
As u dus met 'n nuwe AI / ML-inisiatief wil begin en nou vinnig besef dat die vind van opleidingsdata van hoë gehalte een van die meer uitdagende aspekte van u projek sal wees, aangesien datastelle van hoë gehalte die brandstof is wat die AI behou / ML-enjin loop. Ons het 'n lys van oop datastelle opgestel wat u AI / ML-modelle van die toekoms vrylik kan gebruik en oplei.
Spesialisasie | Datatipe | Datastelnaam | Bedryf / Dept. | Annotasie / gebruiksgeval | Beskrywing | Link |
---|---|---|---|---|---|---|
NLP | Teks | Amazon Resensies | E-handel | Sentimentanalise | 'N Stel van 35 Mn resensies en graderings van die afgelope 18 jaar in gewone teks met gebruikers- en produkbesonderhede. | Link |
NLP | Teks | Wikipedia-skakeldata | algemene | Meer as 4 miljoen. artikels wat 1.9 miljard ton bevat. woord wat bestaan uit woorde en frases sowel as paragrawe. | Link | |
NLP | Teks | Standford Sentiment Treebank | Vermaak | Sentimentanalise | Sentimentaantekeninge-datastel vir meer as 10,000 stukke resensies van Rotten Tomatoes in HTML-lêerformaat | Link |
NLP | Teks | Twitter Amerikaanse lugdiens sentiment | lugredery | Sentimentanalise | 2015-tweets op US Airlines het in positiewe, negatiewe en neutrale kleure verdeel | Link |
CV | Image | Gesigte in die natuur | algemene | gesig erkenning | Datastel met meer as 13,000 XNUMX gesnyde gesigte met twee verskillende prente vir gesigsherkenning. | Link |
CV | Video, beeld | UMDFaces-datastel | algemene | gesig erkenning | Geannoteerde datastel wat meer as 367,000 8,000 gesigte bevat van meer as XNUMX XNUMX onderwerpe wat stil- en videobeelde insluit. | Link |
CV | Image | Beeldnet | algemene | Datastel met meer as 14 Mn. beelde in verskillende lêerformate, georganiseer volgens die WordNet-hiërargie. | Link | |
CV | Image | Google se oop beelde | algemene | 9 Mn. URL's om openbare beelde uit meer as 6,000 XNUMX kategorieë te kategoriseer. | Link | |
NLP | Teks | MIMIC kritieke sorg databasis | Healthcare | Rekenaarfisiologie-datastelle met ongedentifiseerde data van 40,000 pasiënte met kritieke sorg. Die datastel bevat inligting soos demografie, vitale tekens, medikasie, ens. | Link | |
CV | Image | Amerikaanse nasionale reis- en toerismekantoor | toerisme | Voorsien breë foto's van die toerismebedryf met betroubare databasisse wat onderwerpe dek soos inkomende en uitgaande reis en internasionale toeriste-inligting. | Link | |
NLP | Teks | Departement van Vervoer | toerisme | Toerismedatastelle wat nasionale parke, bestuurdersregisters, brûe en spoorinligting, ens. Insluit | Link | |
NLP | Audio | Flickr Audio Caption Corpus | algemene | Meer as 40 8,000 gesproke onderskrifte van XNUMX XNUMX foto's wat ontwerp is vir spraakpatrone sonder toesig | Link | |
NLP | Audio | Spraakopdragte-datastel | algemene | Spraakherkenning, klankaantekening | 1 sekonde lang uitsprake van duisende individue, om basiese stemkoppelvlak te bou. | Link |
NLP | Audio | Omgewingsoudio-datastelle | algemene | Omgewing klank datastelle wat klank bevat van tafels en akoestiese tafels. | Link | |
NLP | Teks | COVID-19 oop navorsingsdatastel | Healthcare | Mediese KI | 'N Navorsingsdatastel wat bestaan uit 45,000 19 wetenskaplike artikels oor COVID-XNUMX en die koronavirus-familie van virusse. | Link |
CV | Image | Waymo oop datastel | Automotive | Die mees uiteenlopende outonome ry-datastelle wat deur Waymo vrygestel is | Link | |
CV | Image | Visuele genoom | algemene | Byskrifte van foto's | 'N Visuele kennisbasis met gedetailleerde onderskrifte van meer as 100 XNUMX beelde | Link |
CV | Image | Labelme | Openbare Regering. | Groot stel beelde wat geannoteer is, is toeganklik via die Labelme Matlab | Link | |
CV | Image | SPOEL100 | algemene | Meer as 100 verskillende voorwerpe wat vanuit verskillende hoeke gefotografeer is (dws 360 grade) | Link | |
CV | Image | Stanford Dogs-datastel | algemene | Meer as 20,500 120+ beelde is opgedeel in beeldstelle van XNUMX verskillende honderasse | Link | |
CV | Image | Binnenshuise toneelherkenning | algemene | Toneelherkenning | 'N Spesifieke datastel wat bestaan uit 15620 beelde uit 67 binnenshuise kategorieë om toneelherkenningsmodelle te bou | Link |
CV | Image | VisualQA | algemene | 'N Datastel wat oop vrae bevat met betrekking tot 265,016 XNUMX foto's wat begrip van visie en taalbegrip vereis om te reageer. | Link | |
NLP | Teks | Multidomein Sentimentanalise Datastel | E-handel | Sentimentanalise | Datastel wat produkresensies van Amazon bevat | Link |
NLP | Teks | IMDB-resensies | Vermaak | Sentimentanalise | Datastel wat 25000 filmoorsig bevat vir sentimentontleding | Link |
NLP | Teks | Sentiment140 | algemene | Sentimentanalise | Datastel wat 160,000 tweets bevat met voorafverwante emoticons vir hoër akkuraatheid | Link |
NLP | Teks | Blogger Corpus | algemene | Sleutelwoord Ananlysis | Datastel wat 681,288 blogposts van blogger.com bevat, wat bestaan uit minimum 200 voorkoms van baie gebruikte Engelse woorde. | Link |
NLP | Teks | Gedrang | algemene | Chatbot-opleiding | Datastel met meer as 200,000 XNUMX vrae wat gebruik kan word om masjienleermodelle op te lei om intelligent outomaties te reageer | Link |
NLP | Teks | SMS-strooiposversameling in Engels | Telecom | Strooiposherkenning | 'N Stoorpos vir strooiposboodskappe wat bestaan uit 5,574 Engelse SMS's | Link |
NLP | Teks | Yelp Resensies | algemene | Sentimentanalise | 'N Datastel met meer dan 5 miljoen beoordelingen gepubliceerd door Yelp | Link |
NLP | Teks | UCI se Spambase | Enterprise | Strooiposherkenning | 'N Groot versameling strooipos, nuttig vir strooiposfiltering. | Link |
CV | Video, beeld | Berkeley DeepDrive BDD100k | Automotive | Outonome voertuie | Een van die grootste datastelsels vir selfbestuurde AI wat 1,100 uur ryervarings bevat in meer as 100,000 video's van verskillende tye van die dag uit New York en San Francisco. | Link |
CV | Video | Komma.ai | Automotive | Outonome voertuie | 'N Setsuurbestuurdatastel van 7 uur wat inligting bevat oor die spoed, versnelling, stuurhoek en GPS-koördinate van die motor | Link |
CV | Video, beeld | Cityscape-datastel | Automotive | Semantiese etiket vir outonome voertuie | 'N Datastel van 5,000 20,000 aantekeninge op pixelvlak plus 'n groter stel van 50 XNUMX swak geannoteerde rame in stereovideo-reekse, opgeneem uit XNUMX verskillende stede | Link |
CV | Image | KUL België Verkeersteken Datastel | Automotive | Outonome voertuie | Meer as 10000+ verkeerstekensaantekeninge uit die Vlaandere-streek, gebaseer op fisiese verkeerstekens van regoor België. | Link |
CV | Image | LISA: Laboratorium vir intelligente en veilige motors, UC San Diego-datastelle | Automotive | Outonome voertuie | 'N Ryk datastel wat verkeerstekens, opsporing van voertuie, verkeersligte en trajekpatrone bevat. | Link |
CV | Image | CIFAR-10 | algemene | Voorwerpherkenning | 'N Datastel bestaan uit 50,000 10,000 beelde en 60,000 32 toetsbeelde (dws 32 10 XNUMX × XNUMX kleurbeelde in tien klasse) vir herkenning van voorwerpe. | Link |
CV | Image | Mode MNIST | Fashion | 'N Beelddatastel wat bestaan uit 60,000 10,000 voorbeelde en 'n toetsstel van 28 28 voorbeelde in 10 × XNUMX grysskaalbeelde, geassosieer met 'n etiket uit tien klasse. | Link | |
CV | Image | IMDB-Wiki-datastel | Vermaak | gesig erkenning | 'N Groot versameling gesigbeelde met byskrifte soos geslag en ouderdom. Van die totale 523,051 460,723 gesigsbeelde word 20,284 62,328 beelde verkry van XNUMX XNUMX bekendes van IMDB en XNUMX XNUMX van Wikipedia. | Link |
CV | Video | Kinetika-700 | algemene | Die datastel van hoë gehalte bestaan vir elke aksieklas uit 650,000 700 videogrepe en bevat 600 menslike aksieklasse met minstens 10 videogrepe. Hier duur elke snit tien sekondes. | Link | |
CV | Image | MS Coco | algemene | Voorwerpopsporing, segmentering | Die datastel bevat 328 2.5 beelde en het 'n totaal van 91 minute gevalle en XNUMX voorwerpe om grootskaalse voorwerpopsporing-, segmenterings- en data-onderskrifte-verwante ML-modelle op te lei. | Link |
CV | Image | MPII-datastel vir menslike houding | algemene | Ongeveer 25K foto's wat meer as 40K individue met geannoteerde liggaamsgewrigte bevat, word in die datastel opgeneem, wat gebruik word om menslike houdingsberamings te verwoord. Oor die algemeen dek die datastel 410 menslike aktiwiteite en elke prent is voorsien van 'n aktiwiteitsetiket. | Link | |
CV | Image | Maak beelde oop | algemene | Aantekeninge vir voorwerpliggings | Beelddatastel met ongeveer 9 Mn-beelde wat geannoteer is met etikette op beeldvlak, voorwerpsbakke, voorwerpsegmentering ens. begrensingskaste vir 16 voorwerkklasse op 600 Mn beelde. | Link |
CV | Video | Apollo Open Platform, deur Baidu Inc, China | Automotive | Begrensende boks, LiDAR | 'N Ryk outonome ry-datastel wat ontwikkelaars van die nodige data in outonome bestuur voorsien om die doeltreffendheid van die innoverende iterasie te versnel. | Link |
CV | Video, beeld | Argo, deur Argo, VSA | Automotive | Grensdoos, optiese vloei, gedragsetiket, semantiese etiket, baanmerk | 'N Selfbestuurde datastel wat bestaan uit HD-kaarte met geometriese en semantiese metadata, dws baanlynlyne, baanrigting en rybare area. Die datastel word gebruik om ML-modelle op te lei, om akkurater persepsie-algoritmes te maak, wat sal help om selfbestuurde voertuie veilig te navigeer. | Link |
CV | Video | Bosch klein verkeersligte, deur Bosch Noord-Amerika Research | Automotive | Bindende boks | 'N Datastel wat bestaan uit 13427 kamerabeelde met 'n resolusie van 1280 * 720 om visie-gebaseerde verkeersligdeteksiestelsel te bou. Die datastel het meer as 24000 geannoteerde verkeersligte. | Link |
CV | Video | Brain4Cars, deur Cornell Univ., Verenigde State | Automotive | Gedragsetiket | 'N Datastel wat bestaan uit 'n verskeidenheid kajuitsensors (kameras, tasbare sensors, slimtoestelle, ens.) Om nuttige statistieke oor die bestuurder se waaksaamheid te haal. Ons algoritmes kan bestuurders wat lomerig of afgelei is, opspoor en die nodige alarms versterk om die beskerming te verbeter. | Link |
CV | Image | CULane, deur Chinese Univ. van Hong Kong, Beijing, China | Automotive | Baanmerk | 'N Computer Vision-datastel oor die opsporing van verkeersbane, bestaande uit 55 uur se video's waarvan 133,235 88880 (9675-opleidingsstel, 34680-valideringstel en XNUMX toetsstel) rame is onttrek. Dit word versamel deur kameras gemonteer op ses verskillende voertuie wat deur verskillende bestuurders in Beijing bestuur word. | Link |
CV | Video | DAVIS, deur Univ. van Zurich, ETH ¨ Zurich, Duitsland, Switserland | Automotive | 'N End-to-end voertuigbestuuropleidingstel wat gebruik maak van 'n DAVIS-gebeurtenis + raamkamera. Motordata soos stuur, gasklep, GPS, ens. Word gebruik om die samesmelting van raam- en gebeurtenisdata vir motorprogramme te evalueer. | Link | |
CV | Video | DBNet, deur Shanghai Jiao Tong Univ., Xiamen Univ., China | Automotive | Puntwolk, LiDAR | 'N Reële data van 1000 KM, wat in lyn is met video, puntwolk, GPS en bestuurdersgedrag vir diepgaande navorsing oor bestuursgedrag. | Link |
CV | Video | Dr (oog) ve, deur Univ. van Modena en Reggio Emilia, Modena, Italië | Automotive | Gedragsetiket | Datastel wat 74 videoreekse van elk 5 minute bevat, wat in meer as 500,000 XNUMX rame geannoteer is. Die datastel bestaan uit geografiese verwysings, ryspoed, koers, en etiketteer ook bestuurders se blikfiksasies en hul tydelike integrasie wat taakspesifieke kaarte bied. | Link |
CV | Video | ETH Voetganger (2009), deur ETH Zürich, Zürich, Switserland | algemene | Bindende boks | 'N Datastel van 74 video-reekse van elk 5 minute, wat in meer as 500,000 XNUMX rame geannoteer is. Die datastel bied posisies vir geo-verwysing, bestuurspoed, rigting en merk ook blikfiksasies vir bestuurders en hul tydelike integrasie, insluitend taakspesifieke kaarte. | Link |
CV | Video | Ford (2009), deur Univ. van Michigan, Michigan, VS. | Automotive | Bounding Box, LiDAR | 'N Datastel wat saamgestel is deur 'n outomatiese landvoertuig wat gewapen is met 'n Velodyne 3D-lidar-skandeerder, twee vooruitkykende Rieg-lidars vir stootbesems, 'n tegniese en verbruikers-traagheidseenheid (IMU) en 'n Point Grey Ladybug3-omnidirectionele kamerastelsel. | Link |
CV | Video | HCI Challenging Stereo, Bosch Corporation Research, Hildesheim, Duitsland | algemene | 'N Datastel van 'n paar miljoen rame van vasgelegde videotonele wat 'n wye verskeidenheid weersomstandighede, veelvuldige lae beweging en diepte bevat; situasies in die stad en platteland, ens. | Link | |
CV | Video | JAAD, deur York Universiteit, Oekraïne, Kanada | Automotive | Grensvak, Gedragsetiket | "JAAD is 'n datastel vir die bestudering van gesamentlike aandag in die konteks van outonome bestuur. Die fokus is op gedrag van voetgangers en bestuurders op die kruispunt en faktore wat hulle beïnvloed. JAAD-datastel bied 'n versamelde versameling van 346 kort video's snitte (5-10 sek. lank) wat uit meer as 240 uur se ry-opnames van verskillende plekke in Noord-Amerika en Oos-Europa gehaal word. Omskrywings met okklusietikette word gebruik vir alle voetgangers, wat hierdie datastel geskik maak vir opsporing van voetgangers. Gedragsaantekeninge spesifiseer gedrag vir voetgangers wat met die bestuurder in aanraking kom of dit nodig het. Vir elke video is daar verskeie etikette (weer, liggings, ens.) en gedetailleerde gedragsetikette (bv. gestop, gestap, gekyk, ens.). Daarbenewens is 'n lys van demografiese eienskappe voorsien vir elke voetganger (bv. ouderdom, geslag, bewegingsrigting, ens.) sowel as 'n lys van sigbare elemente op die verkeerstoneel (bv. stopteken, verkeers sein, ens.) in elke raam. " | Link |
CV | Video | KAIST Urban, deur KAIST, Suid-Korea | algemene | Lidar | Die data-insameling bevat talle liggingsensors vir LiDAR-data en stereobeelde wat op 'n baie komplekse stedelike gebied gerig is (bv. Metropoolgebiede, komplekse geboue en woongebiede). | Link |
CV | Image | LISA Verkeersteken, deur Univ. van Kalifornië, San Diego, Verenigde State | Automotive | Bindende boks | Die stel datastelle wat video's en geannoteerde rame bevat wat Amerikaanse verkeerstekens bevat. Dit word in twee fases vrygestel, een met slegs die foto's en een met beide foto's en video's. | Link |
CV | Image | Mapillary Vistas, deur Mapillary AB, Global | Automotive | Semantiese etiket | 'N Fotodatastel op straatvlak vir die interpretasie van straattonele regoor die wêreld met pixel-akkurate en voorbeeldspesifieke menslike aantekeninge. | Link |
CV | Video, beeld | Semantiese KITTI, deur die Universiteit van Bonn, Karlsruhe, Duitsland | Automotive | Begrensende boks, semantiese etiket, baanmerk | 'N Datastel wat 'n semantiese aantekening vir alle Odometry-maatstafreekse bevat. Die datastel annoteer verskillende soorte bewegende en nie-bewegende verkeer: insluitend motors, fietse, fietse, voetgangers en fietsryers, wat toelaat dat voorwerpe op die toneel bestudeer word. | Link |
CV | Video | Stanford Track, deur Stanford Univ., Verenigde State | Automotive | Objekopsporing / klassifikasie LiDAR, GPS, kodes | 'N Datastel wat 14,000 benoemde voorwerpsnitte bevat, soos waargeneem deur 'n Velodyne HDL-64E S2 LIDAR in natuurlike straattonele, wat gebruik kan word om masjienleermodelle op te lei vir 3D-objekherkenning. | Link |
CV | Video, beeld | Die Boxy-datastel, deur Bosch, Verenigde State | Automotive | Grensbus / Voertuigopsporing | 'N Datastel vir voertuigopsporing wat 2 miljoen geannoteerde voertuie bevat vir die opleiding en ontleding van strategieë vir die herkenning van voorwerpe vir selfbesturende motors op snelweë. | Link |
CV | Video | TME-snelweg, deur die Tsjeggiese tegniese universiteit, Noord-Italië | Automotive | Bindende boks | 'N Datastel van 28 knipsels vir 'n totaal van 27 minute wat in 30,000+ voertuigaantekeningsraamwerke verdeel is. Annotasie is semi-outomaties vervaardig met behulp van die data van die laserskandeerder. Hierdie data-insameling behels wisselende verkeerscenario's, aantal bane, kromming van die pad en verligting, wat baie van die voorwaardes van die volle verkryging dek. | Link |
CV | Video | Llamas sonder toesig, deur Bosch, Verenigde State | Automotive | Baanmerk, LiDAR | Die Lama-datastel wat nie onder toesig is nie, is geannoteer deur outomatiese bestuurskaarte met hoë definisie te genereer, insluitend baanmerke wat op Lidar gebaseer is. Die outonome voertuig kan op hierdie kaarte gerig word en die baanmerke word in die kameraraam geprojekteer. Die 3D-projeksie word geoptimaliseer deur die teenstrydigheid tussen reeds waargenome en voorspelde beeldmerkers te minimaliseer. | Link |
NLP | Audio | Facebook AI veeltalige LibriSpeech (MLS) | algemene | Klankaantekening / spraakherkenning | Facebook AI Multilingual LibriSpeech (MLS) is 'n grootskaalse oopbron-datastel wat ontwerp is om navorsing oor outomatiese spraakherkenning (ASR) te bevorder. MLS bied meer as 50,000 8 uur klank in XNUMX tale: Engels, Duits, Nederlands, Frans, Spaans, Italiaans, Portugees en Pools. | Link |