Maak datastelle oop

Ontdek open source datastelle waarmee u ML -modelle kan oplei

Open Source -datastelle om aan die gang te kom met AI/ML -modelle

Die uitvoer van u AI- en ML-modelle is net so goed soos die data wat u gebruik om dit op te lei, dus die presisie wat u toepas op data-samevoeging en die merk en identifisering van die data is belangrik!

As u dus met 'n nuwe AI / ML-inisiatief wil begin en nou vinnig besef dat die vind van opleidingsdata van hoë gehalte een van die meer uitdagende aspekte van u projek sal wees, aangesien datastelle van hoë gehalte die brandstof is wat die AI behou / ML-enjin loop. Ons het 'n lys van oop datastelle opgestel wat u AI / ML-modelle van die toekoms vrylik kan gebruik en oplei.

Spesialisasie	Datatipe	Datastelnaam	Bedryf / Dept.	Annotasie / gebruiksgeval	Beskrywing	Link
NLP	Teks	Amazon Resensies	E-handel	Sentimentanalise	'N Stel van 35 Mn resensies en graderings van die afgelope 18 jaar in gewone teks met gebruikers- en produkbesonderhede.	Link
NLP	Teks	Wikipedia-skakeldata	algemene		Meer as 4 miljoen. artikels wat 1.9 miljard ton bevat. woord wat bestaan uit woorde en frases sowel as paragrawe.	Link
NLP	Teks	Standford Sentiment Treebank	Vermaak	Sentimentanalise	Sentimentaantekeninge-datastel vir meer as 10,000 stukke resensies van Rotten Tomatoes in HTML-lêerformaat	Link
NLP	Teks	Twitter Amerikaanse lugdiens sentiment	lugredery	Sentimentanalise	2015-tweets op US Airlines het in positiewe, negatiewe en neutrale kleure verdeel	Link
CV	Image	Gesigte in die natuur	algemene	gesig erkenning	Datastel met meer as 13,000 XNUMX gesnyde gesigte met twee verskillende prente vir gesigsherkenning.	Link
CV	Video, beeld	UMDFaces-datastel	algemene	gesig erkenning	Geannoteerde datastel wat meer as 367,000 8,000 gesigte bevat van meer as XNUMX XNUMX onderwerpe wat stil- en videobeelde insluit.	Link
CV	Image	Beeldnet	algemene		Datastel met meer as 14 Mn. beelde in verskillende lêerformate, georganiseer volgens die WordNet-hiërargie.	Link
CV	Image	Google se oop beelde	algemene		9 Mn. URL's om openbare beelde uit meer as 6,000 XNUMX kategorieë te kategoriseer.	Link
NLP	Teks	MIMIC kritieke sorg databasis	Healthcare		Rekenaarfisiologie-datastelle met ongedentifiseerde data van 40,000 pasiënte met kritieke sorg. Die datastel bevat inligting soos demografie, vitale tekens, medikasie, ens.	Link
CV	Image	Amerikaanse nasionale reis- en toerismekantoor	toerisme		Voorsien breë foto's van die toerismebedryf met betroubare databasisse wat onderwerpe dek soos inkomende en uitgaande reis en internasionale toeriste-inligting.	Link
NLP	Teks	Departement van Vervoer	toerisme		Toerismedatastelle wat nasionale parke, bestuurdersregisters, brûe en spoorinligting, ens. Insluit	Link
NLP	Audio	Flickr Audio Caption Corpus	algemene		Meer as 40 8,000 gesproke onderskrifte van XNUMX XNUMX foto's wat ontwerp is vir spraakpatrone sonder toesig	Link
NLP	Audio	Spraakopdragte-datastel	algemene	Spraakherkenning, klankaantekening	1 sekonde lang uitsprake van duisende individue, om basiese stemkoppelvlak te bou.	Link
NLP	Audio	Omgewingsoudio-datastelle	algemene		Omgewing klank datastelle wat klank bevat van tafels en akoestiese tafels.	Link
NLP	Teks	COVID-19 oop navorsingsdatastel	Healthcare	Mediese KI	'N Navorsingsdatastel wat bestaan uit 45,000 19 wetenskaplike artikels oor COVID-XNUMX en die koronavirus-familie van virusse.	Link
CV	Image	Waymo oop datastel	Automotive		Die mees uiteenlopende outonome ry-datastelle wat deur Waymo vrygestel is	Link
CV	Image	Visuele genoom	algemene	Byskrifte van foto's	'N Visuele kennisbasis met gedetailleerde onderskrifte van meer as 100 XNUMX beelde	Link
CV	Image	Labelme	Openbare Regering.		Groot stel beelde wat geannoteer is, is toeganklik via die Labelme Matlab	Link
CV	Image	SPOEL100	algemene		Meer as 100 verskillende voorwerpe wat vanuit verskillende hoeke gefotografeer is (dws 360 grade)	Link
CV	Image	Stanford Dogs-datastel	algemene		Meer as 20,500 120+ beelde is opgedeel in beeldstelle van XNUMX verskillende honderasse	Link
CV	Image	Binnenshuise toneelherkenning	algemene	Toneelherkenning	'N Spesifieke datastel wat bestaan uit 15620 beelde uit 67 binnenshuise kategorieë om toneelherkenningsmodelle te bou	Link
CV	Image	VisualQA	algemene		'N Datastel wat oop vrae bevat met betrekking tot 265,016 XNUMX foto's wat begrip van visie en taalbegrip vereis om te reageer.	Link
NLP	Teks	Multidomein Sentimentanalise Datastel	E-handel	Sentimentanalise	Datastel wat produkresensies van Amazon bevat	Link
NLP	Teks	IMDB-resensies	Vermaak	Sentimentanalise	Datastel wat 25000 filmoorsig bevat vir sentimentontleding	Link
NLP	Teks	Sentiment140	algemene	Sentimentanalise	Datastel wat 160,000 tweets bevat met voorafverwante emoticons vir hoër akkuraatheid	Link
NLP	Teks	Blogger Corpus	algemene	Sleutelwoord Ananlysis	Datastel wat 681,288 blogposts van blogger.com bevat, wat bestaan uit minimum 200 voorkoms van baie gebruikte Engelse woorde.	Link
NLP	Teks	Gedrang	algemene	Chatbot-opleiding	Datastel met meer as 200,000 XNUMX vrae wat gebruik kan word om masjienleermodelle op te lei om intelligent outomaties te reageer	Link
NLP	Teks	SMS-strooiposversameling in Engels	Telecom	Strooiposherkenning	'N Stoorpos vir strooiposboodskappe wat bestaan uit 5,574 Engelse SMS's	Link
NLP	Teks	Yelp Resensies	algemene	Sentimentanalise	'N Datastel met meer dan 5 miljoen beoordelingen gepubliceerd door Yelp	Link
NLP	Teks	UCI se Spambase	Enterprise	Strooiposherkenning	'N Groot versameling strooipos, nuttig vir strooiposfiltering.	Link
CV	Video, beeld	Berkeley DeepDrive BDD100k	Automotive	Outonome voertuie	Een van die grootste datastelsels vir selfbestuurde AI wat 1,100 uur ryervarings bevat in meer as 100,000 video's van verskillende tye van die dag uit New York en San Francisco.	Link
CV	Video	Komma.ai	Automotive	Outonome voertuie	'N Setsuurbestuurdatastel van 7 uur wat inligting bevat oor die spoed, versnelling, stuurhoek en GPS-koördinate van die motor	Link
CV	Video, beeld	Cityscape-datastel	Automotive	Semantiese etiket vir outonome voertuie	'N Datastel van 5,000 20,000 aantekeninge op pixelvlak plus 'n groter stel van 50 XNUMX swak geannoteerde rame in stereovideo-reekse, opgeneem uit XNUMX verskillende stede	Link
CV	Image	KUL België Verkeersteken Datastel	Automotive	Outonome voertuie	Meer as 10000+ verkeerstekensaantekeninge uit die Vlaandere-streek, gebaseer op fisiese verkeerstekens van regoor België.	Link
CV	Image	LISA: Laboratorium vir intelligente en veilige motors, UC San Diego-datastelle	Automotive	Outonome voertuie	'N Ryk datastel wat verkeerstekens, opsporing van voertuie, verkeersligte en trajekpatrone bevat.	Link
CV	Image	CIFAR-10	algemene	Voorwerpherkenning	'N Datastel bestaan uit 50,000 10,000 beelde en 60,000 32 toetsbeelde (dws 32 10 XNUMX × XNUMX kleurbeelde in tien klasse) vir herkenning van voorwerpe.	Link
CV	Image	Mode MNIST	Fashion		'N Beelddatastel wat bestaan uit 60,000 10,000 voorbeelde en 'n toetsstel van 28 28 voorbeelde in 10 × XNUMX grysskaalbeelde, geassosieer met 'n etiket uit tien klasse.	Link
CV	Image	IMDB-Wiki-datastel	Vermaak	gesig erkenning	'N Groot versameling gesigbeelde met byskrifte soos geslag en ouderdom. Van die totale 523,051 460,723 gesigsbeelde word 20,284 62,328 beelde verkry van XNUMX XNUMX bekendes van IMDB en XNUMX XNUMX van Wikipedia.	Link
CV	Video	Kinetika-700	algemene		Die datastel van hoë gehalte bestaan vir elke aksieklas uit 650,000 700 videogrepe en bevat 600 menslike aksieklasse met minstens 10 videogrepe. Hier duur elke snit tien sekondes.	Link
CV	Image	MS Coco	algemene	Voorwerpopsporing, segmentering	Die datastel bevat 328 2.5 beelde en het 'n totaal van 91 minute gevalle en XNUMX voorwerpe om grootskaalse voorwerpopsporing-, segmenterings- en data-onderskrifte-verwante ML-modelle op te lei.	Link
CV	Image	MPII-datastel vir menslike houding	algemene		Ongeveer 25K foto's wat meer as 40K individue met geannoteerde liggaamsgewrigte bevat, word in die datastel opgeneem, wat gebruik word om menslike houdingsberamings te verwoord. Oor die algemeen dek die datastel 410 menslike aktiwiteite en elke prent is voorsien van 'n aktiwiteitsetiket.	Link
CV	Image	Maak beelde oop	algemene	Aantekeninge vir voorwerpliggings	Beelddatastel met ongeveer 9 Mn-beelde wat geannoteer is met etikette op beeldvlak, voorwerpsbakke, voorwerpsegmentering ens. begrensingskaste vir 16 voorwerkklasse op 600 Mn beelde.	Link
CV	Video	Apollo Open Platform, deur Baidu Inc, China	Automotive	Begrensende boks, LiDAR	'N Ryk outonome ry-datastel wat ontwikkelaars van die nodige data in outonome bestuur voorsien om die doeltreffendheid van die innoverende iterasie te versnel.	Link
CV	Video, beeld	Argo, deur Argo, VSA	Automotive	Grensdoos, optiese vloei, gedragsetiket, semantiese etiket, baanmerk	'N Selfbestuurde datastel wat bestaan uit HD-kaarte met geometriese en semantiese metadata, dws baanlynlyne, baanrigting en rybare area. Die datastel word gebruik om ML-modelle op te lei, om akkurater persepsie-algoritmes te maak, wat sal help om selfbestuurde voertuie veilig te navigeer.	Link
CV	Video	Bosch klein verkeersligte, deur Bosch Noord-Amerika Research	Automotive	Bindende boks	'N Datastel wat bestaan uit 13427 kamerabeelde met 'n resolusie van 1280 * 720 om visie-gebaseerde verkeersligdeteksiestelsel te bou. Die datastel het meer as 24000 geannoteerde verkeersligte.	Link
CV	Video	Brain4Cars, deur Cornell Univ., Verenigde State	Automotive	Gedragsetiket	'N Datastel wat bestaan uit 'n verskeidenheid kajuitsensors (kameras, tasbare sensors, slimtoestelle, ens.) Om nuttige statistieke oor die bestuurder se waaksaamheid te haal. Ons algoritmes kan bestuurders wat lomerig of afgelei is, opspoor en die nodige alarms versterk om die beskerming te verbeter.	Link
CV	Image	CULane, deur Chinese Univ. van Hong Kong, Beijing, China	Automotive	Baanmerk	'N Computer Vision-datastel oor die opsporing van verkeersbane, bestaande uit 55 uur se video's waarvan 133,235 88880 (9675-opleidingsstel, 34680-valideringstel en XNUMX toetsstel) rame is onttrek. Dit word versamel deur kameras gemonteer op ses verskillende voertuie wat deur verskillende bestuurders in Beijing bestuur word.	Link
CV	Video	DAVIS, deur Univ. van Zurich, ETH ¨ Zurich, Duitsland, Switserland	Automotive		'N End-to-end voertuigbestuuropleidingstel wat gebruik maak van 'n DAVIS-gebeurtenis + raamkamera. Motordata soos stuur, gasklep, GPS, ens. Word gebruik om die samesmelting van raam- en gebeurtenisdata vir motorprogramme te evalueer.	Link
CV	Video	DBNet, deur Shanghai Jiao Tong Univ., Xiamen Univ., China	Automotive	Puntwolk, LiDAR	'N Reële data van 1000 KM, wat in lyn is met video, puntwolk, GPS en bestuurdersgedrag vir diepgaande navorsing oor bestuursgedrag.	Link
CV	Video	Dr (oog) ve, deur Univ. van Modena en Reggio Emilia, Modena, Italië	Automotive	Gedragsetiket	Datastel wat 74 videoreekse van elk 5 minute bevat, wat in meer as 500,000 XNUMX rame geannoteer is. Die datastel bestaan uit geografiese verwysings, ryspoed, koers, en etiketteer ook bestuurders se blikfiksasies en hul tydelike integrasie wat taakspesifieke kaarte bied.	Link
CV	Video	ETH Voetganger (2009), deur ETH Zürich, Zürich, Switserland	algemene	Bindende boks	'N Datastel van 74 video-reekse van elk 5 minute, wat in meer as 500,000 XNUMX rame geannoteer is. Die datastel bied posisies vir geo-verwysing, bestuurspoed, rigting en merk ook blikfiksasies vir bestuurders en hul tydelike integrasie, insluitend taakspesifieke kaarte.	Link
CV	Video	Ford (2009), deur Univ. van Michigan, Michigan, VS.	Automotive	Bounding Box, LiDAR	'N Datastel wat saamgestel is deur 'n outomatiese landvoertuig wat gewapen is met 'n Velodyne 3D-lidar-skandeerder, twee vooruitkykende Rieg-lidars vir stootbesems, 'n tegniese en verbruikers-traagheidseenheid (IMU) en 'n Point Grey Ladybug3-omnidirectionele kamerastelsel.	Link
CV	Video	HCI Challenging Stereo, Bosch Corporation Research, Hildesheim, Duitsland	algemene		'N Datastel van 'n paar miljoen rame van vasgelegde videotonele wat 'n wye verskeidenheid weersomstandighede, veelvuldige lae beweging en diepte bevat; situasies in die stad en platteland, ens.	Link
CV	Video	JAAD, deur York Universiteit, Oekraïne, Kanada	Automotive	Grensvak, Gedragsetiket	"JAAD is 'n datastel vir die bestudering van gesamentlike aandag in die konteks van outonome bestuur. Die fokus is op gedrag van voetgangers en bestuurders op die kruispunt en faktore wat hulle beïnvloed. JAAD-datastel bied 'n versamelde versameling van 346 kort video's snitte (5-10 sek. lank) wat uit meer as 240 uur se ry-opnames van verskillende plekke in Noord-Amerika en Oos-Europa gehaal word. Omskrywings met okklusietikette word gebruik vir alle voetgangers, wat hierdie datastel geskik maak vir opsporing van voetgangers. Gedragsaantekeninge spesifiseer gedrag vir voetgangers wat met die bestuurder in aanraking kom of dit nodig het. Vir elke video is daar verskeie etikette (weer, liggings, ens.) en gedetailleerde gedragsetikette (bv. gestop, gestap, gekyk, ens.). Daarbenewens is 'n lys van demografiese eienskappe voorsien vir elke voetganger (bv. ouderdom, geslag, bewegingsrigting, ens.) sowel as 'n lys van sigbare elemente op die verkeerstoneel (bv. stopteken, verkeers sein, ens.) in elke raam. "	Link
CV	Video	KAIST Urban, deur KAIST, Suid-Korea	algemene	Lidar	Die data-insameling bevat talle liggingsensors vir LiDAR-data en stereobeelde wat op 'n baie komplekse stedelike gebied gerig is (bv. Metropoolgebiede, komplekse geboue en woongebiede).	Link
CV	Image	LISA Verkeersteken, deur Univ. van Kalifornië, San Diego, Verenigde State	Automotive	Bindende boks	Die stel datastelle wat video's en geannoteerde rame bevat wat Amerikaanse verkeerstekens bevat. Dit word in twee fases vrygestel, een met slegs die foto's en een met beide foto's en video's.	Link
CV	Image	Mapillary Vistas, deur Mapillary AB, Global	Automotive	Semantiese etiket	'N Fotodatastel op straatvlak vir die interpretasie van straattonele regoor die wêreld met pixel-akkurate en voorbeeldspesifieke menslike aantekeninge.	Link
CV	Video, beeld	Semantiese KITTI, deur die Universiteit van Bonn, Karlsruhe, Duitsland	Automotive	Begrensende boks, semantiese etiket, baanmerk	'N Datastel wat 'n semantiese aantekening vir alle Odometry-maatstafreekse bevat. Die datastel annoteer verskillende soorte bewegende en nie-bewegende verkeer: insluitend motors, fietse, fietse, voetgangers en fietsryers, wat toelaat dat voorwerpe op die toneel bestudeer word.	Link
CV	Video	Stanford Track, deur Stanford Univ., Verenigde State	Automotive	Objekopsporing / klassifikasie LiDAR, GPS, kodes	'N Datastel wat 14,000 benoemde voorwerpsnitte bevat, soos waargeneem deur 'n Velodyne HDL-64E S2 LIDAR in natuurlike straattonele, wat gebruik kan word om masjienleermodelle op te lei vir 3D-objekherkenning.	Link
CV	Video, beeld	Die Boxy-datastel, deur Bosch, Verenigde State	Automotive	Grensbus / Voertuigopsporing	'N Datastel vir voertuigopsporing wat 2 miljoen geannoteerde voertuie bevat vir die opleiding en ontleding van strategieë vir die herkenning van voorwerpe vir selfbesturende motors op snelweë.	Link
CV	Video	TME-snelweg, deur die Tsjeggiese tegniese universiteit, Noord-Italië	Automotive	Bindende boks	'N Datastel van 28 knipsels vir 'n totaal van 27 minute wat in 30,000+ voertuigaantekeningsraamwerke verdeel is. Annotasie is semi-outomaties vervaardig met behulp van die data van die laserskandeerder. Hierdie data-insameling behels wisselende verkeerscenario's, aantal bane, kromming van die pad en verligting, wat baie van die voorwaardes van die volle verkryging dek.	Link
CV	Video	Llamas sonder toesig, deur Bosch, Verenigde State	Automotive	Baanmerk, LiDAR	Die Lama-datastel wat nie onder toesig is nie, is geannoteer deur outomatiese bestuurskaarte met hoë definisie te genereer, insluitend baanmerke wat op Lidar gebaseer is. Die outonome voertuig kan op hierdie kaarte gerig word en die baanmerke word in die kameraraam geprojekteer. Die 3D-projeksie word geoptimaliseer deur die teenstrydigheid tussen reeds waargenome en voorspelde beeldmerkers te minimaliseer.	Link
NLP	Audio	Facebook AI veeltalige LibriSpeech (MLS)	algemene	Klankaantekening / spraakherkenning	Facebook AI Multilingual LibriSpeech (MLS) is 'n grootskaalse oopbron-datastel wat ontwerp is om navorsing oor outomatiese spraakherkenning (ASR) te bevorder. MLS bied meer as 50,000 8 uur klank in XNUMX tale: Engels, Duits, Nederlands, Frans, Spaans, Italiaans, Portugees en Pools.	Link

Maak datastelle oop

Open Source -datastelle om aan die gang te kom met AI/ML -modelle

AI Datadienste

Speciality

Nywerheid

produkte

maatskappy

hulpbronne

Kontak Ons