Wat is NLP?
NLP (Natural Language Processing) help rekenaars om menslike taal te verstaan. Dit is soos om rekenaars te leer om teks en spraak te lees, te verstaan en daarop te reageer soos mense dit doen.
Wat kan NLP doen?
- Verander morsige teks in georganiseerde data
- Verstaan of opmerkings positief of negatief is
- Vertaal tussen tale
- Skep opsommings van lang tekste
- En baie meer!
- Aan die gang met NLP:
Om goeie NLP-stelsels te bou, het jy baie voorbeelde nodig om hulle op te lei – net soos hoe mense beter leer met meer oefening. Die goeie nuus is dat daar baie gratis hulpbronne is waar jy hierdie voorbeelde kan vind: Drukkende gesig, Kaggle en GitHub
NLP-markgrootte en -groei:
Vanaf 2023 was die mark vir natuurlike taalverwerking (NLP) op ongeveer $26 miljard gewaardeer. Dit sal na verwagting aansienlik groei, met 'n saamgestelde jaarlikse groeikoers (CAGR) van ongeveer 30% van 2023 tot 2030. Hierdie groei word aangedryf deur toenemende vraag na NLP-toepassings in nywerhede soos gesondheidsorg, finansies en kliëntediens.
Hoe om 'n goeie NLP-datastel te kies, oorweeg die volgende faktore:
- relevansie: Maak seker dat die datastel in lyn is met jou spesifieke taak of domein.
- grootte: Groter datastelle verbeter oor die algemeen modelwerkverrigting, maar balanseer grootte met kwaliteit.
- Diversiteit: Soek datastelle met uiteenlopende taalstyle en kontekste om modelrobuustheid te verbeter.
- Gehalte: Kyk vir goed-benoemde en akkurate data om te verhoed dat foute bekendgestel word.
- Toeganklikheid : Maak seker dat die datastel beskikbaar is vir gebruik en oorweeg enige lisensiebeperkings.
- preprocessing: Bepaal of die datastel aansienlike skoonmaak of voorafverwerking vereis.
- Gemeenskapsondersteuning: Gewilde datastelle het dikwels meer hulpbronne en gemeenskapsondersteuning, wat nuttig kan wees.
Deur hierdie faktore te evalueer, kan jy 'n datastel kies wat die beste by jou projek se behoeftes pas
Top 33 moet-sien oop datastelle vir NLP
algemene
UCI se Spambase (Skakel)
Spambase, wat by die Hewlett-Packard Labs geskep is, het 'n versameling strooipos-e-posse deur die gebruikers, wat daarop gemik is om 'n persoonlike strooiposfilter te ontwikkel. Dit het meer as 4600 waarnemings van e-posboodskappe, waarvan byna 1820 strooipos is.
Enron-datastel (Skakel)
Die Enron-datastel het 'n groot versameling anonieme 'regte' e-posse wat aan die publiek beskikbaar is om hul masjienleermodelle op te lei. Dit spog met meer as 'n halfmiljoen e-posse van meer as 150 gebruikers, hoofsaaklik Enron se senior bestuur. Hierdie datastel is beskikbaar vir gebruik in beide gestruktureerde en ongestruktureerde formate. Om die ongestruktureerde data op te knap, moet jy dataverwerkingstegnieke toepas.
Recommender Systems datastel (Skakel)
Die Recommender System-datastel is 'n groot versameling van verskeie datastelle wat verskillende kenmerke bevat soos,
- Produk resensies
- Stergraderings
- Fiksheidsopsporing
- Liedjie data
- Sosiale netwerke
- tyd tempel
- Gebruiker/item interaksies
- GPS data
Penn Treebank (Skakel)
Hierdie korpus, van die Wall Street Journal, is gewild vir die toets van reeksetiketteringsmodelle.
NLTK (Skakel)
Hierdie Python-biblioteek bied toegang tot meer as 100 korpusse en leksikale hulpbronne vir NLP. Dit sluit ook die NLTK-boek in, 'n opleidingskursus vir die gebruik van die biblioteek.
Universele afhanklikhede (Skakel)
UD bied 'n konsekwente manier om grammatika te annoteer, met hulpbronne in meer as 100 tale, 200 boombanke en ondersteuning van meer as 300 gemeenskapslede.
Sentimentanalise
Woordeboeke vir films en finansies (Skakel)
Die Woordeboeke vir Flieks en Finansies-datastel verskaf domeinspesifieke woordeboeke vir positiewe of negatiewe polariteit in Finansies-vulsels en fliekresensies. Hierdie woordeboeke is getrek uit IMDb- en US Form-8-vulsels.Sentiment 140 (Skakel)
Sentiment 140 het meer as 160,000 6 twiets met verskeie emoticons wat in XNUMX verskillende velde gekategoriseer is: tweet-datum, polariteit, teks, gebruikersnaam, ID en navraag. Hierdie datastel maak dit vir jou moontlik om die sentiment van 'n handelsmerk, 'n produk of selfs 'n onderwerp op grond van Twitter-aktiwiteit te ontdek. Aangesien hierdie datastel outomaties geskep word, anders as ander mens-geannoteerde twiets, klassifiseer dit twiets met positiewe emosies en negatiewe emosies as ongunstig.
Multi-Domain Sentiment datastel (Skakel)
Hierdie multi-domein sentiment datastel is 'n bewaarplek van Amazon resensies vir verskeie produkte. Sommige produkkategorieë, soos boeke, het duisende resensies, terwyl ander slegs 'n paar honderd resensies het. Boonop kan die resensies met stergraderings in binêre etikette omgeskakel word.
Standford Sentiment TreeBank (Skakel)
Hierdie NLP-datastel van Rotten Tomatoes bevat langer frases en meer gedetailleerde teksvoorbeelde.
Die blog-outeurskapkorpus (Skakel)
Hierdie versameling het blogplasings met byna 1.4 miljoen woorde, elke blog is 'n aparte datastel.
OpinRank-datastel (Skakel)
300,000 XNUMX resensies van Edmunds en TripAdvisor, georganiseer volgens motormodel of reisbestemming en hotel.
Teks
-
Die Wiki QA Corpus (Skakel)
Die WiKi QA Corpus is geskep om die oopdomeinvraag- en antwoordnavorsing te help, en is een van die mees uitgebreide publiek beskikbare datastelle. Dit word saamgestel uit die Bing-soekenjin-navraaglogboeke, en kom met vraag-en-antwoord-pare. Dit het meer as 3000 vrae en 1500 benoemde antwoordsinne.
-
Regsaakverslae Datastel (Skakel)
Regsaakverslae-datastel het 'n versameling van 4000 regsake en kan gebruik word om op te lei vir outomatiese teksopsomming en aanhalingsanalise. Elke dokument, vangfrases, aanhalingsklasse, aanhaling-vangfrases en meer word gebruik.
-
Gedrang (Skakel)
Jeopardy-datastel is 'n versameling van meer as 200,000 XNUMX vrae wat verskyn in die gewilde vasvra TV-program wat deur 'n Reddit-gebruiker saamgevoeg is. Elke datapunt word geklassifiseer volgens sy uitgesaaidatum, episodenommer, waarde, rondte en vraag/antwoord.
-
20 Nuusgroepe (Skakel)
'n Versameling van 20,000 20 dokumente sluit XNUMX nuusgroepe en onderwerpe in, wat onderwerpe van godsdiens tot populêre sport uiteensit.
-
Reuters Nuus Datastel (Skakel)
Hierdie datastel, wat die eerste keer in 1987 verskyn het, is gemerk, geïndekseer en saamgestel vir masjienleerdoeleindes.
-
arXiv (Skakel)
Hierdie aansienlike datastel van 270 GB bevat die volledige teks van alle arXiv-navorsingsvraestelle.
-
Europese Parlement Proceedings Parallel Corpus (Skakel)
Sinpare uit die Parlementsverrigtinge sluit inskrywings uit 21 Europese tale in, met 'n paar minder algemene tale vir masjienleerkorpusse.
-
Billion Word Benchmark (Skakel)
Hierdie taalmodelleringsdatastel, afgelei van die WMT 2011 News Crawl, bestaan uit byna een miljard woorde om innoverende taalmodelleringstegnieke te toets.
Oudiospraak
-
Gesproke Wikipedia Corpora (Skakel)
-
2000 HUB5 Engels (Skakel)
Die 2000 HUB5 Engelse datastel het 40 telefoongesprek-transkripsies in die Engelse taal. Die data word verskaf deur die Nasionale Instituut vir Standaarde en Tegnologie, en die hooffokus daarvan is op die herkenning van gespreksspraak en die omskakeling van spraak in teks.
-
LibriSpeech (Skakel)
LibriSpeech-datastel is 'n versameling van byna 1000 ure se Engelse spraak wat geneem is en behoorlik volgens onderwerpe in hoofstukke uit oudioboeke in hoofstukke gesegmenteer is, wat dit 'n perfekte hulpmiddel vir natuurlike taalverwerking maak.
-
Gratis gesproke syfer-datastel (Skakel)
Hierdie NLP-datastel bevat meer as 1,500 XNUMX opnames van gesproke syfers in Engels.
-
M-AI Labs Spraakdatastel (Skakel)
Die datastel bied byna 1,000 XNUMX uur se oudio met transkripsies, wat verskeie tale insluit en gekategoriseer volgens manlike, vroulike en gemengde stemme.
-
Lawaaierige spraakdatabasis (Skakel)
Hierdie datastel bevat parallelle raserige en skoon spraakopnames, bedoel vir spraakverbetering sagteware-ontwikkeling, maar ook voordelig vir opleiding oor spraak in uitdagende toestande.
Resensies
-
Yelp Resensies (Skakel)
Die Yelp-datastel het 'n groot versameling van ongeveer 8.5 miljoen resensies van 160,000 200,000 plus besighede, hul resensies en gebruikersdata. Die resensies kan gebruik word om jou modelle op sentimentanalise op te lei. Boonop het hierdie datastel ook meer as XNUMX XNUMX foto's wat agt metropolitaanse liggings dek.
-
IMDB-resensies (Skakel)
IMDB-resensies is een van die gewildste datastelle wat rolverdeling-inligting, graderings, beskrywing en genre vir meer as 50 duisend flieks bevat. Hierdie datastel kan gebruik word om jou masjienleermodelle te toets en op te lei.
-
Amazon resensies en graderings datastel (Skakel)
Amazon-resensie- en beoordelingsdatastel bevat 'n waardevolle versameling metadata en resensies van verskillende produkte van Amazon wat van 1996 tot 2014 versamel is – ongeveer 142.8 miljoen rekords. Die metadata sluit die prys, produkbeskrywing, handelsmerk, kategorie en meer in, terwyl die resensies tekskwaliteit, die teks se bruikbaarheid, graderings en meer het.
Vraag en antwoord
-
Stanford Vraag en Antwoord Dataset (SQuAD) (Skakel)
Hierdie leesbegripdatastel het 100,000 50,000 beantwoordbare vrae en XNUMX XNUMX onbeantwoordbare vrae, almal geskep deur Wikipedia-skarewerkers.
-
Natuurlike vrae (Skakel)
Hierdie opleidingstel het meer as 300,000 7,800 opleidingsvoorbeelde, 7,800 XNUMX ontwikkelingsvoorbeelde en XNUMX XNUMX toetsvoorbeelde, elk met 'n Google-navraag en 'n ooreenstemmende Wikipedia-bladsy.
-
TriviaQA (Skakel)
Hierdie uitdagende vraestel het 950,000 XNUMX QA-pare, insluitend beide mens-geverifieerde en masjien-gegenereerde substelle.
-
CLEVR (Komposisietaal en Elementêre Visuele Redenering) (Skakel)
Hierdie visuele vraagbeantwoordingsdatastel bevat 3D-weergegee voorwerpe en duisende vrae met besonderhede oor die visuele toneel.
So, watter datastel het jy gekies om jou masjienleermodel op te lei?
Soos ons gaan, sal ons jou laat met 'n pro-wenk.
Maak seker dat u die README-lêer deeglik deurgaan voordat u 'n NLP-datastel vir u behoeftes kies. Die datastel sal al die nodige inligting bevat wat jy mag benodig, soos die datastel se inhoud, die verskillende parameters waarop die data gekategoriseer is, en die waarskynlike gebruiksgevalle van die datastel.
Ongeag die modelle wat jy bou, is daar 'n opwindende vooruitsig om ons masjiene nouer en intrinsieker met ons lewens te integreer. Met NLP word die moontlikhede vir besigheid, flieks, spraakherkenning, finansies en meer veelvuldig vergroot.