NLP-datastel vir ML

33 Beste NLP-datastelle om jou natuurlike taalverwerkingsmodelle op te lei

Natuurlike taalverwerking is 'n belangrike deel van die masjienleerwapens. Dit benodig egter groot hoeveelhede data en opleiding vir die model om goed te werk. Een van die beduidende probleme met NLP is die gebrek aan opleidingdatastelle wat groot belangstellingsvelde binne die domein kan dek.

As jy in hierdie groot veld begin, sal jy dit dalk uitdagend en feitlik oorbodig vind om jou datastelle te skep. Veral as daar kwaliteit NLP-datastelle beskikbaar is om u masjienleermodelle op te lei op grond van hul doel.

Die NLP-mark sal na verwagting teen 'n CAGR van 11.7% gedurende 2018 en 2026 groei om te bereik Teen 28.6 $ 2026 miljard. Danksy die groeiende vraag na NLP en masjienleer, is dit nou moontlik om kwaliteit datastelle in die hande te kry wat voorsiening maak vir sentimentanalise, resensies, vraag- en antwoorde-analise en spraakanalise-datastelle.

Die NLP-datastelle vir masjienleer wat u kan vertrou

Aangesien ontelbare datastelle – wat op verskeie behoeftes fokus – byna elke dag vrygestel word, kan dit uitdagend wees om toegang tot kwaliteit, betroubare en beste datastelle te kry. Hier het ons die werk vir jou makliker gemaak, aangesien ons aan jou saamgestelde datastelle aangebied het wat geskei is op grond van die kategorieë wat hulle bedien.

algemene

  • UCI se Spambase (Skakel)

    Spambase, wat by die Hewlett-Packard Labs geskep is, het 'n versameling strooipos-e-posse deur die gebruikers, wat daarop gemik is om 'n persoonlike strooiposfilter te ontwikkel. Dit het meer as 4600 waarnemings van e-posboodskappe, waarvan byna 1820 strooipos is.

  • Enron-datastel (Skakel)

    Die Enron-datastel het 'n groot versameling anonieme 'regte' e-posse wat aan die publiek beskikbaar is om hul masjienleermodelle op te lei. Dit spog met meer as 'n halfmiljoen e-posse van meer as 150 gebruikers, hoofsaaklik Enron se senior bestuur. Hierdie datastel is beskikbaar vir gebruik in beide gestruktureerde en ongestruktureerde formate. Om die ongestruktureerde data op te knap, moet jy dataverwerkingstegnieke toepas.

  • Recommender Systems datastel (Skakel)

    Die Recommender System-datastel is 'n groot versameling van verskeie datastelle wat verskillende kenmerke bevat soos,

    • Produk resensies
    • Stergraderings
    • Fiksheidsopsporing
    • Liedjie data
    • Sosiale netwerke
    • tyd tempel
    • Gebruiker/item interaksies
    • GPS data
  • Penn Treebank (Skakel)

    Hierdie korpus, van die Wall Street Journal, is gewild vir die toets van reeksetiketteringsmodelle.

  • NLTK (Skakel)

    Hierdie Python-biblioteek bied toegang tot meer as 100 korpusse en leksikale hulpbronne vir NLP. Dit sluit ook die NLTK-boek in, 'n opleidingskursus vir die gebruik van die biblioteek.

  • Universele afhanklikhede (Skakel)

    UD bied 'n konsekwente manier om grammatika te annoteer, met hulpbronne in meer as 100 tale, 200 boombanke en ondersteuning van meer as 300 gemeenskapslede.

Sentimentanalise

  • Woordeboeke vir films en finansies (Skakel)

    Sentimentanalise
    Die Woordeboeke vir Flieks en Finansies-datastel verskaf domeinspesifieke woordeboeke vir positiewe of negatiewe polariteit in Finansies-vulsels en fliekresensies. Hierdie woordeboeke is getrek uit IMDb- en US Form-8-vulsels.

  • Sentiment 140 (Skakel)

    Sentiment 140 het meer as 160,000 6 twiets met verskeie emoticons wat in XNUMX verskillende velde gekategoriseer is: tweet-datum, polariteit, teks, gebruikersnaam, ID en navraag. Hierdie datastel maak dit vir jou moontlik om die sentiment van 'n handelsmerk, 'n produk of selfs 'n onderwerp op grond van Twitter-aktiwiteit te ontdek. Aangesien hierdie datastel outomaties geskep word, anders as ander mens-geannoteerde twiets, klassifiseer dit twiets met positiewe emosies en negatiewe emosies as ongunstig.

  • Multi-Domain Sentiment datastel (Skakel)

    Hierdie multi-domein sentiment datastel is 'n bewaarplek van Amazon resensies vir verskeie produkte. Sommige produkkategorieë, soos boeke, het duisende resensies, terwyl ander slegs 'n paar honderd resensies het. Boonop kan die resensies met stergraderings in binêre etikette omgeskakel word.

  • Standford Sentiment TreeBank (Skakel)

    Hierdie NLP-datastel van Rotten Tomatoes bevat langer frases en meer gedetailleerde teksvoorbeelde.

  • Die blog-outeurskapkorpus (Skakel)

    Hierdie versameling het blogplasings met byna 1.4 miljoen woorde, elke blog is 'n aparte datastel.

  • OpinRank-datastel (Skakel)

    300,000 XNUMX resensies van Edmunds en TripAdvisor, georganiseer volgens motormodel of reisbestemming en hotel.

Teks

  • Die Wiki QA Corpus (Skakel)

    Die WiKi QA Corpus is geskep om die oopdomeinvraag- en antwoordnavorsing te help, en is een van die mees uitgebreide publiek beskikbare datastelle. Dit word saamgestel uit die Bing-soekenjin-navraaglogboeke, en kom met vraag-en-antwoord-pare. Dit het meer as 3000 vrae en 1500 benoemde antwoordsinne.

  • Regsaakverslae Datastel (Skakel)

    Regsaakverslae-datastel het 'n versameling van 4000 regsake en kan gebruik word om op te lei vir outomatiese teksopsomming en aanhalingsanalise. Elke dokument, vangfrases, aanhalingsklasse, aanhaling-vangfrases en meer word gebruik.

  • Gedrang (Skakel)

    Jeopardy-datastel is 'n versameling van meer as 200,000 XNUMX vrae wat verskyn in die gewilde vasvra TV-program wat deur 'n Reddit-gebruiker saamgevoeg is. Elke datapunt word geklassifiseer volgens sy uitgesaaidatum, episodenommer, waarde, rondte en vraag/antwoord.

  • 20 Nuusgroepe (Skakel)

    'n Versameling van 20,000 20 dokumente sluit XNUMX nuusgroepe en onderwerpe in, wat onderwerpe van godsdiens tot populêre sport uiteensit.

  • Reuters Nuus Datastel (Skakel)

    Hierdie datastel, wat die eerste keer in 1987 verskyn het, is gemerk, geïndekseer en saamgestel vir masjienleerdoeleindes.

  • arXiv (Skakel)

    Hierdie aansienlike datastel van 270 GB bevat die volledige teks van alle arXiv-navorsingsvraestelle.

  • Europese Parlement Proceedings Parallel Corpus (Skakel)

    Sinpare uit die Parlementsverrigtinge sluit inskrywings uit 21 Europese tale in, met 'n paar minder algemene tale vir masjienleerkorpusse.

  • Billion Word Benchmark (Skakel)

    Hierdie taalmodelleringsdatastel, afgelei van die WMT 2011 News Crawl, bestaan ​​uit byna een miljard woorde om innoverende taalmodelleringstegnieke te toets.

Oudiospraak

  • Gesproke Wikipedia Corpora (Skakel)

    Oudiospraak Hierdie datastel is perfek vir almal wat verder wil gaan as die Engelse taal. Hierdie datastel het 'n versameling artikels wat in Nederlands en Duits en Engels gepraat word. Dit het 'n uiteenlopende reeks onderwerpe en sprekersstelle wat oor honderde ure loop.

  • 2000 HUB5 Engels (Skakel)

    Die 2000 HUB5 Engelse datastel het 40 telefoongesprek-transkripsies in die Engelse taal. Die data word verskaf deur die Nasionale Instituut vir Standaarde en Tegnologie, en die hooffokus daarvan is op die herkenning van gespreksspraak en die omskakeling van spraak in teks.

  • LibriSpeech (Skakel)

    LibriSpeech-datastel is 'n versameling van byna 1000 ure se Engelse spraak wat geneem is en behoorlik volgens onderwerpe in hoofstukke uit oudioboeke in hoofstukke gesegmenteer is, wat dit 'n perfekte hulpmiddel vir natuurlike taalverwerking maak.

  • Gratis gesproke syfer-datastel (Skakel)

    Hierdie NLP-datastel bevat meer as 1,500 XNUMX opnames van gesproke syfers in Engels.

  • M-AI Labs Spraakdatastel (Skakel)

    Die datastel bied byna 1,000 XNUMX uur se oudio met transkripsies, wat verskeie tale insluit en gekategoriseer volgens manlike, vroulike en gemengde stemme.

  • Lawaaierige spraakdatabasis (Skakel)

    Hierdie datastel bevat parallelle raserige en skoon spraakopnames, bedoel vir spraakverbetering sagteware-ontwikkeling, maar ook voordelig vir opleiding oor spraak in uitdagende toestande.

Resensies

  • Yelp Resensies (Skakel)

    Die Yelp-datastel het 'n groot versameling van ongeveer 8.5 miljoen resensies van 160,000 200,000 plus besighede, hul resensies en gebruikersdata. Die resensies kan gebruik word om jou modelle op sentimentanalise op te lei. Boonop het hierdie datastel ook meer as XNUMX XNUMX foto's wat agt metropolitaanse liggings dek.

  • IMDB-resensies (Skakel)

    IMDB-resensies is een van die gewildste datastelle wat rolverdeling-inligting, graderings, beskrywing en genre vir meer as 50 duisend flieks bevat. Hierdie datastel kan gebruik word om jou masjienleermodelle te toets en op te lei.

  • Amazon resensies en graderings datastel (Skakel)

    Amazon-resensie- en beoordelingsdatastel bevat 'n waardevolle versameling metadata en resensies van verskillende produkte van Amazon wat van 1996 tot 2014 versamel is – ongeveer 142.8 miljoen rekords. Die metadata sluit die prys, produkbeskrywing, handelsmerk, kategorie en meer in, terwyl die resensies tekskwaliteit, die teks se bruikbaarheid, graderings en meer het.

Vraag en antwoord

  • Stanford Vraag en Antwoord Dataset (SQuAD) (Skakel)

    Hierdie leesbegripdatastel het 100,000 50,000 beantwoordbare vrae en XNUMX XNUMX onbeantwoordbare vrae, almal geskep deur Wikipedia-skarewerkers.

  • Natuurlike vrae (Skakel)

    Hierdie opleidingstel het meer as 300,000 7,800 opleidingsvoorbeelde, 7,800 XNUMX ontwikkelingsvoorbeelde en XNUMX XNUMX toetsvoorbeelde, elk met 'n Google-navraag en 'n ooreenstemmende Wikipedia-bladsy.

  • TriviaQA (Skakel)

    Hierdie uitdagende vraestel het 950,000 XNUMX QA-pare, insluitend beide mens-geverifieerde en masjien-gegenereerde substelle.

  • CLEVR (Komposisietaal en Elementêre Visuele Redenering) (Skakel)

    Hierdie visuele vraagbeantwoordingsdatastel bevat 3D-weergegee voorwerpe en duisende vrae met besonderhede oor die visuele toneel.

So, watter datastel het jy gekies om jou masjienleermodel op te lei?

Soos ons gaan, sal ons jou laat met 'n pro-wenk.

Maak seker dat u die README-lêer deeglik deurgaan voordat u 'n NLP-datastel vir u behoeftes kies. Die datastel sal al die nodige inligting bevat wat jy mag benodig, soos die datastel se inhoud, die verskillende parameters waarop die data gekategoriseer is, en die waarskynlike gebruiksgevalle van die datastel.

Ongeag die modelle wat jy bou, is daar 'n opwindende vooruitsig om ons masjiene nouer en intrinsieker met ons lewens te integreer. Met NLP word die moontlikhede vir besigheid, flieks, spraakherkenning, finansies en meer veelvuldig vergroot.

Sosiale Deel