NLP-datastel vir ML

15 Beste NLP-datastelle om jou natuurlike taalverwerkingsmodelle op te lei

Natuurlike taalverwerking is 'n belangrike deel van die masjienleerwapens. Dit benodig egter groot hoeveelhede data en opleiding vir die model om goed te werk. Een van die beduidende probleme met NLP is die gebrek aan opleidingdatastelle wat groot belangstellingsvelde binne die domein kan dek.

As jy in hierdie groot veld begin, sal jy dit dalk uitdagend en feitlik oorbodig vind om jou datastelle te skep. Veral as daar kwaliteit is NLP datastelle beskikbaar om jou masjienleermodelle op te lei op grond van hul doel.

Die NLP-mark sal na verwagting teen 'n CAGR van 11.7% gedurende 2018 en 2026 groei om te bereik Teen 28.6 $ 2026 miljard. Danksy die groeiende vraag na NLP en masjienleer, is dit nou moontlik om kwaliteit datastelle in die hande te kry wat voorsiening maak vir sentimentanalise, resensies, vraag- en antwoorde-analise en spraakanalise-datastelle.

Die NLP-datastelle vir masjienleer wat u kan vertrou

Aangesien ontelbare datastelle – wat op verskeie behoeftes fokus – byna elke dag vrygestel word, kan dit uitdagend wees om toegang tot kwaliteit, betroubare en beste datastelle te kry. Hier het ons die werk vir jou makliker gemaak, aangesien ons vir jou saamgestelde datastelle aangebied het wat geskei is op grond van die kategorieë wat hulle bedien.

algemene

Spambase, wat by die Hewlett-Packard Labs geskep is, het 'n versameling strooipos-e-posse deur die gebruikers, wat daarop gemik is om 'n persoonlike strooiposfilter te ontwikkel. Dit het meer as 4600 waarnemings van e-posboodskappe, waarvan byna 1820 strooipos is.

Die Enron-datastel het 'n groot versameling anonieme 'regte' e-posse wat aan die publiek beskikbaar is om hul masjienleermodelle op te lei. Dit spog met meer as 'n halfmiljoen e-posse van meer as 150 gebruikers, hoofsaaklik Enron se senior bestuur. Hierdie datastel is beskikbaar vir gebruik in beide gestruktureerde en ongestruktureerde formate. Om die ongestruktureerde data op te knap, moet jy dataverwerkingstegnieke toepas.

Die Recommender System-datastel is 'n groot versameling van verskeie datastelle wat verskillende kenmerke bevat soos,

  • Produk resensies
  • Stergraderings
  • Fiksheidsopsporing
  • Liedjie data
  • Sosiale netwerke
  • tyd tempel
  • Gebruiker/item interaksies
  • GPS data

Sentimentanalise

  • Woordeboeke vir films en finansies (Skakel)

Sentimentanalise
Die Woordeboeke vir Flieks en Finansies-datastel verskaf domeinspesifieke woordeboeke vir positiewe of negatiewe polariteit in Finansies-vulsels en fliekresensies. Hierdie woordeboeke is getrek uit IMDb- en US Form-8-vulsels.

Sentiment 140 het meer as 160,000 6 twiets met verskeie emoticons wat in XNUMX verskillende velde gekategoriseer is: tweet-datum, polariteit, teks, gebruikersnaam, ID en navraag. Hierdie datastel maak dit vir jou moontlik om die sentiment van 'n handelsmerk, 'n produk of selfs 'n onderwerp op grond van Twitter-aktiwiteit te ontdek. Aangesien hierdie datastel outomaties geskep word, anders as ander mens-geannoteerde twiets, klassifiseer dit twiets met positiewe emosies en negatiewe emosies as ongunstig.

  • Multi-Domain Sentiment datastel (Skakel)

Hierdie multi-domein sentiment datastel is 'n bewaarplek van Amazon resensies vir verskeie produkte. Sommige produkkategorieë, soos boeke, het duisende resensies, terwyl ander slegs 'n paar honderd resensies het. Boonop kan die resensies met stergraderings in binêre etikette omgeskakel word.

Kom ons bespreek u vereiste vir AI -opleidingsdata vandag.

Teks

Die WiKi QA Corpus is geskep om die oopdomeinvraag- en antwoordnavorsing te help, en is een van die mees uitgebreide publiek beskikbare datastelle. Dit word saamgestel uit die Bing-soekenjin-navraaglogboeke, en kom met vraag-en-antwoord-pare. Dit het meer as 3000 vrae en 1500 benoemde antwoordsinne.

Regsaakverslae-datastel het 'n versameling van 4000 regsake en kan gebruik word om op te lei vir outomatiese teksopsomming en aanhalingsanalise. Elke dokument, vangfrases, aanhalingsklasse, aanhaling-vangfrases en meer word gebruik.

Jeopardy-datastel is 'n versameling van meer as 200,000 XNUMX vrae wat verskyn in die gewilde vasvra TV-program wat deur 'n Reddit-gebruiker saamgevoeg is. Elke datapunt word geklassifiseer volgens sy uitgesaaidatum, episodenommer, waarde, rondte en vraag/antwoord.

Oudiospraak

Oudiospraak Hierdie datastel is perfek vir almal wat verder wil gaan as die Engelse taal. Hierdie datastel het 'n versameling artikels wat in Nederlands en Duits en Engels gepraat word. Dit het 'n uiteenlopende reeks onderwerpe en sprekersstelle wat oor honderde ure loop.

Die 2000 HUB5 Engelse datastel het 40 telefoongesprek-transkripsies in die Engelse taal. Die data word verskaf deur die Nasionale Instituut vir Standaarde en Tegnologie, en die hooffokus daarvan is op die herkenning van gespreksspraak en die omskakeling van spraak in teks.

LibriSpeech-datastel is 'n versameling van byna 1000 ure se Engelse spraak wat geneem is en behoorlik volgens onderwerpe in hoofstukke uit oudioboeke in hoofstukke gesegmenteer is, wat dit 'n perfekte hulpmiddel vir natuurlike taalverwerking maak.

Resensies

Die Yelp-datastel het 'n groot versameling van ongeveer 8.5 miljoen resensies van 160,000 200,000 plus besighede, hul resensies en gebruikersdata. Die resensies kan gebruik word om jou modelle op sentimentanalise op te lei. Boonop het hierdie datastel ook meer as XNUMX XNUMX foto's wat agt metropolitaanse liggings dek.

IMDB-resensies is een van die gewildste datastelle wat rolverdeling-inligting, graderings, beskrywing en genre vir meer as 50 duisend flieks bevat. Hierdie datastel kan gebruik word om jou masjienleermodelle te toets en op te lei.

  • Amazon resensies en graderings datastel (Skakel)

Amazon-resensie- en beoordelingsdatastel bevat 'n waardevolle versameling metadata en resensies van verskillende produkte van Amazon wat van 1996 tot 2014 versamel is – ongeveer 142.8 miljoen rekords. Die metadata sluit die prys, produkbeskrywing, handelsmerk, kategorie en meer in, terwyl die resensies tekskwaliteit, die teks se bruikbaarheid, graderings en meer het.

So, watter datastel het jy gekies om jou masjienleermodel op te lei?

Soos ons gaan, sal ons jou laat met 'n pro-wenk. 

Maak seker dat u die README-lêer deeglik deurgaan voordat u 'n NLP-datastel vir u behoeftes kies. Die datastel sal al die nodige inligting bevat wat jy mag benodig, soos die datastel se inhoud, die verskillende parameters waarop die data gekategoriseer is, en die waarskynlike gebruiksgevalle van die datastel.

Ongeag die modelle wat jy bou, is daar 'n opwindende vooruitsig om ons masjiene nouer en intrinsieker met ons lewens te integreer. Met NLP word die moontlikhede vir besigheid, flieks, spraakherkenning, finansies en meer veelvuldig vergroot. As jy meer sulke datastelle soek Klik hier.

Sosiale Deel