NLP-datastel vir ML

33 Beste NLP-datastelle om jou natuurlike taalverwerkingsmodelle op te lei

Natuurlike taalverwerking is 'n belangrike deel van die masjienleerwapens. Dit benodig egter groot hoeveelhede data en opleiding vir die model om goed te werk. Een van die beduidende probleme met NLP is die gebrek aan opleidingdatastelle wat groot belangstellingsvelde binne die domein kan dek.

As jy in hierdie groot veld begin, sal jy dit dalk uitdagend en feitlik oorbodig vind om jou datastelle te skep. Veral as daar kwaliteit is NLP datastelle beskikbaar om jou masjienleermodelle op te lei op grond van hul doel.

Die NLP-mark sal na verwagting teen 'n CAGR van 11.7% gedurende 2018 en 2026 groei om te bereik Teen 28.6 $ 2026 miljard. Danksy die groeiende vraag na NLP en masjienleer, is dit nou moontlik om kwaliteit datastelle in die hande te kry wat voorsiening maak vir sentimentanalise, resensies, vraag- en antwoorde-analise en spraakanalise-datastelle.

Die NLP-datastelle vir masjienleer wat u kan vertrou

Since countless datasets – focusing on various needs – are being released almost every day, it can be challenging to access quality, reliable, and best datasets. Here, we have made the work easier for you, as we have presented you with curated datasets segregated based on the categories they serve.

algemene

  • UCI se Spambase (Skakel)

    Spambase, wat by die Hewlett-Packard Labs geskep is, het 'n versameling strooipos-e-posse deur die gebruikers, wat daarop gemik is om 'n persoonlike strooiposfilter te ontwikkel. Dit het meer as 4600 waarnemings van e-posboodskappe, waarvan byna 1820 strooipos is.

  • Enron-datastel (Skakel)

    Die Enron-datastel het 'n groot versameling anonieme 'regte' e-posse wat aan die publiek beskikbaar is om hul masjienleermodelle op te lei. Dit spog met meer as 'n halfmiljoen e-posse van meer as 150 gebruikers, hoofsaaklik Enron se senior bestuur. Hierdie datastel is beskikbaar vir gebruik in beide gestruktureerde en ongestruktureerde formate. Om die ongestruktureerde data op te knap, moet jy dataverwerkingstegnieke toepas.

  • Recommender Systems datastel (Skakel)

    Die Recommender System-datastel is 'n groot versameling van verskeie datastelle wat verskillende kenmerke bevat soos,

    • Produk resensies
    • Stergraderings
    • Fiksheidsopsporing
    • Liedjie data
    • Sosiale netwerke
    • tyd tempel
    • Gebruiker/item interaksies
    • GPS data
  • Penn Treebank (Skakel)

    This corpus, from the Wall Street Journal, is popular for testing sequence labeling models.

  • NLTK (Skakel)

    This Python library provides access to over 100 corpora and lexical resources for NLP. It also includes the NLTK book, a training course for using the library.

  • Universele afhanklikhede (Skakel)

    UD provides a consistent way to annotate grammar, with resources in over 100 languages, 200 treebanks, and support from over 300 community members.

Sentimentanalise

  • Woordeboeke vir films en finansies (Skakel)

    Sentimentanalise
    Die Woordeboeke vir Flieks en Finansies-datastel verskaf domeinspesifieke woordeboeke vir positiewe of negatiewe polariteit in Finansies-vulsels en fliekresensies. Hierdie woordeboeke is getrek uit IMDb- en US Form-8-vulsels.

  • Sentiment 140 (Skakel)

    Sentiment 140 het meer as 160,000 6 twiets met verskeie emoticons wat in XNUMX verskillende velde gekategoriseer is: tweet-datum, polariteit, teks, gebruikersnaam, ID en navraag. Hierdie datastel maak dit vir jou moontlik om die sentiment van 'n handelsmerk, 'n produk of selfs 'n onderwerp op grond van Twitter-aktiwiteit te ontdek. Aangesien hierdie datastel outomaties geskep word, anders as ander mens-geannoteerde twiets, klassifiseer dit twiets met positiewe emosies en negatiewe emosies as ongunstig.

  • Multi-Domain Sentiment datastel (Skakel)

    Hierdie multi-domein sentiment datastel is 'n bewaarplek van Amazon resensies vir verskeie produkte. Sommige produkkategorieë, soos boeke, het duisende resensies, terwyl ander slegs 'n paar honderd resensies het. Boonop kan die resensies met stergraderings in binêre etikette omgeskakel word.

  • Standford Sentiment TreeBank (Skakel)

    This NLP dataset from Rotten Tomatoes includes longer phrases and more detailed text examples.

  • The Blog Authorship Corpus (Skakel)

    This collection has blog posts with nearly 1.4 million words, each blog is a separate dataset.

  • OpinRank Dataset (Skakel)

    300,000 reviews from Edmunds and TripAdvisor, organized by car model or travel destination and hotel.

Kom ons bespreek u vereiste vir AI -opleidingsdata vandag.

Teks

  • Die Wiki QA Corpus (Skakel)

    Die WiKi QA Corpus is geskep om die oopdomeinvraag- en antwoordnavorsing te help, en is een van die mees uitgebreide publiek beskikbare datastelle. Dit word saamgestel uit die Bing-soekenjin-navraaglogboeke, en kom met vraag-en-antwoord-pare. Dit het meer as 3000 vrae en 1500 benoemde antwoordsinne.

  • Regsaakverslae Datastel (Skakel)

    Regsaakverslae-datastel het 'n versameling van 4000 regsake en kan gebruik word om op te lei vir outomatiese teksopsomming en aanhalingsanalise. Elke dokument, vangfrases, aanhalingsklasse, aanhaling-vangfrases en meer word gebruik.

  • Gedrang (Skakel)

    Jeopardy-datastel is 'n versameling van meer as 200,000 XNUMX vrae wat verskyn in die gewilde vasvra TV-program wat deur 'n Reddit-gebruiker saamgevoeg is. Elke datapunt word geklassifiseer volgens sy uitgesaaidatum, episodenommer, waarde, rondte en vraag/antwoord.

  • 20 Newsgroups (Skakel)

    A collection of 20,000 documents encompasses 20 newsgroups and subjects, detailing topics from religion to popular sports.

  • Reuters News Dataset (Skakel)

    First appearing in 1987, this dataset has been labeled, indexed, and compiled for machine learning purposes.

  • arXiv (Skakel)

    This substantial 270 GB dataset includes the complete text of all arXiv research papers.

  • European Parliament Proceedings Parallel Corpus (Skakel)

    Sentence pairs from Parliament proceedings include entries from 21 European languages, featuring some less common languages for machine learning corpora.

  • Billion Word Benchmark (Skakel)

    Derived from the WMT 2011 News Crawl, this language modeling dataset comprises nearly one billion words for testing innovative language modeling techniques.

Oudiospraak

  • Gesproke Wikipedia Corpora (Skakel)

    Oudiospraak Hierdie datastel is perfek vir almal wat verder wil gaan as die Engelse taal. Hierdie datastel het 'n versameling artikels wat in Nederlands en Duits en Engels gepraat word. Dit het 'n uiteenlopende reeks onderwerpe en sprekersstelle wat oor honderde ure loop.

  • 2000 HUB5 Engels (Skakel)

    Die 2000 HUB5 Engelse datastel het 40 telefoongesprek-transkripsies in die Engelse taal. Die data word verskaf deur die Nasionale Instituut vir Standaarde en Tegnologie, en die hooffokus daarvan is op die herkenning van gespreksspraak en die omskakeling van spraak in teks.

  • LibriSpeech (Skakel)

    LibriSpeech-datastel is 'n versameling van byna 1000 ure se Engelse spraak wat geneem is en behoorlik volgens onderwerpe in hoofstukke uit oudioboeke in hoofstukke gesegmenteer is, wat dit 'n perfekte hulpmiddel vir natuurlike taalverwerking maak.

  • Free Spoken Digit Dataset (Skakel)

    This NLP dataset includes more than 1,500 recordings of spoken digits in English.

  • M-AI Labs Speech Dataset (Skakel)

    The dataset offers nearly 1,000 hours of audio with transcriptions, encompassing multiple languages and categorized by male, female, and mixed voices.

  • Noisy Speech Database (Skakel)

    This dataset features parallel noisy and clean speech recordings, intended for speech enhancement software development but also beneficial for training on speech in challenging conditions.

Resensies

  • Yelp Resensies (Skakel)

    Die Yelp-datastel het 'n groot versameling van ongeveer 8.5 miljoen resensies van 160,000 200,000 plus besighede, hul resensies en gebruikersdata. Die resensies kan gebruik word om jou modelle op sentimentanalise op te lei. Boonop het hierdie datastel ook meer as XNUMX XNUMX foto's wat agt metropolitaanse liggings dek.

  • IMDB-resensies (Skakel)

    IMDB-resensies is een van die gewildste datastelle wat rolverdeling-inligting, graderings, beskrywing en genre vir meer as 50 duisend flieks bevat. Hierdie datastel kan gebruik word om jou masjienleermodelle te toets en op te lei.

  • Amazon resensies en graderings datastel (Skakel)

    Amazon-resensie- en beoordelingsdatastel bevat 'n waardevolle versameling metadata en resensies van verskillende produkte van Amazon wat van 1996 tot 2014 versamel is – ongeveer 142.8 miljoen rekords. Die metadata sluit die prys, produkbeskrywing, handelsmerk, kategorie en meer in, terwyl die resensies tekskwaliteit, die teks se bruikbaarheid, graderings en meer het.

Vraag en antwoord

  • Stanford Question and Answer Dataset (SQuAD) (Skakel)

    This reading comprehension dataset has 100,000 answerable questions and 50,000 unanswerable ones, all created by Wikipedia crowd workers.

  • Natural Questions (Skakel)

    This training set has over 300,000 training examples, 7,800 development examples, and 7,800 test examples, each with a Google query and a matching Wikipedia page.

  • TriviaQA (Skakel)

    This challenging question set has 950,000 QA pairs, including both human-verified and machine-generated subsets.

  • CLEVR (Compositional Language and Elementary Visual Reasoning) (Skakel)

    This visual question answering dataset features 3D rendered objects and thousands of questions with details about the visual scene.

So, watter datastel het jy gekies om jou masjienleermodel op te lei?

Soos ons gaan, sal ons jou laat met 'n pro-wenk.

Maak seker dat u die README-lêer deeglik deurgaan voordat u 'n NLP-datastel vir u behoeftes kies. Die datastel sal al die nodige inligting bevat wat jy mag benodig, soos die datastel se inhoud, die verskillende parameters waarop die data gekategoriseer is, en die waarskynlike gebruiksgevalle van die datastel.

Ongeag die modelle wat jy bou, is daar 'n opwindende vooruitsig om ons masjiene nouer en intrinsieker met ons lewens te integreer. Met NLP word die moontlikhede vir besigheid, flieks, spraakherkenning, finansies en meer veelvuldig vergroot. As jy meer sulke datastelle soek Klik hier.

Sosiale Deel