Benoemde entiteitsherkenning (NER)

Benoemde Entiteitserkenning (NER) – Die konsep, tipes en toepassings

Elke keer as ons 'n woord hoor of 'n teks lees, het ons die natuurlike vermoë om die woord te identifiseer en te kategoriseer in mense, plek, ligging, waardes en meer. Mense kan vinnig 'n woord herken, dit kategoriseer en die konteks verstaan. Byvoorbeeld, wanneer jy die woord 'Steve Jobs' hoor, kan jy dadelik aan ten minste drie tot vier eienskappe dink en die entiteit in kategorieë verdeel,

  • persoon: Steve Jobs
  • Company: appel
  • Plek: Kalifornië

Aangesien rekenaars nie hierdie natuurlike vermoë het nie, benodig hulle ons hulp om woorde of teks te identifiseer en te kategoriseer. Dit is waar Benoemde entiteitsherkenning (NER) kom in die spel.

Kom ons kry 'n kort begrip van NER en sy verband met NLP.

Wat is Benoemde Entiteitserkenning?

Benoemde entiteitserkenning is deel van natuurlike taalverwerking. Die primêre doelwit van NER is om te verwerk gestruktureerde en ongestruktureerde data en klassifiseer hierdie benoemde entiteite in voorafbepaalde kategorieë. Sommige algemene kategorieë sluit in naam, ligging, maatskappy, tyd, geldwaardes, gebeure en meer.

In 'n neutedop handel NER oor:

  • Benoemde entiteit herkenning/bespeuring – Identifisering van 'n woord of reeks woorde in 'n dokument.
  • Benoemde entiteitsklassifikasie – Klassifikasie van elke bespeurde entiteit in voorafbepaalde kategorieë.

Maar hoe is NER verwant aan NLP?

Natuurlike taalverwerking help om intelligente masjiene te ontwikkel wat in staat is om betekenis uit spraak en teks te onttrek. Masjienleer help hierdie intelligente stelsels om voort te gaan leer deur groot hoeveelhede natuurlike taal op te lei datastelle.

Oor die algemeen bestaan ​​NLP uit drie hoofkategorieë:

  • Om die struktuur en reëls van die taal te verstaan ​​– sintaksis
  • Om betekenis van woorde, teks en spraak af te lei en hul verhoudings te identifiseer - semantiek
  • Identifisering en herkenning van gesproke woorde en omskep dit in teks – Toespraak

NER help in die semantiese deel van NLP, om die betekenis van woorde te onttrek, te identifiseer en op te spoor op grond van hul verhoudings.

Algemene voorbeelde van NER

Sommige van die algemene voorbeelde van 'n voorafbepaalde entiteit kategorisering is:

Voorbeelde van Ner
Voorbeelde van NER

persoon: Michael Jackson, Oprah Winfrey, Barack Obama, Susan Sarandon

Plek: Kanada, Honolulu, Bangkok, Brasilië, Cambridge

organisasie: Samsung, Disney, Yale Universiteit, Google

tyd: 15.35:12, XNUMX:XNUMX,

Ander kategorieë sluit in Numeriese waardes, Uitdrukking, E-posadresse en Fasiliteit.

Dubbelsinnigheid in Benoemde Entiteit Erkenning

Die kategorie waartoe 'n term behoort, is intuïtief baie duidelik vir mense. Dit is egter nie die geval met rekenaars nie – hulle ondervind klassifikasieprobleme. Byvoorbeeld:

Manchester stad (organisasie) het die Premierliga-trofee gewen, terwyl die organisasie in die volgende sin anders gebruik word. Manchester stad (Ligging) was 'n Tekstiel- en industriële kragbron.

Jou NER-model benodig opleidingsdata akkuraat te voer entiteit onttrekking en klassifikasie. As jy jou model op Shakespearese Engels oefen, sal dit natuurlik nie Instagram kan ontsyfer nie.

Verskillende NER-benaderings

Die primêre doel van a NER model is om entiteite in teksdokumente te benoem en te kategoriseer. Die volgende drie benaderings word oor die algemeen vir hierdie doel gebruik. U kan egter kies om ook een of meer metodes te kombineer.

Kom ons bespreek u vereiste vir AI -opleidingsdata vandag.

Die verskillende benaderings tot die skep van NER-stelsels is:

  • Woordeboek-gebaseerde stelsels

    Die woordeboek-gebaseerde stelsel is miskien die eenvoudigste en mees fundamentele NER benadering. Dit sal 'n woordeboek met baie woorde, sinonieme en woordeskatversameling gebruik. Die stelsel sal kontroleer of 'n spesifieke entiteit wat in die teks voorkom ook in die woordeskat beskikbaar is. Deur 'n string-passing algoritme te gebruik, word 'n kruiskontrolering van entiteite uitgevoer.

    Een nadeel van die gebruik van hierdie benadering is dat daar 'n behoefte is vir die voortdurende opgradering van die woordeskatdatastel vir die effektiewe funksionering van die NER-model.

  • Reël-gebaseerde stelsels

    In hierdie benadering word inligting onttrek op grond van 'n stel voorafopgestelde reëls. Daar is twee primêre stelle reëls wat gebruik word,

    Patroongebaseerde reëls – Soos die naam aandui, volg 'n patroongebaseerde reël 'n morfologiese patroon of string woorde wat in die dokument gebruik word.

    Konteksgebaseerde reëls – Konteksgebaseerde reëls hang af van die betekenis of die konteks van die woord in die dokument.

  • Masjienleer-gebaseerde stelsels

    In masjienleer-gebaseerde stelsels word statistiese modellering gebruik om entiteite op te spoor. 'n Kenmerkgebaseerde voorstelling van die teksdokument word in hierdie benadering gebruik. Jy kan verskeie nadele van die eerste twee benaderings oorkom aangesien die model kan herken tipes entiteite ten spyte van geringe variasies in hul spelling.

Gebruik gevalle en voorbeelde van benoemde entiteitserkenning?

Onthulling van die veelsydigheid van benoemde entiteitserkenning (NER):

  1. chatbots: NER help kletsbotte soos OpenAI se ChatGPT om gebruikersnavrae te verstaan ​​deur sleutelentiteite te identifiseer.
  2. Klientediens: Dit organiseer klantterugvoer volgens produkname, wat reaksietye versnel.
  3. Finansies: NER onttrek belangrike data uit finansiële verslae, wat help met tendensontleding en risiko-evaluering.
  4. Gesondheidssorg: Dit haal noodsaaklike inligting uit kliniese rekords, wat vinniger data-analise bevorder.
  5. HR: Dit stroomlyn werwing deur aansoekerprofiele op te som en werknemerterugvoer te kanaliseer.
  6. Nuusverskaffers: NER kategoriseer inhoud in relevante inligting en neigings, wat verslagdoening versnel.
  7. Aanbeveling enjins: Maatskappye soos Netflix gebruik NER om aanbevelings te personaliseer op grond van gebruikersgedrag.
  8. Soekenjins: Deur webinhoud te kategoriseer, verbeter NER die akkuraatheid van die soekresultate.
  9. Sentimentontleding: NER haal handelsmerkvermeldings uit resensies uit, wat sentimentanalise-instrumente aanvuur.

Toepassings van NER

NER het verskeie gebruiksgevalle in baie velde wat verband hou met Natuurlike Taalverwerking en die skep van opleidingsdatastelle vir machine learning en diep leer oplossings. Sommige van die toepassings van NER is:

  • Gestroomlynde kliëntediens

    'n NER-stelsel kan maklik relevante klanteklagtes, -navrae en -terugvoer opspoor op grond van belangrike inligting soos produkname, spesifikasies, takliggings, en meer. Die klagte of terugvoer word gepas geklassifiseer en na die regte departement herlei deur prioriteitsleutelwoorde te filter.

  • Doeltreffende Menslike Hulpbronne

    NER help Menslike Hulpbron-spanne om hul aanstellingsproses te verbeter en die tydlyne te verminder deur aansoekers se CV's vinnig op te som. Die NER-nutsgoed kan die CV skandeer en relevante inligting onttrek – naam, ouderdom, adres, kwalifikasie, kollege, ensovoorts.

    Daarbenewens kan die MH-afdeling ook NER-nutsmiddels gebruik om die interne werkvloeie te stroomlyn deur werknemersklagtes te filter en aan die betrokke departementshoofde deur te stuur.

  • Vereenvoudigde inhoudklassifikasie

    Inhoudklassifikasie is 'n enorme taak vir nuusverskaffers. Deur die inhoud in verskillende kategorieë te klassifiseer, maak dit makliker om te ontdek, insigte te verkry, neigings te identifiseer en die onderwerpe te verstaan. 'n Genoemde Entiteitserkenning hulpmiddel kan handig te pas kom vir nuusverskaffers. Dit kan baie artikels skandeer, prioriteitsleutelwoorde identifiseer en inligting onttrek op grond van die persone, organisasie, ligging en meer.

  • Optimaliseer soekenjins

    Search Engine Optimization NER help om die spoed en relevansie van soekresultate te vereenvoudig en te verbeter. In plaas daarvan om die soektog na duisende artikels te laat loop, kan 'n NER-model die navraag een keer laat loop en die resultate stoor. Dus, gebaseer op die etikette in die soektog, kan die artikels wat met die navraag geassosieer word, vinnig opgetel word.

     

  • Akkurate inhoudaanbeveling

    Verskeie moderne toepassings is afhanklik van NER-instrumente om 'n geoptimaliseerde en pasgemaakte kliëntervaring te lewer. Netflix verskaf byvoorbeeld gepersonaliseerde aanbevelings gebaseer op gebruiker se soek- en kykgeskiedenis deur gebruik te maak van benoemde entiteitsherkenning.

Benoemde Entiteit Erkenning maak jou machine learning modelle meer doeltreffend en betroubaar. Jy benodig egter kwaliteit opleidingdatastelle sodat jou modelle op hul optimale vlak kan werk en beoogde doelwitte kan bereik. Al wat jy nodig het, is 'n ervare diensvennoot wat jou van kwaliteit datastelle kan voorsien wat gereed is om te gebruik. As dit die geval is, is Shaip jou beste weddenskap nog. Reik uit na ons vir omvattende NER-datastelle om jou te help om doeltreffende en gevorderde ML-oplossings vir jou KI-modelle te ontwikkel.

[Lees ook: Gevallestudie: Benoemde Entiteitserkenning (NER) vir Kliniese NLP]

Hoe werk erkenning van benoemde entiteite?

Deur in die ryk van Name Entity Recognition (NER) te delf, onthul 'n sistematiese reis wat uit verskeie fases bestaan:

  • Tokenization

    Aanvanklik word die teksdata ontleed in kleiner eenhede, genaamd tokens, wat kan wissel van woorde tot sinne. Byvoorbeeld, die stelling "Barack Obama was die president van die VSA" word opgedeel in tekens soos "Barack", "Obama", "was", "die", "president", "van", "die" en " VSA”.

  • Entiteitopsporing

    Deur gebruik te maak van 'n samestelling van linguistiese riglyne en statistiese metodologieë, word potensiële genoemde entiteite in die kollig geplaas. Om patrone soos hoofletters in name (“Barack Obama”) of afsonderlike formate (soos datums) te herken, is in hierdie stadium van kardinale belang.

  • Entiteit Klassifikasie

    Na-opsporing word entiteite in voorafbepaalde kategorieë gesorteer soos "Persoon", "Organisasie" of "Ligging". Masjienleermodelle, gekoester op benoemde datastelle, dryf dikwels hierdie klassifikasie aan. Hier word "Barack Obama" gemerk as 'n "Persoon" en "VSA" as 'n "Ligging".

  • Kontekstuele Evaluering

    Die bekwaamheid van NER-stelsels word dikwels versterk deur die omliggende konteks te evalueer. Byvoorbeeld, in die frase "Washington was getuie van 'n historiese gebeurtenis", help die konteks om "Washington" as 'n plek eerder as 'n persoon se naam te onderskei.

  • Na-evaluering verfyning

    Na die aanvanklike identifikasie en klassifikasie kan 'n na-evaluering verfyning volg om die resultate te slyp. Hierdie stadium kan onduidelikhede aanpak, multi-teken-entiteite saamsmelt, of kennisbasisse gebruik om die entiteitsdata aan te vul.

Hierdie omlynde benadering ontmystifiseer nie net die kern van NER nie, maar optimaliseer ook die inhoud vir soekenjins, wat die sigbaarheid van die ingewikkelde proses wat NER beliggaam, verbeter.

NER Voordele en uitdagings?

Voordele:

  1. Inligting onttrekking: NER identifiseer sleuteldata en help om inligting te herwin.
  2. Inhoud organisasie: Dit help om inhoud te kategoriseer, nuttig vir databasisse en soekenjins.
  3. Verbeterde gebruikerservaring: NER verfyn soekuitkomste en verpersoonlik aanbevelings.
  4. Insiggewende analise: Dit vergemaklik sentimentontleding en tendensopsporing.
  5. Outomatiese werkvloei: NER bevorder outomatisering, bespaar tyd en hulpbronne.

Beperkings/uitdagings:

  1. Dubbelsinnigheid Resolusie: Sukkel om soortgelyke entiteite te onderskei.
  2. Domein-spesifieke aanpassing: Hulpbron-intensief oor diverse domeine heen.
  3. Taalafhanklikheid: Doeltreffendheid verskil met tale.
  4. Skaarste aan gemerkte data: Benodig groot benoemde datastelle vir opleiding.
  5. Hantering van ongestruktureerde data: Vereis gevorderde tegnieke.
  6. Prestasiemeting: Akkurate evaluering is kompleks.
  7. Intydse verwerking: Om spoed met akkuraatheid te balanseer is uitdagend.

Sosiale Deel

Jy kan ook graag