Benoemde entiteitsherkenning (NER)

Wat word genoem entiteitserkenning (NER) – Voorbeeld, gebruiksgevalle, voordele en uitdagings

Elke keer as ons 'n woord hoor of 'n teks lees, het ons die natuurlike vermoë om die woord te identifiseer en te kategoriseer in mense, plek, ligging, waardes en meer. Mense kan vinnig 'n woord herken, dit kategoriseer en die konteks verstaan. Byvoorbeeld, wanneer jy die woord 'Steve Jobs' hoor, kan jy dadelik aan ten minste drie tot vier eienskappe dink en die entiteit in kategorieë verdeel,

  • persoon: Steve Jobs
  • Company: appel
  • Plek: Kalifornië

Aangesien rekenaars nie hierdie natuurlike vermoë het nie, benodig hulle ons hulp om woorde of teks te identifiseer en te kategoriseer. Dit is waar Benoemde entiteitsherkenning (NER) kom in die spel.

Kom ons kry 'n kort begrip van NER en sy verband met NLP.

Wat is Benoemde Entiteitserkenning?

Benoemde entiteitserkenning is deel van natuurlike taalverwerking. Die primêre doelwit van NER is om te verwerk gestruktureerde en ongestruktureerde data en klassifiseer hierdie benoemde entiteite in voorafbepaalde kategorieë. Sommige algemene kategorieë sluit in naam, ligging, maatskappy, tyd, geldwaardes, gebeure en meer.

In 'n neutedop handel NER oor:

  • Benoemde entiteit herkenning/bespeuring – Identifisering van 'n woord of reeks woorde in 'n dokument.
  • Benoemde entiteitsklassifikasie – Klassifikasie van elke bespeurde entiteit in voorafbepaalde kategorieë.

Maar hoe is NER verwant aan NLP?

Natuurlike taalverwerking help om intelligente masjiene te ontwikkel wat in staat is om betekenis uit spraak en teks te onttrek. Masjienleer help hierdie intelligente stelsels om voort te gaan leer deur op groot hoeveelhede op te lei natuurlike taal datastelle.

Oor die algemeen bestaan ​​NLP uit drie hoofkategorieë:

  • Om die struktuur en reëls van die taal te verstaan ​​– sintaksis
  • Om betekenis van woorde, teks en spraak af te lei en hul verhoudings te identifiseer - semantiek
  • Identifisering en herkenning van gesproke woorde en omskep dit in teks – Toespraak

NER help in die semantiese deel van NLP, om die betekenis van woorde te onttrek, te identifiseer en op te spoor op grond van hul verhoudings.

'n Diep duik in algemene NER-entiteittipes

Benoemde Entiteitsherkenningsmodelle kategoriseer entiteite in verskeie voorafbepaalde tipes. Om hierdie tipes te verstaan ​​is noodsaaklik om NER effektief te benut. Hier is 'n nader kyk na sommige van die algemeenste:

  • Persoon (PER): Identifiseer individue se name, insluitend voor-, middel- en vanne, titels en eerbewyse. Voorbeeld: Nelson Mandela, Dr. Jane Doe
  • Organisasie (ORG): Erken maatskappye, instellings, regeringsagentskappe en ander georganiseerde groepe. Voorbeeld: Google, Wêreldgesondheidsorganisasie, Verenigde Nasies
  • Ligging (LOC): Bespeur geografiese liggings, insluitend lande, stede, state, adresse en landmerke. Voorbeeld: Londen, Mount Everest, Times Square
  • Datum (DATE): Onttrek datums in verskeie formate. Voorbeeld: 1 Januarie 2024, 2024-01-01
  • Tyd (TYD): Identifiseer tydsuitdrukkings. Voorbeeld: 3:00, 15:00
  • Hoeveelheid (QUANTITY): Herken numeriese hoeveelhede en maateenhede. Voorbeeld: 10 kilogram, 2 liter
  • Persentasie (PERCENT): Bespeur persentasies. Voorbeeld: 50%, 0.5
  • Geld (GELD): Onttrek geldwaardes en geldeenhede. Voorbeeld: $100, €50
  • Ander (MISC): 'n Alles-kategorie vir entiteite wat nie by die ander tipes inpas nie. Voorbeeld: Nobelprys, iPhone 15″

Voorbeelde van Benoemde Entiteit Erkenning

Sommige van die algemene voorbeelde van 'n voorafbepaalde entiteit kategorisering is:

Voorbeelde van ner

Apple: is gemerk as ORG (Organisasie) en in rooi uitgelig. Vandag: is gemerk as DATUM en in pienk uitgelig. tweede: is gemerk as HOEVEELHEID en in groen uitgelig. iPhone SE: is gemerk as COMM (Kommersiële produk) en in blou uitgelig. 4.7 duim: is gemerk as HOEVEELHEID en in groen uitgelig.

Dubbelsinnigheid in Benoemde Entiteit Erkenning

Die kategorie waartoe 'n term behoort, is intuïtief baie duidelik vir mense. Dit is egter nie die geval met rekenaars nie – hulle ondervind klassifikasieprobleme. Byvoorbeeld:

Manchester stad (organisasie) het die Premierliga-trofee gewen, terwyl die organisasie in die volgende sin anders gebruik word. Manchester stad (Ligging) was 'n Tekstiel- en industriële kragbron.

Jou NER-model benodig opleidingsdata akkuraat te voer entiteit onttrekking en klassifikasie. As jy jou model op Shakespearese Engels oefen, sal dit natuurlik nie Instagram kan ontsyfer nie.

Verskillende NER-benaderings

Die primêre doel van a NER model is om entiteite in teksdokumente te benoem en te kategoriseer. Die volgende drie benaderings word oor die algemeen vir hierdie doel gebruik. U kan egter kies om ook een of meer metodes te kombineer. Die verskillende benaderings tot die skep van NER-stelsels is:

  • Woordeboek-gebaseerde stelsels

    Die woordeboek-gebaseerde stelsel is miskien die eenvoudigste en mees fundamentele NER benadering. Dit sal 'n woordeboek met baie woorde, sinonieme en woordeskatversameling gebruik. Die stelsel sal kontroleer of 'n spesifieke entiteit wat in die teks voorkom ook in die woordeskat beskikbaar is. Deur 'n string-passing algoritme te gebruik, word 'n kruiskontrolering van entiteite uitgevoer.

    Een nadeel van die gebruik van hierdie benadering is dat daar 'n behoefte is vir die voortdurende opgradering van die woordeskatdatastel vir die effektiewe funksionering van die NER-model.

  • Reël-gebaseerde stelsels

    In hierdie benadering word inligting onttrek op grond van 'n stel voorafopgestelde reëls. Daar is twee primêre stelle reëls wat gebruik word,

    Patroongebaseerde reëls – Soos die naam aandui, volg 'n patroongebaseerde reël 'n morfologiese patroon of string woorde wat in die dokument gebruik word.

    Konteksgebaseerde reëls – Konteksgebaseerde reëls hang af van die betekenis of die konteks van die woord in die dokument.

  • Masjienleer-gebaseerde stelsels

    In masjienleer-gebaseerde stelsels word statistiese modellering gebruik om entiteite op te spoor. 'n Kenmerkgebaseerde voorstelling van die teksdokument word in hierdie benadering gebruik. Jy kan verskeie nadele van die eerste twee benaderings oorkom aangesien die model kan herken tipes entiteite ten spyte van geringe variasies in hul spelling.

  • Diep leer

    Diep leermetodes vir NER gebruik die krag van neurale netwerke soos RNN'e en transformators om langtermyn-teksafhanklikhede te verstaan. Die belangrikste voordeel van die gebruik van hierdie metodes is dat hulle goed geskik is vir grootskaalse NER-take met oorvloedige opleidingsdata.

    Verder kan hulle komplekse patrone en kenmerke van die data self leer, wat die behoefte aan handopleiding uitskakel. Maar daar is 'n vangplek. Hierdie metodes vereis 'n groot hoeveelheid rekenkrag vir opleiding en ontplooiing.

  • Hibriede metodes

    Hierdie metodes kombineer benaderings soos reëlgebaseerde, statistiese en masjienleer om genoemde entiteite te onttrek. Die doel is om die sterk punte van elke metode te kombineer terwyl hulle hul swakpunte tot die minimum beperk. Die beste deel van die gebruik van hibriede metodes is die buigsaamheid wat jy kry deur verskeie tegnieke saam te voeg waardeur jy entiteite uit diverse databronne kan onttrek.

    Daar is egter 'n moontlikheid dat hierdie metodes uiteindelik baie meer kompleks kan word as die enkelbenaderingsmetodes, aangesien die werkvloei verwarrend kan raak wanneer u verskeie benaderings saamvoeg.

Gebruik gevalle vir Benoemde Entiteit Erkenning (NER)?

Onthulling van die veelsydigheid van benoemde entiteitserkenning (NER):

  • chatbots: Help kletsbotte soos GPT om gebruikersnavrae te verstaan ​​deur sleutelentiteite te identifiseer.
  • Klientediens: Kategoriseer terugvoer volgens produk, versnel reaksietyd.
  • Finansies: Onttrek belangrike data uit finansiële verslae vir tendensontleding en risikobepaling.
  • Gesondheidssorg: Dit haal noodsaaklike inligting uit kliniese rekords, wat vinniger data-analise bevorder.
  • HR: Stroomlyn werwing deur aansoekerprofiele op te som en terugvoer te kanaliseer.
  • Nuusverskaffers: Kategoriseer inhoud in relevante inligting, en versnel verslaggewing.
  • Aanbeveling enjins: Maatskappye soos Netflix gebruik NER om aanbevelings te personaliseer op grond van gebruikersgedrag.
  • Soekenjins: Deur webinhoud te kategoriseer, verbeter NER die akkuraatheid van die soekresultate.
  • Sentimentontleding: Extracts handelsmerkvermeldings uit resensies, wat sentimentanalise-instrumente aanvuur.

Wie gebruik benoemde entiteitserkenning (NER)?

NER (Named Entity Recognition) is een van die kragtige natuurlike taalverwerking (NLP) tegnieke, het sy pad na verskeie industrieë en domeine gemaak. Hier is 'n paar voorbeelde:

  • Soekenjins: NER is 'n kernkomponent van hedendaagse soekenjins soos Google en Bing. Dit word gebruik om entiteite vanaf webblaaie en soeknavrae te identifiseer en te kategoriseer om meer relevante soekresultate te verskaf. Byvoorbeeld, met die hulp van NER kan die soekenjin op grond van konteks onderskei tussen "Apple" die maatskappy vs. "appel" die vrugte.
  • chatbots: Chatbots en AI-assistente kan NER gebruik om sleutelentiteite uit gebruikersnavrae te verstaan. Deur dit te doen, kan kletsbotte meer presiese antwoorde verskaf. Byvoorbeeld, as jy vra "Vind Italiaanse restaurante naby Central Park" sal die kletsbot "Italiaans" as die kombuistipe, "restaurante" as die plek en "Central Park" as die ligging verstaan.
  • Ondersoekjoernalistiek: Die Internasionale Konsortium van Ondersoekende Joernaliste (ICIJ), 'n bekende media-organisasie het NER gebruik om die Panama Papers, 'n massiewe lekkasie van 11.5 miljoen finansiële en regsdokumente, te ontleed. In hierdie geval is NER gebruik om mense, organisasies en liggings outomaties oor miljoene ongestruktureerde dokumente te identifiseer, wat versteekte netwerke van buitelandse belastingontduiking ontbloot.
  • Bioinformatika: Op die gebied van Bioinformatika word NER gebruik om sleutelentiteite soos gene, proteïene, dwelms en siektes uit biomediese navorsingsvraestelle en kliniese proefverslae te onttrek. Sulke data help om die proses van geneesmiddelontdekking te bespoedig.
  • Sosiale media monitering: Handelsmerke oor sosiale media gebruik NER om die algehele maatstawwe van hul advertensieveldtogte na te spoor en hoe hul mededingers vaar. Daar is byvoorbeeld 'n lugredery wat NER gebruik om tweets te ontleed wat hul handelsmerk noem. Dit bespeur negatiewe kommentaar rondom entiteite soos "verlore bagasie" by 'n spesifieke lughawe sodat hulle die probleem so vinnig as moontlik kan oplos.
  • Kontekstuele advertensies: Advertensieplatforms gebruik NER om sleutelentiteite van webbladsye te onttrek om meer relevante advertensies langs die inhoud te vertoon, wat uiteindelik advertensieteikening en deurklikkoerse verbeter. Byvoorbeeld, as NER "Hawaii", "hotelle" en "strande" op 'n reisblog bespeur, sal die advertensieplatform aanbiedings vir Hawaiiaanse oorde eerder as generiese hotelkettings wys.
  • Werwing en hervat sifting: Jy kan NER opdrag gee om vir jou die presiese vereiste vaardighede en kwalifikasies te vind gebaseer op die aansoeker se vaardighede, ervaring en agtergrond. Byvoorbeeld, 'n werwingsagentskap kan NER gebruik om kandidate outomaties te pas.

Toepassings van NER

NER het verskeie gebruiksgevalle in baie velde wat verband hou met Natuurlike Taalverwerking en die skep van opleidingsdatastelle vir machine learning en diep leer oplossings. Sommige van die toepassings is:

  • Klientediens

    'n NER-stelsel kan maklik relevante klanteklagtes, -navrae en -terugvoer opspoor op grond van belangrike inligting soos produkname, spesifikasies, takliggings, en meer. Die klagte of terugvoer word gepas geklassifiseer en na die regte departement herlei deur prioriteitsleutelwoorde te filter.

  • Doeltreffende Menslike Hulpbronne

    NER help Menslike Hulpbron-spanne om hul aanstellingsproses te verbeter en die tydlyne te verminder deur aansoekers se CV's vinnig op te som. Die NER-nutsgoed kan die CV skandeer en relevante inligting onttrek – naam, ouderdom, adres, kwalifikasie, kollege, ensovoorts.

    Daarbenewens kan die MH-afdeling ook NER-nutsmiddels gebruik om die interne werkvloeie te stroomlyn deur werknemersklagtes te filter en aan die betrokke departementshoofde deur te stuur.

  • Inhoud Klassifikasie

    Inhoudklassifikasie is 'n enorme taak vir nuusverskaffers. Deur die inhoud in verskillende kategorieë te klassifiseer, maak dit makliker om te ontdek, insigte te verkry, neigings te identifiseer en die onderwerpe te verstaan. 'n Genoemde Entiteitserkenning hulpmiddel kan handig te pas kom vir nuusverskaffers. Dit kan baie artikels skandeer, prioriteitsleutelwoorde identifiseer en inligting onttrek op grond van die persone, organisasie, ligging en meer.

  • Optimaliseer soekenjins

    Search engine optimization NER help om die spoed en relevansie van soekresultate te vereenvoudig en te verbeter. In plaas daarvan om die soektog na duisende artikels te laat loop, kan 'n NER-model die navraag een keer laat loop en die resultate stoor. Dus, gebaseer op die etikette in die soektog, kan die artikels wat met die navraag geassosieer word, vinnig opgetel word.

  • Akkurate inhoudaanbeveling

    Verskeie moderne toepassings is afhanklik van NER-instrumente om 'n geoptimaliseerde en pasgemaakte kliëntervaring te lewer. Netflix verskaf byvoorbeeld gepersonaliseerde aanbevelings gebaseer op gebruiker se soek- en kykgeskiedenis deur gebruik te maak van benoemde entiteitsherkenning.

Benoemde Entiteit Erkenning maak jou machine learning modelle meer doeltreffend en betroubaar. Jy benodig egter kwaliteit opleidingdatastelle sodat jou modelle op hul optimale vlak kan werk en beoogde doelwitte kan bereik. Al wat jy nodig het, is 'n ervare diensvennoot wat jou van kwaliteit datastelle kan voorsien wat gereed is om te gebruik. As dit die geval is, is Shaip jou beste weddenskap nog. Reik uit na ons vir omvattende NER-datastelle om jou te help om doeltreffende en gevorderde ML-oplossings vir jou KI-modelle te ontwikkel.

[Lees ook: Wat is NLP? Hoe dit werk, voordele, uitdagings, voorbeelde

Hoe werk erkenning van benoemde entiteite?

Deur in die ryk van Name Entity Recognition (NER) te delf, onthul 'n sistematiese reis wat uit verskeie fases bestaan:

  • Tokenization

    Aanvanklik word die teksdata ontleed in kleiner eenhede, genaamd tokens, wat kan wissel van woorde tot sinne. Byvoorbeeld, die stelling "Barack Obama was die president van die VSA" word opgedeel in tekens soos "Barack", "Obama", "was", "die", "president", "van", "die" en " VSA”.

  • Entiteitopsporing

    Deur gebruik te maak van 'n samestelling van linguistiese riglyne en statistiese metodologieë, word potensiële genoemde entiteite in die kollig geplaas. Om patrone soos hoofletters in name (“Barack Obama”) of afsonderlike formate (soos datums) te herken, is in hierdie stadium van kardinale belang.

  • Entiteit Klassifikasie

    Na-opsporing word entiteite in voorafbepaalde kategorieë gesorteer soos "Persoon", "Organisasie" of "Ligging". Masjienleermodelle, gekoester op benoemde datastelle, dryf dikwels hierdie klassifikasie aan. Hier word "Barack Obama" gemerk as 'n "Persoon" en "VSA" as 'n "Ligging".

  • Kontekstuele Evaluering

    Die bekwaamheid van NER-stelsels word dikwels versterk deur die omliggende konteks te evalueer. Byvoorbeeld, in die frase "Washington was getuie van 'n historiese gebeurtenis", help die konteks om "Washington" as 'n plek eerder as 'n persoon se naam te onderskei.

  • Na-evaluering verfyning

    Na die aanvanklike identifikasie en klassifikasie kan 'n na-evaluering verfyning volg om die resultate te slyp. Hierdie stadium kan onduidelikhede aanpak, multi-teken-entiteite saamsmelt, of kennisbasisse gebruik om die entiteitsdata aan te vul.

Hierdie omlynde benadering ontmystifiseer nie net die kern van NER nie, maar optimaliseer ook die inhoud vir soekenjins, wat die sigbaarheid van die ingewikkelde proses wat NER beliggaam, verbeter.

NER-nutsmiddels en biblioteke-vergelyking:

Verskeie kragtige gereedskap en biblioteke fasiliteer NER-implementering. Hier is 'n vergelyking van 'n paar gewilde opsies:

Gereedskap/biblioteek Beskrywing Sterkpunte swakhede
ruimte 'N Vinnige en doeltreffende NLP-biblioteek in Python. Uitstekende werkverrigting, maklik om te gebruik, vooraf opgeleide modelle beskikbaar. Beperkte ondersteuning vir ander tale as Engels.
NLTK 'n Omvattende NLP-biblioteek in Python. Wye verskeidenheid funksies, goed vir opvoedkundige doeleindes. Kan stadiger as spaCy wees.
Stanford CoreNLP 'n Java-gebaseerde NLP-gereedskapstel. Hoogs akkuraat, ondersteun verskeie tale. Vereis meer rekenaarhulpbronne.
OpenNLP 'n Masjienleer-gebaseerde gereedskapstel vir NLP. Ondersteun verskeie tale, aanpasbaar. Kan kompleks wees om op te stel.

NER Voordele en uitdagings?

Voordele:

  • Inligting onttrekking: NER identifiseer sleuteldata en help om inligting te herwin.
  • Inhoud organisasie: Dit help om inhoud te kategoriseer, nuttig vir databasisse en soekenjins.
  • Verbeterde gebruikerservaring: NER verfyn soekuitkomste en verpersoonlik aanbevelings.
  • Insiggewende analise: Dit vergemaklik sentimentontleding en tendensopsporing.
  • Outomatiese werkvloei: NER bevorder outomatisering, bespaar tyd en hulpbronne.

Beperkings / Uitdagings:

  • Dubbelsinnigheid Resolusie: Sukkel om soortgelyke entiteite soos "Amazon" as 'n rivier of maatskappy te onderskei.
  • Domein-spesifieke aanpassing: Hulpbron-intensief oor diverse domeine heen.
  • Taalvariasies: Doeltreffendheid wissel as gevolg van sleng en streeksverskille.
  • Skaarste aan gemerkte data: Benodig groot benoemde datastelle vir opleiding.
  • Hantering van ongestruktureerde data: Vereis gevorderde tegnieke.
  • Prestasiemeting: Akkurate evaluering is kompleks.
  • Intydse verwerking: Om spoed met akkuraatheid te balanseer is uitdagend.
  • Konteksafhanklikheid: Akkuraatheid berus op die begrip van omliggende teksnuanses.
  • Data spaarsaamheid: Vereis aansienlike benoemde datastelle, veral vir nisareas.

Die toekoms van NER

Alhoewel Name Entity Recognition (NER) 'n goed gevestigde veld is, is daar nog baie werk om te doen. Een belowende area wat ons kan oorweeg, is diepleertegnieke, insluitend transformators en vooraf-opgeleide taalmodelle, sodat die werkverrigting van NER verder verbeter kan word.

Nog 'n opwindende idee is om pasgemaakte NER-stelsels vir verskillende beroepe, soos dokters of prokureurs, te bou. Aangesien verskillende industrieë hul eie identiteitstipes en -patrone het, kan die skep van NER-stelsels in hierdie spesifieke kontekste meer presiese en relevante resultate lewer.

Verder, meertalige en kruistalige NER is ook 'n gebied wat vinniger as ooit groei. Met die toenemende globalisering van besigheid, moet ons NER-stelsels ontwikkel wat diverse linguistiese strukture en skrifte kan hanteer.

Gevolgtrekking

Benoemde entiteitsherkenning (NER) is 'n kragtige NLP-tegniek wat sleutelentiteite binne teks identifiseer en klassifiseer, wat masjiene in staat stel om menslike taal meer effektief te verstaan ​​en te verwerk. Van die verbetering van soekenjins en kletsbotte tot die dryf van kliëntediens en finansiële ontleding, NER het uiteenlopende toepassings oor verskeie industrieë. Alhoewel daar uitdagings bly op gebiede soos dubbelsinnigheidsresolusie en die hantering van ongestruktureerde data, beloof voortdurende vooruitgang, veral in diep leer, om NER se vermoëns verder te verfyn en die impak daarvan in die toekoms uit te brei.

Sosiale Deel

Jy kan ook graag