Elke keer as ons 'n woord hoor of 'n teks lees, het ons die natuurlike vermoë om die woord te identifiseer en te kategoriseer in mense, plek, ligging, waardes en meer. Mense kan vinnig 'n woord herken, dit kategoriseer en die konteks verstaan. Byvoorbeeld, wanneer jy die woord 'Steve Jobs' hoor, kan jy dadelik aan ten minste drie tot vier eienskappe dink en die entiteit in kategorieë verdeel,
- persoon: Steve Jobs
- Company: appel
- Plek: Kalifornië
Aangesien rekenaars nie hierdie natuurlike vermoë het nie, benodig hulle ons hulp om woorde of teks te identifiseer en te kategoriseer. Dit is waar Benoemde entiteitsherkenning (NER) kom in die spel.
Kom ons kry 'n kort begrip van NER en sy verband met NLP.
Wat is Benoemde Entiteitserkenning?
Benoemde entiteitserkenning is deel van natuurlike taalverwerking. Die primêre doelwit van NER is om te verwerk gestruktureerde en ongestruktureerde data en klassifiseer hierdie benoemde entiteite in voorafbepaalde kategorieë. Sommige algemene kategorieë sluit in naam, ligging, maatskappy, tyd, geldwaardes, gebeure en meer.
In 'n neutedop handel NER oor:
- Benoemde entiteit herkenning/bespeuring – Identifisering van 'n woord of reeks woorde in 'n dokument.
- Benoemde entiteitsklassifikasie – Klassifikasie van elke bespeurde entiteit in voorafbepaalde kategorieë.
Maar hoe is NER verwant aan NLP?
Natuurlike taalverwerking help om intelligente masjiene te ontwikkel wat in staat is om betekenis uit spraak en teks te onttrek. Masjienleer help hierdie intelligente stelsels om voort te gaan leer deur groot hoeveelhede natuurlike taal op te lei datastelle.
Oor die algemeen bestaan NLP uit drie hoofkategorieë:
- Om die struktuur en reëls van die taal te verstaan – sintaksis
- Om betekenis van woorde, teks en spraak af te lei en hul verhoudings te identifiseer - semantiek
- Identifisering en herkenning van gesproke woorde en omskep dit in teks – Toespraak
NER help in die semantiese deel van NLP, die betekenis van woorde te onttrek, hulle te identifiseer en op te spoor op grond van hul verhoudings.
Algemene voorbeelde van NER
Sommige van die algemene voorbeelde van 'n voorafbepaalde entiteit kategorisering is:
persoon: Michael Jackson, Oprah Winfrey, Barack Obama, Susan Sarandon
Plek: Kanada, Honolulu, Bangkok, Brasilië, Cambridge
organisasie: Samsung, Disney, Yale Universiteit, Google
tyd: 15.35:12, XNUMX:XNUMX,
Ander kategorieë sluit in Numeriese waardes, Uitdrukking, E-posadresse en Fasiliteit.
Dubbelsinnigheid in Benoemde Entiteit Erkenning
Die kategorie waartoe 'n term behoort, is intuïtief baie duidelik vir mense. Dit is egter nie die geval met rekenaars nie – hulle ondervind klassifikasieprobleme. Byvoorbeeld:
Manchester stad (organisasie) het die Premierliga-trofee gewen, terwyl die organisasie in die volgende sin anders gebruik word. Manchester stad (plek) was 'n Tekstiel- en industriële kragbron.
Jou NER-model benodig opleidingsdata akkuraat te voer entiteit onttrekking en klassifikasie. As jy jou model op Shakespearese Engels oefen, sal dit natuurlik nie Instagram kan ontsyfer nie.
Verskillende NER-benaderings
Die primêre doel van a NER model is om entiteite in teksdokumente te benoem en te kategoriseer. Die volgende drie benaderings word oor die algemeen vir hierdie doel gebruik. U kan egter kies om ook een of meer metodes te kombineer.
Die verskillende benaderings tot die skep van NER-stelsels is:
Woordeboek-gebaseerde stelsels
Die woordeboek-gebaseerde stelsel is miskien die eenvoudigste en mees fundamentele NER benadering. Dit sal 'n woordeboek met baie woorde, sinonieme en woordeskatversameling gebruik. Die stelsel sal kontroleer of 'n spesifieke entiteit wat in die teks voorkom ook in die woordeskat beskikbaar is. Deur 'n string-passing algoritme te gebruik, word 'n kruiskontrolering van entiteite uitgevoer.
Een nadeel van die gebruik van hierdie benadering is dat daar 'n behoefte is vir die voortdurende opgradering van die woordeskatdatastel vir die effektiewe funksionering van die NER-model.
Reël-gebaseerde stelsels
In hierdie benadering word inligting onttrek op grond van 'n stel voorafopgestelde reëls. Daar is twee primêre stelle reëls wat gebruik word,
Patroongebaseerde reëls – Soos die naam aandui, volg 'n patroongebaseerde reël 'n morfologiese patroon of string woorde wat in die dokument gebruik word.
Konteksgebaseerde reëls – Konteksgebaseerde reëls hang af van die betekenis of die konteks van die woord in die dokument.
Masjienleer-gebaseerde stelsels
In masjienleer-gebaseerde stelsels word statistiese modellering gebruik om entiteite op te spoor. 'n Kenmerkgebaseerde voorstelling van die teksdokument word in hierdie benadering gebruik. Jy kan verskeie nadele van die eerste twee benaderings oorkom aangesien die model kan herken tipes entiteite ten spyte van geringe variasies in hul spelling.
Toepassings van NER
NER het verskeie gebruiksgevalle in baie velde wat verband hou met natuurlike taalverwerking en die skep van opleidingsdatastelle vir machine learning en diep leer oplossings. Sommige van die toepassings van NER is:
Gestroomlynde kliëntediens
'n NER-stelsel kan maklik relevante klante-klagtes, -navrae en -terugvoer opspoor op grond van belangrike inligting soos produkname, spesifikasies, takligging en meer. Die klagte of terugvoer word gepas geklassifiseer en na die regte departement herlei deur prioriteitsleutelwoorde te filter.
Doeltreffende Menslike Hulpbronne
NER help Menslike Hulpbronspanne om hul aanstellingsproses te verbeter en die tydlyne te verminder deur aansoekers se CV's vinnig op te som. Die NER-nutsgoed kan die CV skandeer en relevante inligting onttrek – naam, ouderdom, adres, kwalifikasie, kollege, ensovoorts.
Daarbenewens kan die MH-afdeling ook NER-nutsmiddels gebruik om die interne werkvloeie te stroomlyn deur werknemersklagtes te filter en aan die betrokke departementshoofde deur te stuur.
Vereenvoudigde inhoudklassifikasie
Inhoudklassifikasie is 'n enorme taak vir nuusverskaffers. Deur die inhoud in verskillende kategorieë te klassifiseer, maak dit makliker om te ontdek, insigte te verkry, neigings te identifiseer en die onderwerpe te verstaan. 'n Genoemde Entiteitserkenning hulpmiddel kan handig te pas kom vir nuusverskaffers. Dit kan baie artikels skandeer, prioriteitsleutelwoorde identifiseer en inligting onttrek op grond van die persone, organisasie, ligging en meer.
Optimaliseer soekenjins
NER help om die spoed en relevansie van soekresultate te vereenvoudig en te verbeter. In plaas daarvan om die soektog na duisende artikels te laat loop, kan 'n NER-model die navraag een keer laat loop en die resultate stoor. Dus, gebaseer op die etikette in die soektog, kan die artikels wat met die navraag geassosieer word, vinnig opgetel word.
Akkurate inhoudaanbeveling
Verskeie moderne toepassings is afhanklik van NER-instrumente om 'n geoptimaliseerde en pasgemaakte kliëntervaring te lewer. Netflix verskaf byvoorbeeld gepersonaliseerde aanbevelings gebaseer op gebruikers se soek- en kykgeskiedenis met behulp van benoemde entiteitsherkenning.
Benoemde Entiteit Erkenning maak jou machine learning modelle meer doeltreffend en betroubaar. Jy benodig egter kwaliteit opleidingsdatastelle sodat jou modelle op hul optimale vlak kan werk en beoogde doelwitte kan bereik. Al wat jy nodig het, is 'n ervare diensvennoot wat jou van kwaliteit datastelle kan voorsien wat gereed is om te gebruik. As dit die geval is, is Shaip jou beste weddenskap nog. Reik uit na ons vir omvattende NER-datastelle om jou te help om doeltreffende en gevorderde ML-oplossings vir jou KI-modelle te ontwikkel.P