Data-aantekening – NER

Benoemde entiteitherkenning (NER) -aantekening vir kliniese NLP

Ner annotasie

Goed geannoteerde en Gold Standard kliniese teksdata om kliniese NLP op te lei / te ontwikkel om die volgende weergawe van Healthcare API te bou

Die belangrikheid van kliniese natuurlike taalverwerking (NLP) is oor die afgelope jare toenemend erken en het gelei tot transformerende vooruitgang. Kliniese NLP stel rekenaars in staat om die ryk betekenis wat agter 'n dokter se geskrewe ontleding van 'n pasiënt lê, te verstaan. Kliniese NLP kan veelvuldige gebruiksgevalle hê wat wissel van bevolkingsgesondheidsanalise tot verbetering in kliniese dokumentasie tot spraakherkenning tot kliniese proefpassing, ens.

Om enige kliniese NLP-modelle te ontwikkel en op te lei, benodig jy akkurate, onbevooroordeelde en goed geannoteerde datastelle in enorme volumes. Goue Standaard en diverse data help om akkuraatheid en herroeping van NLP-enjins te verbeter.

Deel

Aantal dokumente wat geannoteer is
10
Aantal bladsye wat geannoteer is
10 +
Projek Duur
< 1 maande

Uitdagings

Die kliënt het daarna uitgesien om hul Natuurlike Taalverwerking (NLP) Platform met nuwe entiteittipes op te lei en te ontwikkel en ook die verhouding tussen verskeie tipes te identifiseer. Boonop het hulle verskaffers geëvalueer wat hoë akkuraatheid bied, aan plaaslike wette voldoen en die vereiste mediese kennis gehad het om 'n groot stel data te annoteer.

Die taak was om tot 20,000 15,000 geëtiketteerde rekords te benoem en te annoteer, insluitend tot 5,000 1 geëtiketteerde rekords van binnepasiënt- en buitepasiënt-elektroniese gesondheidsrekorddata (EHR) en tot 2 XNUMX geëtiketteerde rekords van getranskribeerde mediese diktasies, eweredig versprei oor (XNUMX) geografiese herkomste en ( XNUMX) beskikbare mediese spesialiteite.

Dus, om die uitdagings op te som:

  • Organiseer heterogene kliniese data om NLP-platform op te lei
  • Identifiseer die verhouding tussen verskillende entiteite om kritiese inligting af te lei
  • Vermoë en kundigheid om 'n wye stel komplekse kliniese dokumente te etiketteer / annoteer
  • Hou koste in beheer om 'n groot volume data te etiketteer / annoteer om kliniese NLP binne die vasgestelde tydraamwerk op te lei
  • Annoteer entiteite in die kliniese datastel wat uit 75% EHR- en 25% Dikteerrekords bestaan.
  • Data de-identifikasie ten tyde van aflewering

Ander uitdagings in natuurlike taalbegrip

Dubbelsinnigheid

Woorde is uniek, maar kan verskillende betekenisse hê, afhangende van die konteks, wat lei tot dubbelsinnigheid op die leksikale, sintaktiese en semantiese vlakke.

Sinonimie

Ons kan dieselfde idee uitdruk met verskillende terme wat ook sinonieme is: groot en groot beteken dieselfde wanneer 'n voorwerp beskryf word.

Coreference

Die proses om alle uitdrukkings te vind wat na dieselfde entiteit in 'n teks verwys, word kernverwysingsresolusie genoem.

Persoonlikheid, Intensie, Emosies

Afhangende van die persoonlikheid van die spreker, kan hul bedoeling en emosies vir dieselfde idee anders uitgedruk word.

Oplossing

'n Groot volume mediese data en kennis is beskikbaar, in die vorm van mediese dokumente, maar dit is hoofsaaklik in 'n ongestruktureerde formaat. Met Mediese entiteit Annotasie / Benoemde Entiteit Erkenning (NER) Annotasie, was Shaip in staat om ongestruktureerde data in 'n gestruktureerde formaat te omskep deur nuttige inligting van verskillende tipes kliniese rekords aan te teken. Sodra die entiteite geïdentifiseer is, is die verhouding tussen hulle ook gekarteer om kritieke inligting te identifiseer.

Omvang van werk: Gesondheidsorg-entiteit Noem-aantekening

9 Entiteit Tipes

  • Mediese toestand
  • Mediese prosedure
  • Anatomiese struktuur
  • Geneeskunde
  • Mediese toestel
  • liggaam Meting
  • middelmisbruik
  • Laboratorium data
  • Liggaamsfunksie

17 Wysigers

  • Medikasiewysigers: sterkte, eenheid, dosis, vanaf, frekwensie, roete, duur, status
  • Liggaamsmetingswysigers: waarde, eenheid, resultaat
  • Prosedure wysigers: Metode
    • Laboratoriumdatawysiger: Laboratoriumwaarde, Laboratoriumeenheid, Laboratoriumresultaat
  • Erns
  • Prosedure resultaat

27 Verhoudings en pasiëntstatus

Uitkoms

Die geannoteerde data sal gebruik word om die kliënt se kliniese NLP-platform te ontwikkel en op te lei, wat in die volgende weergawe van hul Healthcare API geïnkorporeer sal word. Die voordele wat die kliënt behaal het, was:

  • Die data wat gemerk/aannoteer is, het voldoen aan die kliënt se standaard data-aantekeningriglyne.
  • Heterogene datastelle is gebruik om die NLP-platform op te lei vir groter akkuraatheid.
  • Verwantskap tussen verskillende entiteite, bv. Anatomiese liggaamstruktuur <> Mediese Toestel, Mediese Toestand <> Mediese Toestel, Mediese Toestand <> Medikasie, Mediese Toestand <> Prosedure is geïdentifiseer om kritieke mediese inligting te verkry.
  • Die breë stel data wat geëtiketteer/gemerk is, is ook gede-identifiseer ten tyde van aflewering.

Ons samewerking met Shaip het ons projek in Ambient Technology en Conversational KI binne gesondheidsorg aansienlik bevorder. Hulle kundigheid in die skep en transkripsie van sintetiese gesondheidsorgdialoë het 'n stewige fondament verskaf, wat die potensiaal van sintetiese data ten toon gestel het om regulatoriese uitdagings te oorkom. Met Shaip het ons hierdie struikelblokke opgevolg en is nou 'n stap nader aan die verwesenliking van ons visie van intuïtiewe gesondheidsorgoplossings.

Goue-5-ster

Versnel u gespreks-AI
toepassingsontwikkeling met 100%