Die toename in optiese karakterherkenningsgebruik kan hoofsaaklik toegeskryf word aan die toename in die produksie van outomatiese herkenningstelsels. As gevolg hiervan, die globale markwaarde van OCR tegnologie, vasgepen by Van $ 8.93 miljard in 2021, word voorspel om teen 'n CAGR van 15.4% tussen 2022 en 2030 te groei.
Maar wat presies is OCR-tegnologie? En hoekom is dit 'n spelwisselaar vir besighede wat doeltreffende KI-modelle ontwikkel? Kom ons vind uit.
Wat is OCR (Optical Character Recognition)?
OCR is tegnologie wat verskillende tipes dokumente, soos geskandeerde papierdokumente, PDF's of teksprente, omskakel in bewerkbare en soekbare data. Dit werk deur:
- Ontleed die struktuur van teks in 'n beeld
- Die opbreek van die teks in lyne en karakters
- Omskakeling van hierdie visuele karakters in masjienleesbare teks
Algemene gebruike sluit in:
- Omskakeling van geskandeerde dokumente in bewerkbare tekslêers
- Digitalisering van gedrukte boeke
- Onttrek teks uit foto's
- Omskakeling van handgeskrewe voorskrifte na digitale teks
- Kenteken herkenning
Voordele en uitdagings van oopbrondatastelle
Besighede moet die voordele en uitdagings teen mekaar stel om te verstaan of hulle moet kies vir gratis-om-te gebruik data vir hul ML-toepassings.
Voordele
- Die data is maklik beskikbaar om toegang te verkry. As gevolg van die beskikbaarheid van data, word die koste van die ontwikkeling van die toepassing aansienlik verminder.
- Die tyd en moeite wat spandeer word om data vir die toepassing te versamel, word aansienlik verminder aangesien die datastel geredelik beskikbaar is.
- Daar is 'n oorvloed gemeenskapsforums of hulpgroepe wat help om die datastel te leer, aan te pas en te optimaliseer.
- Een van die groot voordele van die oopbrondatastel is dat dit geen beperkings op aanpassing stel nie.
- Oopbrondata is toeganklik vir 'n groot deel van die bevolking, wat ontleding en innovasie moontlik maak sonder monetêre hindernisse.
Uitdagings
- Die data spesifiek vir die projek is moeilik om te bekom. Daarbenewens is daar 'n moontlikheid van ontbrekende inligting en verkeerde gebruik van die beskikbare data.
- Die verkryging van eie data verg tyd en moeite en is duur
- Alhoewel dit makliker kan wees om data te bekom, kan kennis en ontledingskoste die aanvanklike voordeel swaarder weeg.
- Ander ontwikkelaars maak ook van dieselfde data gebruik om toepassings te ontwikkel.
- Hierdie datastelle is hoogs kwesbaar vir sekuriteitsbreuke, privaatheid en toestemming.
22 beste handskrif- en OCR-datastelle vir masjienleer
Baie oopbrondatastelle is beskikbaar vir teksherkenningtoepassingsontwikkeling. Van die beste 22 is
NIST-databasis
Die NIST of die National Institute of Science bied 'n gratis-om-te-gebruik versameling van meer as 3600 handskrifmonsters met meer as 810,000 karakterbeelde
MNIST-databasis
Afgelei van NSIT se Spesiale Databasis 1 en 3, is die MNIST-databasis 'n saamgestelde versameling van 60,000 10,000 handgeskrewe nommers vir die opleidingstel en XNUMX XNUMX voorbeelde vir die toetsstel. Hierdie oopbrondatabasis help om modelle op te lei om patrone te herken terwyl hulle minder tyd aan voorafverwerking spandeer.
Teksopsporing
'n Oopbron-databasis, die teksopsporingsdatastel bevat ongeveer 500 binne- en buitebeelde van uithangborde, deurplate, waarskuwingsplate en meer.
Stanford OCR
Gepubliseer deur Stanford, hierdie gratis-om-te gebruik datastel is 'n handgeskrewe woordversameling deur die MIT Spoken Language Systems Group.
Straataansig-teks
Hierdie datastel, wat uit Google Street View-beelde versamel is, het teksbespeuringsbeelde hoofsaaklik van borde en straatvlaktekens.
Dokument databasis
Die dokumentdatabasis is 'n versameling van 941 handgeskrewe dokumente, insluitend tabelle, formules, tekeninge, diagramme, lyste en meer, van 189 skrywers.
Wiskunde uitdrukkings
Die Mathematics Expressions is 'n databasis wat 101 wiskundige simbole en 10,000 XNUMX uitdrukkings bevat.
Straataansig Huisnommers
Hierdie Street View-huisnommers, wat van Google Street View af geoes is, is 'n databasis wat 73257 straathuisnommersyfers bevat.
Natuurlike omgewing OCR
Die Natuurlike Omgewing OCR, is 'n datastel van byna 660 beelde wêreldwyd en 5238 teksaantekeninge.
Wiskunde uitdrukkings
Meer as 10,000 101 uitdrukkings met XNUMX+ wiskundesimbole.
Handgeskrewe Chinese karakters
'n Datastel van 909,818 10 handgeskrewe Chinese karakterbeelde, gelykstaande aan ongeveer XNUMX nuusartikels.
Arabies gedrukte teks
'n Leksikon van 113,284 10 woorde wat XNUMX Arabiese lettertipes gebruik.
Handgeskrewe Engelse teks
Handgeskrewe Engelse teks op 'n witbord met meer as 1700 inskrywings.
3000 omgewings Beelde
3000 beelde uit verskillende omgewings, insluitend buite- en binnenshuise tonele onder verskillende beligting.
Chars74K Data
74,000 XNUMX beelde van Engelse en Kannada-syfers.
IAM (IAM-handskrif)
Die IAM-databasis het 13,353 657 handgeskrewe teksbeelde deur XNUMX skrywers van die Lancaster-Oslo/Bergen Corpus van Britse Engels.
FUNSD (Vormverstaan in lawaaierige geskandeerde dokumente)
FUNSD bevat 199 geannoteerde, geskandeerde vorms met uiteenlopende en raserige voorkoms, wat uitdagend is vir vormbegrip.
Teks OCR
TextOCR meet teksherkenning op arbitrêr gevormde toneelteks in natuurlike beelde.
Twitter 100k
Twitter100k is 'n groot datastel vir swak toesig kruis-media herwinning.
SSIG-SegPlate – Kenteken-karaktersegmentering (LPCS)
Hierdie datastel evalueer License Plate Character Segmentation (LPCS) met 101 dagvoertuigbeelde.
105,941 12 prente Natuurlike tonele OCR-data van XNUMX tale
Die data sluit 12 tale in (6 Asiaties, 6 Europees) en verskeie natuurlike tonele en hoeke. Dit beskik oor lynvlak-begrensblokke en tekstranskripsies. Dit is nuttig vir meertalige OCR-take.
Indiese bordbeelddatastel
Die datastel het Indiese verkeerstekenbeelde vir klassifikasie en opsporing, geneem in verskillende weerstoestande gedurende die dag, aand en nag.
Dit was van die top oopbrondatastelle vir die opleiding van ML-modelle vir teksopsporingstoepassings. Dit kan tyd en moeite verg om die een te kies wat ooreenstem met jou besigheids- en toepassingsbehoeftes. U moet egter met hierdie datastelle eksperimenteer voordat u op die toepaslike een besluit.
[Lees ook: OCR Infographic – Definisie, voordele, uitdagings en gebruiksgevalle]
Om jou te help vorder na 'n betroubare en doeltreffende teksbespeuringstoepassing is Shaip – die hooggeplaaste verskaffer van tegnologie-oplossings. Ons gebruik ons tegnologiese ervaring om aanpasbare, geoptimaliseerde en doeltreffende OCR-opleidingsdatastelle vir verskeie kliëntprojekte te skep. Om ons vermoëns ten volle te verstaan, kontak ons vandag nog.