Handskrifdatastelle

Die 15 beste oopbron-handskrifdatastelle om u ML-modelle op te lei

Die sakewêreld is besig om te transformeer teen 'n fenomenale pas, maar hierdie digitale transformasie is nie naastenby so wyd as wat ons dit graag sou wou hê nie. Mense hanteer steeds fisiese dokumente in hul daaglikse bedrywighede, van groot korporasies tot kleinskaalse besighede. Alhoewel die frekwensie van gebruik aansienlik verminder het, is dit nie heeltemal weggedoen nie. In plaas van die tydrowende proses om dokumente vir digitale gebruik te skandeer, gebruik die nuutste OCR is tyddoeltreffend en effektief.

Die toename in optiese karakterherkenningsgebruik kan hoofsaaklik toegeskryf word aan die toename in die produksie van outomatiese herkenningstelsels. As gevolg hiervan, die globale markwaarde van OCR tegnologie, vasgepen by Van $ 8.93 miljard in 2021, word voorspel om teen 'n CAGR van 15.4% tussen 2022 en 2030 te groei.

Maar wat presies is OCR-tegnologie? En hoekom is dit 'n spelwisselaar vir besighede wat doeltreffende KI-modelle ontwikkel? Kom ons vind uit.

Wat is OCR?

Alternatiewelik na verwys as teksherkenning, OCR of optiese karakterherkenning is 'n program wat gedrukte of geskrewe data uit geskandeerde dokumente, slegs beeld-PDF's en handgeskrewe notas in 'n masjienleesbare formaat onttrek. Die sagteware haal elke letter uit die prent en kombineer dit in woorde en sinne, wat dit dus maklik maak om toegang tot die dokumente digitaal te verkry en te redigeer.

Wat is oopbrondatastelle?

Daar is verskeie plekke waar OCR-tegnologie groot potensiaal het om aangewend te word. Sommige plekke sluit die lughawe, e-boekpublikasie, advertensies, banke en voorsieningskettingstelsels in. Vir die toepassings om hul doel te dien, moet hulle egter opgelei word oor projekspesifiek Optiese karakterherkenning datastelle.

Die doeltreffendheid van die toepassing hang grootliks af van die datastel se kwaliteit en die betrokke opleidingsmetodologie. Maar vind kwaliteit digitale en handskrifdatastelle is moeilik vir die toepassing. Dus, baie maatskappye gebruik oopbron- of gratis-om-te-gebruik datastelle in plaas van eie datastelle.

Voordele en uitdagings van oopbrondatastelle

Besighede moet die voordele en uitdagings teen mekaar stel om te verstaan ​​of hulle moet kies vir gratis-om-te gebruik data vir hul ML-toepassings.

Voordele

  • Die data is maklik beskikbaar om toegang te verkry. As gevolg van die beskikbaarheid van data, word die koste van die ontwikkeling van die toepassing aansienlik verminder.
  • Die tyd en moeite wat spandeer word om data vir die toepassing te versamel, word aansienlik verminder aangesien die datastel geredelik beskikbaar is.
  • Daar is 'n oorvloed gemeenskapsforums of hulpgroepe wat help om die datastel te leer, aan te pas en te optimaliseer.
  • Een van die groot voordele van die oopbrondatastel is dat dit geen beperkings op aanpassing stel nie.
  •   Oopbrondata is toeganklik vir 'n groot deel van die bevolking, wat ontleding en innovasie moontlik maak sonder monetêre hindernisse.

Uitdagings

  • Die data spesifiek vir die projek is moeilik om te bekom. Daarbenewens is daar 'n moontlikheid van ontbrekende inligting en verkeerde gebruik van die beskikbare data.
  • Die verkryging van eie data verg tyd en moeite en is duur
  • Alhoewel dit makliker kan wees om data te bekom, kan kennis en ontledingskoste die aanvanklike voordeel swaarder weeg.
  • Ander ontwikkelaars maak ook van dieselfde data gebruik om toepassings te ontwikkel.
  • Hierdie datastelle is hoogs kwesbaar vir sekuriteitsbreuke, privaatheid en toestemming.

15 beste handskrif- en OCR-datastelle vir masjienleer

Open-source ocr datasets

Baie oopbrondatastelle is beskikbaar vir teksherkenningtoepassingsontwikkeling. Van die beste 15 is

  1. Die ICDAR-datastel

    Internasionale Konferensie vir Dokumentanalise en -erkenning het 'n bewaarplek van 229 opleiding en 233 toetsbeelde, saam met aantekeninge. Dit dien as 'n maatstaf vir teksbespeuring-evaluering.

  2. IIIT 5K-Word-datastel

    Geneem uit Google-beeldsoektog, IIIT 5K-word is 'n versameling woorde van uithangborde, advertensieborde, nommerplate en plakkate. Dit bevat 5K gesnyde woordbeelde wat dit een van die mees uitgebreide versamelings teksherkenningdatastelle beskikbaar maak.

  3. NIST-databasis

    Die NIST of die National Institute of Science bied 'n gratis-om-te-gebruik versameling van meer as 3600 handskrifmonsters met meer as 810,000 karakterbeelde

  4. MNIST-databasis

    Afgelei van NSIT se Spesiale Databasis 1 en 3, is die MNIST-databasis 'n saamgestelde versameling van 60,000 10,000 handgeskrewe nommers vir die opleidingstel en XNUMX XNUMX voorbeelde vir die toetsstel. Hierdie oopbrondatabasis help om modelle op te lei om patrone te herken terwyl hulle minder tyd aan voorafverwerking spandeer.

  5. Teksopsporing

    'n Oopbron-databasis, die teksopsporingsdatastel bevat ongeveer 500 binne- en buitebeelde van uithangborde, deurplate, waarskuwingsplate en meer.

  6. Stanford OCR

    Gepubliseer deur Stanford, hierdie gratis-om-te gebruik datastel is 'n handgeskrewe woordversameling deur die MIT Spoken Language Systems Group.

  7. DDI-100

    Andersins genoem die Distorted Document Images Dataset, die DDI-100 is 'n versameling van meer as 6658 bladsye dokumente met verskeie meetkundige patrone en vervormings toegepas. Boonop het die DDI-100 meer as 99870 beelde, stempelmaskers, teksmaskers en begrenskassies.

  8. Padteks-1K

    Een van die grootste datastelle wat help om modelle op te lei om teks in video's op te spoor, die RoadText-1K bevat 1000 videogrepe, kompleet met begrensende teksaantekening en transkripsie van die teks in elke videoraam.

  9. MSRA-TD500

    Bevat 300 opleiding en 200 teksbeelde; die MSRA-TD500 bevat karakters uit Chinese en Engelse tale en is geannoteer op sinvlak.

  10. MJSynth-datastel

    Verskaf deur die Universiteit van Oxford, hierdie woorddatastel het byna 9 miljoen sinteties gegenereerde beelde wat meer as 90 duisend Engelse woorde dek.

  11. Straataansig-teks

    Hierdie datastel, wat uit Google Street View-beelde versamel is, het teksbespeuringsbeelde hoofsaaklik van borde en straatvlaktekens.

  12. Dokument databasis

    Die dokumentdatabasis is 'n versameling van 941 handgeskrewe dokumente, insluitend tabelle, formules, tekeninge, diagramme, lyste en meer, van 189 skrywers.

  13. Wiskunde uitdrukkings

    Die Mathematics Expressions is 'n databasis wat 101 wiskundige simbole en 10,000 XNUMX uitdrukkings bevat.

  14. Straataansig Huisnommers

    Hierdie Street View-huisnommers, wat van Google Street View af geoes is, is 'n databasis wat 73257 straathuisnommersyfers bevat.

  15. Natuurlike omgewing OCR

    Die Natuurlike Omgewing OCR, is 'n datastel van byna 660 beelde wêreldwyd en 5238 teksaantekeninge.

Dit was van die top oopbrondatastelle vir die opleiding van ML-modelle vir teksopsporingstoepassings. Dit kan tyd en moeite verg om die een te kies wat ooreenstem met jou besigheids- en toepassingsbehoeftes. U moet egter met hierdie datastelle eksperimenteer voordat u op die toepaslike een besluit.

Om jou te help vorder na 'n betroubare en doeltreffende teksbespeuringstoepassing is Shaip – ​​die hooggeplaaste verskaffer van tegnologie-oplossings. Ons gebruik ons ​​tegnologiese ervaring om aanpasbare, geoptimaliseerde en doeltreffende OCR opleiding datastelle vir verskeie kliënteprojekte. Om ons vermoëns ten volle te verstaan, kontak ons ​​vandag nog.

Sosiale Deel