Njohja e objekteve nëpërmjet rrjeteve nervore me thurje

Rrjetet CNN (Convolutional Neural Network – Rrjet nervor me thurje) përbëjnë strukturën më të njohur e të përdorur të rrjeteve nervore artificiale. Këto struktura janë zgjedhja parësore për zgjidhjen e shumicës së problemeve që lidhen me imazhet apo pamjet. Përparësia kryesore e tyre lidhet me faktin që rrjetet CNN kanë aftësi të dallojnë, nxjerrin, dhe përzgjedhin automatikisht tiparet e rëndësishme të imazheve pa patur nevojë për ndërhyrje apo mbikëqyrje nga njeriu. Kjo veçori e lehtëson dhe e shpejton së tepërmi punën për ndërtimin e modeleve me të dhëna nga fusha të ndryshme dhe vënien e tyre në punë.

Si rrjeti i parë CNN konsiderohet arkitektura e quajtur LeNet e shpikur në vitin 1990. Kjo arkitekturë përbëhej nga dy çifte shtesash të thurjes dhe nënkampionimit për përzgjedhjen e tipareve dhe një shtrese më lidhje të plotë për klasifikimin e imazheve. Përdorimi i saj i parë kishte të bënte me dallimin e simboleve shifrore (të shkruara me shkrim dore) nëpër imazhe me defekte të ndryshme pamore si pozicionim apo shkallëzim jo i saktë, përdredhje apo shtypje e pamjes, etj. Në vitin 1998 u krijua dhe prezantua bashkësia e të dhënave e quajtur MNIST e cila përfshinte 70000 imazhe numrash. Kjo bashkësi të dhënash u përdor fillimisht me arkitekturën LeNet dhe mori një popullaritet të gjerë në fushën e njohjes së imazheve, duke rritur gjithashtu popullaritetin e rrjeteve CNN.

Një shtysë më shumë për zhvillimin e arkitekturave të rrjeteve CNN ishte dhe krijimi i bashkësisë së imazheve ImageNet si dhe i sfidës ILSVRC (Large Scale Visual Recognition Challenge – Sfida e njohjes pamore në shkallë të gjerë). Bashkësia e imazheve të ImageNet përfshin mbi 1.2 milion kampione të etiketuara nga rreth 1000 kategori sendesh apo objektesh. Këto të dhëna janë përdorur rregullisht në sfidën e përvitshme ILSVRC për trajnimin dhe testimin krahasues të arkitekturave të ndryshme me rrjete CNN. Një ndër arkitekturat e para të rëndësishme ishte AlexNet e prezantuar në vitin 2012 e cila shërbeu si bazë për disa rrjete të tjera të mëvonshme. AlexNet përmbante tetë shtresa: pesë shtresat e para CNN të ndjekura nga shtresa nënkampionimi dhe tre të fundit shtresa me lidhje të plotë.

Arkitektura VGG (me variante të ndryshme si VGG-16, VGG-19, etj.) u propozua në vitin 2014 dhe ishte më e thellë (19 shtresa) por me shtresa më të thjeshta. VGG përbëhej nga shtresa CNN me filtra 3 x 3 dhe nënkampionime 2 x 2. Numri i filtrave të aplikuara secilën shtresë dyfishohej pas çdo shtrese nënkampionimi. Një tjetër arkitekturë e kësaj periudhe ishte dhe ResNet e propozuar në vitin 2015. ResNet ishte rreth 10 herë më e thellë se arkitekturat e tjera CNN (152 shtresa në total). Veç kësaj, ResNet solli konceptin e bllokut me tepricë i cili e tejçon hyrjen e tij dy shtresa më tej ose duke e kaluar nëpër shtresat e veta CNN, ose duke e përhapur përpara pa asnjë ndryshim. U prezantua gjithashtu një variant edhe më i thellë dhe më i suksesshëm i ResNet që përbëhej nga 1000 shtresa. Për nga ndërtimi, ResNet funksionon si një ansambël rrjetesh të cekët dhe të pavarur nga njëri-tjetri. Për më tepër, është vënë re se mekanizmi bazë i bllokut të tepërt luan një rol të rëndësishëm edhe të lobi pamor i trurit të njeriut, megjithëse nuk u modelua prej tij.

Të gjitha këto arkitektura e kanë ulur gjithnjë e më shumë gabimin e klasifikimit të imazheve të sfidës ILSVRC. Për më tepër, ato kanë ndihmuar në zgjerimin e zbatimeve të rrjeteve CNN në fusha si:

  • Njohja e karaktereve: Ky ishte dhe zbatimi fillestar i rrjetit LeNet i cili arrinte të dallonte me një saktësi të lartë simbolet shifrore të shkruara me dorë. Rrjetet e sotme më të thella arrijnë të dallojnë me saktësi simbole nga më të larmishmet që gjenden në imazhe të mara prej librave të vjetër, nga veprat artistike të epokave të ndryshme (piktura, gravura, murore, etj.), nga dorëshkrime të qytetërimeve të lashta, etj.
  • Dallimi i objekteve: Ky zbatim kërkon sasi të mëdha të dhënash që normalisht janë pamje të objekteve së bashku me koordinatat e tyre. Ka përhapje shumë të gjerë në sistemet e prodhimit apo të kontrollit (p.sh. për objekte të ndaluara) nëpër aeroporte, pika kufitare, sistemet e vëzhgimit dhe sigurisë, etj. Një nga zbatimet interesante të kohëve të fundit është dallimi i objekteve për të bërë të mundur lëvizjen e makinave pa shofer të cilat mendohet se do nisin të qarkullojnë nëpër rrugë pas pak vitesh.
  • Klasifikimi apo etiketimi i imazheve: Këtu hyjnë zbatime nga më të ndryshmet në fusha të shumta. Zbatim tipik është njohja e fytyrave të njerëzve dhe etiketimi i tyre në fotografitë që shpërndahen në rrjete sociale. Zbatime të shumta kë edhe në mjekësi si p.sh. rrjetet nervore që dallojnë anomali në radiografi apo imazhe të tjera të pacientëve. Zbatime të veçanta janë edhe ato që lidhen me zbulimin e barnave të reja.
  • Gjenerimi i imazheve: Këtë aftësi e kanë disa rrjete nervore të avancuara të quajtura GAN (Generative Adversarial Network – rrjet gjenerues me kundërshtarë) të cilët bazohen te rrjetet CNN. Zbatime të ndryshme janë gjenerimi i karikaturave, gjenerimi i shprehjeve emocionale nga fotografitë, plakja e portreteve të njerëzve, pikturimi i fotografive me motive të ndryshme, gjenerimi i objekteve 3-përmasore, etj.

Të ngjashme