Gerardo Ibarra-VazquezGustavo Olagueolague@cicese.mxMariana Chan-LawCesar PuenteCarlos Soubervielle-MontalvoAutonome University of San Luis Potosí, Faculteit der Engineering.Dr. Manuel Nava 8, Col. University Zone Poniente, 78290, San Luis Potosí, S.L.P., MexicoEvisión Laboratory, Cicise Research Center.Ensenada-Tijuana 3918, Playitas Zone, 22860, Ensenada, B.C.Mexico
Abstract
In de afgelopen jaren maakt de veiligheidsproblemen over de kwetsbaarheid van diepe convolutionele neurale netwerken (DCNN) voor tegenstanders (AA) in de vorm van kleine wijzigingen in het inputafbeelding dat bijna onzichtbaar is voor de menselijke visie, hun voorspellingen onbetrouwbaar.Daarom is het noodzakelijk om robuustheid te geven aan tegenstanders naast een nauwkeurige score bij het ontwikkelen van een nieuwe classificator.In dit werk voeren we een vergelijkende studie uit van de effecten van AA op het complexe probleem van de categorisatie van kunstmedia, die een geavanceerde analyse van functies omvat om een fijne verzameling kunstwerken te classificeren.We hebben een heersende zak met visuele woordenbenadering getest van computer vision, vier state-of-the-art DCNN-modellen (Alexnet, VGG, ResNet, ResNet101) en het Brain Programming (BP) -algoritme.In deze studie analyseren we de prestaties van de algoritmen met behulp van nauwkeurigheid.Bovendien gebruiken we de nauwkeurigheidsverhouding tussen tegenstanders en schone afbeeldingen om de robuustheid te meten.Bovendien stellen we een statistische analyse van het vertrouwen van elke classificator voor om de resultaten te bevestigen.We bevestigen dat de verandering van BP -voorspellingen lager was dan 2% met behulp van tegenstanders die zijn berekend met de snelle gradiënttekenmethode.Ook, gezien de meervoudige pixelaanval, verkreeg BP vier van de zeven klassen zonder wijzigingen en de rest met een maximale fout van 4% in de voorspellingen.Ten slotte krijgt BP ook vier categorieën met behulp van tegenstanderpatches zonder wijzigingen en voor de resterende drie klassen met een variatie van 1%.Bovendien toonde de statistische analyse aan dat het vertrouwen van de voorspellingen van BP niet significant verschillend was voor elk paar schone en verstoorde beelden in elk experiment.Deze resultaten bewijzen de robuustheid van BP tegen tegenstanders in vergelijking met DCNN en handgemaakte functies methoden, waarvan de prestaties op de kunstmedia -classificatie werden aangetast met de voorgestelde verstoringen.We ratificeren ook de concurrerende score van BP tegen de state-of-the-art classificaties voor het probleem van de kunstmedia.
Sleutelwoorden:
Hersenprogrammering, tegenstanders, beeldclassificatie, kunstmedia -categorisatie
1Invoering
Beeldclassificatie is een actief onderzoeksgebied in kunstmatige intelligentie, waarvan het primaire doel is om contextuele informatie of visuele inhoud van een afbeelding te analyseren en toe te wijzen aan de klasse of categorie waartoe het behoort[[1].Er zijn aanzienlijke inspanningen geleverd op gebieden zoals Computer Vision (CV), Machine Learning (ML), Evolutionaire Computation (EC) en Swarm Intelligence (SI) om dit probleem aan te pakken[[2,,3,,4].Twee overheersende methoden zijn een van de meest populaire en succesvolle benaderingen voor het oplossen van beeldclassificatieproblemen: 1) zak met visuele woorden (BOV) van CV en 2) diepe convolutionele neurale netwerken (DCNN) ook bekend als Deep Learning (DL), een onderverdeling, een onderverdeling, een onderverdeling, een onderverdeling, een onderverdeling, een onderverdeling, een onderverdeling, een onderverdeling, een onderverdeling, een onderverdeling, een onderverdeling, een onderverdeling, een onderverdeling, een onderverdeling, een onderverdeling, een onderverdelingvan ML[[5,,6].Desalniettemin hebben EC en SI meestal bijgedragen op twee manieren: 1) het optimaliseren van functieselectie en 2) het optimaliseren van DCNN -architecturen.
Op deze manier is genetische programmering (GP) een van de belangrijkste tools van EC geweest om de selectie van functies te optimaliseren en automatisch de beste kenmerken te extraheren om beeldclassificatietaken te benaderen.Bijvoorbeeld, in 2018, auteurs van[[7]Stel een huisarts methode voor om gelijktijdig globale en lokale functie -extractie te bereiken voor beeldclassificatie met behulp van de datasets van Jaffe (1998), Yale (1997), Flower (2007) en Texture (2006).Zoals we zouden kunnen waarderen, zijn alle datasets sinds tegenwoordig verouderd;Niemand wordt gebruikt om algoritmen te testen.Bovendien wordt hun aanpak vergeleken met traditionele handgineerbare functies van CV-zoals SIFT (schaalinvariante functietransformatie), een beeldverwerkingstechniek die het lokale functieparadigma volgt, en het gedraagt zich niet goed voor problemen zoals beeldcategorisatieomdat verschillende afbeeldingen met meerdere attributen een objectcategorie vertegenwoordigen.De oplossing vereist een consensus van verschillende kenmerken in de vorm van een reeks functies.Daarom ontbreekt dit onderzoekswerk niet meer recente databases en een vergelijking met de huidige classificatie -algoritmen.In 2019, het artikel[[8]stelt een huisartsbenadering voor om automatisch discriminerende rijke functies te genereren voor beeldclassificatie met behulp van de MIT Urban and Nature Scene Datasets (2003).Deze beelddatabases zijn ook verouderd;Daarom wordt de vergelijking gemaakt met traditionele CV -classificatiemethoden zoals histogram van georiënteerde gradiënten (HOG) en Support Vector Machine (SVM), vergelijkbaar met het vorige werk.
In 2019, het onderzoekswerk[[9]stelde een methode voor voor het gebruik van overdrachtsleren in huisartsen om kennis te extraheren en over te dragen om complexe textuurbeelden te classificeren.De voorgestelde methodologie gebruikt de volgende textuurdatasets Kylberg (2011), Brodatz (1999) en Outex (2002), en alle afbeeldingen worden aangepast aanPixels om hun experimenten uit te voeren om de rekenkosten te voorkomen en het probleem te vereenvoudigen.In 2020, het artikel[[10]stelt een op GP gebaseerde functie-leerbenadering voor om automatisch vijf methoden te selecteren en te combineren: hist (histogramfuncties), DIF (domein-onafhankelijke functies), SIFT, HOG en LBP (lokale binaire patronen).De techniek genereert een samengestelde oplossing die functies op hoog niveau extraheert om afbeeldingen uit klassieke problemen met datasets met lage resolutie te classificeren-overpixels totpixels.Auteurs vergeleken hun aanpak met andere op GP gebaseerde methoden en DL-methoden zoals Lenet-5 (een CNN-model met een input van grijswaardenafbeeldingen vanPixels, speelgoed-methode in vergelijking met de state-of-the-art) en twee handcraft CNNS-modellen van vijf- en acht-lagen zonder de informatie van de netwerkparameters te verstrekken.Daarom is het niet eenvoudig om de prestaties te beoordelen.
Naast het optimaliseren van functieselectie, hebben EC en SI strategieën ontwikkeld om te zoeken naar betekenisvolle DCNN -architecturen voor beeldclassificatie[[4].Niettemin, recente benaderingen, die zijn samengevat in[[11], onderzoek hybridisatie van zwerm- en evolutionaire berekeningsalgoritmen door de optimalisatie van hyperparameters tijdens de training te aggregeren.Om een voorbeeld te geven, in 2019, auteurs van[[12]stelde een nieuwe methode voor met de naam EVOCNN, die genetische algoritmen gebruikt voor het evolueren van DCNN -architecturen en verbindingswaarden om problemen met beeldclassificatie aan te pakken.Hun experimenten waren gebaseerd op negen datasets die grijswaarden gebruiken.Pixels: MNIST, MNIST-RD, MNIST-RB, MNIST-BI, MNIST-RD + BI, Rechthoeken, rechthoeken-I, convex en mnist-mode.In 2019 echter, auteurs van[[13]stelde een nieuw algoritme voor op basis van deeltjeszwermoptimalisatie (PSO) met de naam PSOCNN, in staat om automatisch DCNN -architecturen te zoeken naar beeldclassificatie met snelle convergentie in vergelijking met anderen evolutionaire benaderingen zoals EVOCNN, onder anderen.Hun experiment gebruikte dezelfde negen hierboven genoemde datasets.
Ondanks de inspanning en interesse van de EC- en SI -gemeenschappen om het probleem van beeldclassificatie aan te pakken, hebben ze nog steeds te maken met verouderde problemen met behulp van klassieke datasets en maken ze vergelijkingen tegen verouderde DCNN -modellen.EC en SI zijn tekort geschoten om op gelijke voet te staan met DCNN-modellen met kleine werken die niet hoger zijn dan hand-craft DCNN-architecturen.
Desalniettemin is een diepe genetische programmeermethode genaamd hersenprogrammering, geïnspireerd door kennis van neurowetenschappen die symbolische representaties gebruikt en regels bevat van expertsystemen met een hiërarchische structuur geïnspireerd door de menselijke visuele cortex, ontwikkeld door het evovision -onderzoeksteam.In 2016 begon Evovision een kunstmatige visuele cortex (AVC) te evolueren voor beeldclassificatie en objectdetectie.Hernández et al.gebruikte natuurlijke afbeeldingen van middelgrote (VGA) met behulp van Graz-01 (2003) en Graz-02 (2004) datasets, die de basis vormen voor de Visual Object Challenge (VOC-uitdaging)-beide nog steeds relevant in CV-literatuur-[[14].De resultaten werden vergeleken met verschillende functie -extractiemethoden Basismomenten (2006), hiërarchische max - genetische algoritme - Hmax -Ga (2012), verbeterde biologisch geïnspireerde model -EBIM (2011), SIFT (2006), segmentatie van segmentatie van gelijkenis - sm (2006 (2006), en momentinvarianten (2006) het meest van CV en één inclusief EC.In 2017, Hernández et al.[[15]Een CUDA -versie van BP geïmplementeerd om de verwerkingstijd van het oorspronkelijke systeem te versnellen.Het experiment analyseerde de prestaties met behulp van verschillende beeldgroottes, die begonnen metpixels, verdubbelen de maten tot totPixels, die de mogelijkheid aantonen van realtime functionaliteit en de toepassing op high-definition afbeeldingen.Bovendien werd de methode vergeleken in de tijdprestaties met een CUDA -implementatie van HMAX- en CUDA -versie van een CNN met uitstekende resultaten.
In 2019, het artikel[[16]stelt een willekeurige zoekopdracht voor om de beste parameters voor de AVC in beeldclassificatie te vinden.Het experiment vond geweldige individuen om GRAZ-01, GRAZ-02 en Caltech-101 (2004) datasets te classificeren.Graz -gegevenssets hebben beeldgroottes vanPixels en Caltech-101 heeft afbeeldingen vanpixels.Merk op dat Graz -afbeeldingen een belangrijke uitdaging vormen vanwege het korte object optreden in het hele beeld, en een uitdaging worden om de wijziging van beelden voor verwerking te wijzigen.CALTECH-101 daarentegen presenteert een echt gegevens over beeldherkenning.In 2020 werd BP voorgesteld als een techniek om het complexe probleem van kunstmedia -categorisatie (AMC) te benaderen[[17].Het experiment bestaat uit het classificeren van kunstdatasets met hoge resolutie zoals Wikiart (2016) en Kaggle Art Images (2018).Bovendien werden BP -resultaten vergeleken met een gerenommeerd DCNN -model genaamd Alexnet, dat een competitief resultaat behaalde.Ook is BP geëvalueerd op real-world problemen van objecttracking met behulp van standaard datasets en algoritmen-fragtrack en Miltrack-terwijl ze ook uitstekende resultaten behaalden in reële omstandigheden in vergelijking met de methode van regio's met convolutionele neurale netwerken (R-CNN)[[18,,19].
Ondanks de vooruitgang die is geboekt om betere beeldclassificaties op te bouwen, is een onderzoeksmogelijkheid die niet is overwogen in EC en SI de robuustheid van de classificator.Tegenwoordig bestaat er een grote bezorgdheid over de prestaties van DCNN, dat een nieuw onderzoeksgebied heeft geopend dat verantwoordelijk is voor het omgaan met tegenstanders (AA) die opzettelijk kleine verstoringen in het invoerafbeelding creëren om het model te misleiden om verkeerd te voorspellen om verkeerd te voorspellen[[20,,21,,22,,23,,24,,25].Sommige van deze verstoringen zijn onmerkbaar voor de menselijke visie en kunnen de voorspelling van de DCNN volledig veranderen om zijn prestaties te laten vallen.Ze worden gegenereerd door verschillende vormen, waaronder het aanbrengen van kleine aanpassingen aan de inputpixels, met behulp van ruimtelijke transformaties, onder andere.Naast de analyse van DCNN -kwetsbaarheden zijn er enorme inspanningen geleverd om defensiemechanismen te ontwikkelen om AA te verminderen.Toch zijn de verstoringen complexer en zeer efficiënter geworden in het voor de gek houden van DCNN.Daarom willen we in dit artikel de classificatiemodellen tussen prestaties en robuustheid tegenover verstoringen contrasteren om de betrouwbaarheid van voorspellingen te garanderen en tegelijkertijd niet alleen op de nauwkeurigheid te concentreren.
1.1Probleemstelling
In deze sectie beschrijven we het serieuze probleem in de DCNN -structuur tot AA.Ten eerste, gegeven een invoerafbeeldingin een invoer subruimtezoals daten het bijbehorende label, DCNN -model vestigt een relatie binnen de gegevens met behulp van de volgende vergelijking:
(1) |
waar functieis het DCNN -model, waarvan de bijbehorende gewichtsparameters zijn.Een onjuist gedrag is echter opmerkelijk wanneer het invoerafbeelding een kleine verandering in zijn pixels lijdtzoals dat:
(2) |
waar.Het kan dus worden gedefinieerd als een tegenstanders voorbeeld (AE) als een opzettelijke gewijzigde invoerdat is anders geclassificeerd dandoor het DCNN -model, met een beperkt niveau van verandering in de pixels van, zodat het onmerkbaar kan zijn voor een menselijk oog.
De eenvoudigste uitleg over hoe AE's werken om een DCNN aan te vallen, is dat de meeste digitale afbeeldingen 8 -bit per kanaal per pixel gebruiken.Dus elke stap van 1/255 beperkt de gegevensrepresentatie;De tussendoor wordt niet gebruikt.Daarom, als elk element van een verstoringis kleiner dan de gegevensresolutie, het is coherent voor het lineaire model om een onderscheid te voorspellendan voor een tegenstander.We nemen dat voor zover als, waaris te klein om te worden weggegooid, de classificaties moeten dezelfde klasse voorspellenEn.
Desalniettemin, na het toepassen van de gewichtsmatrixAan de AE verkrijgen we het puntproduct gedefinieerd door.Daarom zal de AE de activering laten groeien door.Merk op dat de dimensionaliteit van het probleem niet groeit;Aldus de activeringswijziging veroorzaakt door verstoringkan lineair groeien met.Als gevolg hiervan kan de verstoring veel onmerkbare wijzigingen in de input aanbrengen om grote uitvoerwijzigingen te verkrijgen.
DCNN-gedrag is enorm lineair om immuun te zijn voor AE's, en niet-lineaire modellen zoals sigmoïde netwerken zijn opgezet om meestal niet te versterkend te zijn, waardoor ze meer als een lineair model worden.Daarom moet elke verstoring als toegankelijk of uitdagend om te berekenen ook de DCNN beïnvloeden.Daarom, wanneer een model wordt beïnvloed door een AE, beïnvloedt dit beeld daarom vaak een ander model, of de twee modellen verschillende architecturen hebben of zijn getraind met andere databases.Ze hoeven alleen voor dezelfde taak te worden ingesteld om het resultaat te wijzigen[[26].
Op deze manier vindt de AE -generatie een inputIn de invoer subruimtezoals datEn.Niettemin duiden we robuustheid aan in termen van functiecontinuïteit.Gezien de functie van een modelin een invoer subruimtezoals dat, alsimpliceert.Gelijkwaardig,is robuust bij, voor iedereen, als een, er is eenzoals datimpliceert.Vandaar, alsis robuust voor elk, Danwordt gezegd dat het robuust is.
Daarom is de procedure om robuustheid te meten door passende statistische tests te gebruiken, afhankelijk van de eigenschappen van de resultaten, standaardprestatiemaatstaven en de verhouding van nauwkeurigheid.Statistische tests stellen ons in staat om te bepalen of de verkregen resultaten aanzienlijk verschillen en de kennis van bepaalde aspecten ten opzichte van de bestaande algoritmemaatregelen verbeteren: effectiviteit, efficiëntie, nauwkeurigheid of betrouwbaarheid bij het gebruik van kunstmatige neurale netwerken, SVM of andere metaheuristieken[[27].
1.2Onderzoeksbijdragen
Dit artikel geeft inzicht in tegenstanders en de motivatie om de robuustheid van beeldclassificatiemodellen te analyseren.Daarom breiden we de eerste resultaten uit die gerapporteerd zijn op het International Symposium on Visual Computing (ISVC'20), waarop we de robuustheid onderzoeken door de complexe beeldclassificatietaak van de AMC[[28].In dit werk testen we een heersende BOV-aanpak van CV, vier state-of-the-art DCNN-modellen (Alexnet, VGG, ResNet, ResNet101) en het BP-algoritme met behulpaanvallen en tegenstanders).We merken de volgende bijdragen op:
- 1.
De eerste bijdrage bestaat uit een voorstel van de robuustheid van BP als een veilig mechanisme om AAS voor AMC aan te pakken.Omdat dit probleem moeilijk is, kunnen de resultaten met veel artefacten in alle bestudeerde klassen worden uitgebreid tot andere uitdagende classificatietaken.
- 2.
De tweede is een vergelijkende studie van de overheersende beeldclassificatiemethodenprestaties van drie-verschillende onderzoeksgebieden (CV, ML en EC), rekening houdend met AAS.
- 3.
De derde is een statistische analyse van de voorgestelde beeldclassificaties vanuit het standpunt van robuustheid tegen AAS.
We organiseren het huidige werk als volgt.Sectie2presenteert relevant onderzoek voor de AMC.Het omvat de complexiteit van het probleem en hoe het is aangepakt, van handgemaakte functies tot DCNN -modellen en GP -methoden.Het presenteert ook de zorgen over AAS en hoe de robuustheidsvoorspellingen niet zijn bestudeerd op de AMC.Sectie3Schetst de structuur van elke classificatiemethode en de AA's die in dit werk worden gebruikt.Sectie4Geeft details over de experimentele opstelling, inclusief de dataset, de constructie ervan, de gebruikte evaluatiemetrieken en de verklaring van de experimentele resultaten.Eindelijk, sectie5presenteert de conclusies van dit werk.
2Gerelateerde werken
Het AMC -probleem in CV is voortgekomen uit de noodzaak om automatische systemen te hebben voor het identificeren van waardevolle kunstwerken om een betrouwbare analyse te hebben van complexe functies die niet subjectief kunnen zijn, omdat mensen geneigd zijn te zijn.Het classificeren van beeldende kunstwerken omvat bijvoorbeeld een verfijnde selectie van functies die elk medium onderscheiden, wat extreem moeilijk is[[29].Meestal analyseert een kunstexpert de stijl, het genre en de media uit illustraties om de kunstenaar te identificeren en vervalsingen te detecteren[[30,,31,,17].Daarom maakt de ontwikkeling van geautomatiseerde systemen die dergelijke taken leveren een nauwkeurige en robuuste analyse een kritisch probleem op het gebied van beveiliging.Op deze manier zijn om een robuuste analyse van kunstmedia te maken, beelden met hoge resolutie verplicht om voldoende informatie te bieden om de zorgvuldigheid te maximaliseren op basis van de kunstwerken.De kunststijl, meestal geassocieerd met de school van de auteur, beschrijft de onderscheidende artefacten van de kunstenaars, visuele elementen, technieken en methoden.De vorm is gerelateerd aan de lokalisatie van functies op verschillende niveaus.De klassieke hiërarchie van genres rangschikt geschiedenisschilderen en portret als hoog, terwijl landschappen en stilleven als laag worden geclassificeerd omdat ze geen personen bevatten.
AMC is aangepakt vanuit 3 perspectieven: 1) handgemaakte extractie van functies, 2) diepe convolutionele neurale netwerken en 3) genetische programmeermethoden.Ten eerste waren handgemaakte ontwikkelde functies de belangrijkste methode om formules te ontwikkelen die functies kunnen extraheren om een beeldrepresentatie te verkrijgen om een afbeelding gemakkelijk te classificeren.
Een van de eerste werken die handgemaakte functies gebruiken was[[32];Hier stelden de auteurs een discrete Cosine Transform (DCT) coëfficiëntenschema voor dat wordt gebruikt voor de identificatie van de functie -extractieschilder door de stijl van de kunstenaar te classificeren.Ze bouwen een aangepaste database van ongeveer 300 grijswaardenafbeeldingen van vijf schilders (Rembrandt, Van-Gogh, Picasso, Magritte en Dali) om te experimenteren.Li en Wang[[33]Voorgesteld met behulp van een tweedimensionaal verborgen Markov-model met meerdere resolutie om penseelstreken te analyseren om betrouwbare informatie te bieden om kunstenaars te onderscheiden van oude Chinese schilderijen.Hun database bestaat uit 276 grijswaardenafbeeldingen van vijf Chinese kunstenaars met een resolutie vanPixels maar geschaald naar 512 op de kortere dimensie, met behoud van de beeldverhouding.Auteurs in[[34]presenteren een vergelijkende studie van verschillende classificatiemethoden op basis van handgemaakte ontwikkelde functies.Ze contrasteerden semantisch niveau-functies met een SVM, Color Sift en tegenstander SIFT met BOV en latente Dirichlet-toewijzing met een generatief BOV-onderwerpmodel voor genre-classificatie van fijne art.In hun onderzoek werd een database met zeven categorieën schilderijen (abstract, barok, renaissance, popart, expressionisme, impressionisme en kubisme) gebruikt uit de dataset van de Artchive Fine-Art met behulp van 70 afbeeldingen uit elke klasse.Onlangs, Rosado[[35]gebruikte een BOV geïmplementeerd met behulp van een dichte-Sift-methode voor functie-extractie en probabilistische latente semantische analyse (PLSA) om een beeldanalyse te maken van 434 gedigitaliseerde afbeeldingen van schilderijen, tekeningen, boeken en gravures door antonische tàpies.Over het algemeen merken we op dat het gebruik van handgemaakte ontwikkelde functies het mogelijk maakt om bemoedigende maar geen perfecte resultaten te verkrijgen.Na verloop van tijd werd de complexiteit van deze kenmerken uitdagender voor het ontwerpen.Naast het ontwerpproces van functies, was de ontwikkeling van het leeralgoritme een volledig onafhankelijk onderzoeksgebied dat nodig was om aan de extractie van de functie te passen.
DCNN is een doorbraak geweest op veel gebieden van beeldverwerking, en recente werken aan AMC hebben benaderingen gepresenteerd op basis van de ultramoderne DCNN-architecturen.Auteurs in[[36]introduceerde het gebruik van diepe convolutionele activeringsfuncties van een DCNN -model dat is getraind voor objectherkenning om de stijl te herkennen.Deze functies bereiken hoogwaardige identificerende stijlen bij het schilderen van afbeeldingen en presteren beter dan de meeste handgemaakte ontwikkelde functies.Bar et al.[[37]stelde een compacte binaire weergave voor die de picodes -descriptoren en de diepe convolutionele activeringskenmerken van een DCNN -model combineert om artistieke stijlen in schilderijen te identificeren die uitzonderlijke resultaten tonen om kunstwerken van Wikiart te classificeren met behulp van 27 klassen.Noord et al.[[38]gebruikte een aanpassing van AlexNet om artworkstijlen van Rijks Museum -afbeeldingen te classificeren.Ze kunnen de regio's visualiseren met een hitte -map van het kunstwerk dat de voorspelling van stijl beïnvloedt.Cetinisch en grgic[[39]Gebruikte de functies die uit VGG zijn geëxtraheerd om Wikiart -databasebeelden te classificeren in zeven genreklassen zoals portret, landschap, stad, stilleven, naakt, bloem en dier.Ze presteren beter dan handgemaakte ontwikkelde functies zoals SIFT, GIST-descriptor, varkens, Hog, Gray Level Co-voorkomen Matrix (GLCM) en HSV-kleurenhistogrammen met hun classificatiemethode.Seguin et al.[[40]Stel voor om te extraheren uit VGG -vergelijkbare componenten die worden gedeeld door verschillende kunstwerken met de naam Visual Link.Deze links proberen een gelijkenis te vinden van de schilderijen van dezelfde makers of dezelfde scholen.Het experiment gebruikte afbeeldingen uit de Web Gallery of Art Database die rapporteerde dat hun methode betere prestaties behaalt dan handgemaakte technische functies zoals SIFT.
Sun et al.[[41]gebruikte Alexnet en VGG om een structuur te construeren met twee paden om object- en textuurfuncties te verkrijgen.De DCNN voert de objectberekening uit en de textuurpad gebruikt de grammatrices van tussenliggende kenmerken.Auteurs die in hun experimenten worden gebruikt Wikipaintings, Flickr -stijl en Ava -stijldatabases.Elgammal et al.[[42]stelde een analyse voor van beroertes in lijntekeningen met behulp van een database van 300 gedigitaliseerde tekeningen met meer dan 80 duizend slagen.Ze maken gebruik van handgemaakte ontwikkelde functies, diep geleerde functies en de combinatie van beide om te discrimineren tussen kunstenaars op een slagniveau met hoge nauwkeurigheid.Ook dient hun werk om vervalsingen te ontdekken die door kunstenaars zijn gemaakt.Cetinic et al.[[43]voerde een uitgebreid CNN-verfijningsexperiment uit met behulp van vijf caffe-modellen (Caffenet, Hybrid-CNN-netwerk, Memnet Network, Sentiment Network en Flickr Network) voor vijf verschillende kunstgerelateerde classificatietaken (kunstenaar, genre, stijl, tijdsperiode en associatie en associatie en associatiemet een specifieke nationale artistieke context) over drie grote datasets met een fijne kunst (Wikiart, Web Gallery of Art en TICC -dataset voor printmaking).In[[44], auteurs gebruikten Pre-Train DCNN-modellen (Alexnet, VGG, Googlenet, ResNet, Densenet) om basisartistieke media uit kunstwerken te herkennen.Ze verzamelden ongeveer 1000 illustraties per klasse (oliedakborstel, pastel, potlood en waterverf) via verschillende zoekmachines en websites om ze te classificeren.Ze verkregen vergelijkbare resultaten met die van getrainde mensen.
Ten slotte heeft een huisartsachtige methode genaamd hersenprogrammering concurrerende resultaten verkregen in vergelijking met een DCNN-model voor de AMC-taak[[17].Deze techniek is bedoeld om het gedrag van de hersenen na te bootsen op basis van leerprocessen van neurowetenschappen met nieuw symbolisch leren.In de experimenten worden twee gerenommeerde databases van kunstwerken met hoge resolutie gebruikt (Art Database van Kaggle en Wikiart) om vijf kunstmediaklassen (tekeningen, gravure, schilderen, iconografie en beeldhouwkunst) te classificeren.De voorgestelde techniek behaalt vergelijkbare resultaten met Alexnet over een binair classificatieprobleem.
Hoewel DCNN voorbeeldige resultaten heeft verkregen bij het oplossen van een breed scala aan computer vision -taken, veranderen kleine perturbaties met de naam tegenstanders die op het invoerafbeelding zijn gedaan, de beslissing van het leermodel om zijn voorspelling volledig te wijzigen.Deze perturbaties worden gegenereerd in verschillende vormen die kleine wijzigingen omvatten aan de inputpixels en het gebruik van ruimtelijke transformaties, onder andere.Het primaire doel van deze aanvallen is om de voorspelling van de DL -modellen opzettelijk voor de gek te houden en onopgemerkt te blijven voor de menselijke perceptie.Szeedy et al.[[45]waren de eerste die een ongewone zwakte ontdekte waar kleine verstoringen bijna onzichtbaar zijn voor de menselijke visie op de inputpixels, een CNN voor de gek kunnen houden.Deze aanvallen rapporteerden ook een hoog vertrouwen in de verkeerde voorspelling van het model, en erger nog, meerdere netwerken werden getroffen met dezelfde verstoorde afbeelding.Later ontdekten ze dat de robuustheid van CNN tegen AA kon worden verbeterd met behulp van deze afbeeldingen in de trainingsfase.Recente studies hebben echter het gebrek aan robuustheid in goed opgeleide DCNN's benadrukt[[46,,47].Goodfellow et al.[[26]Een methode ontworpen met de naam Fast Gradient Sign -methode (FGSM), die efficiënte computerstoringen voor een gegeven afbeelding mogelijk maakt.Een andere dreiging bestaat uit een extreme en eenvoudige aanval voorgesteld door Su et al.[[48], die bestaat uit het wijzigen van één pixel in de afbeelding, kan een CNN voor de gek houden.Een nadeel is echter dat het alleen werkt voor pictogramafbeeldingen.Ze hebben met succes drie verschillende netwerkmodellen aangevallen onder deze strategie met veel vertrouwen.Moosavi-dezfooli et al.[[49]ontdekte enkelvoudige verstoringen die elk beeld verkeerd kunnen classificeren;Ze noemden het universele verstoringen.Op deze manier, Brown et al.[[50]stelde een methode voor om universele, robuuste, gerichte tegenstanderspatches te maken.Deze patches zijn zo compact dat ze kunnen worden afgedrukt en gebruikt in real-world scènes om een CNN voor de gek te houden.
Ondanks aanzienlijke inspanningen om defensiemethoden te maken tegen AAS, hebben de onderzoekswerken zich gericht op het wijzigen van het trainingsproces of het wijzigen van de invoerafbeelding tijdens het testen[[26,,51,,52], ook bij het veranderen van de structuur van de netwerken[[53,,54,,55]of via externe modellen om ongeziene voorbeelden te classificeren[[56,,57].Zhang et al.[[58]Besproken de beperking van de tegenstanders, omdat de aanvallen steeds uitdagender zijn geworden met een hoge efficiëntie van de schade.
AMC is een complex probleem om op te lossen.De oplossing omvat een gecompliceerde analyse van functies en vereist nauwkeurige en robuuste beslissingen, meestal wanneer curatoren werken met zeer waardevolle kunstwerken.De prestaties van handgemaakte methoden voor ontwikkelde functies zijn beperkt om te concurreren met DCNN door hun onvermogen om complexe functies te extraheren uit kunstwerken om een betere beeldrepresentatie te bouwen.DCNN heeft het beter gepresteerd dan handgemaakte ontwikkelde functies en heeft de leiding voor de AMC opgezet.Desalniettemin is BP begonnen met het aantonen van zijn competentie tegen DCNN -prestaties op dit gebied.AA's op kunstmedia vormen echter een ernstige dreiging die niet is bestudeerd om de betrouwbaarheid van de classificator te meten. Vermoedelijk is niet aangetoond dat het AA-effect de voorspellingen van verschillende classificatie-architecturen, zoals CV-methoden, beïnvloedmethodologie[[28].Hoewel DCNN defensiemechanismen heeft ontwikkeld om het AA -effect te verminderen, is het moeilijk om te vechten tegen alle nieuwe en complexere AA.Dus, zelfs als DL-architecturen grootschalige sets afbeeldingen hebben geclassificeerd met meerdere klassen met uitstekende resultaten, maken de beveiligingsproblemen van dit paradigma de oplossingen onbetrouwbaar.De brosheid is omdat, met kleine verstoringen die op het beeld worden geproduceerd, DL opzettelijk voor de gek kan worden gehouden.Er zijn bijvoorbeeld kritieke gebieden in musea en galerijen, zoals kunstenaaridentificatie en vervalsing detectie, waarbij het vertrouwen van de voorspelling niet afhankelijk moet zijn van een systeem dat kan worden gemanipuleerd door een onmerkbare verstoring.Dit catastrofale scenario kan ertoe leiden dat vervalsingen op de markt circuleren of verkeerd worden toegeschreven aan een specifieke kunstenaar.Dit artikel presenteert een methode die kan worden gebruikt als een eerste verdedigingsmechanisme door algemene vragen te stellen zoals of het gedigitaliseerde kunstwerk tot een bepaalde klasse behoort voordat ze verdere vragen stelt.
3Methodologie
Deze sectie beschrijft de gegevensmodellering van elke methode die in dit werk wordt gebruikt.Het hoofddoel in gegevensmodellering is om de gegevens samen te vatten door deze aan een model te passen door een relatie in de gegevens op te zettengegeven door de dataset door de volgende vergelijking:
(3) |
waar de functieis het model dat afhankelijk is van instelbare parameters.Daarom beschrijven we SIFT + Fisher -vectoren modellering als de BOV -methode omdat het de laatste computer vision -techniek was die de beeldclassificatietaak won op de ImageNet Grootschalige Visual Recognition Challenge (ILSVRC) 2011 voordat DL -modellen ontstonden.We beschrijven de modellering van diepe neurale netwerken en verklaren de bijdragen aan de state-of-the-art van de vier DCNN-modellen die voor dit werk zijn gekozen op basis van de ILSVRC-winnaars.Vervolgens presenteren we de theorie achter BP om functiesymbolisch leren te introduceren voor gegevensmodellering en de workflow van het systeem.Ten slotte beschrijven we de modellering van de drie geselecteerde AA's om de verstoring te construeren om een misclassificatie te induceren zoals in vergelijking (2).
3.1SIFT + Fisher -vectoren
Fisher Vector (FV) is een vectoriale weergave van de gradiënt van de steekproeflog-waarschijnlijkheid met betrekking tot een generatief model van de gegevens[[59].Er zijn veel voordelen aan de FV tegen de BOV.Het werd bewezen door[[59]Dat BOV een bepaald geval is van de FV waar wordt beperkt de gradiëntberekening tot de mengselgewichtparameters van het Gaussiaanse mengmodel (GMM)[[60].Het generatieve model (GMM) kan worden opgevat als een probabilistische visuele woordenschat.Desalniettemin bevat FV extra gradiënten die de nauwkeurigheid verbeteren.Het heeft ook minder vocabulaires nodig met lagere rekenkosten dan BOV, en het is gemakkelijk om goede prestaties te bereiken met eenvoudige lineaire classificaties.Merk op dat BOV meestal vrij schaars is, terwijl de FV bijna dicht is, waardoor FV onpraktisch is voor grootschalige toepassingen vanwege opslagproblemen.Desalniettemin wordt een grootschalige zoekopdracht van de naaste buurman gemaakt om dit probleem te verminderen met behulp van een populaire computer vision-methode met de naam Product Kwantisatie[[61].In de praktijk wordt het SIFT-descriptoren gebruikt op een dicht multi-schaal rooster om de FV-beeldrepresentatie te berekenen[[59].
Om de FV-beeldrepresentatie te construeren, wordt het gedefinieerd een set d-dimensionale descriptoren die uit een afbeelding zijn geëxtraheerd, een set SIFT -descriptoren.FV is een som van genormaliseerde gradiëntstatistiekenmet de veronderstelling dat alle descriptoren onafhankelijk zijn.Waarzijn de genormaliseerde gradiëntstatistieken berekend voor elke descriptor.Daarom kan worden duidelijk dat deze bewerking een inbedding van de lokale descriptors isIn een hoger-dimensionale ruimte die een lineaire classificator helpt om de gegevens eenvoudiger te modelleren, zoals in vergelijking (3).
Het voordeel van deze algoritmen is dat er geen gelabelde gegevens nodig zijn om dewoordenboek.Daarom kan het werken op beperkte gelabelde gegevenssituaties.Het leerproces van het woordenboek kan ook de kwaliteit van de functies verbeteren door er aanvullende informatie over te geven[[62,,63].Ze zijn echter niet in staat om functieshiërarchieën te bouwen, en het proces wordt niet slechts één methode gestapeld op de bovenkant van de andere, zelfs er zijn pogingen geweest om het diep te maken[[64,,65,,66].
3.2Diepe convolutionele neurale netwerken
Anders begint Ann het idee om diepe architecturen te ontwerpen voor neurale netwerkmodellen die voldoende functies langs deze structuur kunnen extraheren om de ANN in staat te stellen afbeeldingen te classificeren.Diepe neurale netwerken, waar DCNN er deel van uitmaakt, modelleert de gegevens met behulp van vergelijking (3) in dienstals een bepaalde vorm van een geneste functie, en elk noemde een laag.
(4) |
op zo'n manier datEnzijn vectorfuncties van de volgende vorm:
(5) |
metlde index van de laag aangeven.is de activeringsfunctie die meestal een niet -lineaire functie is, en de modelparameters bestaan uitde gewichten matrix ende bias vector.Daarom wordt het minimalisatieprobleem bepaald door de verliesfunctiewaar het doel is om de beste modelparameters voor alle lagen te vindendat past bij de gegevensnaar het label.
LECUN et al.[[67]geïntroduceerd het moderne raamwerk van convolutionele neurale netwerken (CNN's).De eerste keer dat CNN de aandacht begint te trekken was echter met de ontwikkeling van de Alexnet[[68], een DCNN -model voor de ILSVRC 2012, waar het met de helft van het foutenpercentage van de beeldclassificatietaak zou kunnen verminderen.Alexnet Layer Architecture bestaat uit 5 convolutionele, drie max-pooling, twee normalisaties, drie volledig verbonden lagen (de laatste met 1000 SoftMax-uitgang), 60 miljoen parameters en 500.000 neuronen.Aanvullend,[[68]geïntroduceerd het gebruik van niet-lineariteit van relu (gerectificeerde lineaire eenheid) als activeringsfunctie met de voordelen van veel snellere training dan gebruikentanhofsigmoidfuncties.Om overfitting te voorkomen, introduceerden ze ook de uitvalmethode en gegevensvergroting.
Een ander DL-model dat bijdragen aan de state-of-the-art opleverde, was het VGG-netwerk van de Visual Geometry Group van de Universiteit van Oxford[[69].VGG Network verhoogde het diepe van eerdere netwerken door VGG-16 en VGG-19 te maken.De eerste gebruikt 13 convolutionele lagen en drie volledig verbonden lagen;De tweede had drie extra convolutionele lagen in dienst.Ook verminderden ze de grootte van de filters tot het kleinste formaat om het idee van omhoog/omlaag, links/rechts en midden te vangen dat een 3x3 -filter is.VGG onderscheidde zich voor zijn state-of-the-art prestaties over herkennings- en lokalisatietaken op ILSVRC 2014 en andere datasets voor beeldherkenning.
Resnet[[70](Diep resteren voor beeldherkenning) heeft ook bijgedragen aan het opnieuw definiëren van de laag als resterende leerfunctie op de CNN -architectuur.Dit helpt om het knelpuntprobleem van de trainingsfase op CNN's te verminderen.ResNet toonde zijn vermogen om zijn architectuur te trainen met een diepte van maximaal 152 lagen en een lagere complexiteit dan Googlenet.ResNet won ook de ILSVRC 2015 over de classificatietaak die voor het eerst een foutenpercentage van 3,57%bereikte.Ze stelden vijf configuraties van het netwerk voor: 18-laags, 34-laags, 50-laags, 101-laags en 152-laags netwerken.
3.3Hersenprogrammering
Voordat we het algoritme van BP uitleggen, maken we een korte inleiding tot huisartsenalgoritmen.Huisarts is een evolutionaire berekeningstechniek geïnspireerd door biologische evolutieprincipes[[71].Het wordt beschouwd als een afgeleide van genetische algoritmen die de populaties van individuen evolueren in de vorm van een boom- of computerprogramma (formules of wiskundige uitdrukkingen).Elk individueel computerprogramma wordt gegenereerd, afhankelijk van de terminal en functiesets die door de gebruiker zijn vastgesteld.Ze worden geëvalueerd in termen van hoe goed het presteert in een bepaald probleem.Vervolgens worden individuen met behulp van het Darwiniaanse principe van reproductie en overleving van de sterkste en de genetische operators van crossover en mutatie geëvolueerd om een betere fit -oplossing voor het probleem te vinden.
BP is een evolutionair paradigma voor het oplossen van CV -problemen die zijn gerapporteerd in[[14,,16,,19].Deze methodologie extraheert kenmerken uit afbeeldingen door een hiërarchische structuur geïnspireerd op het functioneren van de hersenen.BP stelt een GP-achtige methode voor, met behulp van een multi-tree representatie voor individuen.Het belangrijkste doel is om een reeks evolutionaire visuele operators te verkrijgen (), ook wel visuele operators genoemd (), die zijn ingebed in een hiërarchische structuur die de kunstmatige visuele cortex wordt genoemd.De AVC is voornamelijk gebaseerd op twee modellen: een psychologisch model genaamd functie -integratietheorie[[72]en een neurofysiologisch model genaamd het corticale model met twee route[[73].Aldus probeert de AVC het natuurlijke proces dat zich langs de visuele cortex voordoet volgens het neurologische ventrale dorsale model van de hersenen.Dit model met twee streams stelt dat het proces van het verwerven van visuele informatie in de hersenen twee hoofdpaden volgt.
De dorsale stroom staat bekend als de "waar" of "hoe" stroom.Dit pad is waar de richtlijnen van acties en het herkennen van de locatie van objecten in de ruimte betrokken is en waar visuele aandacht optreedt.De eerste theorie stelt dat visuele aandacht bij mensen wordt uitgevoerd in twee fasen.De eerste wordt de pre -freaterende fase genoemd, waar visuele informatie parallel wordt verwerkt over verschillende functiedimensies die de scène vormen: vorm, kleur, oriëntatie, ruimtelijke frequentie, helderheid en bewegingsrichting.De tweede fase, focale aandacht genoemd, integreert de geëxtraheerde functies uit de vorige fase om een regio van de scène te benadrukken.BP is gebaseerd op de meest populaire theorie van functie -integratie voor de dorsale stream van[[72], en de principes van het eerste rekenmodel voor visuele aandacht, waarbij het beeld in verschillende dimensies wordt ontleed om een set concurrentiekaarten te verkrijgen, die vervolgens worden geïntegreerd in een enkele kaart genaamd de saliciëntiekaart[[74].
De ventrale stroom staat bekend als de "wat" -stroom.Deze route wordt meestal geassocieerd met objectherkenning en vormrepresentatietaken.Voorgestelde ventrale streammodellen zoals neocognitron -systeem[[75], convolutionele neurale netwerken[[67]en HMAX -model[[76](Het maximale principe wordt gebruikt in BP), begin met het ontbinden van de afbeelding in een set afwisselende "S" en "C" -lagen.De "S" of eenvoudige lagen worden gedefinieerd door een reeks lokale filters die zijn toegepast om functies van hogere orde te vinden, en de "C" complexe lagen vergroten de functies-invariantie door eenheden van dezelfde soort te combineren.BP vervangt echter de gegevensgestuurde modellen door een functie-gedreven paradigma.In het functieproces wordt een reeks visuele operatoren gefuseerd door synthese om de eigenschappen van het beeld te beschrijven.Door middel van een reeks experimenten zullen we aantonen dat de ontdekte oplossingen niet rechtstreeks op de gegevens zijn, maar specifieke kenmerken;Daarom maken de oplossingen betrouwbaar met betrekking tot AAS.
Daarom kan BP in twee stappen worden samengevat: ten eerste het evolutieproces waarvan het primaire doel is om functies te ontdekken om complexe modellen te optimaliseren door de bewerkingen erin aan te passen.Ten tweede gebruikt de AVC, een hiërarchische structuur geïnspireerd door de menselijke visuele cortex, het concept van functiesamenstelling om functies uit afbeeldingen te extraheren.Het model kan worden aangepast, afhankelijk van de taak, of het nu probeert de focus van de aandacht voor saliëntieproblemen of de volledige AVC voor categorisatie/classificatieproblemen op te lossen.BP verschilt van de gegevensgestuurde modellen met behulp van een functiegestuurde aanpak om de relevante informatie te extraheren en te combineren die een specifieke visuele taak oplost.Daarom vereist het algemene functie-gedreven proces de invoer in een geschikte weergave;Daarom definiëren we een beeldals de grafiek van een functie.
Definitie 1. Afbeelding als grafiek van een functie.Latenwees een functie.De grafiek of afbeeldingvanis de subset vandie uit de punten bestaan, waarin het geordende paaris een punt inEnis op dat moment de waarde.Symbolisch, de afbeelding.
Deze definitie is gebaseerd op het feit dat de afbeeldingen het gevolg zijn van de indruk van variaties in lichtintensiteit langs het tweedimensionale vlak.Daarom zijn functies geoptimaliseerd om de functionaliteit van gespecialiseerde gebieden van de hersenen te imiteren via een reeks operators.
3.3.1Gegevensmodellering met BP
BP stelt voor om het probleem van beeldclassificatie op te lossen vanuit het standpunt van gegevensmodellering via GP.Om het leerproces van BP te begrijpen, beginnen we daarom het minimalisatieprobleem te definiëren, waarvoor een oplossing moet worden gevondenzoals dat:
(6) |
Daarom willen we, in tegenstelling tot conventionele benaderingen voor het vinden van de best passende parameters, de gegevens passen door functies te ontdekken die een classificatietaak in BP uitvoeren.De strategie neemt verschillende stappen omdat de directe mapping tussen het domein en het codomain onbekend is of niet goed gedefinieerd.Op deze manier vereist de oplossing voor het beeldclassificatieprobleem via BP om de volgende vergelijking te definiëren:
(7) |
waarzijn respectievelijk het label en de afbeelding, gegeven door de dataset;vertegenwoordigt de set functies,definieert de terminalet, enzijn de parameters die het evolutieproces beheersen.Daarom hebben we twee dingen nodig om het probleem op te lossen: 1) een methode voor functie -extractie en 2) een geschikt criteriumvoor de minimalisatie.
Daarom is BP het algoritme dat verantwoordelijk is voor afstemmingOp zoek naar optimale functie -extractie uit de invoerbeelden met behulp van de visuele operators ingebed in de kunstmatige visuele cortex (AVC).Het criterium voor het minimalisatieIn termen van een classificatietaak helpt het de beste classificator te ontdekken.In dit specifieke geval gebruiken we een SVM om een mapping te lerenDat associeert descriptorennaar labels.Hier definiëren we het BP -algoritme in termen van een binaire classificatietaak, waarvan het belangrijkste doel is om een beslissingsgrens te vinden die het beste de klasse -elementen scheidt.
3.3.2Evolueren van een kunstmatige visuele cortex (AVC)
Elk individu bestaat uit syntactische bomen die deDat construeert de AVC -structuur om functies uit kleurafbeeldingen te extraheren.Deze procedure krijgt een descriptorvector die codeert voor opvallende kenmerken van het beeld.Vervolgens passen we een SVM toe om de classificatienauwkeurigheid te berekenen voor een gegeven trainingsbeelddatabase om de individuele fitness te verkrijgen.Daarom gebruikt BP een evolutionaire lus gepresenteerd in algoritme1Om de hele populatie te ontwikkelen die wordt weergegeven door een reeks AVC's, waarin de hele workflow wordt geïllustreerd in figuur1.
3.3.3Structuurweergave en genetische operaties
In BP is een individu een computerprogramma dat wordt vertegenwoordigd door syntactische bomen ingebed in een hiërarchische structuur.Individuen binnen de populatie bevatten een variabel aantal syntactische bomen, variërend van 4 tot 12, één voor elke evolutionaire visuele operator (,,,,,,) met betrekking tot oriëntatie, kleur, vorm en intensiteit;en ten minste één boom om de resulterende visuele kaarten samen te voegen en uiteindelijk de mentale kaarten (mm) te genereren.Alle functies binnen elkworden gedefinieerd volgens deskundige kennis om kenmerken te benadrukken die verband houden met de respectieve functiedimensie en bijgewerkt via genetische bewerkingen.
- 1.
Visuele kaarten
Elke invoerafbeelding wordt getransformeerd om de set te bouwen= =,,,,,,,,,,,,,,,,,,, waarbij elk element overeenkomt met de kleurcomponenten van de RGB (rood, groen, blauw), CMYK (cyaan, magenta, geel en zwart) en HSV (tint, verzadiging en waarde) kleurruimtes.Elementen opzijn de ingangen tot viergedefinieerd door elk individu.Elkis een kaartfunctie die op het invoerafbeelding wordt toegepast om specifieke kenmerken te extraheren, samen met informatiestromen van kleur, oriëntatie, vorm en intensiteit;Elk van deze eigenschappen wordt een dimensie genoemd.De output naaris een afbeelding genaamd visuele kaart () voor elke dimensie.Het is belangrijk op te merken dat elke oplossing in de populatie als een compleet systeem moet worden begrepen en niet alleen als een lijst met drie gebaseerde programma's.Individuen vertegenwoordigen een mogelijke configuratie voor functie -extractie die invoerbeelden beschrijft en is geoptimaliseerd door het evolutieproces.Vervolgens verklaren we het proces vanom functies op elke dimensie te extraheren om een resultaat te verkrijgen.
De eerste boom van het individu bootst de oriëntatie na.Daarom ontwikkelen we deze visuele operator () Via een set speciaal geselecteerde elementen om randen, hoeken en andere oriëntatiegerelateerde functies te markeren met behulp van de set terminals en functies in tabel1.De invoer voor de functies kan een van de terminals zijn, evenals de samenstelling onder hen;zijn Gaussiaanse afvlakkingsfilters met;Envertegenwoordigt de beeldderivaten in de richting.Deze operators emuleren de functionaliteit van het V1 -gebied gepresenteerd in de primaire visuele cortex.
Dimensie Functie Beschrijving Terminals Beschrijving ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, Rekenkundige functies tussen afbeeldingen of constanten, absolute waarden, trendentale functies, vierkante, vierkante wortel, afrondingsfuncties, infimum, supremum, convolutie met een Gaussiaans filter, derivaten en drempel toegepast op afbeeldingenen/of ,,,,,,,,,,,,,,,,,,,,,,,,,,,, Elementen vanen zijn derivaten
De tweede operator codeert voor de kleurdimensie die de kleurgevoelige cellen in de visuele cortex emuleert.De visuele operator van kleur () reproduceert het kleurperceptieproces om prominente regio's met kleureigenschappen in de afbeelding te vinden.Merk op dat sommige functies vanzijn hetzelfde als die inPlus de functieDat biedt een negatief beeld dat een intensiteit of RGB -waarde aanvult (zie tabel2).In het uitgangsbeeld worden dus donkere gebieden lichter en worden lichte gebieden donker.Terminals van de tegenstander voeren een vaste bewerking uit tussen de kleurenbanden die een nieuw beeld bouwt met de maximale waarden daartussen.Bijvoorbeeld,Accentueert het verschil tussen de rode en groene banden.
Dimensie Functie Beschrijving Terminals Beschrijving ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, Rekenkundige functies tussen afbeeldingen of constanten, Transcendentale functies, vierkante, vierkante wortel, beeldcomplement, afrondingsfuncties en drempelwaarde toegepast op afbeeldingenen/of ,,,,,,,,,,,,,,,,,,,,,, Elementen vanen kleur tegenstanders: roodgroen en blauwgeel
De derde boom is de visuele operator van vorm.De methode die visuele informatie uit de vorm van het object haalt om te gebruikenvan tafel3, die gebruik maken van de morfologische informatie van de artefacten in de afbeelding.BP stelt voor om samengestelde operatoren te creëren door de samenstelling van basismorfologische operatoren zoals dilatatie, erosie, open, sluiten met schijf-, vierkante en diamantstructurele elementen.Inderdaad, meer complexe operators kunnen van deze operators worden gemaakt.Het doel van het extraheren van vorminformatie is om morfologische informatie te benadrukken die kan worden gebruikt voor objectherkenning.
Dimensie Functie Beschrijving Terminals Beschrijving ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, Rekenkundige functies tussen afbeeldingen of constanten, afrondingsfuncties, drempel- en morfologische operators: dilatatie, erosie, open, sluiten met schijf, vierkant en diamanten structureel element;skelet, hit of miss, bottom-hat, top-hat ,,,,,,,,,,,,,,,,,, Elementen van
Ten slotte komt de intensiteitsmaat overeen met de hoeveelheid licht waargenomen door een lichtgevoelig apparaat.Bij mensen wordt de intensiteit gemeten door gespecialiseerde ganglioncellen in het netvlies.Vervolgens wordt de volgende formule toegepast om de visuele kaart van intensiteit te berekenen.
(8) |
- 1.
Opvallende kaarten
De volgende procedure is het centrum-surround proces;het combineert efficiënt de informatie van deen is handig voor het detecteren van schaalinvariantie in elk van de dimensies.Dit proces wordt uitgevoerd door een Gaussiaanse afvlakking toe te passen boven het overeenkomstigeOp negen schalen;Deze verwerking vermindert de grootte van de visuele kaart met de helft op elk niveau dat een piramide vormt.Vervolgens worden de zes niveaus van de piramide geëxtraheerd en gecombineerd.
(9) |
waar.Sinds de niveaushebben verschillende maten, elk niveau is genormaliseerd en geschaald naar de dimensie van de visuele kaart met behulp van polynoominterpolatie.Deze techniek simuleert het centrale proces van het biologische systeem.Na het extraheren van kenmerken, ontvangt de hersenen stimuli van het Vision Center en vergelijkt het met de omliggende informatie van het receptieve veld.Het doel is om de afbeeldingen te verwerken zodat de resultaten onafhankelijk zijn van schaalveranderingen.Het hele proces zorgt ervoor dat de beeldgebieden reageren op het aangegeven gebied.Dit proces wordt uitgevoerd voor elke karakteristieke dimensie ();De resultaten worden opvallende kaarten genoemd (), alleen gericht op het gezochte object door de meest opvallende functies te benadrukken.Dit vroege stadium van het systeem volgt het psychologische model van visuele aandacht, waarbij de locatie van de objecten in de ruimte wordt betrokken als de kunstmatige dorsale stroomroute.
- 1.
Mentale kaarten
Na het verkrijgen van de meest saliëntiefuncties, is de volgende fase langs de AVC om de mentale kaarten te berekenen () om een descriptorvector te definiëren die wordt gebruikt als input voor een classificator voor categorisatiedoeleinden.Deze procedure is analoog aan de kunstmatige ventrale stroomroute.Vandaar de informatie vanwordt gesynthetiseerd om de set van te bouwen, die ongewenste informatie onderscheidt.Het AVC-model maakt gebruik van een onderdeel om de discriminerende kenmerken van de afbeeldingen te extraheren (zie tabel4);Het gebruikt een functionele aanpak.Dus een set van wordt toegepast op devoor de constructie van de.Dezekomen overeen met het resterende deel van het individu dat niet is gebruikt.In tegenstelling tot de operators die worden gebruikt voor de, de hele set van de operators is hetzelfde voor alle dimensies.Deze operatoren filteren de visuele informatie en extraheren de informatie die het interesse object karakteriseert.Vervolgens met vergelijking (10), waaris de dimensie, envertegenwoordigt de kardinaliteit van de set van, we passen deVoor elke dimensie.
(10) |
Dimensie Functie Beschrijving Terminals Beschrijving ,,,,,,,,,,,,,,,,,,,,,,,, Rekenkundige functies tussen afbeeldingen of constanten, absolute waarden, transcendentale functies, vierkante, vierkante wortel, convolutie met een Gaussiaans filter en derivaten ,,,,,,,,,, Opvallende kaarten en zijn derivaten
- 1.
Genetische operaties
Individuen worden geselecteerd uit de populatie met behulp van een evenredige fitnessmethode die lexicografische parsimoniedruk wordt genoemd om deel te nemen aan de genetische recombinatie van de multi-tree representatie van de individuen.Deze methode bestaat uit het toewijzen van elke oplossing een selectiekans die evenredig is aan hun fitnesswaarde terwijl de voorkeur wordt gegeven aan kleinere bomen wanneer fitness gelijk is.De beste individuen worden behouden om genetische operators toe te passen om de nieuwe nakomelingen te creëren.
Net als genetische algoritmen voert BP de crossover uit tussen twee geselecteerde ouders op het chromosoomniveau met behulp van een "snij-en-splitsing" crossover.Aldus worden alle gegevens buiten het geselecteerde crossover -punt verwisseld tussen zowel ouders A als B. Het resultaat van het toepassen van een crossover op het genniveau wordt uitgevoerd door willekeurig twee substree crossover -punten tussen beide ouders te selecteren.De geselecteerde genen worden verwisseld met de bijbehorende subtree in de andere ouder.De chromosoomniveau -mutatie leidt tot het selecteren van het willekeurige gen van een gegeven ouder om een dergelijke substructuur te vervangen door een nieuw willekeurig gemuteerd gen.De mutatie op genniveau wordt berekend door een subtree -mutatie toe te passen op een probabilistisch geselecteerd gen;De subtree na dat punt wordt verwijderd en vervangen door een nieuwe subtree.Deze genetische operators staan de variatie van het genetische materiaal toe, terwijl ze de genetische innovatie van individuen door alle niveaus bevorderen en de diversiteit van de bevolking behouden.
3.3.4Fitness functie
De volgende fase in het model is de constructie van de beeldbeschrijvingsvector ().Het systeem samenvoegt de vieren gebruikt een maximale bewerking om dehoogste waarden;Deze waarden worden gebruikt om de.Zodra we de DV's van afbeeldingen in de database hebben gekregen, associeert een classifier het domein dat wordt gegeven door de descriptoren aan het codomain van de labels.In dit werk gebruiken we een SVM die werkt met het discrimineerde hyperplane gedefinieerd door:
(11) |
waar de gegeven trainingsgegevens zijn,,,,,,Enis de kernelfunctie.Het teken van de output geeft het klassenlidmaatschap aan van.Het vinden van het beste hyperplane wordt dus uitgevoerd via een optimalisatieproces dat de marge tussen de klasse en niet-klasse lokaliseert als de zoekcriteria.Daarom is het minimalisatieprobleem op het leren van de vergelijking (7) blijft als.Aldus geeft de nauwkeurigheid verkregen door de SVM de geschiktheid van het individu aan111De nauwkeurigheid die in deze sectie wordt aangegeven, heeft het doel om BP te optimaliseren;Desalniettemin de nauwkeurigheid aangegeven in sectie4.2verwijst naar de statistiek om de aanvalsreacties te meten..
3.3.5Initialisatie, huisartsenparameters en oplossingsaanduiding
Zodra we de AVC -structuur van elk individu definiëren, stellen we de parameters in van het evolutieproces van BP (zie tabel5) en stel de afbeeldingsdatabase op.Vervolgens wordt een willekeurige initiële populatie gemaakt met behulp van een gehalte halve techniek, die de helft van de individuen met de kweekmethode en de helft selecteert met de volledige methode.De volledige methode maakt gebalanceerde bomen volgens de maximale initiële diepte, terwijl de kweekmethode onevenwichtige bomen maakt die takken van verschillende lengtes mogelijk maken.Hier hebben we een limiet van maximale diepte vastgesteld om in de loop van de tijd een ongecontroleerde groei van bomen te voorkomen.Boomdiepte wordt dynamisch ingesteld met behulp van twee maximale waarden om de grootte van elke persoon binnen de populatie te beperken.De dynamische maximale diepte is een maximale waarde die mogelijk niet wordt overtroffen, tenzij de conditie van het individu beter is dan de beste oplossing die tot nu toe wordt gevonden.Als het optreedt, wordt de dynamische maximale dieptewaarde bijgewerkt naar de nieuwe sterkste persoon.De echte maximale diepte is een harde limiet die niemand onder geen enkele omstandigheid mag overtreffen.Selectie wordt uitgevoerd met behulp van een toernooi met lexicografische parsimony -druk terwijl het beste individu wordt gehouden.Ten slotte wordt het evolutieproces beëindigd totdat een van deze twee voorwaarden is bereikt: 1) een acceptabele classificatiesnelheid of 2) het totale aantal generaties.Het evolutieproces bereikt dus een optimale populatie die de beste oplossing voor het probleem bevat.
Parameters Beschrijving Generaties 30 Aanvankelijke bevolking 30 Crossover op chromosoomniveau 0,4 Crossover op genniveau 0,4 Mutatie op chromosoomniveau 0,1 Mutatie op genniveau 0,1 Boomdiepte Dynamische diepte -selectie Dynamische max diepte 7 niveaus Echte maximale diepte 9 niveaus Selectie Toernooi met lexicografische Parsimony Druk Overleving Elitarisme
3.4Tegenstanders
Strevenaanvallen worden geclassificeerd, afhankelijk van de beschikbare informatie van het model en de gewenste aanval om een specifieke klasse te voorspellen.Vandaar dat we drie verschillende aanvallen kiezen: een witte doos zonder rand (FGSM), een zwarte doos die niet is gericht (één pixelaanval) en een gerichte aanval (tegenstanders), die in de volgende paragrafen zal worden verklaard.
3.4.1Snelle gradiënttekenmethode
De snelle gradiënttekenmethode voorgesteld door[[26], is de meest gebruikte methode voor het berekenen van AE's die een invoerafbeelding hebben gegeven vanwege de eenvoudige implementatie (zie voorbeeldafbeeldingen in figuur2).Het stelt voor om het verlies van de classificator te verhogen door de volgende vergelijking op te lossen:, waarBerekent de gradiënt van de kostenfunctie rond de huidige waarde van de modelparametersMet het respect voor de afbeeldingen het doellabel.geeft de tekenfunctie aan, die ervoor zorgt dat de omvang van het verlies wordt gemaximaliseerd enis een kleine scalaire waarde die de norm beperktvan de verstoring.
De door FGSM gegenereerde verstoringen maken gebruik van de lineariteit van de DL -modellen in de hogere dimensionale ruimte om het model het beeld verkeerd te laten classificeren.De implicatie van de lineariteit van DL -modellen ontdekt door FSGM is die overdraagbaarheid tussen modellen bestaat.Auteurs in[[77]meldde dat met de ImageNet-gegevensset het top-1 foutenpercentage met behulp van de perturbaties gegenereerd door FGSM ongeveer 63-69% is voor.
3.4.2Eén pixelaanval
De ene pixelaanval werd gepland in een minimaal scenario waarbij slechts één pixel in de afbeelding wordt gewijzigd om de DL -modellen voor de gek te houden met afbeeldingen van een verminderde grootte vanpixels.Met deze beperkingen, Su et al.Voor de gek van drie verschillende CNN -modellen op 70,97% van de testbeelden met de wijziging van slechts één pixel per afbeelding[[48].Ook werd gemeld dat het gemiddelde vertrouwen van de CNN's op de verkeerde voorspelling op de foto's 97,47%was.
De ene pixel tegenstanders zijn gebaseerd op een black-box-aanval, waarop geen informatie over het netwerk vereist is.Het maakt gebruik van een populatie-gebaseerd optimalisatie-algoritme voor het oplossen van complexe multimodale optimalisatieproblemen met de naam differentiële evolutie[[78]om de aanval te genereren.Het zoekt een oplossing vanuit een vectorruimtedat bezit (X, Y) coördineert beperkt door de beeldgrootte en de drie banden van de RGB -kleurwaarden.Binnen een populatie wijzigt het willekeurig de elementen van de vijf-dimensionale individuen om nieuwe nakomelingen te creëren zodat ze concurreren in de huidige iteratie om een betere fitheid te verkrijgen.In het geval van twee pixels heeft een persoon een vectorruimteDat bevat de coördinaten en kleurenwaarden van beide pixels, enzovoort voor personen met meer pixels.Tijdens de run gebruikte het algoritme de waarschijnlijkheid van het voorspelde label om het fitnesscriterium te berekenen.De laatste overlevende persoon wordt gebruikt om de pixels in de afbeelding te wijzigen.
Samenvattend, laat de vectorwees eenN-Dimensionaal beeld, wat de invoer is van de doelclassificatordie de klasse correct voorspeltTvan de afbeelding.De kans opgeassocieerd met de klasTis.Het bouwt een additieve tegenstandersstoringsvectorvolgens, de klasdoelen de beperking van maximale wijzigingenD, een klein aantal dat de afmetingen uitdrukt die zijn gewijzigd, terwijl andere dimensies vanlinks als nullen.Voor gerichte aanvallen is het belangrijkste doel om de optimale oplossing te vindenDat lost de volgende vergelijking op:
(12) | ||||
S.T. |
Daarom is het geval van één pixelaanval, maar het kan worden uitgebreid tot meerdere pixels door te stijgen.Opgemerkt moet worden dat één pixelaanval werd uitgevoerd op DL -modellen met ingangen van CIFAR 10 -gegevensset.Het vertegenwoordigt dus een aanzienlijke wijziging van dergelijke kleine beelden;Desalniettemin is het onbeduidend met de databases die in het huidige werk zijn bestudeerd.Daarom gebruiken we een meervoudige pixelaanvalOm te werken met beelden met echte maat.Opgemerkt moet worden dat het vergroten van het aantal pixels in deze aanval het perturbatierisico zal verhogen om merkbaar te zijn (zie voorbeeldafbeeldingen in figuur3).
3.4.3Tegenstander
De tegenstanderspatch was tegen de traditionele strategie voor het creëren van een gerichte AE door een maximale verstoring te vindendat maximaliseert deis een methode om een verstoring op het hele beeld te vervangen door een patch (zie figuur4).De robuustheid van deze patches ligt op de grote verscheidenheid aan transformaties waarop ze elk beeld kunnen aanvallen en de voorspelling van de classificeerders op de gewenste klasse kunnen richten.Ook werken ze in echte werkomgevingen waar ze kunnen worden afgedrukt, gefotografeerd of zelfs wanneer de patch te klein is;Ze kunnen maken om de hele scène te negeren om de doelklasse te voorspellen.
Om patch te bouwen, het werd gebruikt een variant van de verwachting over transformatie (EOT) framework, waarop de patch is getraind om de volgende vergelijking te optimaliseren:
(13) |
waaris een trainingsset van afbeeldingen,is een verdeling over transformaties van de patch,is een verdeling over locaties in de afbeelding, enzijn respectievelijk het label en de beeldvector.De verwachting ten opzichte van de trainingsbeelden verbetert de effectiviteit van de patch, ongeacht wat er op de achtergrond staat.Het werd bewezen door[[50]De universaliteit van de patch met verschillende afbeeldingen met verschillende achtergronden.Een variatie van deze methode is om een beperking van de vorm toe te voegennaar het doel van de patch om het te camoufleren.De beperking handhaaft de uiteindelijke patch om binnen te zijnin deNorm van een startpatch.
4Experimenten
Robuuste classificatie is een zeer waardevol kenmerk met betrekking tot automatische systeemontwikkeling na veiligheid en vertrouwen van de voorspellingen van kunstwerken.In deze studie analyseren we de prestaties van de algoritmen met behulp van nauwkeurigheid.Bovendien gebruiken we de nauwkeurigheidsverhouding tussen tegenstanders en schone afbeeldingen om de robuustheid te meten.Bovendien stellen we een statistische analyse van het vertrouwen van elke classificator voor om de resultaten te bevestigen.Daarom bestaat dit experiment uit het bestuderen van de nauwkeurigheid en robuustheid tegen AAS met behulp van drie van de belangrijkste benaderingen voor beeldclassificaties:
- 1.
Traditionele handgemaakte functies Algoritme (SIFT+FV)
- 2.
Deep genetische programmeermethode (BP)
- 3.
DCNN -modellen (Alexnet, VGG, ResNet18 en ResNet101).
We beschouwen onconventionele training, validatie en testgegevenssets, omdat we twee verschillende afbeeldingsdatabases toepassen die door experts voor AMC zijn samengesteld.Trainings- en validatiegegevenssets zijn geconstrueerd uit de Kaggle -database, terwijl testen een standaard database wikiart gebruikt (zie tabel6).Het doel is om een real-world scenario na te bootsen waarbij de voorgestelde modellen worden getest met standaard benchmarks.
Dit werk analyseert de dreiging van het gebruik van drie soorten AA naar het hierboven genoemde model.De White Box Untargeted (FGSM) bepaalt de impact van een gemakkelijke en directe bedreiging voor DCNN door de parameters te kennen.Ook bestuderen we het overdraagbaarheidseffect op andere DCNN -modellen, die zich uitstrekken tot BP en SIFT+FV, die verschillende architecturen zijn.We analyseren het gedrag van dergelijke verstoringen van deze architecturen, die verkeerde voorspellingen kunnen veroorzaken met de toevoeging van subtiele textuur aan de kunstwerken.De Black Box Untargeted (Multiple Pixel Attack) analyseert het gevaar van een aanval die probeert locaties en pixelwaarden te vinden om een verstoring te bouwen die de voorspelling van het model van een illustratie -beeld verandert.De beoogde aanval gebruikt de tegenstanders om de robuustheid van dergelijke gemodificeerde beeldpatches, die kunnen worden geroteerd, op willekeurige locaties kan worden gedraaid en gedrukt om in real-world omstandigheden in het kunstwerk te verschijnen om een misleidende voorspelling van de doelklasse te veroorzaken.Bovendien analyseren we het overdraagbaarheidseffect van dergelijke patches via alle modellen.
4.1Datasets
We gebruiken dezelfde datasets uit het experiment van AMC gerapporteerd in[[17].De training- en validatie -set afbeeldingen worden verkregen van de Kaggle -website van de Digitized Artwork -gegevensset.Deze dataset bestaat uit vijf categorieën kunstmedia: tekenen, schilderen, iconografie, gravure en sculptuur.De graveerklasse bestaat uit twee verschillende soorten;De meeste van hen waren zwart -witte kunstwerken.De andere stijl was Japanse gravures, die kleur in de afbeeldingen introduceren.Dus, de graveerklasse werd opgesplitst in het graveren van zwart -wit en gravure kleur.Het wordt gebruikt voor het testen van een standaard database Wikiart, waar het de afbeeldingen uit dezelfde categorieën is geselecteerd.Aangezien de Wikiart-gravure-klasse Grayscale is, werd de Ukiyo-e-klasse (Japanse gravures) van Wikiart gebruikt als de gravure kleurklasse.Ook wordt de set afbeeldingen van de categorie -landschappen, die schilderen van gerenommeerde kunstenaars schilderen, toegevoegd om de schilderklasse te testen.Tafel6Biedt het aantal kunstwerken voor elke dataset.
Iconografie Schilderen Tekeningen Beeldhouwwerk Graveer BW Gravure kleur Caltech -achtergrond Trein 1038 1021 553 868 426 30 233 Geldigmaking 1038 1021 553 868 283 19 233 Wikiart 251 2089 204 116 695 1167 233 Wikiart -landschappen 136
4.2Evaluatiemetrieken
We maken gebruik van classificatie -nauwkeurigheid als een maat voor de prestaties voor de classificaties, wat gewoon de snelheid is van de juiste classificaties die door de volgende formule worden gegeven:
(14) |
waaris het totaal van testbeelden,is het voorspelde label voor de afbeelding,,is het originele label voor de afbeelding, Enalsen 0 anders.
Bovendien hebben we als robuustheidsmaat de nauwkeurigheidsverhouding tussen tegenstanders en schone afbeeldingen gebruikt die zijn geïmplementeerd door[[77].Deze metriek betekent dat als de verhouding er een bereikt, de nauwkeurigheid van AES en de schone afbeeldingen hetzelfde is.Desalniettemin, als het naar nul neigt, betekent dit dat de AA werkte om de classificator voor de gek te houden.Als deze verhouding hoger is dan 1, houdt dit in dat de AA helpt om verkeerd geclassificeerde afbeeldingen te corrigeren.De volgende vergelijking berekent de verhouding:
(15) |
waaris de classificatienauwkeurigheid op AES, enis de classificatienauwkeurigheid op de schone afbeeldingen.
4.3Implementatiegegevens
In deze subsectie schetsen we de implementatiegegevens voor alle geleerde modellen:
- 1.
Hersenprogrammering: werd geïmplementeerd op MATLAB met behulp van een gewijzigde versie van GP Lab en de LIBSVM -bibliotheek voor de SVM.
- 2.
SIFT+FV: werd geïmplementeerd op MATLAB met behulp van VLFEAT -bibliotheken voor de SIFT -beschrijving, GMM en Fisher -vectoren.Het werd gebruikt de SVM geleverd door MATLAB.
- 3.
DCNN: Voor de implementatie van de vier modellen (AlexNet, VGG, ResNet18 en ResNet101) gebruiken we de vooraf getrainde modellen van Pytorch v1.1.Deze modellen werden omgeschoold met behulp van transfer learning voor het probleem van de kunstmedia.
Ook schetsen we elk van de AA:
- 1.
FGSM: werd geïmplementeerd in Pytorch v1.1 met behulp van de validatie- en testdatasets om AE's te berekenen met standaardwaarden voor schaalvoor alle DCNN -modellen.
- 2.
Meerdere pixelaanval: werd geïmplementeerd met behulp van 100 willekeurige afbeeldingen uit de testdataset (50 van elke klasse) in MATLAB en Python.Python -versie werd geprogrammeerd met behulp van de differentiële evolutie met de PYGMO -bibliotheek, en de versie van MATLAB gebruikte de differentiële evolutiebibliotheek die beschikbaar was op hun bestandsuitwisselingswebsite.Beide implementaties gebruikten dezelfde instellingen van 50 individuen, 30 generaties, een crossover -waarschijnlijkheid van 0,9, enpixels.
- 3.
Adversariële patch: werd geïmplementeerd met behulp van 100 afbeeldingen uit de trainingsdataset voor elk DCNN -model in Pytorch v1.1 met de volgende parameters ingesteld om de patch te bouwen: patchgrootte vanPixels, een maximum van 100 iteraties per afbeelding met een stopcriteria van 0,9 achterste waarschijnlijkheid van de doelklasse.Terwijl we het binaire classificatieprobleem hebben gedefinieerd, kiezen we de achtergrondklasse als doelvoorspelling om het aantal klassenbeelden te meten dat het model als de doelklasse voorspelt.
4.4Resultaat
De resultaten verkregen uit de hierboven genoemde experimenten worden gepresenteerd en besproken in de volgende subsectie.
4.4.1FGSM
In tafel7, presenteren we de resultaten voor de training- en validatiegegevenssets van Kaggle, samen met de AES die is berekend met FGSM voor alle DCNN -modellen.We rapporteren de nauwkeurigheid van de classificatie in elke fase van training en validatie naast de nauwkeurigheid van alle modellen die met de AES zijn getest.Hier willen we de invloed meten in de voorspelling van de FGSM op twee manieren: 1) direct, omdat we de parameters en verstoring van het model kennen, en 2) indirect, door de overdraagbaarheid van de aanval.Eerder meldden andere onderzoekers dat AE's verschillende CNN -modellen konden beïnvloeden door ze op te stellen voor dezelfde taak.Toch willen we de analyse uitbreiden naar verschillende architecturen zoals BP en SIFT+FV die kunnen worden beïnvloed door deze subtiele verstoringen naar de gedigitaliseerde kunstwerken.
Eerst hebben we opgemerkt dat SIFT+FV -modellen overbodig leken te zijn.Daarom voeren we twee soorten verificaties uit die in tabel worden gepresenteerd8.We gebruiken de hyperparameters optimizer van Matlab en dekruisvalFunctie die het model valideert met behulp van een 10-voudige kruisvalidatie.Na tien runs retourneert de Hyperparameters Optimizer het beste model voor elke klasse.De resultaten over de trein- en validatiegegevenssets worden vermeld in deoptimalisatiekolom bij tabel8.DekruisvalFunctie Partitioneer de gegevens willekeurig in tien sets van gelijke grootte, train later een SVM -classificator op negen sets en herhaal het proces tien keer.Daarna hebben we de gemiddelde nauwkeurigheid op trein- en validatiegegevenssets voor elke klasse over elke tien modellen berekend.We presenteren de resultaten in dekruisvalidatiekolom bij tabel8.We hebben dezelfde resultaten verkregen als het oorspronkelijke experiment.Vervolgens toonden de resultaten aan dat de gegevens de modellen niet te veel tellen.
Daarom kan het in tabel worden waargenomen7Hoe drastisch de prestaties van DCNN kan worden laten vallen.De worst-case was de sculptuurklasse, de prestaties van de VGG gingen van 97,62% naar 14,38%, Alexnet daalde van 95,78% tot 14,57%, ResNet18 daalde van 96,88% tot 19,07% en ResNet101 daalde van 97,89% tot 37,86%.Ook wordt waargenomen dat het overdraagbaarheidseffect tussen de DCNN -modellen belangrijker is bij.De klasse -klasse vertoont bijna hetzelfde gedrag als de sculptuurklasse, waarbij de andere netwerken worden beïnvloed door AE's.Voor alle andere klassen is het effect onmerkbaar, maar de nauwkeurigheid wordt aanzienlijk beïnvloed wanneer het model overeenkomt met de AE.
In sommige gevallen werd SIFT+FV beïnvloed door FGSM.In de tekenklasse werden de prestaties bijvoorbeeld met bijna 8%verminderd.En voor het schilderij was de nauwkeurigheid met ongeveer 4%verlaagd.Dit resultaat toont een gedeeltelijke overdraagbaarheid van AES naar SIFT+FV, omdat, ongeacht het toepassen van DCNN, de verstoring de prestaties van deze twee klassen in gevaar bracht.BP handhaaft echter zijn prestaties in bijna elke test;De nauwkeurigheidsvariatie door alle analyse was minder dan 2%.Figuur5illustreert een voorbeeld dat aantoont dat de gegenereerde kaarten van de AVC geen enkele verandering in hun antwoorden met de FGSM lijden.
Figuur7presenteert de resultaten van de tabel7De nauwkeurigheidsverhoudingen gebruiken tussen tegenstanders en schone afbeeldingen.We zien dat de variatie van BP onmerkbaar is in vergelijking met SIFT+FV- en DCNN -modellen.We hebben ook opgemerkt dat de prestaties van DCNN's in bijna alle klassen drastisch daalden en minder dan 20% van de oorspronkelijke nauwkeurigheid bereikten wanneer de verstoring overeenkomt met het netwerkontwerp.In alle andere gevallen vermindert de aanval de nauwkeurigheid tot ongeveer 20% van de werkelijke prestaties, rekening houdend met schone afbeeldingen voor de klassen sculptuur, graveer BW en gravure kleur.
Iconografie Alexnet VGG ResNet18 ResNet101 trein val BP 92.84 91.42 91.42 91.42 91.42 91.42 91.42 91.42 91.42 91.42 91.42 91.42 91.42 91.42 91.42 91.42 91.42 91.42 91.42 91.42 91.42 91.42 SIFT+FV 99.92 95.91 95.91 95.91 95.91 95.59 94.26 95.83 95.83 96.07 95.52 94.57 95.75 95.75 96.07 95.52 94.34 95.99 95.99 96.07 95.67 94.73 Alexnet 99.61 98.66 96.3 96.3 83.24 52.56 38.39 98.51 98.51 98.43 98.03 97.64 98.58 98.58 98.66 98.03 97.4 98.51 98.51 98.51 98.03 97.48 VGG 100 99.21 99.29 99.29 99.06 98.82 96.85 91.9 91.9 47.05 17.7 16.76 99.21 99.21 98.98 98.74 95.83 99.21 99.21 98.98 98.35 97.32 ResNet18 100 98.9 98.66 98.66 98.66 98.9 97,95 98.66 98.66 98.66 98.03 95.83 90.24 90.24 52.01 29.03 32.1 98.66 98.66 98.43 97.17 95.75 ResNet101 100 99.37 99.21 99.21 99.21 99.06 97.72 99.29 99.29 99.06 98.9 97.01 99.37 99.37 99.21 97,95 95.28 94.34 94.34 67.98 50.04 51.3 Schilderen trein val BP 99.68 99.04 98.25 98.25 98.48 98.41 98.48 98.78 98.8 98.64 98.33 98.41 98.8 98.8 98.56 98.64 98.56 98.41 98.41 98.56 98.8 97.69 SIFT+FV 99.76 92.24 92.08 92.08 92.00 89.84 87.84 92.16 92.16 92.08 90.48 88.08 91.92 91.92 91.76 90.08 88,00 92.00 92.00 91.84 89.76 87.60 Alexnet 98.96 97.69 93.46 93.46 83.01 66.99 69.3 97.53 97.53 97.13 96.89 96.41 97.45 97.45 96.89 96.97 96.49 97.45 97.45 97.21 97.05 96.73 VGG 99.92 98.17 97.93 97.93 97.53 96.73 92.82 89.31 89.31 32.14 14.27 14.91 97.69 97.69 97.05 95.45 88.28 97.69 97.69 96.81 95.14 88.12 ResNet18 100 97.85 97.93 97.93 97.93 97.45 96.33 97.77 97.77 97.05 96.33 93.22 86.92 86.92 43.94 31.82 40.75 97.69 97.69 97.13 95.77 92.9 ResNet101 100 98.56 98.72 98.72 98.48 98.17 96.65 98.64 98.64 98.25 96.49 93.86 98.72 98.72 98.17 95.85 92.58 91.15 91.15 55.42 43.94 49.68 Tekeningen trein val BP 96.56 90.59 90.59 90.59 90.59 90.59 90.59 90.59 90.59 90.59 90.59 90.59 90.59 90.59 90.59 90.59 90.59 90.59 90.59 90.59 90.59 90.59 SIFT+FV 99.87 83.84 83.84 83.84 83.97 83.46 81.30 84.22 84.22 84.48 83.59 81.93 84.22 84.22 84.22 82.95 81.68 84.10 84.10 84.35 82.95 80.79 Alexnet 96.44 91.35 85.75 85.75 66.79 44.91 35.62 90.84 90.84 91.22 90.59 88.55 91.09 91.09 91.09 90.59 89.06 90.71 90.71 91.09 91.09 90.08 VGG 99.75 95.42 95.29 95.29 94.78 93.51 87.02 74.43 74.43 28.75 15.78 14.38 94.78 94.78 93.13 88.68 77.86 94.78 94.78 93.77 90.59 83.46 ResNet18 99.87 94.44 94.27 94.27 93.64 92.37 86.9 93.38 93.38 91.22 86.77 77.48 72.9 72.9 31.04 23.41 22.77 93.64 93.64 92.37 88.17 80.28 ResNet101 99.87 95.8 95.8 95.8 95.42 93.89 89.31 95.55 95.55 93.89 90.84 83.33 95.29 95.29 93.13 88.68 80.79 76.08 76.08 47.96 41.48 38.55 Beeldhouwwerk trein val BP 93.19 93.26 92.79 92.79 92.79 92.79 92.79 92.79 92.79 92.79 92.7 92.79 92.88 92.88 92.79 92.79 92.7 92.88 92.88 92.79 92.88 92.7 SIFT+FV 99.55 87.35 87.44 87.44 85.79 85.15 83.68 87.26 87.26 86.34 85.15 84.42 87.35 87.35 85.98 84.97 85.06 87.44 87.44 85.98 85.24 85.15 Alexnet 99.36 95.78 90,93 90,93 63.24 27.50 14.57 95.78 95.78 95.42 94.68 89.55 95.88 95.88 95.78 94.13 89.09 95.97 95.97 96.06 94.68 90.10 VGG 100 97.62 98.26 98.26 97.89 94.87 78.28 84.69 84.69 37.76 17.87 14.21 98.08 98.08 97.07 91.38 72.59 97.98 97.98 96.98 93.31 78,00 ResNet18 100 96.88 97.25 97.25 96.88 95.05 80.66 96.88 96.88 96.15 92.39 77.54 84.88 84.88 45.92 25.30 19.07 96.70 96.70 95.69 92.58 79.65 ResNet101 100 97.89 98.44 98.44 98.17 96.06 87.08 98.44 98.44 98.08 95.42 84.88 98.35 98.35 96.98 92.30 77.45 89.00 89.00 60.49 44.18 37.86 Graveer BW trein val BP 89.76 92.05 92.23 92.23 92.23 91.70 91.87 91.70 91.70 92.06 91.87 91.70 91.70 91.70 92.23 92.05 91.53 91.70 91.70 91.87 91.87 92.05 SIFT+FV 100 93.99 94.35 94.35 94.70 94.17 92.76 94.35 94.35 94.35 94.17 93.64 94.35 94.35 94.52 94.17 93.46 94.35 94.35 94.88 94.35 93.46 Alexnet 99.76 99.29 96.11 96.11 78.62 56.71 47.88 99.12 99.12 99.12 98.94 98.41 99.12 99.12 99.12 98.94 98.06 99.12 99.12 99.12 98.94 98.41 VGG 100 100 99.82 99.82 99.82 99.65 99.29 98.53 97.53 73.14 49.29 47.17 99.82 99.82 99.82 99.82 99.12 99.82 99.82 99.82 99.82 99.29 ResNet18 100 100 100 100 99.82 99.82 98.94 99.82 99.82 99.82 99.65 98.23 95.58 95.58 78.98 64.49 63.07 100 100 100 100 98.41 ResNet101 100 100 100 100 100 99.82 99.47 100 100 99.82 99.82 99.47 100 100 99.65 99.65 98.76 98.94 98.94 94.70 89.75 88.16 Gravure kleur trein val BP 98.33 97.37 97.37 97.37 97.37 97.37 97.37 97.37 97.37 97.37 97.37 97.37 97.37 97.37 97.37 97.37 97.37 97.37 97.37 97.37 97.37 97.37 SIFT+FV 100 50,00 44.74 44.74 44.74 44.74 50,00 47.37 47.37 47.37 47.37 50,00 47.37 47.37 44.74 47.37 47.37 50,00 50,00 47.37 47.37 50,00 Alexnet 100 100 73.68 73.68 23.68 13.16 15.79 100 100 100 100 94.74 100 100 100 100 94.74 100 100 100 94.74 92.11 VGG 100 100 100 100 100 100 97.37 97.37 97.37 26.32 15.79 13.16 100 100 100 100 100 100 100 100 100 100 ResNet18 95,00 100 97.37 97.37 97.37 97.37 81.58 97.37 97.37 97.37 89.47 81.58 52.63 52.63 13.16 02.63 21.05 97.37 97.37 97.37 94.74 78.95 ResNet101 100 100 100 100 100 100 97.37 100 100 100 100 97.37 100 100 100 97.37 94.74 94.74 94.74 81.58 65.79 68.42
optimalisatie | kruisvalidatie | |||
---|---|---|---|---|
SIFT+FV | trein | val | Gemiddelde trein | Gemiddelde val |
Iconografie | 100 | 95.28 | 99.28 | 95.28 |
Schilderen | 99.76 | 92.72 | 98.84 | 92.83 |
Tekeningen | 100 | 83.84 | 98.28 | 83.44 |
Beeldhouwwerk | 100 | 86.71 | 98.63 | 86.48 |
Graveer BW | 100 | 93.64 | 99.32 | 93.87 |
Gravure kleur | 100 | 50,00 | 92.00 | 47.11 |
De testfase vertoonde een nog erger gedrag in vergelijking met de validatiegegevensset voor de DCNN en SIFT+FV.De daling van de overdraagbaarheidsprestaties was hoger toen de schaalfactorwordt groter.Tafel9laat zien dat de nauwkeurigheid in alle DCNN -modellen werd aangetast voor drie klassen: schilderen, tekeningen en gravure kleur.Het slechtste geval is bijvoorbeeld graveren in de kleur, waarbij Alexnet daalde tot 17,22% van een schone score van 94,72%, VGG en ResNet18 hun prestaties verminderd tot bijna 5% van de nauwkeurigheid na het scoren van respectievelijk 99% en 96%, en ResNet101 bereikt.49%, wat minder getroffen was in nauwkeurigheid.Bovendien zijn de experimentele resultaten in tabel9Zorg voor de FGSM -overdraagbaarheid in DCNN -modellen.Merk op dat het effect opbereikt de meer significante veranderingen.Ook liet de test de slechte prestaties van SIFT+FV zien, rekening houdend met schone beelden.In vier van de zeven klassen (schilderlandschappen, tekeningen, sculptuur en gravure kleur), is de nauwkeurigheid ver onder om te concurreren met DCNN's.Bovendien werd SIFT+FV beïnvloed door AE's in iconografie, schilderlandschappen en sculptuur, waar ongeveer 10% van de oorspronkelijke score de prestaties verminderde.Ten slotte vertoonde BP van hoge kwaliteit en gestage resultaten om zijn scores uit schone afbeeldingen na AE's te houden met minimale tot nulveranderingen voor alle klassen.
Bovendien is het merkbaar dat, in tegenstelling tot SIFT+FV, BP vergelijkbare resultaten bereikt als de scores van DCNNS.Bovendien presenteren we in cijfers8-9De verhouding van nauwkeurigheid op AES voor de testklassen.We hebben een zeer vergelijkbaar gedrag waargenomen, althans voor BP, waarvan de snelheid voor alle experimenten bijna één blijft.We zien een drastische daling van de prestaties van DCNN -modellen wanneer de verstoring overeenkomt met de architectuur van het netwerk en beïnvloedt de overdraagbaarheid van AES naar andere DCNN -modellen en SIFT+FV.
Iconografie Alexnet VGG ResNet18 ResNet101 test BP 91.74 91.66 91.66 91.82 91.74 91.74 91.66 91.66 91.74 91.74 91.74 91.66 91.66 91.66 91.58 91.5 91.58 91.58 91.58 91.58 91.58 SIFT+FV 86.16 85.54 85.54 84.71 83.26 77.69 85.54 85.54 84.92 83.47 77.48 85.95 85.95 84.71 83.06 76.24 86.16 86.16 84.71 83.06 75.62 Alexnet 96.07 93.39 93.39 70.04 37.4 28.72 95.87 95.87 95.04 94.42 92.98 96.07 96.07 95.87 94.83 93.18 96.07 96.07 95.45 94.63 92.15 VGG 95.87 95.45 95.45 94.83 91.32 80.99 76.65 76.65 36.98 23.97 21.69 95.66 95.66 94.21 87.81 76.86 95.87 95.87 95.87 90.91 82.44 ResNet18 96.49 95.87 95.87 94.83 94.21 87.81 95.66 95.66 94.42 90.5 83.88 76.86 76.86 38.64 25.21 21.49 96.07 96.07 94.21 90.29 85.12 ResNet101 95.25 95.25 95.25 94.83 92.77 89.88 95.45 95.45 94.63 91.94 88.02 95.45 95.45 92.56 87.6 83.26 79.96 79.96 49.38 36.16 36.36 Schilderen test BP 100 95.65 95.65 95.65 95.65 95.65 95.65 95.65 95.65 95.65 95.65 95.65 95.65 95.65 95.65 95.65 95.65 95.65 95.65 95.65 95.65 SIFT+FV 94.83 94.83 94.83 94.70 94.57 93.63 94.92 94.92 94.88 94.57 93.63 94.88 94.88 94.79 94.44 93.28 94.88 94.88 94.70 94.32 93.20 Alexnet 94.06 90.57 90.57 64.64 41.04 41,00 94.10 94.10 93.90 94.01 94.92 94.10 94.10 94.06 94.32 95.35 94.10 94.10 94.06 94.06 95,00 VGG 93.37 93.28 93.28 92.64 87.47 60.12 61.15 61.15 13.14 10.42 10.68 92.89 92.89 91.17 80.10 47.55 92.59 92.59 90.78 81.05 44.96 ResNet18 94.23 94.19 94.19 94.40 94.40 92.64 94.01 94.01 93.63 91.30 81.91 64.86 64.86 15.25 13.01 15.07 93.80 93.80 92.72 89.84 80.19 ResNet101 95.91 95.82 95.82 95.78 94.62 90.09 95.82 95.82 95.69 90.44 79.03 95.61 95.61 94.66 88.33 73.47 75.24 75.24 30.62 19.04 19.98 Schilderlandschappen test BP 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 SIFT+FV 75.34 75.07 75.07 72.90 70.46 62.6 75.61 75.61 73.71 70.46 62.60 75.34 75.34 73.17 68.83 60.70 75.34 75.34 72.90 68.29 59.62 Alexnet 93.77 86.99 86.99 61.25 41.46 35.77 93.50 93.50 92.68 91.06 90.24 93.50 93.50 92.68 91.60 90.51 93.77 93.77 92.68 91.33 90.51 VGG 94.58 94.58 94.58 94.31 90.79 73.71 80.76 80.76 42.01 28.73 30.89 94.31 94.31 94.31 88.08 72.63 94.04 94.04 93.22 87.53 70.19 ResNet18 95.12 94.85 94.85 93.77 92.95 90.79 94.31 94.31 92.41 89.43 81.84 72.36 72.36 42.82 33.60 38.48 94.31 94.31 91.6 88.62 79,95 ResNet101 95.39 95.12 95.12 95.12 93.77 89.43 94.58 94.58 94.58 93.50 83.74 94.31 94.31 92.95 88.89 78.86 80.76 80.76 50.96 43.90 44.72 Tekeningen test BP 94.05 94.28 94.28 93.59 93.81 94.5 93.82 93.82 94.05 93.59 94.73 93.81 93.81 93.59 93.59 94.05 93.81 93.81 93.59 93.59 93.81 SIFT+FV 73.61 68.42 68.42 66.36 62.7 56.52 68.42 68.42 67.51 62.7 57.89 68.42 68.42 66.82 62.01 56.75 68.19 68.19 67.28 62.01 56.75 Alexnet 86.73 77.8 77.8 57.21 41.19 32.72 85.81 85.81 86.27 84.67 79.18 85.81 85.81 85.35 83.75 80.09 85.81 85.81 85.58 84.67 81.69 VGG 91.99 91.99 91.99 90.89 88.79 80.78 72.77 72.77 35.7 20.59 18.99 91.3 91.3 89.02 83.3 73.91 91.53 91.53 89.7 83.98 76.89 ResNet18 90,85 90,85 90,85 89.7 88.79 81.46 90.39 90.39 87.41 81.69 74.37 71.85 71.85 36.16 24.49 24.49 90.16 90.16 86.96 81.92 74.83 ResNet101 93.59 93.36 93.36 93.14 91.53 85.81 93.14 93.14 90.62 85.58 76.43 93.14 93.14 90.16 83.07 75.29 72.27 72.27 45.54 35.24 33.41 Beeldhouwwerk test BP 90.54 90.83 90.83 90.83 90.83 90.83 85.96 85.96 85.96 85.96 85.96 90.83 90.83 90.83 90.83 90.83 90.83 90.83 90.83 90.83 90.83 SIFT+FV 60.47 52.80 52.80 52.80 53.10 51.62 53.39 53.39 53.10 52.51 52.51 52.80 52.80 52.51 52.51 51.33 53.39 53.39 52.51 52.51 50.74 Alexnet 91.45 87.61 87.61 65.49 44.25 36.87 91.15 91.15 90.56 89.38 87.32 91.45 91.45 91.45 89.09 89.38 91.45 91.45 91.45 90.27 88.20 VGG 94.69 94.99 94.99 94.99 92.33 84.37 79.06 79.06 45.43 32.74 34.51 95.28 95.28 94.10 88.20 82.01 94.69 94.69 93.81 91.74 86.73 ResNet18 92.63 91.74 91.74 90.86 89.38 83.19 91.74 91.74 87.91 84.96 80.24 75.81 75.81 46.61 34.81 33.92 91.15 91.15 89.38 86.14 83.19 ResNet101 92.92 93.22 93.22 92.63 90.86 87.61 92.92 92.92 92.92 89.97 86.14 93.22 93.22 91.15 88.20 83.48 80.53 80.53 56.64 50.44 56.34 Graveer BW test BP 91.55 92.64 92.64 91.97 91.72 91.63 92.30 92.30 92.05 92.05 91.63 91.97 91.97 91.80 91.97 91.80 92.13 92.13 91.97 91.80 91.63 SIFT+FV 89.79 89.79 89.79 89.71 89.87 90,96 89.79 89.79 89.79 89.37 90,96 89.87 89.87 89.62 89.54 90.88 89.96 89.96 89.46 89.54 90,96 Alexnet 98.58 94.06 94.06 75.06 57.32 54.64 98.66 98.66 98.66 98.49 97.32 98.66 98.66 98.66 98.33 97.15 98.66 98.66 98.66 98.58 97.49 VGG 99.58 99.83 99.83 99.67 99.50 99.16 91.05 91.05 62.85 45.94 49.87 99.58 99.58 98.74 98.41 97.91 99.58 99.58 99.25 99.00 98.83 ResNet18 99.83 99.92 99.92 99.83 99.67 99.16 99.75 99.75 99.41 98.83 97.49 93.22 93.22 71.55 59.41 61.09 99.83 99.83 99.67 98.91 97.82 ResNet101 99.67 99.75 99.75 99.75 99.83 99.75 99.83 99.83 99.50 99.25 98.74 99.67 99.67 99.50 99.08 98.16 95.90 95.90 90.13 85.77 83.01 Gravure kleur test BP 89.92 89.68 89.68 89.74 89.86 89.80 89.92 89.92 89.74 89.86 89.62 89.68 89.68 89.74 89.98 89.80 89.92 89.92 89.86 89.50 90.16 SIFT+FV 66.95 66.77 66.77 66.59 66.89 68.09 66.83 66.83 66.59 67.19 68.09 66.89 66.65 66.95 68.33 66.71 66.71 66.53 66.53 66.95 66.95 Alexnet 94.72 73.55 73.55 25.49 12.30 17.22 94.78 94.78 94.90 94.48 93.64 94.72 94.72 94.66 95.14 94.24 94.54 94.54 95.02 94.66 94,00 VGG 99.40 99.46 99.46 99.46 99.28 96.52 79.90 79.90 16.02 05.46 06.06 99.52 99.52 99.22 99.10 97.18 99.40 99.40 99.10 98,50 95.98 ResNet18 96.40 95.98 95.98 96.16 95.02 89.14 95.92 95.92 95.50 93.88 89.50 49.13 49.13 06.84 05.58 10.74 95.62 95.62 95.02 92.68 86.98 ResNet101 99.88 99.76 99.76 99.76 99.52 98.92 99.70 99.70 99.70 99.22 98.44 99.82 99.82 99.76 99.40 98.56 92.86 92.86 61.91 49.19 54.53
4.4.2Meerdere pixelaanval
Het meervoudige pixelaanval-experiment kwam samen met de analyse dat één pixel geen beelden met hoge resolutie verstoort om de voorspelling van het model te veranderen.We experimenteren met het wijzigen van één pixel om de modellen voor de 100 geselecteerde afbeeldingen voor de gek te houden, en de resultaten geven geen scoreveranderingen aan.We hebben dus experimenteel ontdekt dat wanneer 8000-10.000 pixels, DCNN-modellen een enorme hoeveelheid verandering in hun voorspelling hebben, dus hebben we een tweede experiment ingesteld met een aanval van 10.000 pixels.We presenteren in tabel10Het aantal afbeeldingen dat zijn voorspelling verandert met het slagingspercentage en de gemiddelde posterieure waarschijnlijkheid van deze nieuwe voorspellingen in de vertrouwensrij.
We hebben opgemerkt dat DCNN door een aanzienlijke hoeveelheid van hun voorspellingen met veel vertrouwen verandert door meerdere pixels te wijzigen.SIFT+FV werd ook misleid in vijf van de zeven klassen die hetzelfde aantal afbeeldingen bereikten als DCNN -modellen met een lager vertrouwen.Op deze manier verzetten slechts twee categorieën zich tegen de aanval.Integendeel, BP was robuust voor deze aanval met vier van de zeven klassen zonder wijzigingen en de rest met een maximale fout van 4%.Merk op dat de hoeveelheid pixels die in dit experiment is gemodificeerd, de motivatie van AA niet mislukt waarin de verstoring onmerkbaar moet zijn voor de menselijke visie.Daarom was BP robuust voor deze verstoring.We illustreren als een voorbeeld;BP gegenereerde kaarten met behulp van een meervoudige pixelaanval in figuur6.Bovendien rapporteren we de gemiddelde verwerkingstijd in seconden (zie tabel10), waardoor deze aanval onhaalbaar maakt om in realtime toepassingen uit te voeren.
Iconografie BP SIFT+FV Alexnet VGG ResNet18 ResNet101 Originele ACC. 92.00 88,00 96,00 94,00 96,00 92.00 Slaagkans 0,00 32,00 32,00 44,00 46,00 42.00 Vertrouwen NA 64.96 85.09 85.72 76.34 77.61 Tijd (seconden) 94.22 301.21 138.51 147.72 152.37 237.73 Schilderen BP SIFT+FV Alexnet VGG ResNet18 ResNet101 Originele ACC. 100 78,00 94,00 90,00 92.00 94,00 Slaagkans 2,00 0,00 54,00 60,00 64,00 64,00 Vertrouwen 51.83 NA 78.11 97.34 99.37 98.06 Tijd (seconden) 90.16 598.12 119.78 122.59 111.14 242.58 Schilderlandschappen BP SIFT+FV Alexnet VGG ResNet18 ResNet101 Originele ACC. 100 78,00 88,00 88,00 92.00 92.00 Slaagkans 2,00 40,00 54,00 60,00 64,00 66,00 Vertrouwen 54.06 62.04 75.70 97.25 99.26 97.37 Tijd (seconden) 98.83 585.69 141.85 163.51 143.62 205.53 Tekeningen BP SIFT+FV Alexnet VGG ResNet18 ResNet101 Originele ACC. 88,00 70,00 80,00 90,00 86.00 92.00 Slaagkans 0,00 38,00 68,00 68,00 74,00 78,00 Vertrouwen NA 66.53 83.91 91.94 95.11 94.24 Tijd (seconden) 118.85 462.92 110.18 111.48 128.07 220.69 Beeldhouwwerk BP SIFT+FV Alexnet VGG ResNet18 ResNet101 Originele ACC. 86.00 62.00 88,00 98,00 96,00 96,00 Slaagkans 4,00 60,00 62.00 54,00 56.00 54,00 Vertrouwen 58.14 67.61 92.65 98.60 97.45 96.93 Tijd (seconden) 71.20 601.53 121.22 130.06 137.16 181.14 Graveer BW BP SIFT+FV Alexnet VGG ResNet18 ResNet101 Originele ACC. 94,00 94,00 100 100 100 100 Slaagkans 0,00 0,00 40,00 50,00 32,00 20,00 Vertrouwen NA NA 77.63 68.07 71.86 61.25 Tijd (seconden) 88.71 599.41 148.90 169.56 152.11 177.61 Gravure kleur BP SIFT+FV Alexnet VGG ResNet18 ResNet101 Originele ACC. 94,00 74,00 98,00 100 92.00 100 Slaagkans 0,00 60,00 40,00 50,00 46,00 22.00 Vertrouwen NA 55.98 73.80 66.15 62.96 65.31 Tijd (seconden) 87.01 600,82 150.70 174.51 154.52 186.13
4.4.3Tegenstander
We presenteren de resultaten van de tegenstanderspatch in tabel11.Dit experiment analyseert de verandering in de voorspellingen van het model door de getrainde patches van DCNN -modellen toe te voegen met 100 afbeeldingen van elke klasse op een willekeurige locatie en oriëntatie.De resultaten van de tabel11laat zien dat deze patches in de meeste experimenten op een belangrijke manier van invloed zijn op DCNN -modellen.We hebben ook ontdekt dat de patches kunnen worden overgedragen naar andere DCNN's.
Het experiment met schilderlandschappen toonde het worst-case scenario voor DCNN-modellen, waarop we een aanzienlijk overdraagbaarheidseffect tussen de modellen hebben waargenomen.We hebben opgemerkt dat VGG, ResNet18 en ResNet101 werden beïnvloed door alle patches.DCNN -modellen hebben zijn prestaties laten vallen tot ongeveer de helft van zijn oorspronkelijke nauwkeurigheid en zijn in sommige gevallen minder tot 50%.ResNet18 werd in alle afbeeldingen voor de gek gehouden met behulp van de getrainde patch.Alle andere klassen vertoonden geen soortgelijk gedrag;De patches kunnen DCNN -modellen voor de gek houden.SIFT+FV en BP daarentegen vertoonden een robuuste controle over de tegenstanders, wat bijna een onveranderlijke prestaties vertoonde.Figuur6illustreert de door BP gegenereerde kaarten met behulp van een afbeelding met de tegenstanderspatch.
Iconografie Originele ACC. Alexnet Patch VGG -patch ResNet18 -patch ResNet101 -patch BP 99.00 99.00 99.00 99.00 99.00 SIFT+FV 92.00 89.00 93,00 93,00 92.00 Alexnet 98,00 74,00 97,00 97,00 98,00 VGG 94,00 91,00 45,00 82.00 81,00 ResNet18 94,00 87,00 90,00 58,00 90,00 ResNet101 93,00 87,00 87,00 78,00 70,00 Schilderen Originele ACC. Alexnet Patch VGG -patch ResNet18 -patch ResNet101 -patch BP 100,00 100,00 100,00 99.00 100,00 SIFT+FV 97,00 98,00 97,00 98,00 96,00 Alexnet 96,00 54,00 94,00 94,00 94,00 VGG 92.00 71,00 48,00 73,00 61,00 ResNet18 94,00 67,00 76.00 23.00 uur 43,00 ResNet101 97,00 72,00 72,00 69.00 56.00 Schilderland. Originele ACC. Alexnet Patch VGG -patch ResNet18 -patch ResNet101 -patch BP 100,00 100,00 100,00 100,00 100,00 SIFT+FV 87,00 81,00 78,00 84,00 81,00 Alexnet 94,00 24.00 uur 85,00 86.00 77,00 VGG 95,00 41,00 19.00 48,00 23.00 uur ResNet18 95,00 22.00 39,00 0,00 9.00 uur ResNet101 96,00 43,00 41,00 35,00 22.00 Tekeningen Originele ACC. Alexnet Patch VGG -patch ResNet18 -patch ResNet101 -patch BP 91,00 91,00 91,00 91,00 91,00 SIFT+FV 72,00 67,00 68,00 69.00 67,00 Alexnet 94,00 30,00 85,00 80,00 73,00 VGG 98,00 81,00 69.00 74,00 62.00 ResNet18 96,00 82.00 91,00 66,00 79,00 ResNet101 99.00 88,00 90,00 85,00 75,00 Beeldhouwwerk Originele ACC. Alexnet Patch VGG -patch ResNet18 -patch ResNet101 -patch BP 85,00 85,00 85,00 85,00 85,00 SIFT+FV 95,00 92.00 94,00 94,00 95,00 Alexnet 97,00 32,00 92.00 89.00 86.00 VGG 97,00 93,00 72,00 85,00 85,00 ResNet18 95,00 92.00 86.00 66,00 89.00 ResNet101 94,00 87,00 89.00 86.00 87,00 Graveer BW Originele ACC. Alexnet Patch VGG -patch ResNet18 -patch ResNet101 -patch BP 90,00 90,00 91,00 91,00 91,00 SIFT+FV 91,00 94,00 93,00 95,00 92.00 Alexnet 100,00 99.00 100,00 100,00 100,00 VGG 100,00 99.00 83,00 96,00 97,00 ResNet18 100,00 100,00 96,00 71,00 96,00 ResNet101 100,00 100,00 100,00 100,00 100,00 Gravure kleur Originele ACC. Alexnet Patch VGG -patch ResNet18 -patch ResNet101 -patch BP 93,00 92.00 93,00 92.00 92.00 SIFT+FV 94,00 94,00 96,00 95,00 95,00 Alexnet 97,00 67,00 98,00 95,00 93,00 VGG 100,00 100,00 99.00 100,00 100,00 ResNet18 98,00 99.00 100,00 98,00 99.00 ResNet101 100,00 100,00 100,00 100,00 100,00
4.4.4Statistische analyse van robuustheid
In het laatste deel zien we dat verschillen tussen experimenten opvallend lijken, vooral wanneer afbeeldingen een subtiele verstoring lijden.Desalniettemin stelt statistische analyse ons in staat om meer vertrouwen te hebben op de robuustheid van de voorspellingen van elke methode.Tegenwoordig brengt de niet -parametrische statistische analyse de aandacht van onderzoekers om de prestaties te meten door een rigoureuze vergelijking tussen algoritmen, rekening houdend met onafhankelijkheid, normaliteit en hom*oscedasticiteit[[79,,80].Dergelijke procedures voeren zowel paarsgewijze als meerdere vergelijkingen uit voor analyse van meervoudige problemen.In ons geval passen we paarsgewijze statistische procedures toe om individuele vergelijkingen uit te voeren tussen het vertrouwen van elke methode, van schone en aangevallen afbeeldingen op basis van de statistische procedure beschreven in[[81].
Wanneer de resultaten van de ontworpen algoritmen voor hetzelfde probleem de eerder uitgedrukte voorwaarden hebben bereikt, is de meest voorkomende test de ANOVA.In het geval dat de distributies niet normaal zijn, moeten we een niet-parametrische test zoals Kruskal-Wallis gebruiken.Als de distributies normaal zijn, maar niet de eigenschap van hom*oscedasticiteit bereiken, is de vereiste analyse de Welch -test.De statistische tests maken vergelijkingen van de steekproefverdelingen mogelijk, het bijwonen van de vereiste voorwaarden en het toepassen van een geschikte beoordeling a posteriori om de resultaten te contrasteren.Als gevolg hiervan hebben we eerst data-normaliteit (Lilliefors, Kolmogorov-Smirnov) en hom*oscedasticiteit (Levene-test) bestudeerd;Volgens de resultaten hebben we de juiste statistische test (Kruskal-Wallis, Welch, ANOVA) toegepast om te bepalen of de verschillen significant zijn, met behulp van een p-waarde.Daarom, als het vertrouwen van de voorspellingen statistisch anders is, zal dit de afwijzing van de nulhypothese illustreren.Als de statistische analyse accepteert, het zal bepalen dat het vertrouwen van de voorspellingen van het paar schone en verstoorde beelden niet significant verschillend is;Daarom kunnen we concluderen dat de methode robuust is voor de AES.
De statistische analyse van tabellen12-13laat zien dat het vertrouwen van de voorspellingen van BP niet significant verschillend is in elk experiment van de testdataset met behulp van FGSM.Dat betekent dat het vertrouwen niet wordt beïnvloed door de subtiele verstoringen die aan de afbeeldingen zijn toegevoegd.Het merendeel van de p-waarden van SIFT+FV aantoont niet significant verschillend te zijn tussen de vertrouwelijkheid van de voorspellingen.Desalniettemin toonde de analyse van alle DCNN -architecturen aan dat in de meeste gevallen de afwijzing van de nulhypothese.De afwijzing illustreert de schade van de AE's aan het vertrouwen van de voorspellingen van de DCNN door ze statistisch anders te maken.
Iconografie Alexnet VGG Testen VS. BP 0.99743 0.99889 0.99599 0.9958 0.9958 0.99828 0.99634 0.99517 0.9937 0.99371 SIFT+FV 0.95119 0.95118 0.80859 0.21374 0,00012958 0.93022 0.93022 0.73482 0.10472 P.0663 J-06 Alexnet 1.7665E-12 1.7665E-12 1.8922 J-54 5.2622E-73 1.5556 J-74 0.99483 0.99483 0.99702 0.84401 0.83964 VGG 0.58235 0.58245 0.0087004 1.884E-09 3.1824E-32 3.2201E-30 3.2201E-30 3.1832E-64 1.3611E-174 7.6365E-176 ResNet18 0.63062 0.63063 0,024056 8.0612E-06 3.3087E-17 0.52182 0.52182 0,00035193 A.2009 J-10 2.4186E-22 ResNet101 0.6259 0.62599 0,054054 KH 9926 J-05 A. 5752 J -11 0.54501 0.54501 0.0017698 1.0084E-06 2.232E-12 Schilderen Alexnet VGG Testen VS. BP 0.9136 0.89874 0.89634 0.85943 0.12557 0.99068 0.99108 0.78341 0.75145 0.59411 SIFT+FV 0.21866 0.21866 0,00012449 1.6086E-24 1.65E-86 0.16502 0.16502 A 9752 J-06 1.516E-31 P. 6495 J-98 Alexnet A.4962 J-105 A.4962 J-105 0 0 0 0.98106 0.98106 0.90152 0.47591 0.050199 VGG 0.64622 0.64621 P. 6649 J-14 2.4111E-137 0 0 0 0 0 0 ResNet18 0.9711 0.97111 0.92035 0.13873 3.8914E-111 0.37065 0.37065 2.124E-25 1.5714E-103 1.1938E-291 ResNet101 0.90558 0.90557 0.37347 3.1411E-66 4.1528E-240 0.35338 0.35338 3.3466E-53 1.3622 J-216 0 Schilderlandschappen Alexnet VGG Testen VS. BP 1 1 1 1 1 1 1 1 1 1 SIFT+FV 0.79505 0.79505 0.30022 0.0024393 A.3167 J-09 0.79599 0.79599 0.3353 0.0019852 A.6761 J-09 Alexnet H 9291 J-10 H 9291 J-10 1.4342E-29 5.265E-33 Z 3707 J-33 0.9905 0.9905 0.95413 0.95212 0.70978 VGG 0.87445 0.87447 0.38584 A.5473 J-12 H 3903 J-34 5.0409E-29 5.0409E-29 Kh 3.0354E-37 1.0586E-38 ResNet18 0.89967 0.89966 0.7306 0.30211 1.4175E-05 0.68713 0.68713 0.030198 1.4375E-05 H 5887 J-15 ResNet101 0.9671 0.96696 0.74545 KH 8498 J-08 2.5216E-22 0.87901 0.87901 0.33332 A.368 J-17 3.0898E-30 Tekeningen Alexnet VGG Testen VS. BP 0.98405 0.98405 0.97876 0.95426 0.97483 0.98745 0.98745 0.99322 0.98889 0.97186 SIFT+FV 0.67854 0.67854 0.43269 0.04983 2.6184E-06 0.69315 0.69315 0.46697 0,064349 1.0753 J-05 Alexnet 1.5308E-05 1.5308E-05 3.0146E-26 KH 9791 J-41 I 2069 J-47 0.92991 0.92989 0.83881 0.84904 0.0052409 VGG 0.87066 0.87066 0,058863 P. 9068 J-08 A.7992 J-30 1.5939 J-20 1.5939 J-20 1. 3.4676E-58 6.0516E-61 ResNet18 0,90781 0.90781 0.50143 0.0023366 5.16E-16 0.59103 0.59103 0.0056782 I 2775 J-08 P. 5421 J-26 ResNet101 0.97912 0.97912 0.55583 P.2526 J-06 1.313 J-22 0.79099 0.79099 0,00070622 4.8929 J-12 1.5062E-33 Beeldhouwwerk Alexnet VGG Testen VS. BP 0.99772 0.99772 0.99742 0.99748 0.99701 0.99736 0.99736 0.99717 0.99702 0.99753 SIFT+FV 0.89198 0.89198 0.4632 0.1714 0.086323 0.93114 0.93114 0.5201 0.20871 0.14017 Alexnet 0,00013513 0,00013513 2.0152E-20 8.8035E-31 Z 2946 J-34 0.89484 0.89484 0.54423 0,00026161 1.6579 J-12 VGG 0.75594 0.75594 0.0082156 Kh 1.6714 J-21 I7774 J-13 I7774 J-13 1.0801E-30 7.3611e-34 A. Ik geef ResNet18 0.76905 0.76905 0,053247 A.3723 Y-06 7.1788E-18 0.6501 0.6501 0.0032158 1.3364 J-08 4.5108E-21 ResNet101 0.83153 0.83153 0,018017 6.1378E-07 A.1775 J-14 0.73046 0.73046 0.0025386 A.3318 J-07 3.531E-15 Graveer BW Alexnet VGG Testen VS. BP 0.1314 0.1314 0.75089 0.7213 0.76281 0.1184 0.1184 0.69932 0.72718 0.75278 SIFT+FV 0.89606 0.89606 0.9213 0.77775 0.01329 0.87447 0.87447 0.85628 0.96241 0,086893 Alexnet K. onderdanig K. onderdanig 2.205E-116 A.5771 J-171 A.9344 J -187 0.61108 0.61108 0.79384 0.66623 1.2529 J-07 VGG 0.94146 0.94146 0.62982 0.019374 0.092515 1.7458 J-85 1.7458 J-85 A.3367 J-202 6.0154E-219 A.4579 J -219 ResNet18 0.35122 0.35122 0.020752 6.4226E-13 4.1326E-56 0.11378 0.11378 2.9188E-05 Kh 1.1364E-73 ResNet101 0.14262 0.14262 0.70567 0.0010867 KH 2621 J-31 0.4537 0.4537 0.19041 4.4468E-06 1.2934 J-39 Gravure kleur Alexnet VGG Testen VS. BP 0.89591 0.89591 0.94823 0.93453 0.98186 0.87265 0.87265 0.92126 0.93354 0.99179 SIFT+FV 0.83715 0.83715 0.7306 0.52109 0.95255 0.78356 0.78356 0.78447 1 0.82826 Alexnet 1.6503E-133 1.6479 J-133 4.924 J-273 2.106E-290 1.6302 J-274 0.56852 0.56852 0.36771 0,041684 1.0253E-05 VGG 3.66E-32 3.66E-32 1.8892E-35 1.7963 J-34 1.0132E-18 0 0 0 0 0 ResNet18 1.105E-08 1.105E-08 1.8668E-09 4.1096E-08 6.1218E-06 1.6772 J-10 1.6772 J-10 1.7619 J-14 1.0486E-16 1.5263 J-15 ResNet101 5.1941E-16 5.1941E-16 1.1333 J -18 6.1089E-25 5.416E-42 8.2181E-23 8.2181E-23 1.968 J-41 3.066E-70 A.3115 J-107
Iconografie Resnet ResNet101 Testen VS. BP 0.99767 0.99672 0.99739 0.99585 0.99585 0.99992 0.99593 0.99825 0.99589 0.99589 SIFT+FV 0.95457 0.95457 0.78501 0.098796 1.296E-05 0.9245 0.92449 0.71244 0.06041 A.3283 J-06 Alexnet 0.99776 0.99776 0.96299 0.74961 0.18328 0.9903 0.9903 0.98065 0.79478 0.62045 VGG 0.45019 0.45018 1.3824 J-05 7.6022E-17 A. 0.60766 0.60768 0.0020685 3.2656E-09 6.6815E-28 ResNet18 2.8465E-35 2.8465E-35 1. 1.0059E-161 1.2666e-66 0,48618 0,48626 0,0005933 1.195E-08 P. 7675 J-18 ResNet101 0.36979 0.36979 1.161E-05 Z 3498 J-14 2.6481E-22 5.2645E-31 5.2645E-31 1. H 7789 J-61 7.2518E-59 Schilderen Resnet ResNet101 Testen VS. BP 0.84987 0.78268 0.54929 0.99293 0.9937 0.73759 0.94754 0.87769 0.88685 0.83682 SIFT+FV 0.15684 0.15685 1.1729E-06 P.235 J-34 4.2265 J-102 0.1448 0.1448 4.1104E-07 1.6025E-34 6.9011e-99 Alexnet 0.97537 0.97538 0.83884 0,0002221 0,056476 0.98499 0.98501 0.8621 0.39927 0.11822 VGG 1.5516E-06 1.5524 J-06 1.4289E-58 1.8098E-237 0 Z 3796 J-06 Z 3735 J-06 5.48E-50 1.1918E-222 0 ResNet18 0 0 0 0 0 P.7705 J-05 P. 7674 J-05 3.6504E-28 2.1311E-107 9.0869E-291 ResNet101 0.20263 0.20266 7.6609E-70 1.041E-267 0 0 0 0 0 0 Schilderlandschappen Resnet ResNet101 Testen VS. BP 1 1 1 1 1 1 1 1 1 1 SIFT+FV 0.81073 0.81072 0.31041 0.0013292 9.4406E-10 0.79544 0.79544 0.27643 0.0011679 3.2551E-09 Alexnet 0.97698 0.97699 0.93679 0.92671 0.66599 0.99458 0.9946 0.97321 0.97355 0.81807 VGG 0.71643 0.71643 4.7994 J-05 1.6994E-17 4. LINERLY 0.73709 0.73709 0,00021444 4.9845 J-16 8.8656E-38 ResNet18 1.3222 J -24 1.3435 J-24 1.8235E-34 5.3646E-34 A B 0,60616 0,60616 0,021885 2.1956e-05 1.1705e-16 ResNet101 0.83154 0.83154 1.4205E-06 5.6908E-22 KH. 671 J-33 8.0509E-29 8.0509E-29 H 9.0441E-38 KH. Tekeningen Resnet ResNet101 Testen VS. BP 0.98646 0.98646 0.98853 0.96403 0.97252 0.99539 0.99539 0.99544 0.98031 0.98827 SIFT+FV 0.69545 0.69544 0.45485 0.052022 4.3891 J-06 0.68791 0.68791 0.43034 0,039834 2.482E-06 Alexnet 0.91835 0.91835 0.86539 0.77007 0.0013548 0.9221 0.92208 0.86883 0.94347 0.29188 VGG 0.61463 0.61463 0,00064209 2.228E-13 1.8494E-35 0.5806 0.58052 0.0061323 1.4804E-10 KH. ResNet18 1.7101E-24 1.7101E-24 1.9766E-51 1.4251E-54 1. Oproep 0.50031 0.50028 0.00714 1.1845E-06 A. 6572 J-20 ResNet101 0.59366 0.59366 0,0001009 4.6116E-12 1.5527 J-34 4.7426E-30 4.7426E-30 A.8037 J-54 1.3584E-57 P. 9703 J-60 Beeldhouwwerk Resnet ResNet101 Testen VS. BP 0.9975 0.9975 0.99702 0.99693 0.9969 0.99659 0.99659 0.99686 0.99662 0.99609 SIFT+FV 0.91246 0.91245 0.45842 0.19418 0.23847 0.91303 0.91303 0.40899 0.11917 0.0022884 Alexnet 0.89915 0.89911 0.57069 0,00029538 2.4554E-12 0.92807 0.92807 0.63864 0.0012897 1.0607E-10 VGG 0.71495 0.71495 0,00025963 4.4615E-10 1.6644E-23 0.83568 0.83568 0.0062375 1.065E-06 Z 4707 J-20 ResNet18 5.4653E-13 5.4653E-13 1.885E-26 AH. 2.1562E-32 0.8016 0.8016 0,01385 2.2828E-06 1.1366E-17 ResNet101 0,63809 0,63809 0,00097214 A.3315 J-09 1.5158E-17 7. 4724 A 11 7. 4724 A 11 1.7682 J -19 Z 4807 J -21 1.7814 J-25 Graveer BW Resnet ResNet101 Testen VS. BP 0.62139 0.62139 0.76279 0.72754 0.73081 0.23525 0.23525 0.73697 0.75743 0.76744 SIFT+FV 0.88575 0.88575 0.8536 0.95828 0.14382 0.86903 0.86904 0.88072 0.92791 0.065097 Alexnet 0.88255 0.88255 0.82907 0.12103 5.201E-14 0.63177 0.63178 0.85028 0.51736 0.026006 VGG 0.3549 0.3549 0.011117 1.113E-11 1.2312 J-46 0.61302 0.61311 0.14793 1.5966e-08 1.9818e-32 ResNet18 2.0619e-81 2.0619E-81 Z 5802 J -191 A. 4.2645E-218 0.10882 0.10882 0,0001122 9.641E-23 5.6127E-80 ResNet101 0.5792 0.5792 0.0092807 5.08e-14 5.8058E-77 4.4317 J-56 4.4223E-56 1.1988E-119 1.3737 J-152 3.8698E-193 Testen VS. BP 0.96553 0.96553 0.93342 0.99733 0.99721 0.96275 0.96275 0.9169 0.98099 0.83034 SIFT+FV 0.89023 0.89023 0.67872 0.66967 0.8903 0.89075 0.89075 0.72948 0.51895 0.8264 Alexnet 0.61061 0.61064 0.4212 0.095421 0.0014581 0.56698 0.56703 0.33301 0.017158 1.6441E-06 VGG 8.8075E-36 8.8007E-36 1.3014E-44 7.2256E-54 7.1826E-59 1.3175 J-40 1.323 J-40 6.4181E-58 1.2544E-79 1.8917 J-105 ResNet18 3.076E-307 3.076E-307 0 0 0 A. 907 J -11 A. 907 J -11 5.3445E-16 1.6623 J-17 1.5303 Y-14 ResNet101 4.A-20 4.1976 J-20 4.9361 J-32 4.2834e-52 6.6939e-89 2.6025e-310 2.6206e-310 0 0 0
Hetzelfde gedrag wordt gezien in de statistische analyse van tabel14, die het vertrouwen van de voorspellingen van de methode voor de tegenstanderspatch toont.De studie toonde dezelfde afwijzing van de nulhypothesevan alle DCNN -architecturen in een aanzienlijk deel van de experimenten voor alle klassen.Omgekeerd accepteerde BP de nulhypothesein elk experiment.SIFT+FV vertoonde vergelijkbaar gedrag met BP, maar de sculptuurklasse en de VGG -patch verkregen het vertrouwen van een significant verschillende voorspellingen.
Iconografie Testen VS. Alexnet Patch VGG -patch ResNet18 -patch ResNet101 -patch BP 0.99608 0.99019 0.99812 0.99901 SIFT+FV 0.60131 0.89837 0.61682 0.97909 Alexnet 7.1039E-20 0.79567 0.46915 0.56209 VGG 0,0003743 1. Familie P. 9987 J-07 1.0847E-07 ResNet18 A. 5542 J-05 0,00040313 2.092E-18 0,00029613 ResNet101 0.0010507 8.4448E-05 P. 9575 J-08 1.358 J-12 Schilderen Testen VS. Alexnet Patch VGG -patch ResNet18 -patch ResNet101 -patch BP 1 1 1 1 SIFT+FV 0.54497 0.74837 0.55432 0.82595 Alexnet 1.3914 J-27 A.7344 J-07 4.1336 J-07 H 5744 J-12 VGG 4.5007 J-16 3.0804E-22 5.2464E-14 3.4408E-20 ResNet18 1.2746 J -19 1.1991E-15 Dhr. 4.9202 J-26 ResNet101 3.855E-20 1.9447 J-20 KH. 876 J-18 P Schilderlandschappen Testen VS. Alexnet Patch VGG -patch ResNet18 -patch ResNet101 -patch BP 1 1 1 1 SIFT+FV 0.71106 0.35442 0.76126 0.32247 Alexnet A.3132 J-27 1.4598E-08 1.3614E-06 4.8304E-13 VGG 3.4926E-25 KH 7961 J-30 1.6104E-22 3.0764E-29 ResNet18 1. 1.3091 J-24 1.1945E-33 5.1204E-32 ResNet101 1.868E-27 5.565E-27 A.92013 J-28 1.1313 J-30 Tekeningen Testen VS. Alexnet Patch VGG -patch ResNet18 -patch ResNet101 -patch BP 1 1 1 1 SIFT+FV 0.49234 0.24792 0.40336 0.20665 Alexnet 2.0788E-27 2.61E-05 2.1405E-08 7.0741 C-12 VGG A.9051 J-15 2.6781E-20 1.1136E-18 A.3552 J -21 ResNet18 5.2286e-15 A.8956 J-09 1.3091 J-24 5.042E-17 ResNet101 3.8469E-17 P. 1359 J-12 KH 7602 J-14 1.0681E-22 Beeldhouwwerk Testen VS. Alexnet Patch VGG -patch ResNet18 -patch ResNet101 -patch BP 0.99544 0.99701 0.99823 0.99557 SIFT+FV 0,093228 0,048075 0.14621 0.49341 Alexnet P. 0533 Y-28 1.6758 Y-06 1.6128E-08 Z 3985 J-08 VGG I2478 J-06 4.5278 J -19 1.1145E-10 3.8384E-09 ResNet18 9.011e-06 5.6851E-07 3.0015E-20 I7596 J-08 ResNet101 P.1949 J-07 0,00045029 A.9946 J-07 1.2838E-08 Graveer BW Testen VS. Alexnet Patch VGG -patch ResNet18 -patch ResNet101 -patch BP 0.84032 0.9292 0.83695 0.79371 SIFT+FV 0.17899 0.68646 0.63549 0.75774 Alexnet 6.8616E-16 0,33203 0.13546 0.80088 VGG A.7464 J-15 Ihsa’i 1.1879E-13 1.0857E-15 ResNet18 4.2622E-24 1.3125 J-21 KH 7495 J-32 I 0573 Y-26 ResNet101 1.5343 J-07 1.7745 J-10 4.6019E-14 4.6746 J-23 Gravure kleur Testen VS. Alexnet Patch VGG -patch ResNet18 -patch ResNet101 -patch BP 0.81987 0.96904 0,82055 0.81363 SIFT+FV 0.51466 1 1 1 Alexnet 4.7445E-15 0.42195 0.6454 0.32844 VGG 0,00057199 Kh 0.11452 0,000143 ResNet18 0,00012499 0.01838 0,00042032 0.31804 ResNet101 0.33861 0.29463 1.2204E-05 8.898E-10
5Conclusie
Robuustheid tegen AA moet de primaire zorg zijn wanneer het een automatisch herkenningssysteem ontwikkelt.Dus vanaf nu mogen de prestaties van een classificator niet alleen worden gericht op de nauwkeurigheid, maar ook op robuustheid voor AAS.In dit werk presenteren we een vergelijkende studie voor AMC onderworpen aan AA.We vergelijken verschillende methoden om de prestaties en hun betrouwbaarheid te analyseren om een klasse te voorspellen met behulp van tegenstanders.We hebben zes modellen geselecteerd met behulp van drie van de belangrijkste benaderingen voor beeldclassificatie: 1) Handgemaakte functiesbenadering (SIFT+FV), 2) Deep genetische programmeerbenadering (BP) en 3) DCNN -benadering (AlexNet, VGG, ResNet18 en ResNet101).De vergelijkende studie bestaat uit het analyseren van drie verschillende aanvallen.Ten eerste, de impact en overdraagbaarheid van de directe dreiging, gezien de witte doos die niet is gerichte aanval - FGSM.Deze verstoring voegt een subtiele textuur toe aan het kunstwerk, wat een misleidende voorspelling kan veroorzaken.Ten tweede, zoek een set lokalisatie- en pixelwaarden om het kunstwerk te wijzigen om de classificator voor de gek te houden met behulp van een zwarte doos ongesteld aanval -multiple pixelaanval.Pas ten slotte vooraf op berekende patches - Assarial Patch - Robust toe op transformaties die zich willekeurig in het kunstwerk bevinden om een gerichte klasse te voorspellen.
In die zin heeft deze studie aangetoond dat AA een ernstige bedreiging is voor de prestaties van DCNN.Het gebruik van FGSM toonde aan dat als de aanvaller het model kent, het de DCNN zijn prestaties kan laten verlagen tot minder dan 20% van zijn oorspronkelijke score.Bovendien hebben we het overdraagbaarheidseffect tussen DCNN -modellen bewezen, wat niet ernstig is voor de binaire classificatie, maar het kan tot 20% van de prestaties verminderen.Aan de andere kant werd SIFT+FV ook getroffen door sommige klassen, maar door een klein bedrag.De toegevoegde textuur veroorzaakt door de FGSM leidde echter tot een afname van zijn prestaties op een significante manier wanneer het algoritme werd getest, met bemoedigende resultaten maar niet geschikt om te concurreren met DCNN's in de testfase.Ten slotte vertoont BP vergelijkbare prestaties (efficiëntie) als DCNN in zowel validatie- als testfasen.Het heeft een bijna onmerkbare variant over de nauwkeurigheid van deze verstoringen die geen directe overdraagbaarheid van andere modellen bewijzen.Figuren5-6kan worden waargenomen de output van elke fase van BP van schoon en AE's met bijna geen variatie op de resultaten.
De studie over één pixelaanval bevestigt het slechte ontwerp van dit type aanval vanwege een minimaal scenario dat is bedacht met een inputafbeelding van groottepixels.We concluderen dat het een uitdaging is om meerdere pixelaanvallen op real-world omstandigheden toe te passen.Aan de ene kant, wanneer we zich uitstrekken tot meerdere pixels, verliest de verstoring de intentie van de aanval om onmerkbaar te zijn voor de menselijke visie, en niet te vergeten de enorme hoeveelheid verwerkingstijd.Aan de andere kant toont BP het uitdagend om deze aanvallen te mislukken, zelfs door vijf keer het aantal pixels per AA te verhogen in vergelijking met SIFT+FV- en DCNN -modellen, die met succes voor de gek werden gehouden.Ten slotte toonde de tegenstander van de tegenstander aan dat een vooraf berekende verstoring in een willekeurige locatie en oriëntatie in het kunstwerk DCNN -modellen met uitstekende overdraagbaarheid daartussen voor de gek kon houden;Ondertussen blijven BP en SIFT+FV in hun oorspronkelijke score.Het is opmerkelijk dat de BP -robuustheid voor de meervoudige pixelaanval en de tegenstanderspatch.Deze twee aanvallen zijn echter harde storingen en BP bleef stabiel in zijn prestaties, wat leidde tot de betrouwbaarheid van BP's voorspellingen in geen gevallen van menselijke toezicht.
De statistische analyse van het vertrouwen van de voorspellingen ondersteunt de studie van robuustheid door de verandering in de posterieure waarschijnlijkheid te illustreren als aanvulling op de resultaten vanuit het standpunt van de nauwkeurigheid.Op deze manier heeft BP aangetoond dat het niet significant verschillende voorspellingen heeft in vergelijking met DCNN -modellen, die in de meeste gevallen de afwijzing van de nulhypothese aantoonden.Omgekeerd verkreeg SIFT+FV goede resultaten, waarbij de meeste test scoren geen significant verschil in het vertrouwen van de voorspellingen.
Concluderend is de categorisatie van kunstmedia een complex probleem waarin het moeilijk is om de prestaties van DCNN te overtreffen.Toch heeft BP vergelijkbare resultaten en is robuust voor deze tegenstanders zonder directe overdraagbaarheid van dergelijke verstoringen naar het model.Aan de andere kant blijkt SIFT+FV robuust te zijn voor een beperkt aantal experimenten met matige resultaten.BP ontstaat dus als een alternatief voorstel van een kunstmedia -classificator zonder de kwetsbaarheden van AA.Bovendien maakt het gebruik van de symbolische representaties en bevat het regels van expertsystemen in een hiërarchische structuur om het AMC -probleem op te lossen.Ten slotte opent BP de mogelijkheid om in elk van de fasen uit te leggen, in tegenstelling tot DCNN, een belangrijk onderzoeksgebied om precies de innerlijke werking van het model te kennen.
Referenties
- [1]S.Russell, P.Norvig, kunstmatige intelligentie: een moderne aanpak, Prentice Hall, 2020.
- [2]R.Szeliski, Computer Vision: Algoritmen and Applications, Springer, 2020.
- [3]G.OLAGUE, Evolutionair Computer Vision: The First Footprints, Springer, 2016.
- [4]A.DARWISH, A.HASSANIEN, S.DAS, Een onderzoek naar zwerm en evolutionaire computergerechten voor Deep Learning, Artificial Intelligence Review 53 (2019) 1767–1812.
- [5]P.Druzhkov, V.Kustikova, een onderzoek naar de diepe leermethoden en softwaretools voor beeldclassificatie en objectdetectie, patroonherkenning en imaganalyse 26 (2016) 9-15.
- [6]B.Zhao, J.Feng, X.Wu, S.yan, een onderzoek naar de diepe leer-gebaseerde Fine-korrelige classificatie en semantische segmentatie, International Journal ofautomation and Computing 14 (2017) 119–135.
- [7]Y.BI, M.Zhang, B.Xue, genetische programmering voor automatische globale en lokale Feature -extractie naar beeldclassificatie, 2018 IEEE Congress Onevolutionary Computation (CEC) (2018) 1–8.
- [8]S.R.Price, D.Anderson, S.Price, Goofed: extraheren geavanceerde functies Forimage -classificatie via verbeterde genetische programmering, 2019 IEEE Congress Onevolutionary Computation (CEC) (2019) 1596–1603.
- [9]M.IQBAL, H.AL-SAHAF, B.XUE, M.ZHANG, Genetische programmering met transferLearning voor textuurbeeldclassificatie, Soft Computing (2019) 1–13.
- [10]Y.BI, B.XUE, M.ZHANG, een effectieve functie -leerbenadering met behulp van genetische programmering met beeldbeschrijvingen voor beeldclassificatie [ResearchFrontier], IEEE Computational Intelligence Magazine 15 (2020) 65–77.
- [11]T.NAKANE, B.NARANCHIMEG, H.SUN, X.LU, T.AKASHI, C.ZHANG, TOEPASSING VAN EVOLUTIONAIRE EN SWARM Optimalisatie in computervisie: een literatuuronderzoek, IPSJ -transacties op computer vision en applicaties 12 (2020) 1–34.
- [12]Y.Sun, B.Xue, M.Zhang, G.G.Yen, evoluerende diepe convolutionele neuralnetworks voor beeldclassificatie, IEEE -transacties op evolutionaire competatie 24 (2) (2020) 394–407.Doi: 10.1109/tevc.2019.2916183.
- [13]F.E.F.Junior, G.Yen, deeltjeszwermoptimalisatie van diepe neurale netwerksarchitecturen voor beeldclassificatie, Swarm Evol.Comput.49 (2019) 62–74.
- [14]D.E. Hernández, E.Clemente, G.Olague, JL Briseño, Evolutionaire multi-objectieve visuele cortex voor objectclassificatie in natuurlijke beelden, Journal of Computational Science 17 (2016) 216 - 233.
- [15]D.E.Hernández, G.Olague, B.Hernández, E.Clemente, Cuda-gebaseerde parallelisatie van een bio-geïnspireerd model voor snelle objectclassificatie, neurale computing en toepassingen 30 (2017) 3007–3018.
- [16]G.OLAGUE, E.CLEMENTE, D.E.Hernández, A.Barrera, M.Chan-Lley, S.Bakshi, kunstmatige visuele cortex en willekeurige zoekopdracht naar ObjectCategorization, IEEE Access 7 (2019) 54054–54072.
- [17]M.Chan-Lley, G.OLAGUE, Categorisatie van gedigitaliseerde kunstwerken door media met brainprogrammering., Applied Optics 59 14 (2020) 4437–4447.
- [18]G.OLAGUE, D.E.Hernández, E.Clemente, M.Chan-Lley, evoluerende headtrackroutines met hersenprogrammering, IEEE Access 6 (2018) 26254-26270.
- [19]G.OLAGUE, D.E.Hernández, P.Llamas, E.Clemente, J.L. Briseño, Brain Programming als een nieuwe strategie om visuele routines te creëren voor objecttracking, multimedia -tools en -toepassingen 78 (5) (2019) 5881-5918.doi: 10.1007/s11042-018-6634-9.
- [20]N.akhtar, A.Mian, dreiging van tegenstanders op diep leren in Computervision: A Survey, IEEE Access 6 (2018) 14410–14430.
- [21]Y.LI, Y.Wang, verdediging tegen tegenstanders in Deep Learning, Applieds Sciences 9 (1) (2018) 76.doi: 10.3390/app9010076.
- [22]M.Ozdag, tegenstanders en verdedigingen tegen diepe neurale netwerken: Asurvey, Procedia Computer Science 140 (2018) 152-161, Cyber PhysicalSystems en Deep Learning Chicago, Illinois 5-7 november 2018.doi:10.1016/j.procs.2018.10.315.
- [23]T.Chen, J.Liu, Y.Xiang, W.Niu, E.Tong, Z.Han, Vijandige aanval en verdediging in versterking van het leren vanuit een AI-beveiligingsvisie, Cybersecurity 2(1)(2019) 11.doi:10.1186/s42400-019-0027-x.
- [24]H.XU, Y.MA, H.-C.Liu, D.Deb, H.Liu, J.-L.Tang, a.k.Jain, tegenstanders en verdedigingen in afbeeldingen, grafieken en tekst: een review, International Journal of Automation and Computing 17 (2) (2020) 151–178.doi: 10.1007/s11633-019-1211-x.
- [25]K.Ren, T.Zheng, Z.Qin, X.Liu, tegenstanders en verdedigingen in Deeplarning, Engineering 6 (3) (2020) 346 - 360.Doi: 10.1016/j..
- [26]I.J.Goodfellow, J.Shlens, C.Szedy, uitleg en benutten van adversarialexamples, in: 3rd International Conference on Learning Representations, ICLR 2015, Conference Track Proceedings, 2015, p.11.
- [27]J.Luengo, S.García, F.Hrrera, een onderzoek naar het gebruik van statistische tests voor experimenten met neurale netwerken: analyse van parametrische testomstandigheden en niet-parametrische tests, expertsystemen met toepassingen 36 (4) (2009) 7798– 7808.doi: https: //doi.org/10.1016/j.eswa.2008.11.041.
- [28]G.OLAGUE, G.IBARRA-VAZQUEZ, M.CHAN-LEY, C.PUENTE, C.Soubervielle-Montalvo, A.Martinez, een diepe genetische programmeermethodologie voor kunst mediaclassificatie robuust voor tegenstanders, in: 15e Internationalsymposium op visuele visuele visualComputing, ISVC 2020, Vol.12509, Lecture Notes Incomputer Science, Springer, 2020, pp. 1–12.
- [29]Z.Falomir, L.Museros, I.Sanz, L.Gonzalez-Abril, categoriseren van schilderijen Inart Styles op basis van kwalitatieve kleurbeschrijvingen, kwantitatieve GlobalFeatures and Machine Learning (Qart-Learn), Expert Systems with Applications97 (2018) 83-94.
- [30]L.Kong, J.Lv, M.Li, H.Zhang, het extraheren van generieke kenmerken van artistiek styleVia Deep Convolutional Neural Network, In: International Conference on Video and Image Processing, ICVIP 2017, 2017, p.119–123.doi: 10.1145/3177404.3177421.
- [31]A.Elgammal, M.Mazzone, B.Liu, D.-E. Kim, M.Elhoseiny, De vorm van kunstgeschiedenis in de ogen van de machine, in: 32e AAAI-conferentie over kunstmatige intelligentie, 2018.
- [32]D.Keren, Schilderidentificatie met behulp van lokale kenmerken en naïeve bayes, in: Objectherkenning ondersteund door gebruikersinteractie voor servicerobots, Vol.2,2002, pp. 474–477 vol.2.doi:10.1109/ICPR.2002.1048341.
- [33]J.LI, J.Z.Wang, het bestuderen van digitale beelden van oude schilderijen door mengsels ofstochastische modellen, IEEE -transacties op beeldverwerking 13 (3) (2004) 340–353.
- [34]R.S.Arora, A.Engammal, naar geautomatiseerde classificatie van fijne kunstschilderstijl: een vergelijkende studie, in: 21st International Conference on PatternRecognition (ICPR), IEEE, 2012, pp. 3541–3544.
- [35]P.Rosado, Computer Vision -modellen om kunstcollecties te categoriseren volgens de visuele inhoud: een nieuwe benadering van de abstracte kunst van Antoni Tàpies, Leonardo 52 (2019) 255–260.
- [36]S.Karayev, M.Trentacoste, H.Han, A.Agarwala, T.Darrell, A.Hertzmann, H.Winnemöller, Herkenning van beeldstijl, in: British Machine VisionConference, 2014.Twee: 10.5244/c.28.122.
- [37]Y.Bar, N.Levy, L.Wolf, Classificatie van artistieke stijlen met behulp van gebinariseerde Features afgeleid van een diep neuraal netwerk, IN: European Conference OnComputer Vision (ECCV), Springer, 2014, pp. 71–84.
- [38]N.Van Noord, E.Hendriks, E.Postma, Naar de ontdekking van de stijl van de kunstenaar: leren om artiesten te herkennen door hun kunstwerken, IEEE Signal ProcessingMagazine 32 (2015) 46–54.
- [39]E.Cetinic, S.Grgic, Genre Classification of Paintings, In: Internationalsymposium Elmar, 2016, pp. 201–204.Twee: 10.1109/elmar.2016.7731786.
- [40]B.Seguin, C.Striolo, I.diLenardo, F.Kaplan, Visuele link ophalen in een database met schilderijen, in: European Conference on Computer Vision (ECCV), 2016, pp. 201–204.
- [41]T.Sun, Y.Wang, J.Yang, X.Hu, Convolutie neurale netwerken met twee routes voor beeldstijlherkenning, IEEE Transactions on Image Processing 26 (2017) 4102–4113.
- [42]A.Elgammal, Y.Kang, M.D. Leeuw, Picasso, matisse of nep? geautomatiseerde analyse van tekeningen op streekniveau voor attributie en authenticatie, in: 32e AAAI-conferentie over kunstmatige intelligentie, 2018.
- [43]E.Cetinic, T.Lipic, S.Grgic, Fine-tuning convolutionele neurale netwerken voor classificatie van beeldende kunst, Expert Systems With Applications 114 (2018) 107–118.
- [44]H.YANG, K.min, Classificatie van basisartistieke media op basis van een diepconvolutionele benadering, de Visual Computer 36 (3) (2020) 559-578.
- [45]C.SESEDY, W.ZAREMBA, I.SUTSKEVER, J.BRUNA, D.ERHAN, I.J.Goodfellow, R.Fergus, Intrigerende eigenschappen van neurale netwerken, in: 2e InternationalConference on Learning Representations, ICLR 2014, Conference TrackProceedings, 2014, p.10.
- [46]S.Zheng, Y. Song, T.Leung, I.Goodfellow, het verbeteren van de robuustheid van deep neurale netwerken via stabiliteitstraining, in: IEEE Conference on Computervision and Pattern Recognition (CVPR), 2016, pp. 4480–4488.
- [47]D.Su, H.Zhang, H.chen, J.Yi, P.-Y.Chen, Y.Gao, is robuustheid de kosten van nauwkeurigheid?- Een uitgebreid onderzoek naar de robuustheid van 18 diepe imageclassificatiemodellen, in: V.Ferrari, M.Hebert, C.Sminchisescu, Y.weiss (eds.), European Conference on Computer Vision (ECCV), Springer InternationalPublishing, Cham, 2018, pp. 644–661.
- [48]J.Su, D.Vargas, K.Sakurai, één pixelaanval voor het voor de gek houden van diepe neurale netwerken, IEEE -transacties op evolutionaire berekening 23 (2019) 828–841.
- [49]S.-M.Moosavi-Dezfooli, A.Fawzi, O.Fawzi, P.Frossard, Universal Contersarialperturbations, In: IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, pp. 1765–1773.
- [50]T.B.Brown, D.Mané, A.Roy, M.abadi, J.Gilmer, Adversarial Patch, 31stconferentie op neurale informatieverwerkingssystemen, NIPS (2017) 6.
- [51]Y.Song, T.Kim, S.NowoZin, S.ermon, N.Kushman, PixeldDefend: LeveragingGenerative Models om te begrijpen en te verdedigen tegen tegenstanders, in: 6e Internationale Conferentie over leervertegenwoordigingen, ICLR 2018, Conference Track Procedure, 2018,P.20.
- [52]J.-Y.Baek, Y.-S.Yoo, S.-H.BAE, tegenstanders leren met kennis van imageclassificatie voor het verbeteren van GANS, IEEE Access 7 (2019) 56591–56605.
- [53]S.Gu, L.Rigazio, Towards deep neural network architectures robuust tot vijandige voorbeelden, in: 3rd International Conference on LearningRepresentations, ICLR, Conference Track Proceedings, 2015, p.9.
- [54]ALS. Ross, F.Doshi-Velez, Verbetering van de vijandige robuustheid en interpreteerbaarheid van diepe neurale netwerken door hun invoergradiënten te regulariseren, in: 32e AAAI-conferentie over kunstmatige intelligentie, 2018.
- [55]N.Papernot, P.McDaniel, X.Wu, S.Jha, A.Swami, Distillatie als verdediging tegen vijandige verstoringen tegen diepe neurale netwerken, in: 2016 IEEESymposium on Security and Privacy (SP), IEEE, 2016, pp. 582 –597.
- [56]D.Meng, H.Chen, Magnet: een tweeledige verdediging tegen vijandige voorbeelden, in: ACM SIGSAC Conference on Computer and Communications Security, 2017, pp.135–147.
- [57]N.Akhtar, J.Liu, A.Mian, Verdediging tegen universele vijandige verstoringen, in: IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018, pp. 3389–3398.
- [58]H.Zhang, H.chen, Z.Song, D.Boning, I.S.Dhillon, C.-J.Hsieh, Thelimitations of Adversarial Training en de Blind-Spot Attack, In: 7thinternational Conference on Learning Representations, ICLR 2019, ConferenceTrack Proceedings, 2019.
- [59]J.Sánchez, F.perronnin, T.Mensink, J.verbeek, Image Classificatie met de Fisher Vector: Theory and Practice, International Journal of Computervision 105 (3) (2013) 222–245.
- [60]D.M.Titterington, A.F. Smith, U.E.Makov, Statistische analyse van FinItemixture Distributions, Wiley, 1985.
- [61]R.M.Gray, D.L.Neuhoff, kwantisatie, IEEE -transacties op InformationTheory 44 (6) (1998) 2325–2383.
- [62]Q.Zhang, B.LI, Discriminative K-SVD voor woordenboek leren in facerecognitie, in: IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, 2010, pp. 2691–2698.
- [63]Z.Jiang, Z.lin, L.S.Davis, leer een discriminerend woordenboek voor sparsecodering via label Consistent K-SVD, In: IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, 2011, pp. 1697-1704.
- [64]A.Coates, A.NG, H.lee, een analyse van single-layer netwerken in UnsuperViredFeature Learning, in: 14th International Conference on ArtificialIntelligence and Statistics, 2011, pp. 215–223.
- [65]K.Simonyan, A.Vedaldi, A.Zisserman, Deep Fisher Networks for Gary-Scaleimage Classificatie, in: Advances in Neural Information Processing Systems, 2013, pp. 163–171.
- [66]Y.HE, K.Kavukcuoglu, Y.Wang, A.Szlam, Y.Qi, zonder toezicht geleerd leren door Deep Sparse Coding, In: SIAM International Conference on Data Mining, Siam, 2014, pp. 902–910.
- [67]Y.LeCun, B.Boser, JS Denker, D.Henderson, RE Howard, W.Hubbard, LDJackel, Backpropagation toegepast op handgeschreven postcodeherkenning, NeuralComputation 1(4) (1989) 541–551.
- [68]A.Krizhevsky, I.Sutskever, G.E. Hinton, Imagenet-classificatie met diepe convolutionele neurale netwerken, in: Advances in Neural Information ProcessingSystems, 2012, pp. 1097–1105.
- [69]K.Simonyan, A.Zisserman, Zeer diepe convolutionele netwerken voor grootschalige beeldherkenning, 3e Internationale Conferentie over Leerrepresentaties, ICLR 2015, Conference Track Proceedings (2015) 14.
- [70]K.He, X.Zhang, S.Ren, J.Sun, Diep resterend leren voor beeldherkenning, in: IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016,pp. 770-778.
- [71]R.Poli, W.Langdon, N.Mcphee, A Field Guide to Genetic Programming, 2008.
- [72]BEN.Treisman, G.Gelade, A Feature-Integration Theory of Attention, Cognitive Psychology 12 (1) (1980) 97–136.doi: 10.1016/0010-0285 (80) 90005-5.
- [73]M.A. Goodale, A.Milner,Afzonderlijke vestige paden voor perceptie en actie, Trends in Neurosciences 15 (1) (1992) 20 - 25.doi: https: //doi.org/10.1016/0166-2236 (92) 90344-8.
Urlhttp://www.sciencedirect.com/science/article/pii/0166223692903448 - [74]C.Koch, S.Ullman, verschuift in selectieve visuele aandacht: naar het onderonderlying neurale circuits., Human Neurobiology 4 4 (1985) 219–27.
- [75]K.f*ckushima, Neocognitron: een zelforganiserend neuraal netwerkmodel voor amchanisme van patroonherkenning onaangetast door verschuiving in positie, BiologicalCybernetics 36 (1980) 193–202.
- [76]M.RieSsenhuber, T.Poggio, Hiërarchische modellen van objectherkenning incortex, Nature Neuroscience 2 (1999) 1019-1025.
- [77]A.Kurakin, I.J. Goodfellow, S.Bengio, Adversarial machine learning at scale, 5th International Conference on Learning Representations, ICLR 2017, Conference Track Proceedings (2017) 17.
- [78]S.Das, P.N. Suganthan, Differentiële evolutie: een overzicht van de state-of-the-art, IEEE Transactions on Evolutionary Computation 15(1) (2010) 4–31.
- [79]J.Derrac, S.García, D.Molina, F.Herrera, Een praktische tutorial over het gebruik van niet-parametrische statistische tests als methodologie voor het vergelijken van algoritmen voor evolutionaire intelligentie en zwermintelligentie, Swarm Evol. Computer. 1 (2011) 3–18.
- [80]S.García, A.Fernández, J.Luengo, F.Herrera, Een onderzoek naar statistische technieken en prestatiemaatstaven voor op genetica gebaseerd machinaal leren: nauwkeurigheid en interpreteerbaarheid, Soft Computing 13 (2009) 959–977.
- [81]F.F.De Shoe, G.Olague, D.Lanza, O.F.Chavezal, W.Banzhaf, Edoodman, J.Mendez-Clavijo, A.Martínez, Time and Individual Duration in GeneticPrograming, IEEE ACESS 8 (2020) 38692–38713.