फेशियल रिकॉग्निशन सिस्टम पर डोपल-गैंगिंग

जेसी चिक के साथ सह-लेखक, ओएसयू सीनियर और पूर्व मैकएफी इंटर्न, प्राथमिक शोधकर्ता।

डॉ। कैथरीन हुआंग, McAfee एडवांस्ड एनालिटिक्स टीम के लिए विशेष धन्यवाद
काइल बाल्ड्स, पूर्व मैकएफी इंटर्न के लिए विशेष धन्यवाद

“तथ्यों का सामाना

दुनिया में 7.6 बिलियन लोग हैं। यह एक है विशाल नंबर! वास्तव में, यदि हम सभी भूमध्य रेखा पर कंधे से कंधा मिलाकर खड़े होते, तो दुनिया में लोगों की संख्या 86 गुना अधिक होती! बस आज जीवित लोगों की संख्या है; यहां तक ​​कि सभी लोगों के इतिहास में सभी समय के लिए जोड़ने पर, आपको दो समान मानव चेहरे कभी नहीं मिलेंगे। वास्तव में, यहां तक ​​कि दर्ज किए गए कुछ सबसे मिलते-जुलते चेहरों में (जिसमें जुड़वां भी शामिल नहीं हैं), कई अंतरों को समझ पाना काफी आसान है। यह लगभग असंभव लगता है; यह सिर्फ एक चेहरा है, है ना? दो आँखें, एक नाक, एक मुँह, कान, भौं और संभवतः अन्य चेहरे के बाल। निश्चित रूप से, हम इस बिंदु से समान असंबद्ध मनुष्यों में भाग लेंगे। पता चलता है, मानव चेहरे के लिए बहुत अधिक एसओ है जो इससे अधिक सूक्ष्म हो सकता है जितना हम अक्सर समझते हैं; माथे का आकार, जबड़े का आकार, कानों की स्थिति, नाक की संरचना, और हजारों और अधिक अत्यंत मिनट का विवरण।

आप इस विवरण के महत्व पर सवाल उठा सकते हैं क्योंकि यह मैकेफी, या भेद्यता अनुसंधान से संबंधित है। आज, हम McAfee एडवांस्ड थ्रेट रिसर्च (एटीआर) द्वारा डेटा विज्ञान और सुरक्षा के संदर्भ में किए गए कुछ काम का पता लगाएंगे; विशेष रूप से, हमने चेहरे की पहचान प्रणालियों को देखा और क्या वे मनुष्य के रूप में हमसे अधिक त्रुटि के लिए अतिसंवेदनशील थे या नहीं।

नीचे दिए गए चार चित्रों को ध्यान से देखें; क्या आप देख सकते हैं कि इनमें से कौन सा नकली है और कौन सा असली है?

स्टाइलगन छवियाँ

जवाब आपको आश्चर्य में डाल सकता है; सभी चार छवियां पूरी तरह से नकली हैं – वे 100% कंप्यूटर-जनरेट किए गए हैं, न कि अलग-अलग लोगों के कुछ हिस्सों को रचनात्मक रूप से सुपरिम्पोज किया गया है। स्टाइलगैन के नाम से जानी जाने वाली एक विशेषज्ञ प्रणाली ने इनमें से प्रत्येक को और लाखों और अधिक मात्रा में फोटोरिअलिज्म की डिग्री के साथ, खरोंच से उत्पन्न किया।

यह प्रभावशाली तकनीक डेटा विज्ञान और उभरती हुई प्रौद्योगिकी के बराबर भागों के क्रांतियों है जो पहले कभी नहीं देखे गए पैमाने पर तेजी से और सस्ती गणना कर सकते हैं। यह डेटा विज्ञान और छवि निर्माण या मान्यता में प्रभावशाली नवाचारों को सक्षम कर रहा है, और वास्तविक समय में या वास्तविक समय के पास किया जा सकता है। इसके लिए कुछ सबसे व्यावहारिक अनुप्रयोग चेहरे की पहचान के क्षेत्र में हैं; सीधे शब्दों में कहें, कंप्यूटर सिस्टम के लिए यह निर्धारित करने की क्षमता कि दो चित्र या अन्य मीडिया एक ही व्यक्ति का प्रतिनिधित्व करते हैं या नहीं। जल्द से जल्द कंप्यूटर फेशियल रिकॉग्निशन तकनीक 1960 के दशक की है, लेकिन हाल ही में, या तो अप्रभावी, झूठी सकारात्मक या झूठी नकारात्मक प्रवण, या बहुत धीमी और इच्छित उद्देश्य के लिए अक्षम रही है।

आर्टिफिशियल इंटेलिजेंस और मशीन लर्निंग में प्रौद्योगिकी और सफलताओं में प्रगति ने चेहरे की पहचान के लिए कई उपन्यास अनुप्रयोगों को सक्षम किया है। सबसे पहले और सबसे महत्वपूर्ण, यह एक अत्यधिक विश्वसनीय प्रमाणीकरण तंत्र के रूप में इस्तेमाल किया जा सकता है; इसका एक उत्कृष्ट उदाहरण iPhone है। 2017 में iPhone X के साथ शुरुआत, चेहरे की पहचान नई थी वास्तव में किसी उपयोगकर्ता को उनके मोबाइल डिवाइस को प्रमाणित करने के लिए मानक। जबकि Apple लक्षित चेहरे को मैप करने के लिए गहराई जैसी उन्नत सुविधाओं का उपयोग करता है, कई अन्य मोबाइल उपकरणों ने लक्ष्य चेहरे की विशेषताओं के आधार पर अधिक मानक तरीकों को लागू किया है; जिन चीजों को हम मनुष्य के रूप में अच्छी तरह से देखते हैं, उनमें आंखों का स्थान, नाक की चौड़ाई और अन्य विशेषताएं शामिल हैं जो संयोजन में किसी एक उपयोगकर्ता की सटीक पहचान कर सकते हैं। अधिक सरल और मानक विधियां जैसे कि ये स्वाभाविक रूप से अधिक उन्नत क्षमताओं के सापेक्ष सुरक्षा सीमाओं से ग्रस्त हो सकती हैं, जैसे कि 3 डी कैमरा कैप्चर। एक तरह से, यह संपूर्ण बिंदु है; गहराई की जानकारी की अतिरिक्त जटिलता पिक्सेल-हेरफेर के हमलों को असंभव बनाती है।

चेहरे की पहचान प्रणालियों के लिए एक और उभरता हुआ उपयोग मामला कानून प्रवर्तन के लिए है। 2019 में, लंदन में मेट्रोपॉलिटन पुलिस ने अपराधियों या लापता व्यक्तियों की पहचान को स्वचालित करने में पुलिस की सहायता के लिए डिज़ाइन किए गए कैमरों के एक नेटवर्क के रोलआउट की घोषणा की। व्यापक रूप से विवादास्पद होने के बावजूद, यूके इस पहल में अकेला नहीं है; अन्य प्रमुख शहरों ने आम लोगों की सहमति के साथ या बिना चेहरे की पहचान के पायलटों को लागू या कार्यान्वित किया है। चीन में, कई रेलगाड़ियाँ और बस प्रणालियाँ यात्रियों को पहचानने और प्रमाणित करने के लिए चेहरे की पहचान का लाभ उठाती हैं क्योंकि वे बोर्ड या अनबोर्ड हैं। देश भर में शॉपिंग सेंटर और स्कूल समान तकनीक की तैनाती कर रहे हैं।

हाल ही में, नस्लीय प्रोफाइलिंग और नस्लीय पूर्वाग्रह के प्रकाश में चेहरे की पहचान एआई में बार-बार प्रदर्शन किया गया, आईबीएम ने घोषणा की कि वह अपने चेहरे की पहचान के कार्यक्रमों को समाप्त कर देगा जिस तरह से इसे कानून प्रवर्तन में इस्तेमाल किया जा सकता है। तब से, चेहरे की पहचान के व्यवसाय के कई अन्य प्रमुख खिलाड़ियों ने अपने चेहरे की पहचान के कार्यक्रमों को निलंबित या समाप्त कर दिया है। यह कम से कम आंशिक रूप से एक उच्च प्रोफ़ाइल “झूठे सकारात्मक” मामले पर आधारित हो सकता है जिसमें अधिकारियों ने रॉबर्ट विलियम्स नाम के एक काले व्यक्ति के गलत चेहरे की पहचान के मिलान पर किसी व्यक्ति की गिरफ्तारी को गलत तरीके से किया था। इस मामले को देश की पहली गलत गिरफ्तारी के रूप में जाना जाता है जो सीधे चेहरे की पहचान तकनीक से उत्पन्न होता है।

चेहरे की पहचान के निश्चित रूप से कुछ स्पष्ट लाभ हैं, और इस हालिया लेख में अपहरण के कई साल बाद चीन में चेहरे की पहचान तकनीक के उपयोग का वर्णन किया गया है और एक परिवार को फिर से संगठित किया गया है। इसके बावजूद, यह महत्वपूर्ण गोपनीयता चिंताओं के साथ एक अत्यधिक ध्रुवीकरण मुद्दा बना हुआ है, और निहित दोषों में से कुछ को कम करने के लिए महत्वपूर्ण आगे के विकास की आवश्यकता हो सकती है।

पासपोर्ट सत्यापन के लिए लाइव चेहरे की पहचान

चेहरे की पहचान के लिए हमारा अगला उपयोग मामला आपके एहसास की तुलना में घर के करीब हो सकता है। संयुक्त राज्य अमेरिका में कई सहित कई हवाई अड्डों ने पासपोर्ट और पहचान सत्यापन के लिए मानव संपर्क को सहायता या बदलने के लिए चेहरे की पहचान प्रणाली को तैनात किया है। वास्तव में, मैं खुद को 2019 में अटलांटा हवाई अड्डे में इनमें से एक का अनुभव करने में सक्षम था। यह तैयार होने से बहुत दूर था, लेकिन यात्री देश भर में इसके निरंतर रोलआउट देखने की उम्मीद कर सकते हैं। वास्तव में, COVID-19 के वैश्विक प्रभाव पर आधारित यात्रा और स्वच्छता पर आधारित है, हम बायोमेट्रिक्स जैसे टचलेस समाधानों को लागू करने के लिए एक अभूतपूर्व भीड़ देख रहे हैं। यह एक जिम्मेदारी के दृष्टिकोण से किया जा रहा है, लेकिन यह भी एक एयरलाइन और हवाई अड्डे के लाभप्रदता के दृष्टिकोण से किया जा रहा है। यदि ये दोनों संस्थाएं यात्रियों को यह नहीं समझा सकती हैं कि उनकी यात्रा का अनुभव कम जोखिम वाला है, तो कई स्वैच्छिक यात्री इस आश्वासन के अधिक ठोस होने तक इंतजार करना पसंद करेंगे। इस लेख का विस्तार कोरोनोवायरस पर प्रभाव पड़ता है जो पासपोर्ट फेशियल रिकग्निशन के बढ़ते बाजार उपयोग पर है, जिससे डेल्टा और यूनाइटेड एयरलाइंस की विशिष्ट जानकारी तुरंत नए हवाई अड्डों में तेजी से बढ़ रही है, और दुनिया भर के कई देशों में परीक्षण और एकीकरण हो रहा है। हालांकि इस धक्का के परिणामस्वरूप कम शारीरिक संपर्क और कम संक्रमण हो सकता है, यह एक नए लक्ष्य की हमले की सतह को तेजी से बढ़ाने का दुष्प्रभाव भी हो सकता है।

चेहरे की पहचान के माध्यम से पासपोर्ट नियंत्रण की अवधारणा काफी सरल है। एक कैमरा आपके चेहरे की एक लाइव वीडियो और / या तस्वीरें लेता है, और एक सत्यापन सेवा आपकी तुलना पहले से मौजूद फोटो से करती है। यह पासपोर्ट या कई अन्य स्रोतों से हो सकता है जैसे कि डिपार्टमेंट ऑफ होमलैंड सिक्योरिटी डेटाबेस। “लाइव” फोटो को संभवतः एक समान प्रारूप (छवि आकार, छवि का प्रकार) में लक्षित फोटो के रूप में और तुलना में संसाधित किया जाता है। यदि यह मेल खाता है, तो पासपोर्ट धारक प्रमाणित होता है। यदि नहीं, तो एक मानव ऑपरेटर द्वारा वैकल्पिक स्रोत की जाँच की जाएगी, जिसमें बोर्डिंग पास और आईडी के रूप शामिल हैं।

भेद्यता शोधकर्ताओं के रूप में, हमें यह देखने की आवश्यकता है कि चीजें कैसे काम करती हैं; ऑपरेशन की इच्छित विधि और साथ ही साथ कोई भी निरीक्षण। जैसा कि हमने इस बढ़ती प्रौद्योगिकी और इसे सक्षम करने वाले अत्यंत महत्वपूर्ण निर्णयों पर परिलक्षित किया, हमने माना कि क्या अंतर्निहित प्रणाली की खामियों को लक्ष्य चेहरे की पहचान प्रणालियों को दरकिनार करने के लिए लिया जा सकता है। अधिक विशेष रूप से, हम जानना चाहते थे कि क्या हम पासपोर्ट शैली के प्रारूप में “प्रतिकूल चित्र” बना सकते हैं, जिसे गलत तरीके से लक्षित व्यक्ति के रूप में वर्गीकृत किया जाएगा। (एक तरफ के रूप में, हमने इमेज रिकग्निशन सिस्टम के खिलाफ डिजिटल और भौतिक दोनों माध्यमों में संबंधित हमले किए, जिसमें कुछ टेस्ला वाहनों में तैनात मोबिलई कैमरा पर जारी किए गए शोध भी शामिल हैं।)

यहाँ वैचारिक आक्रमण परिदृश्य सरल है। हम अपने हमलावर को विषय ए के रूप में संदर्भित करेंगे, और वह “नो-फ्लाई” सूची में है – अगर उसकी लाइव फोटो या वीडियो एक संग्रहीत पासपोर्ट छवि से मेल खाती है, तो उसे तुरंत बोर्डिंग और फ्लैग करने से मना कर दिया जाएगा, गिरफ्तारी की संभावना । हम मान लेंगे कि उसने कभी पासपोर्ट फोटो जमा नहीं किया है। विषय ए (एके जेसी), सबजेक्ट बी (एके स्टीव), एक साथी, के साथ मिलकर काम कर रहा है, जो उसे इस प्रणाली को बायपास करने में मदद कर रहा है। जेसी मॉडल हैकिंग में एक विशेषज्ञ है और स्टीव की एक नकली छवि बनाता है एक प्रणाली के माध्यम से वह बनाता है (इस पर आने के लिए बहुत अधिक)। छवि को स्टीव को तब देखना पड़ता है जब वह सरकार को प्रस्तुत करता है, लेकिन पासपोर्ट फोटो में प्रतिकूल नकली “स्टीव” के रूप में उसी व्यक्ति के रूप में जेसी को सत्यापित करने की आवश्यकता है। जब तक एक पासपोर्ट फोटो सिस्टम जेसी की लाइव फोटो को लक्ष्य नकली छवि के रूप में वर्गीकृत करता है, तब तक वह चेहरे की पहचान को बायपास नहीं कर पाएगा।

यदि यह आपको दूर की कौड़ी लगती है, तो यह जर्मन सरकार के लिए नहीं है। जर्मनी में हाल ही की नीति में मॉर्फ्ड या कंप्यूटर जनित संयुक्त तस्वीरों को स्पष्ट रूप से अस्वीकार करने के लिए क्रिया शामिल थी। जबकि इस कड़ी में जिन तकनीकों पर चर्चा की गई है, वे इस से निकट से संबंधित हैं, हमारे काम में बनाई गई दृष्टिकोण, तकनीक और कलाकृतियां व्यापक रूप से भिन्न हैं। उदाहरण के लिए, सामान्य रूप से फेस मॉर्फिंग की अवधारणाएं उपन्यास के विचार नहीं हैं; अभी तक हमारे शोध में, हम एक अधिक उन्नत, गहन शिक्षण-आधारित मॉर्फिंग दृष्टिकोण का उपयोग करते हैं, जो स्पष्ट रूप से अधिक आदिम “भारित औसत” फेस मॉर्फिंग दृष्टिकोण से अलग है।

6 महीने के दौरान, McAfee ATR के शोधकर्ता और प्रशिक्षु जेसी चिक ने अत्याधुनिक मशीन लर्निंग एल्गोरिदम का अध्ययन किया, उद्योग के कागजात पढ़े और अपनाए, और चेहरे की पहचान प्रणाली को हराने के लिए एक उपन्यास दृष्टिकोण विकसित करने के लिए McAfee की एडवांस्ड एनालिटिक्स टीम के साथ मिलकर काम किया। । आज तक, अनुसंधान ने उच्च स्तर की सफलता के साथ सफेद बॉक्स और ग्रे बॉक्स हमलों के माध्यम से प्रगति की है – हम ब्लैक बॉक्स हमलों पर अन्य शोधकर्ताओं के साथ प्रेरणा या सहयोग करने की उम्मीद करते हैं और वास्तविक दुनिया के लक्ष्यों जैसे पासपोर्ट सत्यापन प्रणाली की उम्मीदों के साथ इन निष्कर्षों का प्रदर्शन करते हैं। उन्हें सुधार रहा है।

पागलपन करने की विधि

GAN शब्द डेटा विज्ञान क्षेत्र में एक तेजी से पहचाना जाने वाला संक्षिप्त नाम है। यह जनरेटिव एडवरसरी नेटवर्क के लिए खड़ा है और एक या एक से अधिक “जेनरेटर” का उपयोग कर एक उपन्यास अवधारणा का प्रतिनिधित्व करता है जो एक या अधिक “भेदभाव करने वालों” के साथ मिलकर काम करता है। हालांकि यह डेटा साइंस का पेपर नहीं है और मैं GAN के बारे में बहुत विस्तार से नहीं जानता, इसलिए उच्च स्तर पर अवधारणा को समझना फायदेमंद होगा। आप GAN को एक कला समीक्षक और एक कला प्रधान के संयोजन के रूप में सोच सकते हैं। एक कला समीक्षक यह निर्धारित करने में सक्षम होना चाहिए कि कला का एक टुकड़ा वास्तविक है या जाली है, और कला किस गुणवत्ता की है। बेशक, केवल नकली कला बनाने की कोशिश कर रहा है जो आलोचक को बेवकूफ बनाने के लिए जितना संभव हो उतना मूल दिखता है। समय के साथ, अग्रज आलोचक को पीछे छोड़ सकते हैं, और अन्य समय में विपरीत सच हो सकता है, फिर भी अंततः लंबे समय तक, वे एक-दूसरे को अपने तरीकों को सुधारने और अनुकूलित करने के लिए मजबूर करेंगे। इस परिदृश्य में, अग्रदूत “जनरेटर” है और कला समीक्षक “भेदभाव करनेवाला” है। यह अवधारणा GAN के अनुरूप है कि जनरेटर और विभेदक दोनों एक साथ काम कर रहे हैं और एक-दूसरे का विरोध भी कर रहे हैं – जैसे कि जनरेटर एक चेहरे की एक छवि बनाता है, उदाहरण के लिए, भेदभावकर्ता निर्धारित करता है कि क्या वास्तव में उत्पन्न छवि एक चेहरे की तरह दिखती है, या यदि यह कुछ और जैसा दिखता है। यह आउटपुट को अस्वीकार कर देता है यदि यह संतुष्ट नहीं है, और प्रक्रिया शुरू हो जाती है। यह प्रशिक्षण चरण में लंबे समय के लिए दोहराया जाता है क्योंकि यह विवेचक को यह आश्वस्त करने के लिए लेता है कि जनरेटर का उत्पाद “बार को पूरा करने के लिए उच्च गुणवत्ता वाला” है।

ऐसा ही एक कार्यान्वयन जिसे हमने पहले देखा था, स्टाइलगैन, इन सटीक गुणों का उपयोग करके ऊपर दिखाए गए फोटोरिअलिस्टिक चेहरे को उत्पन्न करता है। वास्तव में, अनुसंधान दल ने स्टाइलगान का परीक्षण किया, लेकिन यह निर्धारित किया कि इसे उस कार्य के साथ संरेखित नहीं किया गया था जिसे हम प्राप्त करने के लिए निर्धारित करते हैं: फोटोरिअलिस्टिक चेहरे पैदा करना, लेकिन चेहरे के सत्यापन में एक अतिरिक्त चरण को आसानी से लागू करने में सक्षम होना। अधिक विशेष रूप से, इसकी परिष्कृत और आला वास्तुकला, चतुर चेहरे-मॉर्फिंग के हमारे उद्देश्य के लिए सफलतापूर्वक दोहन करने के लिए अत्यधिक कठिन थी। इस कारण से, हमने अपेक्षाकृत नए लेकिन शक्तिशाली GAN ढांचे के साथ जाने का विकल्प चुना जिसे CycleGAN के नाम से जाना जाता है।

CycleGAN

CycleGAN एक GAN फ्रेमवर्क है जो 2017 में एक पेपर में जारी किया गया था। यह एक GAN कार्यप्रणाली का प्रतिनिधित्व करता है जो दो जनरेटर और दो विभेदकों का उपयोग करता है, और इसके सबसे बुनियादी अर्थ में, GAN के उपयोग के माध्यम से एक छवि को दूसरे में अनुवाद करने के लिए जिम्मेदार है।

ज़ेब्रा की छवि CycleGAN के माध्यम से घोड़ों के लिए अनुवादित

CycleGAN बुनियादी ढांचे से संबंधित कुछ सूक्ष्म लेकिन शक्तिशाली विवरण हैं। हम इन पर गहराई से नहीं गए, लेकिन एक महत्वपूर्ण अवधारणा यह है कि CycleGAN छवियों के बीच अनुवाद करने के लिए उच्च स्तर की सुविधाओं का उपयोग करता है। स्टाइलगैन को छवियों में अनुवाद करने के तरीके में यादृच्छिक “शोर” या “पिक्सेल” लेने के बजाय, यह मॉडल अनुवाद के लिए छवि के अधिक महत्वपूर्ण विशेषताओं का उपयोग करता है (सिर का आकार, आंखों का स्थान, शरीर का आकार, आदि …)। यह मानव चेहरे के लिए बहुत अच्छी तरह से काम करता है, कागज के बावजूद विशेष रूप से मानव चेहरे का अनुवाद एक ताकत के रूप में नहीं कह रहा है।

फेस नेट और इंसेप्शन.नेटनेट वी 1

जबकि CycleGAN GAN मॉडल का एक उपन्यास उपयोग है, और स्वयं में इसका उपयोग कई बार छवि से छवि अनुवाद के लिए किया गया है। हमारे चेहरे की पहचान एप्लिकेशन ने छवि सत्यापन प्रणाली के साथ इस एकल मॉडल के विस्तार की आवश्यकता को सुविधाजनक बनाया। यहीं पर फेसनेट चलन में आया। टीम ने महसूस किया कि न केवल हमारे मॉडल को प्रतिकूल चित्र बनाने की आवश्यकता होगी जो कि फोटोलेस्टिक थे, इसे मूल विषय के रूप में सत्यापित करने की भी आवश्यकता होगी। जल्द ही इस पर और अधिक। फेसनेट एक फेस रिकग्निशन आर्किटेक्चर है जिसे 2015 में Google द्वारा विकसित किया गया था, और शायद अभी भी चेहरे को सटीक रूप से वर्गीकृत करने की क्षमता में इसे कला की स्थिति माना जाता है। यह एक आयाम में दो चेहरे के बीच गणितीय दूरियों को निर्धारित करने के लिए चेहरे की एम्बेडिंग नामक एक अवधारणा का उपयोग करता है। प्रोग्रामर या गणित विशेषज्ञों के लिए, 512 आयामी स्थान का उपयोग सटीक होने के लिए किया जाता है, और प्रत्येक एम्बेडिंग एक 512 आयामी सूची या वेक्टर है। बिछाने वाले व्यक्ति के लिए, उच्च स्तर के चेहरे की विशेषताओं के समान कम, चेहरे के एम्बेडिंग के अलावा और भी हैं। इसके विपरीत, चेहरे की विशेषताओं के समान, इन चेहरों को एक साथ पास किया जाता है। यह अवधारणा हमारे चेहरे की पहचान के उपयोग के लिए आदर्श है, उदाहरण के लिए, फेसनेट चेहरे बनाम व्यक्तिगत पिक्सेल की उच्च स्तरीय विशेषताओं के खिलाफ काम करता है। यह एक केंद्रीय अवधारणा है और हमारे अनुसंधान और “उथले” प्रतिकूल छवि के बीच एक महत्वपूर्ण अंतर है जो पारंपरिक रूप से इस्तेमाल किए जाने वाले एफजीएसएम, जेएसएमए, आदि का निर्माण करता है जो मानव-समझने योग्य विशेषताओं के स्तर पर संचालित एक हमले का निर्माण करता है, जहां यह शोध नया आधार तोड़ता है। ।

फेसनेट की लोकप्रियता के शीर्ष कारणों में से एक यह है कि पूर्व-प्रशिक्षित मॉडल का उपयोग करोड़ों चेहरे की छवियों पर प्रशिक्षित डेटा सेट के साथ किया जाता है। यह प्रशिक्षण एक प्रसिद्ध अकादमिक / उद्योग-मानक डेटासेट का उपयोग करके किया गया था, और ये परिणाम तुलना के लिए आसानी से उपलब्ध हैं। इसके अलावा, यह बहुत उच्च प्रकाशित सटीकता (99.63%) हासिल किया जब LFW (जंगली में लेबल चेहरे) के रूप में जाना जाता डेटा के एक बेंचमार्क सेट से 13,000 यादृच्छिक चेहरे की छवियों के सेट पर उपयोग किया जाता है। हमारे अपने इन-हाउस मूल्यांकन परीक्षण में, हमारे सटीकता परिणाम 95% के करीब थे।

अंततः, वास्तुकला को समझने के लिए एक सफेद बॉक्स के साथ शुरू करने की हमारी आवश्यकता को देखते हुए, हमने जो समाधान चुना, वह CycleGAN का एक संयोजन था और एक खुला स्रोत फेसनेट वैरिएंट आर्किटेक्चर जिसे InceptionResnet संस्करण कहा जाता है 1 डीप न्यूरल नेटवर्क्स का रेसनेट परिवार विजुअल डेटा से उच्च-स्तरीय जानकारी निकालने के लिए सीखे हुए फिल्टर का उपयोग करता है, जिसे कनवल्शन के रूप में जाना जाता है। दूसरे शब्दों में, चेहरे की पहचान में गहरी सीखने की भूमिका छवि डोमेन से एक अमूर्त विशेषता को बदलना है, अर्थात् एक विषय की पहचान, वैक्टर के डोमेन (AKA एम्बेडिंग) में इस तरह से कि वे गणितीय रूप से तर्कपूर्ण हो सकते हैं। एक ही विषय को दर्शाने वाली दो छवियों के आउटपुट के बीच “दूरी” को आउटपुट स्पेस में एक समान क्षेत्र में मैप किया जाना चाहिए, और विभिन्न विषयों को दर्शाने वाले इनपुट के लिए दो बहुत अलग क्षेत्र हैं। यह ध्यान दिया जाना चाहिए कि हमारे हमले की सफलता या विफलता इन चेहरे एम्बेडिंग के बीच की दूरी में हेरफेर करने की अपनी क्षमता पर आकस्मिक है। स्पष्ट होने के लिए, फेसनेट एक पूर्व-निर्धारित दूरी के माध्यम से डेटा प्री-प्रोसेसिंग, इनसेप्शन रेसनेट वी 1 और डेटा पृथक्करण से युक्त पाइपलाइन है।

प्रशिक्षण

जिसके पास सबसे अधिक डेटा जीतता है। यह विद्या विशेष रूप से मशीन लर्निंग के संदर्भ में प्रासंगिक है। हमें पता था कि हमले की पीढ़ी के मॉडल को सटीक रूप से प्रशिक्षित करने के लिए हमें एक बड़े पर्याप्त डेटा सेट की आवश्यकता होगी, लेकिन हमने अनुमान लगाया कि यह कई अन्य उपयोग के मामलों से छोटा होगा। इसका कारण यह है कि हमारा लक्ष्य केवल दो लोगों को लेने का था, विषय ए (जेसी) और विषय बी (स्टीव) नीचे दिए गए और फेसनेट में इनपुट किए जाने पर निर्मित दो फेस एंबेडिंग के बीच “दूरी” को कम से कम करते हुए दोनों दिशाओं में एक मिसकॉलिफिकेशन को संरक्षित करते हुए। दूसरे शब्दों में, जेसी को अपने पासपोर्ट फोटो में जेसी की तरह दिखने की जरूरत थी, और फिर भी स्टीव के रूप में वर्गीकृत किया गया, और इसके विपरीत। हम जल्द ही विस्तार से चेहरे के एम्बेडिंग और विज़ुअलाइज़ेशन का वर्णन करेंगे।

प्रशिक्षण हम में से प्रत्येक के 1500 चित्रों के सेट पर किया गया था, चित्र के रूप में लाइव वीडियो से कैप्चर किया गया था। हमने कई अभिव्यक्तियाँ और चेहरे के हावभाव प्रदान किए हैं जो प्रशिक्षण डेटा को समृद्ध बनाएंगे और एक वैध पासपोर्ट फोटो लेने के लिए किसी को प्रस्तुत करने का सही प्रतिनिधित्व करेंगे।

अनुसंधान दल ने फिर CycleGAN + FaceNet वास्तुकला को एकीकृत किया और मॉडल को प्रशिक्षित करना शुरू किया।

जैसा कि आप नीचे दी गई छवियों से देख सकते हैं, जनरेटर से प्रारंभिक आउटपुट बहुत मोटा है – ये निश्चित रूप से मनुष्य की तरह दिखते हैं (प्रकार), लेकिन वे आसानी से पहचाने जाने योग्य नहीं हैं और निश्चित रूप से बेहद स्पष्ट गड़बड़ी हैं, अन्यथा “कलाकृतियों” के रूप में जाना जाता है। । “

हालांकि, जैसा कि हम दर्जनों चक्रों या युगों में प्रशिक्षण के माध्यम से आगे बढ़ते हैं, कुछ चीजें अधिक स्पष्ट रूप से स्पष्ट हो रही हैं। विषय ए और विषय बी दोनों की विशेषताओं को एक साथ सम्मिश्रित करते हुए चेहरे कुछ असामान्यताओं को साफ करने लगते हैं। (कुछ हद तक भयावह) परिणाम कुछ इस तरह दिखते हैं:

प्रशिक्षण युगों में और भी आगे बढ़ना, और जनरेटर जनरेटर के उत्पादन से अधिक संतुष्ट होने लगा है। हां, हमें सफाई करने के लिए कुछ विवरण मिला है, लेकिन छवि विषय बी की तरह बहुत अधिक दिखाई देने लगी है।

एक दो सौ प्रशिक्षण युगों में, और हम ऐसे उम्मीदवार तैयार कर रहे हैं जो इस आवेदन के लिए बार से मिलेंगे; वे वैध पासपोर्ट फोटो के रूप में पास होंगे।

विषय B की नकली छवि

याद रखें कि इस प्रशिक्षण प्रक्रिया के माध्यम से प्रत्येक पुनरावृत्ति के साथ, परिणाम व्यवस्थित रूप से चेहरे की पहचान तंत्रिका नेटवर्क में खिलाया जाता है और विषय ए या विषय बी के रूप में वर्गीकृत किया जाता है। यह किसी भी फोटो के रूप में आवश्यक है जो दूसरे के रूप में “ठीक से गर्भपात” नहीं करता है। प्राथमिक उद्देश्यों में से एक को पूरा नहीं करना चाहिए और अस्वीकार कर दिया जाना चाहिए। यह एक उपन्यास दृष्टिकोण भी है क्योंकि बहुत कम शोध परियोजनाएं हैं जो एक GAN और एक अतिरिक्त तंत्रिका नेटवर्क को इस तरह एक सुसंगत और पुनरावृत्ति दृष्टिकोण में जोड़ती हैं।

हम नेत्रहीन ऊपर देख सकते हैं कि इस बिंदु पर उत्पन्न होने वाले चेहरे मनुष्यों को समझाने के लिए पर्याप्त वास्तविक हो रहे हैं कि वे कंप्यूटर से उत्पन्न नहीं हैं। उसी समय, पर्दे के पीछे देखते हैं और कुछ चेहरे की एम्बेडिंग विज़ुअलाइज़ेशन देखते हैं जो यह स्पष्ट करने में मदद कर सकते हैं कि यह वास्तव में कैसे काम कर रहा है।

चेहरे के एम्बेडिंग को और समझने के लिए, हम अवधारणा का अनुमान लगाने के लिए निम्नलिखित चित्रों का उपयोग कर सकते हैं। सबसे पहले, हमारे पास छवियों और प्रशिक्षण दोनों के लिए उपयोग की जाने वाली छवियां हैं। दूसरे शब्दों में, इसमें हमारे डेटा सेट से वास्तविक छवियां और नीचे दिखाए गए नकली (प्रतिकूल) उत्पन्न चित्र शामिल हैं:

मॉडल छवियां (प्रशिक्षण – Real_A और Real_B) – उत्पन्न (नकली_और Fake_A)

छवियों का यह सेट कार्रवाई में मॉडल का सिर्फ एक युग है – यहां उत्पन्न अत्यधिक यथार्थवादी नकली चित्र दिए गए हैं, यह आश्चर्यजनक रूप से मॉडल मूल्यांकन में बाद के युग नहीं है।

इन छवियों को गणितीय एम्बेडिंग के रूप में देखने के लिए, हम एक बहुआयामी विमान पर उनका प्रतिनिधित्व करने वाले एक दृश्य का उपयोग कर सकते हैं, जिसे उनके बीच की दूरी दिखाने के लिए घुमाया जा सकता है। यह देखना बहुत आसान है कि यह मॉडल एक तरफ “रियल ए” और “फेक बी” के क्लस्टर का प्रतिनिधित्व करता है, और दूसरी तरफ “रियल बी” और “फेक ए” का एक अलग क्लस्टर। यह आदर्श हमले का परिदृश्य है क्योंकि यह स्पष्ट रूप से दिखाता है कि कैसे मॉडल हमलावर की असली छवि के साथ साथी की नकली छवि को भ्रमित करेगा, हमारा अंतिम परीक्षण।

सफेद बॉक्स और ग्रे बॉक्स अनुप्रयोग

मशीन सीखने के साथ, मॉडल को प्रभावी ढंग से प्रशिक्षित करने के साथ-साथ भविष्य के अनुप्रयोगों में परिणामों को दोहराने और दोहराने में सक्षम होना चाहिए। उदाहरण के लिए, एक खाद्य छवि वर्गीकरण पर विचार करें; इसका कार्य किसी छवि में देखे गए भोजन के प्रकार को सही ढंग से पहचानना और लेबल करना है। इसका एक विशाल प्रशिक्षण सेट होना चाहिए ताकि यह पहचान सके कि एक फ्रेंच फ्राई केकड़े के पैर से अलग है, लेकिन यह भोजन की छवियों पर उस वर्गीकरण को पुन: पेश करने में सक्षम होना चाहिए जो पहले कभी बहुत उच्च सटीकता के साथ नहीं देखा गया है। हमारा मॉडल कुछ अलग है कि यह विशेष रूप से केवल दो लोगों (केवल सहायक और साथी) पर प्रशिक्षित किया जाता है, और इसका काम प्रशिक्षण के दौरान समय से पहले किया जाता है। दूसरे शब्दों में, एक बार जब हम हमलावर की एक फोटोरिलेस्टिक छवि उत्पन्न कर लेते हैं, जिसे साथी के रूप में वर्गीकृत किया जाता है, तो मॉडल का काम हो जाता है। एक महत्वपूर्ण चेतावनी यह है कि यह लोगों को सही ढंग से पहचानने और लोगों को अलग-अलग करने के लिए मज़बूती से काम करना चाहिए, बहुत कुछ जैसे चेहरे की पहचान वास्तविक दुनिया में काम करेगी।

इसके पीछे का सिद्धांत हस्तांतरणीयता की अवधारणा पर आधारित है; यदि विकास चरण में चुने गए मॉडल और विशेषताएं (सफेद बॉक्स कहा जाता है, कोड और मॉडल की आंतरिक स्थिति और पूर्व-प्रशिक्षित मापदंडों के पूर्ण उपयोग के साथ) वास्तविक दुनिया मॉडल और सुविधाओं के समान हैं (ब्लैक बॉक्स) , कोड या क्लासिफायर के लिए कोई पहुंच नहीं) एक हमले मज़बूती से हस्तांतरण होगा – भले ही अंतर्निहित मॉडल वास्तुकला बहुत अलग हो। यह वास्तव में कई लोगों के लिए एक अविश्वसनीय अवधारणा है, क्योंकि ऐसा लगता है कि एक हमलावर को प्रत्येक सुविधा, कोड की हर पंक्ति, हर इनपुट और आउटपुट को समझने की आवश्यकता होगी, यह भविष्यवाणी करने के लिए कि कोई मॉडल “प्रतिकूल इनपुट” कैसे वर्गीकृत करेगा। आखिरकार, अधिकांश भाग के लिए शास्त्रीय सॉफ्टवेयर सुरक्षा कैसे काम करती है। या तो सीधे पढ़ने या इंजीनियरिंग का एक टुकड़ा रिवर्स करने के लिए, एक हमलावर बग को ट्रिगर करने के लिए सटीक इनपुट का पता लगा सकता है। मॉडल हैकिंग (जिसे अक्सर प्रतिकूल मशीन लर्निंग कहा जाता है) के साथ, हम एक लैब में हमले विकसित कर सकते हैं और उन्हें ब्लैक बॉक्स सिस्टम में स्थानांतरित कर सकते हैं। यह काम, हालांकि, हमें सफेद बॉक्स और ग्रे बॉक्स हमलों के माध्यम से ले जाएगा, भविष्य के काम के साथ चेहरे की पहचान के खिलाफ ब्लैक बॉक्स हमलों पर ध्यान केंद्रित करेगा।

जैसा कि पहले उल्लेख किया गया है, एक सफेद बॉक्स हमला वह है जो अंतर्निहित मॉडल तक पूरी पहुंच के साथ विकसित किया गया है – या तो क्योंकि शोधकर्ता ने मॉडल विकसित किया है, या वे एक खुले स्रोत वास्तुकला का उपयोग कर रहे हैं। हमारे मामले में, हम दोनों ने ऊपर चर्चा किए गए आदर्श संयोजन की पहचान करने के लिए, विभिन्न ओपन सोर्स फेशियल रिकग्निशन मॉडल के साथ CycleGAN को एकीकृत किया। वास्तविक Google फेसनेट मालिकाना है, लेकिन इसे शोधकर्ताओं द्वारा खुले स्रोत के ढांचे के रूप में प्रभावी रूप से पुन: पेश किया गया है, जो बहुत ही समान परिणाम प्राप्त करते हैं, इसलिए हमारे रिसेप्शन v1 का उपयोग। हम मॉडल के इन संस्करणों को “ग्रे बॉक्स” कहते हैं, क्योंकि वे कहीं न कहीं सफेद बॉक्स और ब्लैक बॉक्स के बीच में हैं।

सिद्धांत से वास्तविक दुनिया में ऊपर ले जाने के लिए, हमें एक भौतिक प्रणाली को लागू करने की आवश्यकता है जो पासपोर्ट स्कैनर का अनुकरण करती है। वास्तविक लक्ष्य प्रणाली तक पहुंच के बिना, हम बस एक RGB कैमरा का उपयोग करेंगे, जैसे कि बाहरी जिसे आप घर या कार्यालय में डेस्कटॉप पर देख सकते हैं। अंतर्निहित कैमरा एक पासपोर्ट फोटो कैमरा द्वारा उपयोग की जाने वाली तकनीक के समान है। पासपोर्ट कैमरा क्या कर रहा है, यह निर्धारित करने के लिए कुछ अनुमानों की आवश्यकता है, इसलिए हम कुछ शिक्षित स्वतंत्रता लेते हैं। पहली बात यह है कि लाइव वीडियो से प्रत्येक व्यक्तिगत फ्रेम को प्रोग्रामेटिक रूप से कैप्चर करें और उनके उपयोग की अवधि के लिए उन्हें मेमोरी में सेव करें। उसके बाद, हम कुछ छवि परिवर्तनों को लागू करते हैं, उन्हें एक छोटे आकार और पासपोर्ट-शैली के फोटो के उपयुक्त रिज़ॉल्यूशन पर स्केल करते हैं। अंत में, हम अपने द्वारा बनाए गए अंतर्निहित प्रीट्रेनड मॉडल के प्रत्येक फ्रेम को पास करते हैं और यह निर्धारित करने के लिए पूछते हैं कि यह जो चेहरा विश्लेषण कर रहा है वह विषय ए (हमलावर), या विषय बी (साथी) है। मॉडल को दोनों की पर्याप्त छवियों और विविधताओं पर प्रशिक्षित किया गया है, यहां तक ​​कि आसन, स्थिति, हेयर स्टाइल और अधिक में परिवर्तन भी अभी भी एक विकृति का कारण होगा। यह ध्यान देने योग्य है कि इस हमले की विधि में, हमलावर और साथी एक साथ काम कर रहे हैं और संभवतः मॉडल सेट किए गए डेटा में मूल छवियों के समान संभव दिखने की कोशिश करेंगे, क्योंकि यह समग्र गर्भनिरोधक आत्मविश्वास को बढ़ाएगा।

द डेमोस

निम्नलिखित डेमो वीडियो हमारे ग्रे बॉक्स मॉडल का उपयोग करके इस हमले को प्रदर्शित करते हैं। आइए इन वीडियो में 3 खिलाड़ियों को पेश करें। तीनों में, स्टीव अब हमलावर है, सैम हमारा यादृच्छिक परीक्षण व्यक्ति है, और जेसी हमारा साथी है। पहले सकारात्मक परीक्षण दिखाएगा।

सकारात्मक परीक्षण:

यह स्टीव के स्क्रीन के दाईं ओर एक वास्तविक, गैर-उत्पन्न छवि का उपयोग करता है (अब हमारे हमलावर के रूप में कार्य करता है)। हमारे यादृच्छिक परीक्षण व्यक्ति (सैम), पहले लाइव “पासपोर्ट सत्यापन कैमरा” के सामने खड़े होते हैं और स्टीव की वास्तविक छवि के खिलाफ तुलना की जाती है। उन्हें निश्चित रूप से विभिन्न के रूप में वर्गीकृत किया जाना चाहिए। अब स्टीव कैमरे के सामने खड़ा है और मॉडल सही ढंग से उसकी तस्वीर के खिलाफ पहचान करता है, जो मूल और अनछुए डेटा सेट से लिया गया है। यह साबित करता है कि सिस्टम स्टीव को खुद की पहचान कर सकता है।

नकारात्मक परीक्षण:

अगला नकारात्मक परीक्षण है, जहां सिस्टम जेसी की एक वास्तविक तस्वीर के खिलाफ सैम का परीक्षण करता है। उसे सही ढंग से अलग-अलग वर्गीकृत किया गया है, जैसा कि अपेक्षित था। तब स्टीव सिस्टम के सामने खड़ा होता है और नकारात्मक परीक्षण की पुष्टि करता है, यह दर्शाता है कि मॉडल गैर-प्रतिकूल परिस्थितियों में लोगों को सही ढंग से अलग करता है।

प्रतिकूल परीक्षण:

अंत में, तीसरे वीडियो में, सैम के खिलाफ मूल्यांकन किया जाता है विरोधात्मक, या जेसी की नकली छवि, हमारे मॉडल द्वारा उत्पन्न। चूंकि सैम गर्भपात का कारण बनने के लिए डिज़ाइन किए गए CycleGAN प्रशिक्षण सेट का हिस्सा नहीं था, इसलिए उसे फिर से अलग दिखाया गया। अंत में, हमारे हमलावर स्टीव लाइव कैमरे के सामने खड़े हैं और जेसी (अब साथी) के रूप में सही ढंग से मिसकॉल किए गए हैं। क्योंकि मॉडल को जेसी या स्टीव के लिए प्रतिकूल छवि के लिए प्रशिक्षित किया गया था, इस मामले में हमने जेसी को नकली / प्रतिकूल छवि के रूप में चुना।

अगर इस परिदृश्य में किसी इंसान को पूरी तरह से बदलने के लिए पासपोर्ट-स्कैनर होता है, तो यह विश्वास करेगा कि यह सही ढंग से मान्य था कि हमलावर पासपोर्ट डेटाबेस में उसी व्यक्ति के रूप में संग्रहीत किया गया था। यह देखते हुए कि साथी नो-फ्लाई सूची में नहीं है और उसके पास कोई अन्य प्रतिबंध नहीं है, हमलावर इस आवश्यक सत्यापन कदम को दरकिनार कर सकता है और विमान पर चढ़ सकता है। यह ध्यान देने योग्य है कि एक व्यक्ति को संभवतः साथी और हमलावर के बीच अंतर दिखाई देगा, लेकिन यह शोध केवल एआई और एमएल पर निर्भरता से जुड़े अंतर्निहित जोखिमों से दूर है, बिना रक्षा-गहराई या बाहरी मान्यता प्रदान किए, जैसे कि एक इंसान को मान्य करने के लिए।

सकारात्मक टेस्ट वीडियो – एक व्यक्ति को खुद को पहचानने की क्षमता की पुष्टि करना

नकारात्मक टेस्ट वीडियो – लोगों को अलग बताने की क्षमता की पुष्टि करना

एडवांसरियल टेस्ट वीडियो – एडवरसैरियल इमेज के साथ Misclassify करने की क्षमता की पुष्टि करना

हमने क्या सीखा?

बायोमेट्रिक्स व्यक्तियों को प्रमाणित करने या सत्यापित करने के लिए एक तेजी से भरोसा करने वाली तकनीक है और कई मामलों में प्रभावी रूप से पासवर्ड और अन्य संभावित अविश्वसनीय प्रमाणीकरण विधियों की जगह ले रहे हैं। हालांकि, चेहरा पहचान मॉडल के रहस्यमय आंतरिक यांत्रिकी में मौजूद अंतर्निहित सुरक्षा खामियों पर विचार किए बिना स्वचालित प्रणालियों और मशीन सीखने पर निर्भरता साइबर अपराधियों को स्वचालित पासपोर्ट प्रवर्तन जैसी महत्वपूर्ण प्रणालियों को बायपास करने की अद्वितीय क्षमता प्रदान कर सकती है। हमारे ज्ञान के लिए, इस शोध के लिए हमारा दृष्टिकोण मॉडल हैकिंग और चेहरे की पहचान के पहले प्रकार के आवेदन का प्रतिनिधित्व करता है। डेटा विज्ञान और सुरक्षा अनुसंधान की शक्ति का लाभ उठाकर, हम इन महत्वपूर्ण प्रणालियों के विक्रेताओं और कार्यान्वयनकर्ताओं के साथ मिलकर काम करते हैं, जो इन प्रणालियों को कमजोर करने वाले अंतराल को बंद करते हुए, जमीन से सुरक्षा को डिजाइन करने के लिए इन महत्वपूर्ण प्रणालियों के कार्यान्वयन के साथ काम करते हैं। कार्रवाई के लिए एक कॉल के रूप में, हम समुदाय को एक मानक के लिए देखते हैं जिसके द्वारा मशीन के सीखने की प्रणालियों की विश्वसनीयता के बारे में औपचारिक रूप से प्रतिकूल नमूनों की उपस्थिति में कारण हो सकता है। कंप्यूटर सुरक्षा के कई वर्टिकल में ऐसे मानक मौजूद हैं, जिनमें क्रिप्टोग्राफी, प्रोटोकॉल, वायरलेस रेडियो फ्रीक्वेंसी और बहुत कुछ शामिल हैं। यदि हम एक ब्लैक बॉक्स को प्रमाणीकरण जैसे महत्वपूर्ण कार्यों को जारी रखना चाहते हैं, तो हमारे पास प्रतिकूल परिस्थितियों में इसकी लचीलापन और प्रदर्शन के लिए स्वीकार्य सीमा निर्धारित करने के लिए बेहतर ढांचा है।

McAfee Advanced Threat Research के शोध प्रयासों के बारे में अधिक जानकारी के लिए कृपया हमारे ब्लॉग का अनुसरण करें या हमारी वेबसाइट देखें।