How Cambridge Analytica’s Facebook Targeting Model Really Workedما مدى الدقة التي يمكنك تحديدها على الإنترنت؟ أندرو Krasovitckii / Shutterstock.com

الباحث الذي يكون عمله في مركز Facebook-Cambridge Analytica data analysis and political advertising uproar وقد كشفت أن أسلوبه عمل يشبه إلى حد كبير يستخدم Netflix للتوصية بالأفلام.

في رسالة بريد إلكتروني لي ، شرح الباحث في جامعة كامبردج ألكسندر كوغان كيف قام نموذجه الإحصائي بمعالجة بيانات فيسبوك لـ Cambridge Analytica. الدقة التي يدعي أنها تقترح أنها تعمل كذلك طرق الاستهداف الخاصة بالناخبين على أساس التركيبة السكانية مثل العرق والعمر والجنس.

إذا تم التأكيد ، فإن حساب Kogan يعني أن النمذجة الرقمية التي استخدمها Cambridge Analytica كانت بالكاد كرة الكريستال الظاهري ادعى عدد قليل. بعد الأرقام التي يوفرها كوغان كما تظهر ما هو - وليس - ممكن فعلا by الجمع بين البيانات الشخصية مع التعلم الآلي للأهداف السياسية.

فيما يتعلق بشاغل عام رئيسي واحد ، على الرغم من ذلك ، تشير أرقام كوغان إلى أن المعلومات حول شخصيات المستخدمين أو "التخطيط الشخصي"كان مجرد جزء متواضع من كيفية استهداف النموذج للمواطنين. لم يكن نموذجًا شخصيًا بالمعنى الدقيق للكلمة ، بل كان نموذجًا يغفل العوامل الديموغرافية والتأثيرات الاجتماعية والشخصية وكل شيء آخر في كتلة كبيرة مترابطة. يبدو أن هذا النهج القائم على الترابط والاتصال بين شخصيتك قد أنشأ أداة حملة قيّمة ، حتى لو لم يكن المنتج الذي تم بيعه كما هو فاتورة.


innerself subscribe graphic


الوعد باستهداف الشخصية

في أعقاب الكشف عن أن استشاري حملة ترامب استخدم كامبردج أناليتيكا البيانات من 50 مليون مستخدم Facebook لاستهداف الإعلان السياسي الرقمي خلال الانتخابات الرئاسية الأمريكية في 2016 ، Facebook المليارات المفقودة في قيمة سوق الأوراق الماليةوالحكومات على جانبي المحيط الأطلسي لديك فتحت التحقيقات، وليدة حركة اجتماعية تدعو المستخدمين إلى #DeleteFacebook.

لكن السؤال الرئيسي بقي دون إجابة: هل كان كامبريدج أناليتيكا قادراً فعلاً على توجيه رسائل الحملة إلى المواطنين بفعالية استناداً إلى خصائص شخصيتهم - أو حتى "هم".الشياطين الداخلية"، كما زعم شركة المبلغين؟

إذا كان أي شخص يعرف ما فعلته كامبريدج أناليتيكا ببياناتها الضخمة من فيسبوك ، فسيكون ألكسندر كوغان وجوزيف تشانسلور. كان بدء البحث العلمي العالمي التي جمعت معلومات الملف الشخصي من مستخدمو 270,000 Facebook وعشرات الملايين من أصدقائهم باستخدام تطبيق اختبار شخصية يسمى "thisisyourdigitallife".

جزء من بحثي الخاص يركز على الفهم آلة التعلم أساليب و كتابي القادم يناقش كيف تستخدم الشركات الرقمية نماذج التوصية لبناء الجماهير. كان لدي حدس حول كيفية عمل نموذج كوغان والمستشار.

لذلك أنا عبر البريد الإلكتروني كوغان أن نسأل. كوجان لا يزال باحث في جامعة كامبريدج. المتعاون معه يعمل الآن المستشار في فيس بوك. في عرض رائع من المجاملة الأكاديمية ، أجاب كوغان.

رده يتطلب بعض تفريغ ، وبعض الخلفية.

من جائزة Netflix إلى "psychometrics"

مرة أخرى في 2006 ، عندما كانت لا تزال شركة DVD-by-mail ، عرضت Netflix مكافأة قدرها 1 مليون دولار إلى أي شخص طور طريقة أفضل لعمل تنبؤات حول تصنيفات أفلام المستخدمين مقارنةً بما كان لدى الشركة من قبل. وكان منافس أعلى مفاجأة مطور برامج مستقل يستخدم الاسم المستعار سايمون فونكالتي تم دمج نهجها الأساسي في النهاية في جميع مشاركات الفرق العليا. قام فونك بتكييف تقنية تسمى "قيمة التحلل المفرد"بتكثيف تقييمات المستخدمين للأفلام إلى سلسلة من العوامل أو المكونات - في الأساس مجموعة من الفئات المستنتجة ، مرتبة حسب الأهمية. كما فونك وأوضح في بلوق وظيفة,

"وهكذا ، على سبيل المثال ، قد تمثل فئة أفلام الحركة ، مع أفلام بها الكثير من الحركة في الجزء العلوي ، وأفلام بطيئة في الجزء السفلي ، وبالمقابل المستخدمون الذين يحبون أفلام الحركة في القمة ، وأولئك الذين يفضلون الأفلام البطيئة في الأسفل."

العوامل هي فئات اصطناعية ، ليست دائمًا مثل أنواع الفئات التي سيأتي بها البشر. ال أهم عامل في نموذج Funk في وقت مبكر من Netflix تم تعريفه من قبل المستخدمين الذين يحبون الأفلام مثل "بيرل هاربور" و "مخطط الزفاف" بينما يكرهون أفلامًا مثل "Lost in Translation" أو "Sunlight of the Spotless Mind". أظهر نموذجه كيف يمكن أن يجد التعلم الآلي ارتباطات بين مجموعات الناس ، ومجموعات من الأفلام ، لن يكتشفها البشر أنفسهم.

استخدم منهج فانك العام 50 أو 100 أكثر العوامل أهمية لكل من المستخدمين والأفلام لجعل التخمين لائق في كيفية تقييم كل مستخدم كل فيلم. هذه الطريقة ، وغالبا ما تسمى تخفيض الأبعاد أو معامل المصفوفة ، لم يكن جديدا. وقد أظهر باحثو العلوم السياسية ذلك تقنيات مماثلة باستخدام بيانات التصويت بنداء الأسماء يمكن التنبؤ بأصوات أعضاء الكونغرس مع دقة نسبة 90. في علم النفس "كفككما تم استخدام نموذج للتنبؤ السلوك عن طريق تجميع الأسئلة الشخصية التي تميل إلى أن يتم الإجابة بشكل مماثل.

ومع ذلك ، كان نموذج Funk يمثل تقدمًا كبيرًا: فقد سمح لهذه التقنية بالعمل بشكل جيد مع مجموعات البيانات الضخمة ، حتى تلك التي تحتوي على الكثير من البيانات المفقودة - مثل مجموعة البيانات Netflix ، حيث قام مستخدم نموذجي بتصنيف عشرات الأفلام فقط من بين الآلاف في الشركة مكتبة. بعد أكثر من عقد من انتهاء مسابقة جائزة نيتفليكس ، طرق مبنية على SVDالطرق أو النماذج ذات الصلة للبيانات الضمنية، لا تزال الأداة المفضلة للعديد من مواقع الويب للتنبؤ بما سيقرأه المستخدمون أو يشاهدونه أو يشترونه.

يمكن لهذه النماذج التنبؤ بأشياء أخرى أيضًا.

يعرف Facebook ما إذا كنت جمهوريًا

في 2013 ، قام باحثون من جامعة كامبريدج ميخائيل كوسينسكي ودافيد ستيلويل وثور كوربيل بنشر مقالة حول القوة التنبؤية لبيانات الفيسبوك، باستخدام المعلومات التي تم جمعها من خلال اختبار شخصية على الإنترنت. كان تحليلهم الأولي مشابهاً تقريبًا لتلك المستخدمة في جائزة Netflix ، باستخدام SVD لتصنيف كلا المستخدمين والأشياء التي "أحبوها" في أهم عوامل 100.

وأوضحت الصحيفة أن نموذج عامل تم صياغته باستخدام "إبداءات الإعجاب" الخاصة بـ Facebook هو وحده 95 في المئة دقيقة عند التمييز بين المستجيبين من السود والأبيض ، تكون نسبة 93 دقيقة في تمييز الرجال عن النساء ، ودقة 88 في تحديد الأشخاص الذين حددوا الرجال المثليين من الرجال الذين حددتهم على أنهم مستقيمون. حتى أنه يمكن أن يميز بشكل صحيح الجمهوريين من الديمقراطيين 85 في المئة من الوقت. كان من المفيد أيضا ، ولكن ليس دقيقا ، ل توقع نتائج المستخدمين على اختبار شخصية "الخمسة الكبار".

كان هناك غضب شعبي عارم كرد. في غضون أسابيع كان الفيسبوك جعل المستخدمين يحب الخاص بشكل افتراضي.

بدأ كوغان والمستشار ، الباحثين في جامعة كامبردج في ذلك الوقت ، في استخدام بيانات Facebook لاستهداف الانتخابات كجزء من التعاون مع شركة SCL الأم لشركة Cambridge Analytica. دعا كوغان كوسينسكي و ستيلويل للانضمام إلى مشروعه ، لكن لم ينجح. وأفيد أن Kosinski يشتبه Kogan والمستشار قد يكون عكست نموذج "إبداءات الإعجاب" على Facebook لكامبريدج Analytica. نفى كوغان ذلك قائلا إن مشروعه "بنيت جميع موديلاتنا باستخدام البيانات الخاصة بنا ، والتي تم تجميعها باستخدام برنامجنا الخاص. "

ماذا فعل كوغان والمستشار في الواقع؟

أثناء متابعتي للتطورات في القصة ، أصبح من الواضح أن كوغان والمستشار قد جمعا الكثير من البيانات الخاصة بهما من خلال تطبيق thisyyourdigitallife. من المؤكد أنهم استطاعوا بناء نموذج SVD تنبؤية مثل ذلك الذي ظهر في أبحاث Kosinski و Stillwell المنشورة.

لذلك بعثت عبر البريد الإلكتروني كوغان للسؤال عما إذا كان هذا هو ما فعله. إلى حد ما لدهشتي ، وكتب مرة أخرى.

"لم نستخدم بالضبط SVD" ، كما كتب ، مشيرا إلى أن SVD يمكن أن يناضل عندما يكون لدى بعض المستخدمين "إبداءات" أكثر من الآخرين. وبدلاً من ذلك ، أوضح كوغان ، "كانت هذه التقنية شيئًا طورناه بأنفسنا ... ليس شيئًا في المجال العام". وبدون الدخول في التفاصيل ، وصف كوغان طريقتهم بأنها "خطوة متعددة شارك في حدوث مقاربة."

ومع ذلك ، استمرت رسالته للتأكيد على أن أسلوبه يشبه بالفعل طريقة SVD أو غيرها من طرق توصيف المصفوفة ، كما هو الحال في مسابقة Netflix ، ونموذج Facebook - Kosinki-Stillwell-Graepel. كان الحد من أبعاد بيانات فيسبوك أساس نموذجه.

ما مدى دقة ذلك؟

اقترح كوغان أن النموذج الدقيق المستخدم لا يهم كثيرًا ، على الرغم من أن ما يهم هو دقة تنبؤاته. وفقا ل Kogan ، فإن "العلاقة بين الدرجات المتوقعة والفعلية كانت حول [30 في المئة] لجميع أبعاد الشخصية." بالمقارنة ، كانت نتائج الخمس الكبار السابقة للشخص حول 70 إلى 80 في المئة دقيقة في التنبؤ بعلاماتهم عند استعادة الاختبار.

لا يمكن التحقق من صحة مطالبات الدقة كوغان ، بطبيعة الحال. وأي شخص في خضم مثل هذه الفضيحة الكبيرة قد يكون لديه الحافز لتقليص مساهمته. في ظهور على سي إن إن، أوضح كوغان لأندرسون كوبر المثير للدهشة بشكل متزايد أن النماذج في الواقع لم تعمل بشكل جيد.

{youtube} APqU_EJ5d3U {/ youtube}

ألكسندر كوغان يجيب على أسئلة على سي إن إن.

في الواقع ، يبدو أن دقة مطالبات كوغان منخفضة بعض الشيء ، لكنها معقولة. أفاد Kosinski ، Stillwell و Graepel نتائج مماثلة أو أفضل قليلا ، كما عدة دراسات أكاديمية أخرى استخدام بصمات رقمية للتنبؤ بالشخصية (على الرغم من أن بعض هذه الدراسات كانت تحتوي على بيانات أكثر من مجرد "إبداءات الإعجاب" من Facebook). من المدهش أن كوغان والمستشار سيواجهان صعوبة في تصميم نموذج خاص بهما إذا ما بدت الحلول الجاهزة على نفس القدر من الدقة.

الأهم من ذلك ، على الرغم من دقة النموذج على درجات شخصية تسمح بمقارنة نتائج كوغان مع البحوث الأخرى. النماذج التي يتم نشرها بدقة متساوية في التنبؤ بالشخصية تكون أكثر دقة في تخمين العوامل الديموغرافية والمتغيرات السياسية.

على سبيل المثال ، كان نموذج Kosinski-Stillwell-Graepel SVD مماثل دقيقًا بنسبة 85 في تخمين الانتماء الحزبي ، حتى بدون استخدام أي معلومات للملف الشخصي بخلاف إبداءات الإعجاب. نموذج كوغان كان له دقة مماثلة أو أفضل. إضافة كمية صغيرة من المعلومات حول الأصدقاء أو التركيبة السكانية للمستخدمين من المرجح أن تعزز هذه الدقة أعلى من 90 في المئة. من المحتمل أن تكون التخمينات المتعلقة بالجنس والعرق والتوجه الجنسي وغيرها من الخصائص أكثر من نسبة 90 في الدقيقة أيضًا.

بشكل حاسم ، ستكون هذه التخمينات مفيدة بشكل خاص لمستخدمي Facebook الأكثر نشاطًا - الأشخاص الذين تم استخدام النموذج بشكل أساسي لاستهدافهم. من غير المحتمل أن يكون المستخدمون الذين لديهم نشاط أقل في التحليل على Facebook كثيرًا.

عندما يكون علم النفس السيكولوجي في الغالب ديموغرافيًا

إن معرفة كيفية بناء النموذج يساعد على توضيح تصريحات كامبردج أناليتيكا المتناقضة فيما يبدو دور - أو عدم وجودها - أن شخصية التنميط وعلم النفس لعبت في النمذجة. انهم جميعا من الناحية الفنية متسقة مع ما يصفه كوغان.

نموذج مثل كوغان يعطي تقديرات لكل متغير متاح على أي مجموعة من المستخدمين. هذا يعني أنه سيتم تلقائيا تقدير درجات الشخصية الخمسة الكبار لكل ناخب ولكن هذه الدرجات الشخصية هي ناتج النموذج ، وليس المدخلات. يعرف كل النموذج أن بعض إبداءات الإعجاب على Facebook ، وبعض المستخدمين ، تميل إلى التجميع معًا.

مع هذا النموذج ، يمكن أن يقول كامبريدج أناليتيكا أنه كان يعرف الأشخاص الذين يعانون من انفتاح منخفض على الخبرة وارتفاع العصابية. لكن النموذج نفسه ، مع نفس التوقعات لكل مستخدم ، يمكن أن يدعي بنفس القدر أنه يحدد هوية كبار رجال الجمهوريين الأقل تعليما.

كما تساعد معلومات كوغان في توضيح الارتباك حول ما إذا كانت كامبريدج أناليتيكا في الواقع حذف دماغها من بيانات Facebook ، عند إنشاء النماذج من البيانات يبدو لا يزال يجري تداولها، وحتى يجري تطويرها بشكل أكبر.

The Conversationتتمثل النقطة الكاملة لنموذج تقليل الأبعاد في تمثيل البيانات بطريقة أبسط رياضيًا. يبدو الأمر كما لو أن كامبردج أناليتيكا التقطت صورة ذات دقة عالية جدًا ، ثم غيّر حجمها لتصبح أصغر حجمًا ، ثم حذفت الصورة الأصلية. لا تزال الصورة موجودة - وطالما كانت نماذج كامبريدج أناليتيكا موجودة ، فإن البيانات تفعل ذلك أيضًا بشكل فعال.

نبذة عن الكاتب

ماثيو هيندمان ، أستاذ مشارك في الإعلام والشؤون العامة ، جامعة جورج واشنطن

تم نشر هذه المقالة في الأصل المحادثة. إقرأ ال المقال الأصلي.

كُتبٌ ذاتُ صِلَةٍ

at سوق InnerSelf و Amazon