كيف يمكن لأصدقائك على تويتر أن يعطيك عدم الكشف عن هويتك

أثناء تصفحك للإنترنت ، يتتبع المعلنون عبر الإنترنت تقريبا كل موقع تزوره، جمع دوي من المعلومات حول عاداتك وتفضيلاتك. عندما تزور موقعًا إخباريًا ، قد ترى أنك من محبي روايات كرة السلة والأوبرا والغموض ، وبالتالي اختر الإعلانات المصممة خصيصًا لأذواقك.

يستخدم المعلنون هذه المعلومات لإنشاء تجارب مخصصة للغاية ، لكنهم لا يعرفون عادةً من أنت. يلاحظون فقط دربك الرقمي ، وليس هويتك نفسها ، ولذا قد تشعر أنك احتفظت بدرجة من عدم الكشف عن هويتك.

ولكن في ورقة شاركت فيها مع Ansh Shukla و Sharad Goel و Arvind Narayananنبين أن سجلات تصفح الويب المجهولة هذه يمكن في الواقع أن تكون مرتبطة بالهويات الحقيقية.

لاختبار نهجنا ، قمنا ببناء موقع على شبكة الانترنت حيث يمكن للناس التبرع بمحفوظات الاستعراض الخاصة بهم لأغراض هذه الدراسة. حاولنا بعد ذلك معرفة ما إذا كان بإمكاننا ربط تواريخهم مرة أخرى بملفاتهم الشخصية على Twitter باستخدام البيانات المتاحة للجمهور فقط. تم تحديد 72 في المئة من الأشخاص الذين حاولنا تحديد أسمائهم بشكل صحيح كأفضل مرشح في نتائج البحث ، وكان 81 في المئة من بين أفضل المرشحين 15.

privacy2 2 8لقطات من موقع deanonymization.

هذا ، على حد علمنا ، هو أكبر عرض توضيحي لعملية إخفاء الهوية حتى الآن ، لأنه يختار المستخدم الصحيح من مئات الملايين من مستخدمي تويتر المحتملين. بالإضافة إلى ذلك ، تتطلب الطريقة التي نتبعها فقط أن ينقر شخص ما على الروابط التي تظهر في خلاصات الشبكات الاجتماعية الخاصة به ، وليس أنه ينشر أي محتوى - لذلك حتى الأشخاص الذين يحرصون على ما يشاركونه على الإنترنت لا يزالون عرضة لهذا الهجوم.


رسم الاشتراك الداخلي


كيف يعمل

على مستوى عال ، يقوم نهجنا على ملاحظة بسيطة. كل شخص لديه شبكة اجتماعية مميزة للغاية ، تضم العائلة والأصدقاء من المدرسة والعمل ومراحل مختلفة من حياتهم. ونتيجة لذلك ، فإن مجموعة الروابط في خلاصات Facebook و Twitter مميزة للغاية. يؤدي النقر على هذه الروابط إلى ترك علامة حكاية في سجل التصفح.

وبالنظر إلى مجموعة صفحات الويب التي زارها شخص ما ، تمكنا من اختيار خلاصات الشبكات الاجتماعية المماثلة ، مما أسفر عن قائمة من المرشحين الذين حققوا على الأرجح تاريخ تصفح الويب هذا. وبهذه الطريقة ، يمكننا ربط هوية الشخص الحقيقية بمجموعة الروابط الكاملة التي قاموا بزيارتها ، بما في ذلك الروابط التي لم يتم نشرها على أي موقع من مواقع التواصل الاجتماعي.

يشمل تنفيذ هذه الاستراتيجية تحديين رئيسيين. الأول هو النظري: كيف تحدد مدى تشابه تغذية وسائط اجتماعية محددة مع سجل تصفح ويب معين؟ إحدى الطرق البسيطة هي قياس كسر الروابط في سجل التصفح الذي يظهر أيضًا في الخلاصة. يعمل هذا بشكل جيد في الممارسة العملية ، لكنه يبالغ في التشابه مع الأعلاف الكبيرة ، حيث أن تلك تحتوي ببساطة على مزيد من الروابط. نحن بدلا من ذلك نأخذ نهجا بديلا. فنحن نفترض نموذجًا محكّماً ومنطقيًا لسلوك تصفح الويب ، ثم نحسب احتمالية إنشاء مستخدم له خلاصة وسائل التواصل الاجتماعي سجل التصفح المرصود. ثم نختار خلاصة الشبكات الاجتماعية الأكثر احتمالا.

التحدي الثاني ينطوي على تحديد أغذية متشابهة في الوقت الحقيقي. هنا ننتقل إلى تويتر ، لأن تغذيات تويتر (على النقيض من Facebook) عامة إلى حد كبير. ومع ذلك ، على الرغم من أن الخلاصات عامة ، لا يمكننا ببساطة إنشاء نسخة محلية من Twitter يمكننا من خلالها تشغيل طلباتنا. بدلاً من ذلك ، نطبق سلسلة من الأساليب لتقليل مساحة البحث بشكل كبير. ثم نقوم بعد ذلك بالجمع بين تقنيات التخزين المؤقت وعمليات الزحف عند الطلب لإنشاء شبكة من أكثر المرشحين الواعدين. في هذه المجموعة المخفضة من المرشحين ، نطبق مقياس التشابه لدينا لإنتاج النتائج النهائية. بالنظر إلى سجل التصفح ، يمكننا تنفيذ هذه العملية بالكامل في أقل من 60 من الثواني.

طريقتنا أكثر دقة للأشخاص الذين يتصفحون تويتر بشكل أكثر نشاطًا. يمكن مطابقة 90٪ من المشاركين الذين نقروا على 100 أو المزيد من الروابط على Twitter مع هويتهم.

العديد من الشركات لديها موارد تتبع لتنفيذ هجوم كهذا ، حتى بدون موافقة المشارك. لقد حاولنا اختزال اسم كل مشارك من المشاركين في التجربة باستخدام أجزاء محفوظات الاستعراض التي كانت مرئية لشركات تتبع محددة (لأن الشركات لديها برامج تتبع على تلك الصفحات). وجدنا أن العديد من الشركات لديها الموارد لتحديد المشاركين بدقة.

الخصوصية 2 8دراسات أخرى حول deanonymization

استخدمت العديد من الدراسات الأخرى بصمات الأقدام المتوفرة للعامة لإضفاء الطابع الهندسي على البيانات الحساسة.

ربما تم تنفيذ الدراسة الأكثر شهرة على طول هذه الخطوط من قبل لاتانيا سويني في جامعة هارفارد في 2002. اكتشفت ذلك كانت نسبة 87 في المئة من الأمريكيين محددة بشكل فريد استنادًا إلى مزيج من الرمز البريدي والجنس وتاريخ الميلاد. وكانت هذه الصفات الثلاثة متوفرة في كل من بيانات تسجيل الناخبين العامة (التي اشترتها مقابل 20 دولار أمريكي) والبيانات الطبية المجهولة (التي تم توزيعها على نطاق واسع ، لأن الناس ظنوا أن البيانات مجهولة الهوية). من خلال ربط مصادر البيانات هذه ، وجدت السجلات الطبية لحاكم ولاية مساتشوستس.

في 2006، شارك Netflix في مسابقة لتحسين جودة توصيات الأفلام. أصدروا مجموعة بيانات مجهولة المصدر من تصنيفات الأفلام الشعبية ، وعرضت $ 1 مليونًا للفريق الذي يمكنه تحسين خوارزمية التوصية الخاصة بهم بنسبة 10 في المائة. علماء الكمبيوتر ارفيند نارايانان و فيتالي شماتيكوف لاحظت أن الأفلام التي شاهدها الأشخاص كانت مميزة للغاية ، وكان معظم الأشخاص في مجموعة البيانات قابلين للتمييز بشكل فريد بناءً على مجموعة فرعية صغيرة من أفلامهم. بعبارة أخرى ، استنادًا إلى خيارات أفلام Netflix ومراجعات IMDB ، تمكّن الباحثون من تحديد من هم مستخدمو Netflix فعلاً.

مع ظهور وسائل الإعلام الاجتماعية ، يتشارك المزيد والمزيد من الناس المعلومات التي تبدو غير ضارة ، ولكنها تكشف في الواقع الكثير من المعلومات الشخصية. دراسة بقيادة ميكال كوسينسكي في جامعة كامبردج استخدم Facebook يحب التنبؤ بالناس التوجه الجنسي والآراء السياسية والسمات الشخصية.

فريق آخر ، بقيادة جيلبرت ووندراك في جامعة فيينا للتكنولوجيا ، أنشأ "آلة deanonymization" التي حددت مجموعات الأشخاص الذين كانوا جزءًا من الشبكة الاجتماعية شينغ ، واستخدموا ذلك لمعرفة من هم - لأن المجموعات التي تشارك فيها غالباً ما تكون كافية للتعرف بشكل فريد أنت.

ما تستطيع فعله

معظم هذه الهجمات صعبة للدفاع عنها ، ما لم تتوقف عن استخدام الإنترنت أو المشاركة في الحياة العامة.

حتى إذا توقفت عن استخدام الإنترنت ، فلا يزال بإمكان الشركات جمع بيانات عنك. إذا قام العديد من أصدقائك بتحميل جهات الاتصال الخاصة بهم على الهاتف إلى Facebook ، وكان رقمك موجودًا في كافة قوائم جهات الاتصال الخاصة بهم ، فيمكن لـ Facebook إجراء تنبيهات عنك ، حتى إذا لم تكن تستخدم خدمتهم.

إن أفضل طريقة للدفاع ضد خوارزميات deanonymizing مثل خوارزمياتنا هي تحديد مجموعة الأشخاص الذين يمكنهم الوصول إلى بيانات التصفح المجهولة. ملحقات المستعرض مثل Ghostery حجب تعقب الطرف الثالث. وهذا يعني أنه على الرغم من أن الشركة التي تزور موقع الويب الخاص بها ستعرف أنك تزورها ، فلن تتمكن الشركات الإعلانية التي تعرض الإعلانات على صفحتها من جمع بيانات التصفح وتجميعها عبر مواقع متعددة.

إذا كنت مشرف موقع ، فيمكنك المساعدة في حماية المستخدمين من خلال السماح لهم بتصفح موقعك باستخدام HTTPS. يتيح التصفح باستخدام HTTP للمهاجمين الحصول على محفوظات الاستعراض الخاصة بك عن طريق استنفاذ حركة مرور الشبكة ، مما يتيح لهم تنفيذ هذا الهجوم. تحولت العديد من مواقع الويب بالفعل إلى HTTPS ؛ عندما كررنا تجربة deanonymization لدينا من منظور الشم حركة المرور على الشبكة ، يمكن فقط DInMediax 31 في المئة من المشاركين.

ومع ذلك ، هناك القليل جدا يمكنك القيام به لحماية نفسك ضد هجمات التهديد بشكل عام ، وربما أفضل طريقة للعمل هو ضبط توقعات المرء. لا شيء خاص في هذا العصر الرقمي.

نبذة عن الكاتب

جيسيكا سو ، دكتوراه طالب في ستانفورد ، جامعة ستانفورد

تم نشر هذه المقالة في الأصل المحادثة. إقرأ ال المقال الأصلي.

كُتبٌ ذاتُ صِلَةٍ

at سوق InnerSelf و Amazon