One Reason Some Scientific Studies May Be Wrong

هناك أزمة التكرار في العلم - غير معروفة "ايجابيات كاذبة" هي تنتشر حتى أكبر المجلات البحثية لدينا.

الايجابيات الكاذبة هي الادعاء بوجود تأثير عندما لا يحدث في الواقع. لا أحد يعرف ما هي نسبة الأوراق المنشورة التي تحتوي على مثل هذه النتائج غير الصحيحة أو المبالغة ، ولكن هناك يشير إلى أن النسبة ليست صغيرة.

أعطى عالم الأوبئة جون إيوانديس أفضل تفسير لهذه الظاهرة في ورقة مشهورة في 2005 ، بعنوان استفزازي "لماذا معظم نتائج البحوث المنشورة خاطئة". أحد الأسباب التي دفعت اليوانديس إلى تقديم الكثير من النتائج الخاطئة أصبح يسمى "p القرصنة "، التي تنشأ من الضغط الذي يشعر الباحثون بتحقيقه أهمية إحصائية.

ما هي الدلالة الإحصائية؟

لاستخلاص النتائج من البيانات ، يعتمد الباحثون عادةً على ذلك اختبار أهمية. بعبارات بسيطة ، هذا يعني حساب "p القيمة "، وهو احتمال حدوث نتائج مثل نتائجنا إذا لم يكن هناك أي تأثير حقيقي. إذا كان p القيمة صغيرة بما يكفي ، يتم الإعلان عن النتيجة لتكون ذات دلالة إحصائية.

تقليديا ، أ p قيمة أقل من .05 هو معيار الأهمية. إذا كنت الإبلاغ عن p<.05 ، من المرجح أن يعتقد القراء أنك وجدت تأثيرًا حقيقيًا. ومع ذلك ، ربما لا يوجد أي تأثير في الواقع وقد أبلغت عن نتيجة إيجابية خاطئة.


innerself subscribe graphic


لن تنشر العديد من المجلات إلا الدراسات التي يمكنها الإبلاغ عن واحد أو أكثر من التأثيرات ذات الدلالة الإحصائية. طلاب الدراسات العليا يتعلمون بسرعة أن تحقيق الأسطورية p

هذا الضغط لتحقيقه pف القرصنة.

إغراء p القرصنة

لتوضيح p القرصنة ، هنا مثال افتراضي.

وقد أكمل بروس مؤخراً درجة الدكتوراه وحصل على منحة مرموقة للانضمام إلى أحد أفضل فرق البحث في مجال تخصصه. تجربته الأولى لا تعمل بشكل جيد ، ولكن بروس سرعان ما ينقح الإجراءات ويدير دراسة ثانية. هذا يبدو أكثر واعدة ، ولكن لا يزال لا يعطي p قيمة أقل من .05.

مقتنعًا بأنه في شيء ما ، يجمع بروس بيانات أكثر. يقرر إسقاط بعض النتائج ، التي بدت واضحة.

ثم يلاحظ أن أحد إجراءاته يعطي صورة أوضح ، لذلك فهو يركز على ذلك. في نهاية المطاف ، يكتشف بروز بعض التعديلات ، لكنه يكتشف في النهاية تأثيرًا مثيرًا للدهشة ولكنه مثير للاهتمام حقًا p

حاول بروس بجد لإيجاد تأثير عليه عرف كان يتربص في مكان ما. كان أيضا يشعر بضغوط لضرب p

هناك صيد واحد فقط: لم يكن هناك أي تأثير في الواقع. على الرغم من النتيجة ذات الدلالة الإحصائية ، فقد نشر بروس إيجابية كاذبة.

رأى بروس أنه كان يستخدم بصيرته العلمية للكشف عن التأثير الكامن لأنه اتخذ خطوات مختلفة بعد بدء دراسته:

  • جمع المزيد من البيانات.
  • أسقط بعض البيانات التي بدت شاذة.
  • أسقط بعض من إجراءاته وركز على أكثر الأمور الواعدة.
  • قام بتحليل البيانات بطريقة مختلفة قليلاً وأجرى بعض التعديلات الإضافية.

المشكلة هي أن كل هذه الخيارات كانت مصنوعة بعد رؤية البيانات. بروس قد يكون ، دون وعي ، قد خضع للكرز - اختيار وتغيير حتى يحصل على المراوغة pp

للإحصائيين قول مأثور: إذا تعذبت البيانات بما فيه الكفاية ، فسوف يعترفون. تعتبر الخيارات والتعديلات التي تتم بعد رؤية البيانات من الممارسات البحثية المشكوك فيها. باستخدام هذه ، عمدا أو لا ، لتحقيق النتيجة الإحصائية الصحيحة p القرصنة، وهو أحد الأسباب المهمة التي قد تكون النتائج المنشورة ذات الأهمية الإحصائية إيجابية كاذبة.

ما هي نسبة النتائج المنشورة خاطئة؟

هذا سؤال جيد ، وصعب للغاية. لا أحد يعرف الإجابة ، التي من المرجح أن تكون مختلفة في مختلف المجالات البحثية.

تم نشر جهد كبير ومثير للإعجاب للإجابة على سؤال علم النفس الاجتماعي والمعرفي في 2015. بقيادة براين Nosek وزملائه في مركز العلوم المفتوحة ، و مشروع التكرار: علم النفس (RP: P) قامت مجموعات بحث 100 في جميع أنحاء العالم بتكرار دقيق لإحدى نتائج 100 المنشورة. بصورة شاملة، تقريبًا تم تكرار 40 جيدًا إلى حدٍ مابينما في حالات 60 حولت دراسات النسخ المتماثل تأثيرات أصغر أو أصغر بكثير.

ذكرت دراسات النسخ المتماثل لـ 100 RP: P آثارًا ، في المتوسط ​​، فقط نصف حجم التأثيرات التي أبلغت عنها الدراسات الأصلية. ربما تعطي النسخ المتماثلة التي يتم إجراؤها بعناية تقديرات أكثر دقة من المحتمل p اخترق الدراسات الأصلية ، لذلك يمكننا أن نستنتج أن الدراسات الأصلية بالغت في تقدير التأثيرات الحقيقية من خلال ، في المتوسط ​​، عاملين. هذا مزعج!

كيفية تجنب p القرصنة

أفضل وسيلة لتجنب p الاختراق هو تجنب إجراء أي تحديد أو تعديل بعد الاطلاع على البيانات. بعبارة أخرى ، تجنب الممارسات البحثية المشكوك فيها. في معظم الحالات ، تكون أفضل طريقة للقيام بذلك هي الاستخدام التسجيل المسبق.

تتطلب عملية التسجيل المسبق أن تعد مقدمًا خطة بحث تفصيلية ، بما في ذلك التحليل الإحصائي الذي سيتم تطبيقه على البيانات. ثم قمت بإعادة تسجيل الخطة ، مع ختم التاريخ ، في إطار علمي مفتوح أو بعض التسجيل عبر الإنترنت.

ثم تنفيذ الدراسة ، وتحليل البيانات وفقا للخطة ، والإبلاغ عن النتائج ، مهما كانت. يمكن للقراء التحقق من الخطة المسبقة ، وبالتالي يكونوا واثقين من أن التحليل قد تم تحديده مسبقًا ، وليس كذلك p اخترق. تعد عملية التسجيل المسبق فكرة جديدة صعبة للعديد من الباحثين ، ولكن من المحتمل أن تكون طريقة المستقبل.

التقدير بدلا من p القيم

إغراء p الاختراق هو أحد العيوب الكبيرة للاعتماد عليه p القيم. آخر هو أن pبالأحرى مثل قول وجود تأثير أو لا.

لكن العالم ليس أسود وأبيض. للاعتراف بظلال الرمادي العديدة فإنه أفضل بكثير للاستخدام تقدير بدلا من p القيم. الهدف من التقدير هو تقدير حجم التأثير - الذي قد يكون صغيرًا أو كبيرًا أو صفرًا أو حتى سلبيًا. من حيث التقدير ، فإن النتيجة الإيجابية الخاطئة هي تقدير أكبر أو أكبر من القيمة الحقيقية للتأثير.

دعونا نلقي دراسة افتراضية على تأثير العلاج. قد تقدر الدراسة ، على سبيل المثال ، أن العلاج يعطي ، في المتوسط ​​، نقصا في نقطة 7 في القلق. لنفترض أننا نحسب من بياناتنا فاصل الثقة - مجموعة من عدم اليقين على جانبي تقديرنا الأفضل - من [4 ، 10]. هذا يخبرنا أن تقديرنا لـ 7 هو ، على الأرجح ، ضمن نقاط 3 على مقياس القلق للتأثير الحقيقي - متوسط ​​كمية الفائدة الحقيقية للعلاج.

بمعنى آخر ، يشير فاصل الثقة إلى مدى دقة تقديرنا. معرفة مثل هذا التقدير وفترة الثقة فيه هي أكثر إفادة من أي شيء آخر p .

أشير إلى التقدير كواحد من "الإحصائيات الجديدة". التقنيات نفسها ليست جديدة ، ولكن استخدامها كوسيلة رئيسية لاستخلاص النتائج من البيانات سيكون للعديد من الباحثين الجدد ، وخطوة كبيرة إلى الأمام. من شأنه أن يساعد أيضا في تجنب التشوهات التي تسببها p القرصنة.

نبذة عن الكاتب

جيف كومينج ، أستاذ فخري ، جامعة لا تروب

تم نشر هذه المقالة في الأصل المحادثة. إقرأ ال المقال الأصلي.

كتب ذات صلة:

at سوق InnerSelf و Amazon