نوشتار

چگونه ‌می‌توان یک مشت دیتای قلابی را به پژوهشی هیجان‌انگیز بدل کرد؟

با هک داده‌ها، سلاخی داده‌ها و سایر گناهان آماری

تصویرساز: کوین ون الست.

سال ۲۰۲۰ در یکی از ژورنال‌های معتبر پزشکی، مقاله‌ای منتشر شد که خیلی زود سروصدای زیادی به پا کرد. نتایج این مقاله نشان می‌داد جراحی‌هایی که در روز تولد جراح انجام می‌شود، با احتمال بیشتری به مرگ بیمار منجر می‌شود. کمی بعد از این جنجال، معلوم شد این مقاله ایرادات جدی دارد و احتمالاً نوعی کلاه‌برداری علمی باشد. مشکل از آنجا ترسناک می‌شود که هر ساله تعداد زیادی از این دست مقالات منتشر می‌شود و مبنای کار دانشمندان قرار می‌گیرد. مشکل کجاست؟ آیا می‌شود کاری برای این معضل کرد؟

گری اسمیت

استاد اقتصاد کالج پومونا

How Shoddy Data Becomes Sensational Research

مترجم: نیره احمدی

19 دقیقه

گری اسمیت

استاد اقتصاد کالج پومونا

How Shoddy Data Becomes Sensational Research

مترجم: نیره احمدی

19 دقیقه

گری اسمیت، کرونیکل آو هایر اجوکیشن— در طول ۲۰ سال گذشته، موجی از تحقیقات علمی غیرقابل‌ باور زیر ذره‌بین قرار گرفته است. آیا مردم آسیایی-آمریکایی واقعاً در روز چهارم هر ماه مستعد حملۀ قلبی‌اند؟ آیا ژست‌های بدنی قدرت واقعاً تستوسترون را افزایش می‌دهند؟ آیا مردها واقعاً وقتی زنان در اطرافشان هستند پیتزای بیشتری می‌خورند؟ آیا واقعاً افرادی که نامشان برادی است بیشتر در معرض برادی‌کاردیا (ضربان قلب کندتر از حد طبیعی) هستند؟ در اوایل سال ۲۰۰۵، زنگ خطر دربارۀ تحقیقات آبکی علوم اجتماعی به صدا درآمد. در آن سال جان پی. لونیدیس، استاد پزشکی استنفورد، مقالۀ «چرا اکثر یافته‌های پژوهشی منتشر‌شده نادرست هستند؟» را در پی‌ال‌اواس مدیسین منتشر کرد. از آن زمان، «جنگجویان دیتا» به‌طور خودفرما قیام کرده و از شفافیت اقدامات تحقیقاتی با شور و حرارت دفاع کرده‌اند، و پروژه‌های ناظر ازجمله مرکز اوپن ساینس و مرکز نوآوری متاریسرچ در استنفورد برای مقابله با این مشکل به تکاپو افتاده‌اند، و در رشته‌های مختلف، از پزشکی تا روان‌شناسی و اقتصاد، بازتولیدپذیری¹ رونق گرفته است.

اما پس از دهه‌ها تلاش برای آگاهی‌بخشی، تحقیقات مشکوک همچنان در مجلات علمی جا خوش می‌کنند. فلان مقالۀ پزشکی استدلال می‌کند که اگر جراح در روز تولد خود دست به جراحی بزند، به احتمال بیشتری منجر به مرگ مریض خواهد بود. فلان پژوهشگر پزشکی و فلان روان‌شناس در مقاله‌ای ادعا می‌کنند که وقتی ماه کامل است، تصادفات مرگ‌بار موتور سیکلت رایج‌تر است. فلان مقالۀ اقتصادی نشان می‌دهد که قیمت بیت‌کوین با قیمت سهام صنعت بهداشت و سلامت ارتباط مستقیم دارد.

برای اینکه بفهمیم چرا این‌گونه تحقیقات مبهم همچنان ادامه دارند، باید به انگیزه و روش پژوهشی آن‌ها نگاه کنیم.

هک دیتا²
برای مهارکردن تصادفی‌بودنِ ذاتی آزمایش‌های علمی، میزان احتمال اینکه تفاوتِ مشاهده‌شده در نتایج به‌خاطر تخصیص تصادفی باشد را محاسبه می‌کنند. این میزان احتمال باید چقدر پایین باشد تا شاهدی بر «معناداری آماری» باشد؟ رونالد فیشر، آماردان بزرگ بریتانیایی، نقطۀ ممیّز ۰.۰۵ را انتخاب کرد که به‌سرعت تبدیل به وحی منزل در این حوزه شد.

استدلال فیشر قانع‌کننده است؛ او می‌گوید ما باید ارزیابی کنیم که آیا نتایج تجربیْ محض خاطر شانس رخ داده‌اند یا خیر. اما این هم قابل‌انتظار است که ردشدن از هر مانعی برای رسیدن به معناداری آماری به هدفی تبدیل شود که محققان برای رسیدن به آن دست به هر تلاشی بزنند. فیشر می‌گفت ما باید «کل نتایجی را که به این رقم نمی‌رسند نادیده بگیریم». حال کدام محقق است که بخواهد یافته‌هایش به‌طور کامل نادیده گرفته شود؟ بنابراین بسیاری تلاششان را صرف این می‌کنند که رقم خود را به زیر ۰.۰۵ برسانند. اگر مجلات برای چاپ مقاله نیاز به معناداری آماری داشته باشند، خب محققان هم به آن‌ها معناداری آماری می‌دهند.

و نتیجه این می‌شود: هک‌کردن مقدار احتمال، یعنی ترکیبات مختلفی از متغیرها را امتحان کنید، به زیرمجموعه‌های داده‌ها نگاه کنید، داده‌های متناقض را کنار بگذارید، و کلاً هر بلایی لازم است سر دیتا بیاورید تا زمانی که یک چیزی با مقدار p پایین پیدا شود و سپس وانمود کنید که این همان چیزی است که از اول به‌دنبالش بوده‌اید. همان‌طور که رونالد کوز، برندۀ جایزۀ نوبل اقتصاد، نومیدانه می‌گفت، «اگر به‌اندازۀ کافی داده‌ها را شکنجه کنید، بالاخره به یک چیزی اعتراف خواهند کرد».

مقاله‌ای در بریتیش‌مدیکال‌ژورنال در سال ۲۰۲۰ را (که توسط دَه‌ها رسانۀ خبری انتخاب شد) در نظر بگیرید که ادعا می‌کند اگر جراحی‌ها در روز تولد جراح انجام شوند، احتمالاً منجر به مرگ خواهند شد. اگر این درست باشد، یعنی یک اعلام جرمِ واقعاً نفرت‌انگیز؛ بیماران دارند می‌میرند چون جراح بزرگوار حواسش به برنامۀ تولد و تبریک و تهنیت همکارانش پرت شده است! با اینکه این نتیجه‌گیری غیرمحتمل است، اما پُرسروصدا و خوراک رسانه‌هاست -چیزی که درمورد اغلبِ مطالعات هک دیتا صادق است.

اثبات هک دیتا دشوار است، اما یکی از نشانه‌های آن این است که تحقیقات شامل انتخاب‌های زیادی باشد؛ چیزی که اندرو گلمن، استاد آمار و علوم سیاسی در دانشگاه کلمبیا، آن را به «باغ پرمسیر»³ تشبیه کرده است. مطالعۀ تولد، جراحان بیمارانِ تحت پوشش مدیکر⁴ را انتخاب کرد که بین سال‌های ۲۰۱۱ تا ۲۰۱۴ تحت یکی از ۱۷ نوع جراحی رایج قرار گرفته بودند: ۴ نوع عمل جراحی قلب و عروق و ۱۳ نوع عمل جراحی غیرقلبی-عروقی و غیرسرطانی در جمعیت مدیکر. استفاده از دیتای مربوط به ۲۰۱۱ تا ۲۰۱۴ در مقاله‌ای که در سال ۲۰۲۰ منتشر شد گیج‌کننده است. انتخاب ۱۷ جراحی گیج‌کننده است. اما هک دیتا تمامش را توضیح خواهد داد.

نویسندگان، با استناد به چندین مطالعه که از داده‌های مدیکر برای بررسی رابطۀ بین مرگ‌ومیر ناشی از جراحی و سایر متغیرها استفاده کرده بودند، چرایی انتخاب این ۱۷ جراحی‌ را توجیه کردند. یکی از آن چهار مقالۀ ارجاع داده شده ۱۴ نوع عمل قلبی-عروقی یا سرطانی را در نظر گرفته بود، اما نتایج را تنها برای ۴ نوع عمل قلبی-عروقی و چهار نوع عمل جراحی سرطان گزارش کرده بود. دو مقاله هم ۴ نوع عمل قلبی-عروقی و ۴ نوع عمل سرطانی را بررسی کرده بودند. و مقالۀ چهارم هم ۴ نوع عمل جراحی قلب و عروق و ۱۶ جراحی غیر قلبی-عروقی رایج در جمعیت مدیکر را در نظر گرفته بود.

۴ عمل قلبی-عروقیِ در نظر گرفته شده در مقالۀ تولد تقریباً همان عمل‌هایی بود که در چهار مقالۀ موردارجاع گزارش شده بود. بااین‌حال، گنجاندن ۱۳ نوع عمل جراحی دیگر در این مقاله مشکوک است. چرا از عدد طبیعی‌تری مانند ۱۰ استفاده نکردند، یا شاید ۱۶ که مجموع اعداد به ۲۰ برسد؟ آیا ۱۳ عمل جراحی کمترین مقدار احتمال (p) را داده؟ همچنین قابل‌توجه است که هیچ‌یک از چهار مطالعۀ موردارجاعْ بیماران مبتلا به سرطان را مستثنا نکردند، اما مطالعۀ تولد این کار را کرد. ادعای غیرقابل باور نویسندگان این بود که «برای جلوگیری از اثر ترجیحات درمانی خودِ بیماران (ازجمله مرگ خودخواسته) بر مرگ‌ومیر پس از جراحی» بیماران سرطانی را وارد نکرده‌اند.

حتی با وجود تمام این هک‌ دیتای احتمالی، مقدار p گزارش شده ۰.۰۳ است که فقط اندکی کمتر از ۵ درصد (قانون فیشر) است. یکی از نشانه‌های هک دیتای گسترده توسط محققان گزارش مکرر مقادیر p با اندازه‌هایی اندکی کمتر از ۰.۰۵ است. مقدار p=۰.۰۳ لزوماً به این معنا نیست که هک p وجود داشته است -اما وقتی مسیرهای شاخه‌شاخۀ زیادی وجود دارد و شاخۀ خاصی انتخاب می‌شود، مقدار p لب‌مرزی دلیل قانع‌کننده‌ای نخواهد بود.

برایان وانسینک، پس از روشدن انواع‌واقسام مشکلاتی که در تحقیقاتش وجود داشت، ازجمله هک دیتای گسترده، از سِمت خود به‌عنوان استاد بازاریابی در دانشگاه کرنل و مدیر آزمایشگاه غذا و برند دانشگاه بازنشسته شد. یکی از مدارک جرم غیرقابل‌انکارش همان ایمیلی بود که به یکی از نویسندگان مقاله فرستاده و از مقدار p=۰/۰۶ گله کرده بود: «اگر بتوانید دیتا جور کنید و یک دستی به سرورویش بکشید، خوب است که این رقم را زیر ۰.۰۵ بیاورید».

هارکینگ⁵
در تشبیه «باغ پرمسیر» گلمن، هک دیتا زمانی اتفاق می‌افتد که یک محقق با آزمایش چندین مسیر، و گزارش مسیرِ با کمترین مقدار p، به‌دنبال پشتوانۀ تجربی برای یک نظریه باشد. حال گاهی یک محقق ممکن است بی‌هدف در باغ پرسه بزند و، پس از رسیدن به مقصدی با مقدار p پایین، از خود نظریه‌ای بسازد. این همان داستانِ «اول یافته، بعد فرضیه‌سازی» یا همان هارکینگ است.

یک مثال خوب برای هارکینگ، مطالعۀ دفتر ملی تحقیقات اقتصادی در سال ۲۰۱۸ درمورد قیمت بیت‌کوین است. بیت‌کوین از این لحاظ خیلی جالب است که چرا قیمت آن باید به چیزی غیر از انتظارات سرمایه‌گذاران درمورد قیمت‌های آینده، یا شاید دست‌کاری بازار مرتبط باشد؛ واقعاً هیچ دلیل منطقی‌ای برای آن وجود ندارد. برخلاف اوراق قرضه که بهره می‌پردازند و بازار سهام که سود سهام پرداخت می‌کند، بیت‌کوین اصلاً درآمدی ندارد، بنابراین هیچ راه منطقی‌ای برای ارزش‌گذاری بیت کوین به روشی که سرمایه‌گذاران ممکن است برای اوراق قرضه و سهام ارزش‌گذاری کنند وجود ندارد.

بااین‌حال، مقالۀ گزارش کار ⁶دفتر ملی تحقیقات اقتصادی از صدها رابطۀ آماریِ تخمینی بین قیمت بیت‌کوین و متغیرهای مختلف گزارش داد، ازجمله برخی متغیرهای به‌ظاهر تصادفی مانند دلار کانادا، دلار ایالات‌متحده، نرخ ارزی دلار، قیمت نفت خام و بازده سهام در صنایع خودرو و کتاب و آبجو. باور کنید من این‌ها را از خودم نمی‌سازم!

از ۸۱۰ رابطۀ آماری که آن‌ها گزارش می‌کنند، ۶۳ مورد از نظر آماری معنادار هستند (در سطح ۱۰ درصد) -که این کمی کمتر از ۸۱ رابطۀ آماری معنادار است که اگر آن‌ها قیمت بیت‌کوین را فقط با اعداد تصادفی مرتبط می‌دانستند، انتظار می‌رفت.

توجیهات پراکندۀ نویسندگان به‌ندرت قانع‌کننده است. به‌عنوان مثال، آن‌ها تصدیق می‌کنند که، برخلاف سهام، بیت‌کوین‌ها درآمدی ایجاد نمی‌کنند یا سود سهام پرداخت نمی‌کنند، پس با استفاده از تعداد کاربران کیف پول ‌بیت‌کوین از این ارزش برخوردار می‌شوند:

بدیهی است که هیچ معیار مستقیمی برای سود سهام ارزهای دیجیتال وجود ندارد. اما در اصل، نسبت قیمت به سود سهام است که معیار شکاف موجود بین ارزش بازار و ارزش بنیادی یک دارایی است. ارزش ارز دیجیتال فقط قیمت مشاهده‌شده است. ما با استفاده از تعداد کاربران کیف پول بیت کوین معیاری برای تعیین ارزش بنیادی دست‌وپا می‌کنیم.

تعداد کاربران کیف پول بیت کوین با درآمدی که شرکت‌ها به دست می‌آورند یا سود سهام پرداختی به سهام‌داران قابل‌قیاس نیست و واقعاً یک معیار معتبر برای ارزش بنیادی بیت‌کوین -که یک صفر کله‌گنده است- نیست.

در میان ۶۳ رابطۀ آماری که در سطح ۱۰ درصد معنادار بودند، این محققان دریافتند که بازده بیت‌کوین با بازده سهام در صنایع کالاهای مصرفی، و بهداشت و سلامت هم‌بستگی مثبت دارد و با بازده سهام در محصولات فرآوری و صنایع معدنی فلزات هم‌بستگی منفی دارد. این هم‌بستگی‌ها هیچ معنایی ندارند، و نویسندگان سعی نکردند آن‌ها را توضیح دهند: «ما توضیح نمی‌دهیم، ما فقط این رفتار را مستند می‌کنیم». پژوهشگران مطمئناً کارهای بهتری از مستندسازی هم‌بستگی‌های تصادفی هم دارند.

آزمایشگاه خشک⁷
برخی از این پژوهشگران به یک استراتژی خیلی ساده‌تر وسوسه می‌شوند، اینکه صرفاً هر داده‌ای را که برای حمایت از نتیجۀ موردنظرت می‌خواهی از خودت بساز. هنگامی‌که استفادۀ دیدریک استپل، روان‌شناس اجتماعی برجسته، در سال ۲۰۱۱ از داده‌های ساختگی افشا شد، ماجرا به اخراج او و درنهایت ابطال ۵۸ مقاله انجامید. توضیح او این بود که «من نتوانستم در برابر فشار کسب امتیاز و انتشار در مجلات و مدام بهتر و بهتر بودن مقاومت کنم»، و اینکه «من خیلی زیاد می‌خواستم، و خیلی سریع».

از دادۀ ساختگی تا مقالۀ ساختگی راهی نیست. در سال ۲۰۰۵، سه دانشجوی فارغ‌التحصیل ام‌آی‌تی یک برنامۀ سرکاری به نام اس‌سی‌آی‌جن ساختند که، با استفاده از کلماتِ تصادفاً انتخاب‌شده، مقالات قلّابی در حوزۀ علوم کامپیوتر می‌ساخت. هدف آن‌ها «به حداکثر رساندنِ جنبۀ طنز و سرگرمی آن بود تا انسجام کلام» و همچنین می‌خواستند این را نشان بدهند که برخی کنفرانس‌های دانشگاهی تقریباً هر چیزی را می‌پذیرند.

آن‌ها مقاله‌ای سرکاری با این چکیدۀ گیج‌کننده را به کنفرانس جهانی سیستمیک، سایبرنتیک و انفورماتیک ارسال کردند:

بسیاری از فیزیک‌دانان موافق‌اند که اگر کنترل ازدحام نبود، ارزیابی مرورگرهای وب شاید هرگز انجام نمی‌شد. درواقع، تعداد کمی از هکرها در سراسر جهان با یکی‌کردن دو کلید «صدا روی IP» و کلید «عمومی-خصوصی» موافق نیستند. برای حل این معما، تأیید می‌کنیم که SMPها می‌توانند تصادفی، قابل‌ذخیره‌سازی و میانجی شوند.

دست‌اندرکاران کنفرانس، این مقالۀ سرکاری را پذیرفتند (اکسپت کردند) و پس از اینکه دانشجویان شوخی خود را رو کردند، پذیرش را پس گرفتند. این طنازانِ شوخ‌وشنگ اکنون به‌سراغ چیزهای بزرگ‌تر و بهتری رفته‌اند، اما اس‌سی‌آی‌جن همچنان کار می‌کند. باور کنید یا نه، برخی از محققان از اس‌سی‌آی‌جن برای تقویت رزومۀ خود استفاده کرده‌اند.

سیریل لابه، دانشمند کامپیوتر در دانشگاه گرنوبل آلپ، برنامه‌ای برای شناسایی مقالات سرکاریِ منتشرشده در مجلات واقعی نوشت. او و همکارش گیوم کاباناک، دانشمند کامپیوتر در دانشگاه تولوز، ۲۴۳ مقالۀ سرکاری منتشرشده پیدا کردند که به‌طور کلی یا جزئی توسط اس‌سی‌آی‌جن نوشته شده بود. در مجموع ۱۹ ناشر درگیر بودند که همگی معتبر بودند و همگی ادعا می کردند که فقط مقالاتی را منتشر می‌کنند که از مسیر یک داوری دقیقْ سربلند بیرون بیایند. اسپرینگر، یکی از ناشران شرمنده، متعاقباً اعلام کرد که با سیریل لابه همکاری می‌کند تا ابزاری بسازد که مقالات قلّابی را شناسایی کند. سؤال بجا این است که چرا چنین ابزاری موردنیاز است؛ آیا سیستم بررسی داوران آن‌قدر وضعش خراب است که نمی‌توانند مهملات را هنگام خواندن آن تشخیص دهند؟

آن قدیم‌ها که تخمین هزاران مدل در زمان اندک عملی و میسر نبود، مشکلاتی همچون هک دیتا و هارکینگ هم نبود. اما اکنون، رایانه‌ها می‌توانند در عرض چند ثانیه کاری را انجام دهند که سال‌ها طول می‌کشد تا انسان‌ها با دست انجام دهند. جیمز توبین، برندۀ جایزۀ نوبل اقتصاد، یک بار به من گفت که آن روزهای سخت قدیم که محققان مجبور بودند محاسبات را با دست انجام دهند درواقع یک نعمت بود. محاسبات آن‌قدر سخت بود که مردم قبل از محاسبه تا می‌توانستند فکر می‌کردند. امروزه، با هزاران ترابایت داده و این رایانه‌های پرسرعت، خیلی‌خیلی آسان است که اول محاسبه کنید و بعداً فکر کنید. و البته این یک نقص است نه یک حُسن.

هک دیتا، هارکینگ و آزمایش خشک به‌ناچار منجر به انتشار تحقیقات توخالی و شکننده‌ای می شوند که در آزمایش با داده‌های جدید فرومی‌ریزند، و همین باعث بحران فعلی در بازتولیدپذیری آزمایشات شده است. در سال ۲۰۱۹ گزارش شد که ۳۹۶ مورد از ۳۰۱۷ کارآزمایی بالینیِ تصادفیِ منتشرشده در سه مجلۀ پزشکی برتر دنیا ناقض مداخلات پزشکی⁸ بودند و به این نتیجه رسیدند که مداخلات پزشکیِ توصیه‌شدۀ قبلی بی‌ارزش یا بدتر هستند.

در سال ۲۰۱۵، پروژۀ تکرارپذیری برایان نوسک نتایج تکرار ۱۰۰ مطالعه را گزارش کرد که در سه مجلۀ برتر روان‌شناسی منتشر شده بودند. فقط ۳۶ مورد از این ۱۰۰ مورد همچنان مقدار p کمتر از ۰.۰۵ و اثرات همان مطالعات اولیه را تکرار کردند.

در دسامبر ۲۰۲۱، مرکز اوپن ساینس (که توسط نوسک، استاد روان‌شناسی دانشگاه ویرجینیا و همکارانش تأسیس شد) و ساینس اکسچنج نتایج یک پروژۀ هشت‌ساله را گزارش کردند که تلاش می‌کرد ۲۳ نمونۀ بسیار مورداستناد از مطالعات بیولوژی سرطان پیش‌بالینی در شرایط آزمایشگاهی یا حیوانی را تکرار کند. این ۲۳ مقاله شامل ۱۵۸ اثر برآورد‌شده بود. فقط ۴۶ درصد از نتایج تکرار شدند و اندازۀ اثر متوسط ۸۵ درصد کوچک‌تر از برآورد اولیه بود.

در سال ۲۰۱۶، تیمی به رهبری کالین کامرر، اقتصاددان رفتاری در کالتک، برای تکرار ۱۸ مقالۀ اقتصادی تجربیِ منتشرشده در دو مجلۀ اقتصادی برتر دست‌به‌کار شدند. فقط ۱۱ مورد با موفقیت تکرار شد. در سال ۲۰۱۸ تیم دیگری به رهبری کامرر گزارش داد که ۲۱ مطالعۀ تجربی علوم اجتماعیِ منتشرشده در نیچر و ساینس را تکرار کرده و متوجه شده‌اند که تنها ۱۳ مطالعه همچنان از نظر آماری معنادار بوده و با داده‌های جدید هم به همان نتایج رسیده است.

زمانی که پروژۀ تکرارپذیری نوسک در حال انجام بود، یک مطالعۀ جانبی جالب هم انجام شد. تقریباً دو ماه قبل از زمان تعیین‌شده برای تکمیل ۴۴ مطالعۀ تکرار، مزایده‌ای برای محققان حوزۀ روان‌شناسی راه‌اندازی شد تا درمورد موفقیت هر تکرارْ شرط‌بندی کنند. افرادی که آن مطالعات را انجام داده بودند اجازۀ شرکت در این طرح را نداشتند. قیمت‌های نهایی بازار مزایده نشان داد که محققان بر این باور بودند که این مقالات به‌طور متوسط کمی بیشتر از ۵۰ درصد شانس تکرار موفقیت‌آمیز دارند. اما حتی آن انتظار نومیدانه هم بیش‌ازحد خوش‌بینانه بود: تنها ۱۶ مطالعه از ۴۱ مطالعۀ تکمیل‌شده تکرار شدند. تردیدی که محققان روان‌شناسی نسبت به کار پژوهشی در حوزۀ خود دارند تأمل‌برانگیز و موجه است.

راه‌های مختلفی برای کاهش بحران بازتولیدپذیری و درخشش دوبارۀ علم وجود دارد. در اینجا به چهار مورد از نویدبخش‌ترین رهنمودها اشاره می‌شود:

۱. اولین قدم برای کاهش سرعت هک دیتا و هارکینگ سریع‌السیر این است که محققان متوجه شوند این مشکل بسیار جدی است. در سال ۲۰۱۷، جوزف سیمونز، لیف نلسون و اوری سیمونسون نوشتند:

ما بسیاری از محققان -ازجمله خودمان- را می‌شناختیم که به‌آسانی می‌پذیرفتند که متغیرهای وابسته، شرط و شروط یا شرکت‌کنندگان را طوری حذف کنند که به رقم معناداریِ آماری برسند. همه می‌دانستند که این کار نادرستی است، اما فکر می‌کردند که این یک کار نادرست مثلاً در حد عبور عابر پیاده از محل غیرمجاز است. … شبیه‌سازی‌ها نشان داد که این یک کار نادرست در حد سرقت از بانک است.

مایکل اینزلیخت، استاد روان‌شناسی دانشگاه تورنتو، نیز در این نوشته این مطلب را از زبان خیلی‌ها گفته است:

من می خواهم روان‌شناسی اجتماعی تغییر کند. اما تنها راهی که می‌توانیم واقعاً تغییر کنیم این است که بادقت به گذشته‌مان نگاه کنیم و از خطاهایمان و از خطاهای خیلی بدمان پاک شویم … مشکلات ما کوچک نیستند و با اصلاحات کوچک برطرف نمی‌شوند. مشکلات ما سیستمی هستند و هستۀ اصلیْ نحوۀ انجام کارهای علمی ما هستند.

درس آمار در همۀ رشته‌ها باید شامل بحث‌های اساسی دربارۀ هک دیتا و هارکینگ باشد.

۲. یک راه مستقیم برای مبارزه با هک دیتا و هارکینگ این است که مشوقی به نام معناداری آماری ملاک انتشار مقاله نباشد. مقادیر P می‌توانند به ما کمک کنند تا درصد رخداد نتایج تجربی به‌دلیل شانس را ارزیابی کنیم، اما آن‌ها نباید ملاک اولیۀ موفقیت یک مدل باشند. آستانه‌های قراردادی مانند p <۰.۰۵ شیوه‌های نامناسب رسیدن به آن را تشویق می‌کنند.

۳. بررسی داوران مجلات علمی اغلب سرسری است. پرداخت حق‌الزحمه به بازبینان برای بررسی‌های کامل شاید بتواند به جداسازی تحقیقات معیوب کمک کند.

۴. آزمایش‌های تکراری نیاز به تکرار‌کننده دارند، و این تکرار‌کننده نیاز به مشوق‌ دارد. محققان ماهر و مجرب عموماً درگیر کار خود هستند و دلیل چندانی ندارند که وقت خود را در جهت تکرار تحقیقات دیگران صرف کنند. یک راه چاره این است که تکرار یک مقالۀ مهم را به‌عنوان پیش‌نیاز مدرک دکتری حوزه‌های تجربی قرار دهند. چنین الزامی به دانشجویان مجال می‌دهد تا از نزدیک و بدون‌واسطه ببینند که تحقیق چگونه انجام می‌شود، مضاف بر اینکه هزاران آزمایشِ تکرار ایجاد می‌کند.

هیچ‌یک از این گام‌ها به‌آسانی برداشته نمی‌شوند، اما حتماً ارزش امتحان‌کردن را دارند.

فصلنامۀ ترجمان چیست، چه محتوایی دارد، و چرا بهتر است اشتراک سالانۀ آن را بخرید؟
فصلنامۀ ترجمان شامل ترجمۀ تازه‌ترین حرف‌های دنیای علم و فلسفه، تاریخ و سیاست، اقتصاد و جامعه و ادبیات و هنر است که از بیش از ۱۰۰ منبع معتبر و به‌روز انتخاب می‌شوند. مجلات و وب‌سایت‌هایی نظیر نیویورک تایمز، گاردین، آتلانتیک و نیویورکر در زمرۀ این منابع‌اند. مطالب فصلنامه در ۴ بخش نوشتار، گفت‌وگو، بررسی کتاب، و پروندۀ ویژه قرار می‌گیرند. در پرونده‌های فصلنامۀ ترجمان تاکنون به موضوعاتی نظیر «اهمال‌کاری»، «تنهایی»، «مینیمالیسم»، «فقر و نابرابری»، «فرزندآوری» و نظایر آن پرداخته‌ایم. مطالب ابتدا در فصلنامه منتشر می‌شوند و سپس بخشی از آن‌ها به‌مرور در شبکه‌های اجتماعی و سایت قرار می‌گیرند، بنابراین یکی از مزیت‌های خرید فصلنامه دسترسی سریع‌تر به مطالب است.

فصلنامۀ ترجمان در کتاب‌فروشی‌ها، دکه‌های روزنامه‌فروشی و فروشگاه اینترنتی ترجمان به‌صورت تک شماره به‌ فروش می‌رسد اما شما می‌توانید با خرید اشتراک سالانۀ فصلنامۀ ترجمان (شامل ۴ شماره)، علاوه بر بهره‌مندی از تخفیف نقدی، از مزایای دیگری مانند ارسال رایگان، دریافت کتاب الکترونیک به‌عنوان هدیه و دریافت کدهای تخفیف در طول سال برخوردار شوید. فصلنامه برای مشترکان زودتر از توزیع عمومی ارسال می‌شود و در صورتی‌که فصلنامه آسیب ببیند بدون هیچ شرط یا هزینۀ اضافی آن را تعویض خواهیم کرد. ضمناً هر وقت بخواهید می‌توانید اشتراکتان را لغو کنید و مابقی مبلغ پرداختی را دریافت کنید.

این مطلب را گری اسمیت نوشته و در تاریخ ۶ ژوئن ۲۰۲۳ با عنوان «How Shoddy Data Becomes Sensational Research» در وب‌سایت کرونیکل آو هایر اجوکیشن منتشر شده است. این مطلب برای نخستین بار در تاریخ ۲۸ مرداد ۱۴۰۲ با عنوان «چگونه ‌می‌توان یک مشت دیتای قلابی را به پژوهشی هیجان‌انگیز بدل کرد؟» با ترجمۀ نیره احمدی در وب‌سایت ترجمان علوم انسانی و سپس با همین عنوان در بیست‌وهشتمین شمارۀ مجلۀ ترجمان منتشر شده است.

گری اسمیت (Gary Smith) استاد اقتصاد کالج پومونا است. او نویسندۀ کتاب Distrust: Big Data, Data Torturing, and the Assault on Science (۲۰۲۳) است.

پاورقی

1
reproducibility
2
P-Hacking، هک پی یا هک داده‌ها یعنی مجموعه‌ترفندهایی که به کار می‌روند تا نتایج آزمون فرضیه‌های غیرمعنادار را به معنادار بدل کند. معناداری آماری به این مسئله اشاره دارد که آیا نتایج مطالعه واقعی است یا اینکه صرفاً حاصل بخت و شانس است [مترجم].
3
garden of forking paths. خورخه لوئیس بورخس هم کتابی به همین نام دارد [مترجم].
4
مدیکر یک برنامۀ ملی بیمۀ اجتماعی است که توسط دولت فدرال ایالات‌متحدۀ آمریکا از سال ۱۹۶۵ مدیریت می‌شود و دسترسی به بیمۀ درمانی را برای آمریکاییان بالای ۶۵ سال و افراد جوان‌ترِ دارای ناتوانی و نیز افراد دارای مشکل دیالیز تضمین می‌کند [مترجم].
5
HARKing
6
working paper یا «مقالۀ گزارش کار» گزارش‌های رسمی از یک طرح مطالعاتی دردست‌اقدام برای گروهی از مخاطبان خاص قبل از انتشار عمومی آن در قالب مقالۀ پژوهشی است [مترجم].
7
dry labbing: ارائۀ نتایج آزمایشگاهی بدون انجام کار آزمایشگاهی [مترجم].
8
medical reversals: مثلاً انجمن سرطان آمریکا توصیه می‌کند که زنان ۴۰ تا ۴۹ساله هر یک یا دو سال یکبار ماموگرافی دریافت کنند، اما تحقیقات بعدی از مزایای ماموگرافی در زنان زیر ۵۰ سال حمایت نکرد [مترجم].

مرتبط

چطور شبه‌علمِ «زبان بدن» شبکه‌های اجتماعی را تسخیر کرد؟

شماره 37 منتشر شد

چگونه ‌می‌توان یک مشت دیتای قلابی را به پژوهشی هیجان‌انگیز بدل کرد؟

پاورقی

مرتبط

نظرات