امنیت اطلاعاتامنیت دادهامنیت سایبریرگولاتوریعصر تراکنش ۷۴هوش مصنوعی

اصول اخلاقی مدیریت داده‌های افراد

تمرکز بر پنج مسئله‌ حیاتی در پروژه‌های حاوی داده افراد

نویسنده: تحریریه انتشار در 19 مهر 1402

عصر تراکنش ۷۴ / توانایی کدبندی، ذخیره‌سازی، تحلیل و اشتراک‌گذاری داده‌ها فرصت‌های بسیار بزرگی برای شرکت‌ها به ‌وجود می‌آورد و به همین دلیل است که شرکت‌ها، حتی در دوره عدم اطمینان اقتصادی، مشتاقانه در هوش مصنوعی سرمایه‌گذاری می‌کنند. کدام مشتریان محتمل است کدام محصول‌ها را در چه زمانی بخرند؟ کدام رقیب‌ها ممکن است جلو بزنند یا عقب بیفتند؟ بازارها و اقتصادها چطور مزیت‌ها یا تهدیدهای تجاری ایجاد می‌کنند؟ داده و آنالیتیکس پاسخ‌های آگاهانه‌تر و محتمل‌تری به این پرسش‌ها و بسیاری از پرسش‌های دیگر می‌دهند.

خلاصه ایده

مسئله: در حالی‌ که شرکت‌ها برای کسب مزیت رقابتی در عصر دیجیتال مسابقه می‌دهند، بیش‌ از پیش به‌دلیل سوءاستفاده از داده‌ها مجازات می‌شوند. رسوایی کمبریج آنالیتیکا در سال 2018 به‌تنهایی باعث کاهش 36 میلیارد دلاری ارزش بازار فیس‌بوک شد و حدود شش میلیارد دلار جریمه برای متا، شرکت مادر فیس‌بوک، به همراه داشت.

چرا اتفاق می‌افتد: بیشتر مسائل از موارد زیر ناشی می‌شوند: 1. مشکلات اخلاقی در تأمین داده‌ها؛ 2. استفاده از داده‌ها برای اهدافی به‌جز اهدافی که در ابتدا اطلاع‌رسانی شده‌اند؛ 3. فقدان امنیت در ذخیره‌سازی داده‌ها؛ 4. نحوه گمنام‌سازی داده‌ها؛ 5. نحوه آماده‌سازی داده‌ها.

راه‌حل: شرکت‌ها باید واحد ویژه‌ای برای ارزیابی پروژه‌ها شامل داده‌های افراد ایجاد کنند. این واحد در ارزیابی‌هایش باید با دقت به پنج مسئله اصلی در امنیت داده‌ها توجه کند: منشأ، کاربرد، حفاظت، حریم خصوصی و آماده‌سازی.

اما نیاز به داده راه را برای سوءاستفاده هم باز می‌کند. اتحادیه اروپا در طول چند سال گذشته شرکت‌ها را به‌دلیل تخلف از مقررات عمومی حفاظت از داده (GDPR) بیش از 1400 بار و در مجموع حدود سه میلیارد یورو جریمه کرده است. رسوایی کمبریج آنالیتیکا در سال 2018 به‌تنهایی باعث کاهش 36 میلیارد دلاری ارزش بازار فیس‌بوک شد و حدود شش میلیارد دلار جریمه برای متا، شرکت مادر فیس‌بوک به همراه داشت. ماجراهای تبعیض تصمیم‌گیری‌های مبتنی بر هوش مصنوعی علیه زنان و اعضای جامعه‌های اقلیت در استخدام، تأیید اعتبار وام، تشخیص سلامت و حتی صدور احکام کیفری نگرانی‌هایی را درباره نحوه جمع‌آوری، استفاده و تحلیل داده‌ها ایجاد کرده است.

این ترس‌ها با استفاده از چت‌بات‌هایی مثل چت‌ جی‌پی‌تی، بینگ ای‌آی و جی‌پی‌تی-4 تشدید می‌شود که «هوش» خود را با داده‌هایی به ‌دست می‌آورند که سازندگان و کاربران‌شان به آنها تزریق می‌کنند. کاری که با این هوش انجام می‌دهند، می‌تواند ترسناک باشد. چت‌بات بینگ حتی در مکالمه‌ای گفته بود که به بقای خودش نسبت به بقای انسانی که با آن تعامل می‌کند، اولویت می‌دهد.

شرکت‌ها در بررسی پروژه‌های جدیدی که شامل داده‌های ارائه‌شده توسط انسان یا بهره‌برداری از پایگاه‌های داده موجود می‌شوند، باید بر پنج مسئله حیاتی شامل منشاء داده‌ها، کاربردی که داده‌ها برای آن استفاده می‌شوند، حفاظت از داده‌ها، نحوه حفظ حریم خصوصی ارائه‌دهندگان داده و نحوه آماده‌سازی داده‌ها برای استفاده تمرکز کنند. این پنج مسئله را پنج مسئله اصلی مدیریت داده‌ها می‌نامیم (جدول «پنج مسئله اصلی در مدیریت اخلاقی داده‌ها» را ببینید). در صفحه‌های پیش‌ رو در مورد هر کدام از آنها بحث می‌کنیم و می‌بینیم که فناوری‌های هوش مصنوعی چطور ریسک سوءاستفاده از داده‌ها را افزایش می‌دهند، اما ابتدا مروری اجمالی بر نیازمندی‌های سازمانی فرایند ارزیابی اخلاقی قابل اطمینان داریم.

پنج مسئله اصلی در مدیریت اخلاقی داده‌ها

منشأ: داده‌ها از کجا می‌آیند؟ آیا به‌صورت قانونی جمع‌آوری شده‌اند؟ آیا رضایت متناسب دریافت شده است؟
کاربرد: آیا داده‌ها تغییر کاربری داده می‌شوند؟ آیا منبع اصلی داده‌ها با استفاده دوباره برای کاربردی متفاوت با کاربرد اعلام‌شده یا القاشده اولیه موافقت می‌کند؟ اگر داده‌های تاریک استفاده می‌شوند، آیا در محدوده الزامات جمع‌آوری اولیه‌شان باقی می‌مانند؟
حفاظت: چطور از داده‌ها محافظت می‌شود؟ داده‌ها تا چه مدتی برای پروژه در دسترس خواهند ماند؟ چه کسی مسئول از بین بردن داده‌هاست؟
حریم خصوصی: چه کسانی به داده‌هایی دسترسی دارند که می‌توان از آنها برای شناسایی یک شخص استفاده کرد؟ مشاهده‌های مجزا در مجموعه داده چطور گمنام‌سازی می‌شوند؟ چه کسانی به داده‌های گمنام‌شده دسترسی خواهند داشت؟
آماده‌سازی: داده‌ها چطور پاک‌سازی شده‌اند؟ آیا مجموعه‌های داده به ‌نحوی تلفیق می‌شوند که گمنامی حفظ شود؟ دقت داده‌ها چطور راستی‌آزمایی می‌شود و در صورت لزوم بهبود می‌یابد؟ داده‌ها و متغیرهای جامانده چطور مدیریت می‌شوند؟

سازمان‌دهی نظارت بر داده‌ها

در جامعه پژوهشی، جمع‌آوری داده‌ها از نمونه‌های انسانی معمولاً تحت نظارت هیئت ارزیابی نهادی داخلی انجام می‌شود و پژوهشگران برای دسترسی به افراد مشارکت‌کننده، منابع مالی پژوهش یا مجوز انتشار، باید تأییدیه این هیئت را دریافت کنند. هیئت‌های ارزیابی نهادی از پژوهشگران متبحر در پژوهش و اصول اخلاقی مربوط به جمع‌آوری و استفاده از اطلاعات تشکیل می‌شوند. این هیئت‌ها ابتدا در حوزه پژوهش پزشکی ظهور کردند، اما اکنون تقریباً در همه سازمان‌های پژوهشی برای هر پژوهشی به ‌کار می‌روند که شامل نمونه‌های انسانی می‌شوند.

چند شرکت بزرگ نیز هیئت ارزیابی نهادی (معمولاً به رهبری یک متخصص اخلاق دیجیتال) تشکیل داده‌اند که متخصصان فناوری را از خارج از شرکت به‌صورت موردی استخدام می‌کنند و به ضرورت از مدیران ارشد داخلی واحدهای تطبیق و کسب‌وکار استفاده می‌کنند. اما چنین شرکت‌هایی بسیار کم هستند؛ حتی در اروپا که در خط مقدم رگولیشن داده بوده است، بیشتر شرکت‌ها همچنان مسئولیت پیروی از مقررات عمومی حفاظت از داده را به مدیری رده متوسط یا بالا می‌سپارند که اغلب تا حدی آموزش حقوقی یا مهندسی کامپیوتر دیده است، اما از آموزش اخلاقی گسترده بی‌بهره بوده و به‌ندرت درک کاملی از فناوری‌های دیجیتال نوظهور دارد. هرچند مدیر تطبیق بدون شک باید عضوی از هیئت ارزیابی نهادی شرکت باشد، اما احتمالاً بهتر است آن را مدیریت نکند. در واقع هیئت حفاظت از داده اروپا در مارس 2023 اعلام کرد که نگران این مسئله است و برای مدیران حفاظت از داده شرکت‌ها پرسش‌نامه‌هایی فرستاده می‌شود که طراحی شده‌اند تا مشخص کنند آیا نقش‌های شرکتی آنها برای اطمینان از تطبیق مناسب هستند یا خیر.

مرور اجمالی مناسبی بر نحوه ایجاد فرایندی از نوع هیئت ارزیابی نهادی توسط شرکت‌ها را می‌توانید در «چرا به کمیته اخلاق هوش مصنوعی نیاز دارید» (Why You Need an AI Ethics Committee) نوشته «رید بلکمن» (هاروارد بیزینس‌ریویو شماره ژوئیه-آگوست 2022) مشاهده کنید. تجربه ما بیشتر نکات اصلی آن مقاله را تأیید می‌کند. هیئت ارزیابی نهادی شرکتی باید بسته به تناوب، اهمیت و اندازه پروژه‌های دیجیتال شرکت چهار تا هفت عضو داشته باشد. اعضا باید شامل متخصص تطبیق، دانشمند داده، مدیر ارشد کسب‌وکار آشنا به حوزه عملیاتی پروژه‌های دیجیتال (مثل منابع انسانی، بازاریابی یا فایننس) و یک یا چند متخصص ارشد با مدارک دانشگاهی مناسب باشند. هر ارزیابی نیازمند هیئت کامل نیست. به‌عنوان مثال مدرسه اقتصاد لندن از هیئت کامل فقط برای نظارت بر پیچیده‌ترین پروژه‌ها استفاده می‌کند. پروژه‌های ساده‌تر در کمتر از یک هفته با استفاده از پرسش‌نامه‌ای آنلاین و نظر تنها یک عضو هیئت ارزیابی می‌شوند.

هر پروژه جدیدی که شامل جمع‌آوری، ذخیره‌سازی و پردازش داده‌های افراد می‌شود باید، پیش از شروع به تأیید هیئت ارزیابی نهادی شرکت برسد. هیچ استثنایی، حتی در مورد کوچک‌ترین پروژه‌ها نیز برای این قاعده نباید وجود داشته باشد. علاوه بر این بیشتر شرکت‌ها پیش از این ذخایر بزرگی از داده‌های انسانی جمع‌آوری کرده‌اند و همچنان با فعالیت‌هایشان این داده‌ها را تولید می‌کنند؛ هیئت ارزیابی نهادی شرکت باید این پروژه‌ها را هم بررسی کند.

بررسی هیئت ارزیابی نهادی با اولین مسئله یعنی منشاء داده شروع می‌شود؛ اینکه بررسی کند پروژه چطور داده جمع‌آوری خواهد کرد (یا کرده است)، داده‌ها از کجا آمده‌اند، آیا با دانش و رضایت نمونه‌های پژوهشی جمع‌آوری شده‌اند و شامل اجبار یا دستاویزی شده یا خواهند شد.

1. منشأ

برای درک اشکالی که ممکن است در تأمین داده‌ها به ‌وجود بیایید، مورد Clearview AI را در نظر بگیرید؛ Clearview شرکت تشخیص چهره‌ای است که در سال 2021 به‌دلیل جمع‌آوری تصاویر افراد، استفاده از آنها برای آموزش الگوریتم‌های تشخیص چهره و بعد فروش دسترسی به پایگاه داده تصاویرش به سازمان‌های مجری قانون توجهات زیادی را به خود جلب کرد. بر اساس گزارشی از بی‌بی‌سی؛ «مأمور پلیسی که به‌دنبال شناسایی مظنونی است، می‌تواند تصویر چهره‌ای را بارگذاری کند و تصاویر مطابق را در پایگاه داده‌ای متشکل از میلیاردها تصویری پیدا کند که این شرکت از اینترنت و رسانه‌های اجتماعی جمع‌آوری کرده است.»

سازمان رگولاتوری استرالیا به شیوه جمع‌آوری داده‌های Clearview اعتراض کرد و آن را ناقض قانون حریم خصوصی استرالیا دانست، زیرا به این جمع‌بندی رسیده بود که این شرکت اطلاعات شخصی و حساس را بدون رضایت یا اطلاع، با روش‌های غیرمنصفانه و بدون اطمینان از دقت اطلاعات جمع‌آوری می‌کند. از این‌ رو دولت به Clearview دستور داد تصاویر موجود گرفته‌شده در استرالیا را حذف و جمع‌آوری این تصاویر را متوقف کند. در فرانسه نیز کمیسیون ملی داده‌ورزی و آزادی مدنی (CNIL) به این شرکت دستور داد جمع‌آوری، پردازش و ذخیره‌سازی داده‌های چهره را متوقف کند. شاید این پرونده یکی از دلایلی بود که فیس‌بوک اعلام کرد سیستم تشخیص چهره‌اش را کنار می‌گذارد و داده‌های اسکن چهره بیش از یک میلیارد کاربر را پاک می‌کند.

حتی وقتی دلایل جمع‌آوری داده‌ها شفاف هستند، همان‌طور که مثال بعدی حاصل پژوهش ما نشان می‌دهد، ممکن است شیوه‌های مورد استفاده برای جمع‌آوری آن غیراخلاقی باشند. یک شرکت کاریابی متعهد به تقویت تنوع و فراگیری در نیروی کار مشاهده کرد که متقاضیان استخدامی که در پلتفرمش حضور دارند، گمان می‌کنند با توجه به پروفایل‌های دموگرافیک‌شان تبعیضی علیه آنها وجود دارد. این شرکت می‌خواست به آنها اطمینان خاطر بدهد که الگوریتم‌هایی که پیشنهادهای استخدام را با متقاضیان تطابق می‌دهند، مبتنی بر مهارت و از لحاظ دموگرافیکی بی‌طرف هستند و هرگونه تبعیضی نه در پلتفرم این شرکت، بلکه در شرکت‌های استخدام‌کننده اتفاق می‌افتد.

این شرکت به دانشکده کسب‌وکار شناخته‌شده‌ای مراجعه کرد و استادی را شناسایی کرد که حاضر بود پژوهشی انجام دهد تا تبعیض‌های احتمالی شرکت‌های استخدام‌کننده را پیدا کند. این پژوهشگر پیشنهاد داد از مطالعه‌ای الگوبرداری شود که چند سال پیش انجام شده بود و چند رزومه استاندارد، اما با نژاد و جنسیت متفاوت برای متقاضیان ایجاد کرده بود. قرار بود هزاران درخواست شغل ساختگی به شرکت‌ها در آن ناحیه ارسال شود و پاسخ‌ها پیگیری و تحلیل شوند. اگر تبعیض فعالانه‌ای وجود داشت، با توجه به متغیرهای دموگرافیک جایگذاری‌شده، نرخ‌های پذیرش متفاوتی به ‌دست می‌آمدند.

مدیران بازاریابی و فروش این شرکت این پیشنهاد را پسندیدند و قراردادی را پیشنهاد دادند و چون این دانشکده کسب‌وکار نیازمند ارزیابی اخلاقی بود، پیشنهاد به هیئت ارزیابی نهادی ارائه شد. هیئت این پیشنهاد را به این دلیل رد کرد که استاد می‌خواست با دستاویزی از شرکت‌ها داده جمع‌آوری کند. با این کار به کاربران شرکتی پلتفرم دروغ می‌گفت و از آنها می‌خواست ناآگاهانه و بدون هیچ منفعتی برای مشتری دانشکده کار کنند (در واقع اگر مشخص می‌شد که این شرکت‌ها از فرایندهای استخدام تبعیض‌آمیز استفاده می‌کنند، ممکن بود آسیب هم ببینند).

درس این داستان این است که داشتن نیت خوب برای اخلاقی‌شدن جمع‌آوری داده کافی نیست.

شرکت‌ها باید هم در مورد داده‌هایی که می‌خواهند جمع‌آوری کنند و هم داده‌هایی که همین حالا دارند، مسئله منشأ را در نظر بگیرند. بسیاری از شرکت‌ها پیوسته داده‌های به‌اصطلاح تاریک جمع می‌کنند که به‌ندرت استفاده می‌شوند، اغلب فراموش می‌شوند و گاهی حتی ناشناخته‌اند. مثال‌هایی از این داده‌ها شامل داده‌های اشتراک‌گذاری‌نشده مشتریان، لاگ‌های بازدیدکنندگان، تصاویر، اسناد ارائه‌ای که بایگانی شده‌اند، اما فهرست نشده‌اند، ایمیل‌ها، گزارش‌ها یا رونوشت‌های ثبت‌شده خدمات مشتریان، لاگ‌های استفاده یا نگهداری تولیدشده توسط ماشین و واکنش‌ها در رسانه‌های اجتماعی به مطالب شرکتی می‌شوند. هرچند این داده‌ها اغلب ساختارنیافته هستند و در نتیجه یکپارچه‌سازی آنها دشوار است، اما ارزش بالقوه‌شان بسیار زیاد است و در نتیجه توسعه‌دهندگان نرم‌افزار محصولاتی را می‌سازند تا به شرکت‌ها کمک کنند داده‌های تاریک‌شان را پیدا و استفاده کنند. حال پای مسئله دوم وسط کشیده می‌شود.

2. کاربرد

در بافت شرکتی، داده‌هایی که برای کاربردی خاص با رضایت نمونه انسانی جمع‌آوری شده‌اند، اغلب بعدتر برای کاربردی دیگر استفاده می‌شوند که به اطلاع ارائه‌دهندگان داده نرسیده است. در نتیجه شرکت‌ها در بهره‌برداری از داده‌های موجود باید بررسی کنند که آیا کسب رضایت بیشتر نیاز است یا خیر.

به‌عنوان مثال بانک بزرگی در فرانسه می‌خواست این فرضیه را آزمایش کند که آیا زورگویی به همتایان و زیردستان و آزار جنسی آنها را می‌توان با بررسی ایمیل‌های شرکتی شناسایی کرد یا خیر. مدیر تنوع‌بخشی در واحد منابع انسانی معتقد بود شناسایی زودهنگام آزار بالقوه به این شرکت این توانایی را می‌دهد که به‌موقع دخالت کند و شاید حتی با آموزش افراد برای توجه به نشانه‌های هشداردهنده به‌کلی از ایجاد موقعیت آزار جلوگیری کند.

این بانک مطالعه‌ای آزمایشی را شروع کرد و به شواهد محکمی دست یافت که ارتباطات ایمیلی می‌توانند آزار در آینده را پیش‌بینی کنند. با وجود این یافته، بررسی موردی نتایج از سوی چند مدیر ارشد باعث شد این شرکت پروژه را بایگانی کند؛ چراکه این مدیران اشاره کردند هدف اصلی داده‌هایی که جمع‌آوری می‌شوند (ایمیل‌ها) انتقال اطلاعات مربوط به کار است. افرادی که آنها را ارسال کرده‌اند، پیش‌بینی یا شناسایی فعالیت غیرقانونی را به‌عنوان کاربردشان مد نظر نداشته‌اند.

شرکت‌ها در مورد داده‌های مشتریان معمولاً کمتر وسواس به خرج داده‌اند. بسیاری از آنها این داده‌ها را منبع درآمد می‌بینند و به اشخاص ثالث یا کارگزاران اطلاعات تجاری می‌فروشند، اما نگرش‌های مخالف این کار به‌مرور تقویت شده‌اند. در سال 2019 دولت اتریش خدمات پست اتریش را به‌دلیل فروش نام‌ها، آدرس‌ها، سن‌ها و (در صورت وجود) ارتباطات سیاسی مشتریانش 18 میلیون یورو جریمه کرد.

سازمان رگولاتوری ملی به این نتیجه رسید که داده‌های پستی جمع‌آوری‌شده برای یک کاربرد (تحویل نامه‌ها و بسته‌های پستی) با تغییر کاربری نامناسب برای بازاریابی نزد مشتریانی استفاده می‌شوند که می‌توانند به‌آسانی با تلفیق این داده‌ها با داده‌های عمومی در دسترس (مثل برآورد ارزش خانه، نرخ‌های مالکیت خانه، تراکم مسکونی، تعداد واحدهای اجاره‌ای و گزارش‌های جرائم خیابانی) مشتریان بالقوه را پیدا کنند. احزاب سیاسی خواهان تأثیرگذاری روی رأی‌دهندگان بالقوه از خریداران این داده‌ها بودند. با درخواست تجدیدنظر جریمه لغو شد، اما ابهام استفاده دوباره (یا سوءاستفاده) از داده‌های مشتریان همچنان برای شرکت‌ها و دولت‌ها مسئله مهمی است.

بیشتر شرکت‌ها از پایگاه‌های داده مشتریان‌شان برای فروش خدمات دیگر به آنها استفاده می‌کنند، اما این کار هم می‌تواند برای آنها مسئله‌ساز باشد. در سال 2021 اداره کمیسیونر اطلاعات، مرجع قانونی مستقلی در بریتانیا که حریم خصوصی داده را ترویج می‌کند، Virgin Media را به نقض حقوق حریم خصوصی مشتریانش متهم کرد. این شرکت 1.964.562 ایمیل فرستاده و در آنها اعلام کرده بود که قیمت اشتراک‌هایش را ثابت می‌کند. اقدامی منطقی بود، اما Virgin از این ایمیل‌ها برای بازاریابی نزد این مشتریان استفاده کرده بود. چون 450 هزار مشترک در این فهرست نپذیرفته بودند که ارائه‌های بازاریابی را دریافت کنند. این رگولاتور Virgin را به ‌واسطه نقض این توافق 50 هزار پوند جریمه کرد.

این امکان که پایگاه‌های داده شرکت‌ها را می‌توان بدون رضایت ارائه‌دهندگان داده تغییر کاربری داد، ما را به سومین مسئله رهنمون می‌کند.

3. حفاظت

به گفته مرکز منبع سرقت هویت (Identity Theft Resource Center) در سال 2021 تقریباً دو هزار نقض داده در ایالات متحده اتفاق افتاد. حتی بزرگ‌ترین و پیشرفته‌ترین شرکت‌های فناوری نقض‌های بزرگی را تجربه کرده‌اند و اطلاعات شخصی بیش از چند میلیارد نفر افشا شده است. وضعیت در اروپا، با وجود شماری از حفاظتی‌ترین قوانین جهان، چندان بهتر نیست. Virgin Media اطلاعات شخصی 900 هزار مشترکش را به ‌واسطه خطایی در پیکربندی به مدت 10 ماه به‌صورت ناامن و در دسترس در سرورهایش قرار داد و در این دوره دست‌کم یک نفر بدون اجازه به این فایل‌ها دسترسی پیدا کرد.

شیوه متداول ذخیره‌سازی داده‌ها نزد اشخاص ثالث متخصص نیز لزوماً حفاظت بهتری فراهم نمی‌کند. Doctolib، اپلیکیشن فرانسوی دریافت وقت پزشکی، به دادگاه کشانده شد؛ چراکه داده‌ها را در آمازون وب‌سرویس ذخیره‌سازی کرده بود که در آنجا آمازون و بسیاری از سازمان‌های دیگر از جمله سازمان‌های اطلاعاتی ایالات متحده می‌توانستند به آنها دسترسی پیدا کنند. هرچند این داده‌ها رمزنگاری شده بودند، اما بدون گمنام‌سازی به سرور آمازون می‌رسیدند که یعنی می‌توانستید با برقراری ارتباط بین آنها و سوابق دیجیتال رفتار آنلاین، پروفایل‌های شخصی بسیار دقیقی برای اهداف تجاری یا سیاسی بسازید.

هیئت ارزیابی نهادی باید به‌صورت شفاف بداند داده‌های شرکت کجا ذخیره می‌شوند، چه افرادی ممکن است به آنها دسترسی داشته باشند، آیا (و چه زمانی) گمنام‌سازی می‌شوند یا خیر و چه زمانی نابود می‌شوند. در نتیجه بسیاری از شرکت‌ها باید پروتکل‌ها و مناسبات موجودشان را تغییر دهند که ممکن است پرهزینه باشد. از سال 2014 که نقض داده‌ای در جی‌پی‌مورگان چیس 76 میلیون نفر و هفت میلیون کسب‌وکار را در معرض خطر قرار داد، این بانک مجبور شده سالانه 250 میلیون دلار برای حفاظت از داده‌ها هزینه کند. مسئله چهارم ارتباط نزدیکی با حفاظت دارد.

4. حریم خصوصی

دوراهی پیش ‌روی بسیاری از شرکت‌ها انتخاب بین گمنام‌سازی خیلی کم و خیلی زیاد است. در اغلب رگولیشن‌های دولتی گمنام‌سازی خیلی کم بدون رضایت آگاهانه افراد دخیل پذیرفتنی نیست. گمنام‌سازی خیلی زیاد نیز داده‌ها را برای اهداف بازاریابی بی‌استفاده می‌کند.

روش‌های زیادی برای گمنام‌سازی وجود دارد که طیفی از تجمیع داده‌ها (که در آن صورت فقط خلاصه‌ها یا میانگین‌ها در دسترس خواهند بود)، تقریبی‌سازی (به‌عنوان مثال استفاده از دامنه سن به ‌جای سن دقیق فرد) و ایجاد تغییر کم در مقادیر متغیر (مثلاً با اضافه‌کردن مقداری کم به هر کدام) تا مستعارسازی داده‌ها برای جایگزینی متغیر قابل شناسایی با مقداری تصادفی و تکرارنشدنی را دربر می‌گیرد.

اصولاً این روش‌ها باید از هویت فرد محافظت کند، اما پژوهشگران توانسته‌اند با استفاده از اطلاعات اندکی مثل جنسیت، تاریخ تولد و کد پستی افراد را در مجموعه داده‌ای شناسایی کنند. حتی از اطلاعات کمتر مشخص و معرف در ترکیب با سایر مجموعه‌های داده می‌توان برای شناسایی افراد استفاده کرد. نتفلیکس مجموعه داده‌ای منتشر کرد که شامل 100 میلیون رکورد از امتیازدهی مشتریانش به فیلم‌ها می‌شد و یک میلیون دلار جایزه برای هر دانشمند داده‌ای تعیین کرد که می‌توانست الگوریتم پیشنهاد فیلم بهتری برای این شرکت خلق کند.

داده‌ها هیچ شناساگر مستقیمی از مشتریان نداشتند و فقط شامل نمونه‌ای از امتیازهای هر مشتری می‌شدند. پژوهشگران توانستند با مقایسه امتیازها و تاریخ‌ امتیازهای افراد با مجموعه داده شخص ثالثی که IMDb (پلتفرم دیگری که بسیاری از مشتریان نتفلیکس در آن هم به فیلم‌ها امتیاز می‌دهند) منتشر کرده بود، هویت 84 درصد افراد را شناسایی کنند. در نتیجه هیئت‌های ارزیابی نهادی در ارزیابی مسائل حریم خصوصی مربوط به داده‌های انسانی باید دست‌کم بررسی کنند که دیواره گمنام‌سازی، به‌ویژه با توجه به قدرت آنالیتیکس داده در شکستن گمنامی چقدر مؤثر است.

روشی به ‌نام حریم خصوصی تفاضلی ممکن است حفاظت را در سطح بالاتری فراهم کند. نرم‌افزار شرکت Sarus، استارتاپی تأمین مالی‌شده در وای‌کامبینیتور، از این روش استفاده می‌کند که به الگوریتم‌های ساخته‌شده برای انتشار داده‌های تجمیع‌شده اجازه نمی‌دهد اطلاعاتی درباره رکوردی خاص را افشا کنند و در نتیجه احتمال نشت داده‌ها در نتیجه افشای اطلاعات کاربری، کارمندان خودسر یا خطای انسانی را کاهش می‌دهد.

اما حریم خصوصی حتی با وجود گمنام‌سازی مؤثر داده‌ها نیز ممکن است به ‌واسطه شیوه جمع‌آوری و پردازش داده‌ها نقض شود. نقض داده‌های ناخواسته‌ای در شرکت موقعیت‌یابی MaxMind اتفاق افتاد که خدمات موقعیت جغرافیایی عرضه می‌کند که به کسب‌وکارها امکان جلب توجه مشتریان به محصولات و خدمات نزدیک‌شان را می‌دهد. موقعیت جغرافیایی همچنین به جست‌وجوهای اینترنتی کمک می‌کند و اگر سرویسی که به آدرس آی‌پی شما نیاز دارد (مثل سایت‌های ویدئو استریم) درست کار نکند، می‌تواند مفید واقع شود. اما موقعیت‌یابی دقیق به هر کسی که آدرس آی‌پی شما را دارد، این امکان را می‌دهد که محله و حتی خانه شما را پیدا کند. تلفیق آدرس شما با Zillow یا پایگاه داده املاک دیگری می‌تواند اطلاعاتی را درباره ثروت و همچنین تصاویری از داخل و خارج از خانه شما فراهم کند.

متأسفانه موقعیت‌یابی آی‌پی علم دقیقی نیست و برقراری ارتباط دقیق بین یک آدرس آی‌پی و آدرس فیزیکی می‌تواند دشوار باشد. موقعیت‌یاب ممکن است آی‌پی را به نزدیک‌ترین ساختمان یا صرفاً یک ناحیه، مثلاً یک کشور، نگاشت کند و از مختصات مرکزی آن ناحیه به‌عنوان آدرس دقیق استفاده کند. شاید منطقی به ‌نظر برسد، اما پیامدهای این کار برای خانواده‌ای وحشتناک بود که خانه‌ای روستایی را در پوتوین (Potwin) ایالت کانزاس اجاره کرده بودند.

آدرس آی‌پی این خانواده به همراه مختصات جغرافیایی خانه روستایی فهرست شده بود که اتفاقاً با مختصات مرکز ایالات متحده مطابقت داشت. مسئله این بود که MaxMind بیش از 600 میلیون آدرس آی‌پی دیگر را که امکان نگاشت آنها با هیچ روش دیگری وجود نداشت، به این مختصات نگاشت کرده بود. این تصمیم به سال‌ها رنج و عذاب برای این خانواده در این خانه روستایی منجر شده بود. «کشمیر هیل»، خبرنگاری که اولین‌بار این ماجرا را عمومی کرد، گفت:

«این خانواده بارها به سرقت هویت، هرزفرستی و کلاهبرداری متهم شده بود. مأموران FBI، کلانترهای فدرال، مأموران اداره خدمات درآمد داخلی، آمبولانس‌های در جست‌وجوی کهنه‌سربازهای در حال خودکشی و مأموران پلیس در پی کودکان فراری به این خانواده سر زده بودند. این خانواده افرادی را دیده بودند که در انبار کاه‌شان به‌‌دنبال چیزی می‌گشتند. افراد خودسر نام و آدرس این مستأجران را در اینترنت منتشر کرده بودند.»

هیل با یکی از بنیان‌گذاران MaxMind تماس می‌گیرد که در نهایت فهرست بلندی از آدرس‌های فیزیکی تهیه می‌کند که آدرس‌های آی‌پی زیادی به آنها نگاشت شده بود و اعتراف می‌کند که هنگام راه‌اندازی شرکت به فکر تیمش خطور نکرده بود که «افراد از این پایگاه داده برای پیدا کردن موقعیت دقیق خانه دیگران استفاده خواهند کرد». او گفته بود: «همیشه این پایگاه داده را به‌عنوان ابزار تعیین‌کننده موقعیت در مقیاس شهر یا کد پستی تبلیغ کرده بودیم.» درس این ماجرا این است که تصمیم‌های بی‌غرض و بی‌ضرری که دانشمندان داده و مدیران پایگاه داده می‌گیرند، ممکن است آثاری واقعی و بسیار منفی روی حریم خصوصی اشخاص ثالث بی‌گناه بگذارند. حال پای مسئله پنجم به میان می‌آید.

5. آماده‌سازی

داده‌ها برای تحلیل چطور آماده می‌شوند؟ صحت و دقت آنها چطور تأیید می‌شود یا اگر نیاز بود، چطور اصلاح می‌شوند؟ مجموعه‌های داده ناکامل و متغیرهای جامانده چطور مدیریت می‌شوند؟ داده‌های جامانده، نادرست و پرت می‌توانند تأثیر چشم‌گیری روی کیفیت تحلیل آماری بگذارند، اما کیفیت داده‌ها اغلب پایین است. شرکت خدمات اعتباری اکسپرین گزارش می‌دهد که به‌طور میانگین مشتریانش در ایالات متحده معتقدند که 27 درصد از درآمدشان به‌دلیل داده‌های مشتریان یا مشتریان بالقوه نادقیق و ناکامل به هدر می‌رود.

پاک‌سازی داده‌ها به‌ویژه در مواردی که در دوره‌های متفاوت و از واحدهای کسب‌وکار یا کشورهای متفاوت جمع‌آوری شده‌اند، می‌تواند بسیار چالش‌برانگیز باشد. در موردی به شرکت بین‌المللی بزرگی در زمینه مدیریت استعداد و یادگیری آنلاین مراجعه کردیم تا به ما کمک کند در این مورد تحقیق کنیم که آیا زنان و مردان به‌طور مساوی از مزیت‌های شغلی آموزش بهره برده‌اند یا خیر. این شرکت پذیرفت که این پرسش هم برای مشتریانش و هم برای عموم مردم موضوعیت و اهمیت دارد و در نتیجه داده‌های موجود در سرورهایش را استخراج کرد. برای اطمینان از حفظ حریم خصوصی، داده‌ها گمنام‌سازی شدند تا نه کارفرمایان و نه کارمندان‌شان به‌صورت مجزا قابل شناسایی نباشند. به‌دلیل اندازه مجموعه داده و ساختار داخلی آن، چهار مجموعه داده مجزا استخراج شد.

معمولاً پایگاه‌های داده را که باز می‌کنیم، فایل صفحه گسترده‌ای می‌بینیم که ویژگی‌های هر فرد مثل جنسیت را نشان می‌دهد. یک زن ممکن است به‌صورت «زن» یا «مؤنث» یا صرفاً حرف «F» شناسایی شده باشد. مقادیر ممکن است اشتباه املایی داشته باشند (مثلاً به‌جای «مؤنث» نوشته شده باشد «مؤث»)، به زبان‌های گوناگونی باشند (مثلاً به اسپانیایی Mujer یا آلمانی Frau نوشته شده باشد)، یا هم از حروف بزرگ و هم کوچک استفاده شده باشد (مثلاً f یا F). اگر صفحه گسترده کوچک باشد (مثلاً یک‌هزار ردیف داشته باشد)، اصلاح این‌گونه ناهمخوانی‌ها ساده و آسان است. اما داده‌های ما بیش از یک میلیارد مشاهده داشت (بدیهی است که برای صفحه گسترده‌ای معمولی خیلی زیاد بود)؛ بنابراین باید فرایند پاک‌سازی را برنامه‌نویسی و آزمایش می‌کردیم.

چالش بزرگ در این زمینه تعیین تعداد مقادیر مورد استفاده برای شناسایی متغیرها بود. چون داده‌ها از زیرمجموعه‌های خارجی شرکت‌های چندملیتی آمده بودند، به زبان‌های متفاوت ثبت شده بودند و در نتیجه چند متغیر مقادیر بسیار زیادی داشتند (به‌عنوان مثال برای جنسیت به‌تنهایی 94 مقدار وجود داشت). کدی نوشتیم تا همه این مقادیر را استاندارد کنیم و به‌عنوان مثال جنسیت را به سه مقدار شامل مؤنث، مذکر و نامعلوم کاهش دهیم. تاریخ‌های شروع و پایان کار نیز به ‌واسطه قالب‌های متفاوت مورد استفاده برای تاریخ بسیار دردسرساز بودند.

به گفته پلتفرم آنالیتیکس داده Tableau، پاک‌سازی داده‌ها پنج گام اساسی دارد؛ 1. حذف مشاهده‌های تکراری یا نامربوط، 2. اصلاح خطاهای ساختاری (مثل استفاده از مقادیر متغیر)، 3. حذف داده‌های پرت ناخواسته، 4. مدیریت داده‌های جامانده از جمله با جایگزینی هر مقدار جامانده با میانگینی برای مجموعه داده و 5. اعتبارسنجی و آزمایش داده‌ها و نتایج آنالیتیکس. در واقع باید بپرسید آیا ارقام منطقی به ‌نظر می‌رسند.

شاید این‌طور نباشند. یکی از مجموعه‌های داده ما که تعداد قدم‌هایی را ثبت کرده بود که دانشجویان MBA دانشکده مطالعات بازرگانی پاریس در هر روز برمی‌داشتند، غافلگیری بزرگی داشت. میانگین قدم‌های دانشجویان در هر روز حدود 7500 بود، اما در چند داده پرت دانشجویانی بیش از یک میلیون قدم در روز برداشته بودند. این داده‌های پرت نتیجه خطای نرم‌افزار پردازش داده بودند و حذف شدند. بدیهی است که اگر به‌صورت دستی و آماری این مجموعه داده را بررسی نکرده بودیم، تحلیل نهایی ما کاملاً اشتباه می‌بود.

چطور هوش مصنوعی اهمیت مسئله را بیشتر می‌کند

اخلاق برای شرکت‌هایی با رقیبان قدرتمند ممکن است مسئله تجملی پرهزینه‌ای باشد. به‌عنوان مثال مایکروسافت کل تیم اخلاق پروژه بینگ ای‌آی را اخراج کرد، زیرا بر اساس گزارش رسانه‌ها و بلاگ‌ها گوگل به انتشار اپلیکیشن متکی بر هوش مصنوعی خودش نزدیک بود و در نتیجه زمان اهمیت بسزایی داشت.

اما در بحث هوش مصنوعی، برخورد با اخلاقیات داده به‌عنوان مقوله اختیاری دلپذیر ریسک‌هایی را به همراه دارد. مدیر ارشد فناوری OpenAI، شرکت توسعه‌دهنده چت ‌جی‌پی‌تی، در مصاحبه جدیدی اشاره کرد که «هر وقت چیز بسیار قدرتمندی می‌سازید که با آن اتفاق‌های خوب زیادی امکان‌پذیر می‌شود، پیامدهای منفی گسترده بالقوه‌ای را هم به همراه دارد و به همین دلیل است که تلاش می‌کنیم بفهمیم چطور می‌توانیم این سیستم‌ها را مسئولانه پیاده‌سازی کنیم.»

دانشمندان داده به ‌لطف هوش مصنوعی می‌توانند بر اساس ردپاهای دیجیتال بسیار کمی که افراد با بازدید از پلتفرم‌های اجتماعی بر جای می‌گذارند، پروفایل‌های روان‌شناختی و شخصی بسیار دقیقی از آنها ایجاد کنند. سه پژوهشگر به نام‌های «مایکال کوزینسکی»، «دیوید استیل‌ول» و «تور گریپل» از دانشگاه کمبریج نشان دادند که لایک‌های فیس‌بوک چقدر آسان می‌توانند به‌دقت «طیفی از ویژگی‌های شخصی بسیار حساس شامل گرایش جنسی، قومیتی، دیدگاه‌های مذهبی و سیاسی، ویژگی‌های شخصیتی، هوش، شادی، استفاده از مواد اعتیادآور، جدایی والدین، سن و جنسیت» را پیش‌بینی کنند (در واقع همین پژوهش، الهام‌بخش استفاده کمبریج آنالیتیکا از داده‌های فیس‌بوک شد).

پژوهش بعدی یویو وو، مایکال کوزینسکی و دیوید استیل‌ول این یافته‌ها را بیش‌ از پیش تأیید کرد و نشان داد که تشخیص‌های شخصیتی مبتنی بر کامپیوتر می‌توانند دقیق‌تر از تشخیص‌های انسانی باشند. پیش‌بینی‌های کامپیوتری ویژگی‌های شخصیتی (پذیرا بودن، توافق‌پذیری، برون‌گرایی، وجدان‌مندی و روان‌رنجوری که به‌عنوان پنج ویژگی بزرگ شخصیت شناخته می‌شوند) با استفاده از لایک‌های فیس‌بوک تقریباً به ‌اندازه ارزیابی همسر فرد دقیق بودند. نباید به پیامدهای این مسئله بی‌توجهی کرد. اگر دولت‌تان می‌خواست افکار و اقدام‌های خصوصی شما را ثبت کند، چه احساسی به شما دست می‌داد؟

همچنین مسئله‌ای ممکن است نه در داده‌های تحلیل‌شده، بلکه در داده‌های چشم‌پوشی‌شده ریشه داشته باشد. ماشین‌ها تنها می‌توانند از آنچه به آنها تزریق می‌شود، «یاد بگیرند»؛ نمی‌توانند متغیرهایی را شناسایی کنند که برای مشاهده آنها برنامه‌ریزی نشده‌اند. این مسئله را سوگیری متغیر حذف‌شده می‌خوانند. شناخته‌شده‌ترین مثال در این زمینه توسعه الگوریتمی برای شناسایی مشتریان باردار توسط شرکت تارگت است.

دانشمند داده این شرکت، متخصص آماری به نام «اندرو پول» است که سیستم امتیازی «پیش‌بینی بارداری» را بر اساس خرید حدود 25 محصول مانند لوسیون‌های بی‌بو و مکمل‌های کلسیم ایجاد کرده بود. این سیستم به تارگت این امکان را می‌داد که پیش از رقیبان محصولاتش را تبلیغ کند و امیدوار بود با این ترفند کاری کند مشتریان وفادار همه محصولات مرتبط با نوزادشان را از تارگت بخرند. متغیر حذف‌شده سن مشتری هدف بود و اتفاق مورد انتظار زمانی افتاد که پدر نوجوانی 17ساله تبلیغات مرتبط با بارداری را در صندوق پستش مشاهده کرد. ناآگاه از باردار بودن دخترش، با تارگت تماس گرفت تا بپرسد چرا این شرکت رابطه جنسی پیش از ازدواج را ترویج می‌کند.

حتی با استانداردهای آن دوره نیز جاسوسی از افراد نابالغ با هدف شناسایی اطلاعات پزشکی شخصی و خصوصی غیراخلاقی دانسته می‌شد. «پول» بعدتر در مصاحبه‌ای اذعان کرد که فکر کرده بود دریافت کاتالوگ تبلیغاتی برخی افراد را معذب خواهد کرد، اما در هر صورت نگرانی‌هایی که شاید در آن زمان ابراز کرده بود، تأثیر چندانی در به تعویق افتادن اجرای این برنامه نداشت و به گفته خبرنگاری ترفیع هم گرفت. تارگت در نهایت بیانیه‌ای منتشر کرد که در آن ادعا می‌کرد «از همه قوانین فدرال و ایالتی از جمله قوانین مربوط به اطلاعات سلامت حفاظت‌شده» پیروی کرده است.

مسئله پیش ‌روی هیئت‌مدیره‌ها و مدیران ارشد این است که استفاده از هوش مصنوعی برای حفظ مشتریان، تعیین تناسب مصاحبه شغلی یا تأیید درخواست وام می‌تواند آثار فاجعه‌باری داشته باشد. پیش‌بینی‌های هوش مصنوعی از رفتار انسان ممکن است بسیار دقیق باشند، اما در بافت مناسبی قرار نگیرند. همچنین ممکن است به پیش‌بینی‌های آشکارا اشتباهی منجر شوند که به‌روشنی احمقانه یا از لحاظ اخلاقی مشمئزکننده باشند. اتکا به ابزارهای آماری خودکار برای تصمیم‌گیری ایده بدی است. اعضای هیئت‌مدیره و مدیران ارشد نباید با هیئت ارزیابی نهادی شرکت به‌عنوان هزینه، محدودیت یا وظیفه اجتماعی برخورد کنند؛ بلکه باید آن را سیستم هشدار اولیه ببینند.

منبع هاروارد بیزینس‌ریویو

از طريق مترجم: محمد رهبان