عصر تراکنش ۷۴ / توانایی کدبندی، ذخیرهسازی، تحلیل و اشتراکگذاری دادهها فرصتهای بسیار بزرگی برای شرکتها به وجود میآورد و به همین دلیل است که شرکتها، حتی در دوره عدم اطمینان اقتصادی، مشتاقانه در هوش مصنوعی سرمایهگذاری میکنند. کدام مشتریان محتمل است کدام محصولها را در چه زمانی بخرند؟ کدام رقیبها ممکن است جلو بزنند یا عقب بیفتند؟ بازارها و اقتصادها چطور مزیتها یا تهدیدهای تجاری ایجاد میکنند؟ داده و آنالیتیکس پاسخهای آگاهانهتر و محتملتری به این پرسشها و بسیاری از پرسشهای دیگر میدهند.
خلاصه ایده | مسئله: در حالی که شرکتها برای کسب مزیت رقابتی در عصر دیجیتال مسابقه میدهند، بیش از پیش بهدلیل سوءاستفاده از دادهها مجازات میشوند. رسوایی کمبریج آنالیتیکا در سال ۲۰۱۸ بهتنهایی باعث کاهش ۳۶ میلیارد دلاری ارزش بازار فیسبوک شد و حدود شش میلیارد دلار جریمه برای متا، شرکت مادر فیسبوک، به همراه داشت. | چرا اتفاق میافتد: بیشتر مسائل از موارد زیر ناشی میشوند: ۱. مشکلات اخلاقی در تأمین دادهها؛ ۲. استفاده از دادهها برای اهدافی بهجز اهدافی که در ابتدا اطلاعرسانی شدهاند؛ ۳. فقدان امنیت در ذخیرهسازی دادهها؛ ۴. نحوه گمنامسازی دادهها؛ ۵. نحوه آمادهسازی دادهها. | راهحل: شرکتها باید واحد ویژهای برای ارزیابی پروژهها شامل دادههای افراد ایجاد کنند. این واحد در ارزیابیهایش باید با دقت به پنج مسئله اصلی در امنیت دادهها توجه کند: منشأ، کاربرد، حفاظت، حریم خصوصی و آمادهسازی. |
اما نیاز به داده راه را برای سوءاستفاده هم باز میکند. اتحادیه اروپا در طول چند سال گذشته شرکتها را بهدلیل تخلف از مقررات عمومی حفاظت از داده (GDPR) بیش از ۱۴۰۰ بار و در مجموع حدود سه میلیارد یورو جریمه کرده است. رسوایی کمبریج آنالیتیکا در سال ۲۰۱۸ بهتنهایی باعث کاهش ۳۶ میلیارد دلاری ارزش بازار فیسبوک شد و حدود شش میلیارد دلار جریمه برای متا، شرکت مادر فیسبوک به همراه داشت. ماجراهای تبعیض تصمیمگیریهای مبتنی بر هوش مصنوعی علیه زنان و اعضای جامعههای اقلیت در استخدام، تأیید اعتبار وام، تشخیص سلامت و حتی صدور احکام کیفری نگرانیهایی را درباره نحوه جمعآوری، استفاده و تحلیل دادهها ایجاد کرده است.
این ترسها با استفاده از چتباتهایی مثل چت جیپیتی، بینگ ایآی و جیپیتی-۴ تشدید میشود که «هوش» خود را با دادههایی به دست میآورند که سازندگان و کاربرانشان به آنها تزریق میکنند. کاری که با این هوش انجام میدهند، میتواند ترسناک باشد. چتبات بینگ حتی در مکالمهای گفته بود که به بقای خودش نسبت به بقای انسانی که با آن تعامل میکند، اولویت میدهد.
شرکتها در بررسی پروژههای جدیدی که شامل دادههای ارائهشده توسط انسان یا بهرهبرداری از پایگاههای داده موجود میشوند، باید بر پنج مسئله حیاتی شامل منشاء دادهها، کاربردی که دادهها برای آن استفاده میشوند، حفاظت از دادهها، نحوه حفظ حریم خصوصی ارائهدهندگان داده و نحوه آمادهسازی دادهها برای استفاده تمرکز کنند. این پنج مسئله را پنج مسئله اصلی مدیریت دادهها مینامیم (جدول «پنج مسئله اصلی در مدیریت اخلاقی دادهها» را ببینید). در صفحههای پیش رو در مورد هر کدام از آنها بحث میکنیم و میبینیم که فناوریهای هوش مصنوعی چطور ریسک سوءاستفاده از دادهها را افزایش میدهند، اما ابتدا مروری اجمالی بر نیازمندیهای سازمانی فرایند ارزیابی اخلاقی قابل اطمینان داریم.
پنج مسئله اصلی در مدیریت اخلاقی دادهها منشأ: دادهها از کجا میآیند؟ آیا بهصورت قانونی جمعآوری شدهاند؟ آیا رضایت متناسب دریافت شده است؟ کاربرد: آیا دادهها تغییر کاربری داده میشوند؟ آیا منبع اصلی دادهها با استفاده دوباره برای کاربردی متفاوت با کاربرد اعلامشده یا القاشده اولیه موافقت میکند؟ اگر دادههای تاریک استفاده میشوند، آیا در محدوده الزامات جمعآوری اولیهشان باقی میمانند؟ حفاظت: چطور از دادهها محافظت میشود؟ دادهها تا چه مدتی برای پروژه در دسترس خواهند ماند؟ چه کسی مسئول از بین بردن دادههاست؟ حریم خصوصی: چه کسانی به دادههایی دسترسی دارند که میتوان از آنها برای شناسایی یک شخص استفاده کرد؟ مشاهدههای مجزا در مجموعه داده چطور گمنامسازی میشوند؟ چه کسانی به دادههای گمنامشده دسترسی خواهند داشت؟ آمادهسازی: دادهها چطور پاکسازی شدهاند؟ آیا مجموعههای داده به نحوی تلفیق میشوند که گمنامی حفظ شود؟ دقت دادهها چطور راستیآزمایی میشود و در صورت لزوم بهبود مییابد؟ دادهها و متغیرهای جامانده چطور مدیریت میشوند؟ |
سازماندهی نظارت بر دادهها
در جامعه پژوهشی، جمعآوری دادهها از نمونههای انسانی معمولاً تحت نظارت هیئت ارزیابی نهادی داخلی انجام میشود و پژوهشگران برای دسترسی به افراد مشارکتکننده، منابع مالی پژوهش یا مجوز انتشار، باید تأییدیه این هیئت را دریافت کنند. هیئتهای ارزیابی نهادی از پژوهشگران متبحر در پژوهش و اصول اخلاقی مربوط به جمعآوری و استفاده از اطلاعات تشکیل میشوند. این هیئتها ابتدا در حوزه پژوهش پزشکی ظهور کردند، اما اکنون تقریباً در همه سازمانهای پژوهشی برای هر پژوهشی به کار میروند که شامل نمونههای انسانی میشوند.
چند شرکت بزرگ نیز هیئت ارزیابی نهادی (معمولاً به رهبری یک متخصص اخلاق دیجیتال) تشکیل دادهاند که متخصصان فناوری را از خارج از شرکت بهصورت موردی استخدام میکنند و به ضرورت از مدیران ارشد داخلی واحدهای تطبیق و کسبوکار استفاده میکنند. اما چنین شرکتهایی بسیار کم هستند؛ حتی در اروپا که در خط مقدم رگولیشن داده بوده است، بیشتر شرکتها همچنان مسئولیت پیروی از مقررات عمومی حفاظت از داده را به مدیری رده متوسط یا بالا میسپارند که اغلب تا حدی آموزش حقوقی یا مهندسی کامپیوتر دیده است، اما از آموزش اخلاقی گسترده بیبهره بوده و بهندرت درک کاملی از فناوریهای دیجیتال نوظهور دارد. هرچند مدیر تطبیق بدون شک باید عضوی از هیئت ارزیابی نهادی شرکت باشد، اما احتمالاً بهتر است آن را مدیریت نکند. در واقع هیئت حفاظت از داده اروپا در مارس ۲۰۲۳ اعلام کرد که نگران این مسئله است و برای مدیران حفاظت از داده شرکتها پرسشنامههایی فرستاده میشود که طراحی شدهاند تا مشخص کنند آیا نقشهای شرکتی آنها برای اطمینان از تطبیق مناسب هستند یا خیر.
مرور اجمالی مناسبی بر نحوه ایجاد فرایندی از نوع هیئت ارزیابی نهادی توسط شرکتها را میتوانید در «چرا به کمیته اخلاق هوش مصنوعی نیاز دارید» (Why You Need an AI Ethics Committee) نوشته «رید بلکمن» (هاروارد بیزینسریویو شماره ژوئیه-آگوست ۲۰۲۲) مشاهده کنید. تجربه ما بیشتر نکات اصلی آن مقاله را تأیید میکند. هیئت ارزیابی نهادی شرکتی باید بسته به تناوب، اهمیت و اندازه پروژههای دیجیتال شرکت چهار تا هفت عضو داشته باشد. اعضا باید شامل متخصص تطبیق، دانشمند داده، مدیر ارشد کسبوکار آشنا به حوزه عملیاتی پروژههای دیجیتال (مثل منابع انسانی، بازاریابی یا فایننس) و یک یا چند متخصص ارشد با مدارک دانشگاهی مناسب باشند. هر ارزیابی نیازمند هیئت کامل نیست. بهعنوان مثال مدرسه اقتصاد لندن از هیئت کامل فقط برای نظارت بر پیچیدهترین پروژهها استفاده میکند. پروژههای سادهتر در کمتر از یک هفته با استفاده از پرسشنامهای آنلاین و نظر تنها یک عضو هیئت ارزیابی میشوند.
هر پروژه جدیدی که شامل جمعآوری، ذخیرهسازی و پردازش دادههای افراد میشود باید، پیش از شروع به تأیید هیئت ارزیابی نهادی شرکت برسد. هیچ استثنایی، حتی در مورد کوچکترین پروژهها نیز برای این قاعده نباید وجود داشته باشد. علاوه بر این بیشتر شرکتها پیش از این ذخایر بزرگی از دادههای انسانی جمعآوری کردهاند و همچنان با فعالیتهایشان این دادهها را تولید میکنند؛ هیئت ارزیابی نهادی شرکت باید این پروژهها را هم بررسی کند.
بررسی هیئت ارزیابی نهادی با اولین مسئله یعنی منشاء داده شروع میشود؛ اینکه بررسی کند پروژه چطور داده جمعآوری خواهد کرد (یا کرده است)، دادهها از کجا آمدهاند، آیا با دانش و رضایت نمونههای پژوهشی جمعآوری شدهاند و شامل اجبار یا دستاویزی شده یا خواهند شد.
۱. منشأ
برای درک اشکالی که ممکن است در تأمین دادهها به وجود بیایید، مورد Clearview AI را در نظر بگیرید؛ Clearview شرکت تشخیص چهرهای است که در سال ۲۰۲۱ بهدلیل جمعآوری تصاویر افراد، استفاده از آنها برای آموزش الگوریتمهای تشخیص چهره و بعد فروش دسترسی به پایگاه داده تصاویرش به سازمانهای مجری قانون توجهات زیادی را به خود جلب کرد. بر اساس گزارشی از بیبیسی؛ «مأمور پلیسی که بهدنبال شناسایی مظنونی است، میتواند تصویر چهرهای را بارگذاری کند و تصاویر مطابق را در پایگاه دادهای متشکل از میلیاردها تصویری پیدا کند که این شرکت از اینترنت و رسانههای اجتماعی جمعآوری کرده است.»
سازمان رگولاتوری استرالیا به شیوه جمعآوری دادههای Clearview اعتراض کرد و آن را ناقض قانون حریم خصوصی استرالیا دانست، زیرا به این جمعبندی رسیده بود که این شرکت اطلاعات شخصی و حساس را بدون رضایت یا اطلاع، با روشهای غیرمنصفانه و بدون اطمینان از دقت اطلاعات جمعآوری میکند. از این رو دولت به Clearview دستور داد تصاویر موجود گرفتهشده در استرالیا را حذف و جمعآوری این تصاویر را متوقف کند. در فرانسه نیز کمیسیون ملی دادهورزی و آزادی مدنی (CNIL) به این شرکت دستور داد جمعآوری، پردازش و ذخیرهسازی دادههای چهره را متوقف کند. شاید این پرونده یکی از دلایلی بود که فیسبوک اعلام کرد سیستم تشخیص چهرهاش را کنار میگذارد و دادههای اسکن چهره بیش از یک میلیارد کاربر را پاک میکند.
حتی وقتی دلایل جمعآوری دادهها شفاف هستند، همانطور که مثال بعدی حاصل پژوهش ما نشان میدهد، ممکن است شیوههای مورد استفاده برای جمعآوری آن غیراخلاقی باشند. یک شرکت کاریابی متعهد به تقویت تنوع و فراگیری در نیروی کار مشاهده کرد که متقاضیان استخدامی که در پلتفرمش حضور دارند، گمان میکنند با توجه به پروفایلهای دموگرافیکشان تبعیضی علیه آنها وجود دارد. این شرکت میخواست به آنها اطمینان خاطر بدهد که الگوریتمهایی که پیشنهادهای استخدام را با متقاضیان تطابق میدهند، مبتنی بر مهارت و از لحاظ دموگرافیکی بیطرف هستند و هرگونه تبعیضی نه در پلتفرم این شرکت، بلکه در شرکتهای استخدامکننده اتفاق میافتد.
این شرکت به دانشکده کسبوکار شناختهشدهای مراجعه کرد و استادی را شناسایی کرد که حاضر بود پژوهشی انجام دهد تا تبعیضهای احتمالی شرکتهای استخدامکننده را پیدا کند. این پژوهشگر پیشنهاد داد از مطالعهای الگوبرداری شود که چند سال پیش انجام شده بود و چند رزومه استاندارد، اما با نژاد و جنسیت متفاوت برای متقاضیان ایجاد کرده بود. قرار بود هزاران درخواست شغل ساختگی به شرکتها در آن ناحیه ارسال شود و پاسخها پیگیری و تحلیل شوند. اگر تبعیض فعالانهای وجود داشت، با توجه به متغیرهای دموگرافیک جایگذاریشده، نرخهای پذیرش متفاوتی به دست میآمدند.
مدیران بازاریابی و فروش این شرکت این پیشنهاد را پسندیدند و قراردادی را پیشنهاد دادند و چون این دانشکده کسبوکار نیازمند ارزیابی اخلاقی بود، پیشنهاد به هیئت ارزیابی نهادی ارائه شد. هیئت این پیشنهاد را به این دلیل رد کرد که استاد میخواست با دستاویزی از شرکتها داده جمعآوری کند. با این کار به کاربران شرکتی پلتفرم دروغ میگفت و از آنها میخواست ناآگاهانه و بدون هیچ منفعتی برای مشتری دانشکده کار کنند (در واقع اگر مشخص میشد که این شرکتها از فرایندهای استخدام تبعیضآمیز استفاده میکنند، ممکن بود آسیب هم ببینند).
درس این داستان این است که داشتن نیت خوب برای اخلاقیشدن جمعآوری داده کافی نیست.
شرکتها باید هم در مورد دادههایی که میخواهند جمعآوری کنند و هم دادههایی که همین حالا دارند، مسئله منشأ را در نظر بگیرند. بسیاری از شرکتها پیوسته دادههای بهاصطلاح تاریک جمع میکنند که بهندرت استفاده میشوند، اغلب فراموش میشوند و گاهی حتی ناشناختهاند. مثالهایی از این دادهها شامل دادههای اشتراکگذارینشده مشتریان، لاگهای بازدیدکنندگان، تصاویر، اسناد ارائهای که بایگانی شدهاند، اما فهرست نشدهاند، ایمیلها، گزارشها یا رونوشتهای ثبتشده خدمات مشتریان، لاگهای استفاده یا نگهداری تولیدشده توسط ماشین و واکنشها در رسانههای اجتماعی به مطالب شرکتی میشوند. هرچند این دادهها اغلب ساختارنیافته هستند و در نتیجه یکپارچهسازی آنها دشوار است، اما ارزش بالقوهشان بسیار زیاد است و در نتیجه توسعهدهندگان نرمافزار محصولاتی را میسازند تا به شرکتها کمک کنند دادههای تاریکشان را پیدا و استفاده کنند. حال پای مسئله دوم وسط کشیده میشود.
۲. کاربرد
در بافت شرکتی، دادههایی که برای کاربردی خاص با رضایت نمونه انسانی جمعآوری شدهاند، اغلب بعدتر برای کاربردی دیگر استفاده میشوند که به اطلاع ارائهدهندگان داده نرسیده است. در نتیجه شرکتها در بهرهبرداری از دادههای موجود باید بررسی کنند که آیا کسب رضایت بیشتر نیاز است یا خیر.
بهعنوان مثال بانک بزرگی در فرانسه میخواست این فرضیه را آزمایش کند که آیا زورگویی به همتایان و زیردستان و آزار جنسی آنها را میتوان با بررسی ایمیلهای شرکتی شناسایی کرد یا خیر. مدیر تنوعبخشی در واحد منابع انسانی معتقد بود شناسایی زودهنگام آزار بالقوه به این شرکت این توانایی را میدهد که بهموقع دخالت کند و شاید حتی با آموزش افراد برای توجه به نشانههای هشداردهنده بهکلی از ایجاد موقعیت آزار جلوگیری کند.
این بانک مطالعهای آزمایشی را شروع کرد و به شواهد محکمی دست یافت که ارتباطات ایمیلی میتوانند آزار در آینده را پیشبینی کنند. با وجود این یافته، بررسی موردی نتایج از سوی چند مدیر ارشد باعث شد این شرکت پروژه را بایگانی کند؛ چراکه این مدیران اشاره کردند هدف اصلی دادههایی که جمعآوری میشوند (ایمیلها) انتقال اطلاعات مربوط به کار است. افرادی که آنها را ارسال کردهاند، پیشبینی یا شناسایی فعالیت غیرقانونی را بهعنوان کاربردشان مد نظر نداشتهاند.
شرکتها در مورد دادههای مشتریان معمولاً کمتر وسواس به خرج دادهاند. بسیاری از آنها این دادهها را منبع درآمد میبینند و به اشخاص ثالث یا کارگزاران اطلاعات تجاری میفروشند، اما نگرشهای مخالف این کار بهمرور تقویت شدهاند. در سال ۲۰۱۹ دولت اتریش خدمات پست اتریش را بهدلیل فروش نامها، آدرسها، سنها و (در صورت وجود) ارتباطات سیاسی مشتریانش ۱۸ میلیون یورو جریمه کرد.
سازمان رگولاتوری ملی به این نتیجه رسید که دادههای پستی جمعآوریشده برای یک کاربرد (تحویل نامهها و بستههای پستی) با تغییر کاربری نامناسب برای بازاریابی نزد مشتریانی استفاده میشوند که میتوانند بهآسانی با تلفیق این دادهها با دادههای عمومی در دسترس (مثل برآورد ارزش خانه، نرخهای مالکیت خانه، تراکم مسکونی، تعداد واحدهای اجارهای و گزارشهای جرائم خیابانی) مشتریان بالقوه را پیدا کنند. احزاب سیاسی خواهان تأثیرگذاری روی رأیدهندگان بالقوه از خریداران این دادهها بودند. با درخواست تجدیدنظر جریمه لغو شد، اما ابهام استفاده دوباره (یا سوءاستفاده) از دادههای مشتریان همچنان برای شرکتها و دولتها مسئله مهمی است.
بیشتر شرکتها از پایگاههای داده مشتریانشان برای فروش خدمات دیگر به آنها استفاده میکنند، اما این کار هم میتواند برای آنها مسئلهساز باشد. در سال ۲۰۲۱ اداره کمیسیونر اطلاعات، مرجع قانونی مستقلی در بریتانیا که حریم خصوصی داده را ترویج میکند، Virgin Media را به نقض حقوق حریم خصوصی مشتریانش متهم کرد. این شرکت ۱.۹۶۴.۵۶۲ ایمیل فرستاده و در آنها اعلام کرده بود که قیمت اشتراکهایش را ثابت میکند. اقدامی منطقی بود، اما Virgin از این ایمیلها برای بازاریابی نزد این مشتریان استفاده کرده بود. چون ۴۵۰ هزار مشترک در این فهرست نپذیرفته بودند که ارائههای بازاریابی را دریافت کنند. این رگولاتور Virgin را به واسطه نقض این توافق ۵۰ هزار پوند جریمه کرد.
این امکان که پایگاههای داده شرکتها را میتوان بدون رضایت ارائهدهندگان داده تغییر کاربری داد، ما را به سومین مسئله رهنمون میکند.
۳. حفاظت
به گفته مرکز منبع سرقت هویت (Identity Theft Resource Center) در سال ۲۰۲۱ تقریباً دو هزار نقض داده در ایالات متحده اتفاق افتاد. حتی بزرگترین و پیشرفتهترین شرکتهای فناوری نقضهای بزرگی را تجربه کردهاند و اطلاعات شخصی بیش از چند میلیارد نفر افشا شده است. وضعیت در اروپا، با وجود شماری از حفاظتیترین قوانین جهان، چندان بهتر نیست. Virgin Media اطلاعات شخصی ۹۰۰ هزار مشترکش را به واسطه خطایی در پیکربندی به مدت ۱۰ ماه بهصورت ناامن و در دسترس در سرورهایش قرار داد و در این دوره دستکم یک نفر بدون اجازه به این فایلها دسترسی پیدا کرد.
شیوه متداول ذخیرهسازی دادهها نزد اشخاص ثالث متخصص نیز لزوماً حفاظت بهتری فراهم نمیکند. Doctolib، اپلیکیشن فرانسوی دریافت وقت پزشکی، به دادگاه کشانده شد؛ چراکه دادهها را در آمازون وبسرویس ذخیرهسازی کرده بود که در آنجا آمازون و بسیاری از سازمانهای دیگر از جمله سازمانهای اطلاعاتی ایالات متحده میتوانستند به آنها دسترسی پیدا کنند. هرچند این دادهها رمزنگاری شده بودند، اما بدون گمنامسازی به سرور آمازون میرسیدند که یعنی میتوانستید با برقراری ارتباط بین آنها و سوابق دیجیتال رفتار آنلاین، پروفایلهای شخصی بسیار دقیقی برای اهداف تجاری یا سیاسی بسازید.
هیئت ارزیابی نهادی باید بهصورت شفاف بداند دادههای شرکت کجا ذخیره میشوند، چه افرادی ممکن است به آنها دسترسی داشته باشند، آیا (و چه زمانی) گمنامسازی میشوند یا خیر و چه زمانی نابود میشوند. در نتیجه بسیاری از شرکتها باید پروتکلها و مناسبات موجودشان را تغییر دهند که ممکن است پرهزینه باشد. از سال ۲۰۱۴ که نقض دادهای در جیپیمورگان چیس ۷۶ میلیون نفر و هفت میلیون کسبوکار را در معرض خطر قرار داد، این بانک مجبور شده سالانه ۲۵۰ میلیون دلار برای حفاظت از دادهها هزینه کند. مسئله چهارم ارتباط نزدیکی با حفاظت دارد.
۴. حریم خصوصی
دوراهی پیش روی بسیاری از شرکتها انتخاب بین گمنامسازی خیلی کم و خیلی زیاد است. در اغلب رگولیشنهای دولتی گمنامسازی خیلی کم بدون رضایت آگاهانه افراد دخیل پذیرفتنی نیست. گمنامسازی خیلی زیاد نیز دادهها را برای اهداف بازاریابی بیاستفاده میکند.
روشهای زیادی برای گمنامسازی وجود دارد که طیفی از تجمیع دادهها (که در آن صورت فقط خلاصهها یا میانگینها در دسترس خواهند بود)، تقریبیسازی (بهعنوان مثال استفاده از دامنه سن به جای سن دقیق فرد) و ایجاد تغییر کم در مقادیر متغیر (مثلاً با اضافهکردن مقداری کم به هر کدام) تا مستعارسازی دادهها برای جایگزینی متغیر قابل شناسایی با مقداری تصادفی و تکرارنشدنی را دربر میگیرد.
اصولاً این روشها باید از هویت فرد محافظت کند، اما پژوهشگران توانستهاند با استفاده از اطلاعات اندکی مثل جنسیت، تاریخ تولد و کد پستی افراد را در مجموعه دادهای شناسایی کنند. حتی از اطلاعات کمتر مشخص و معرف در ترکیب با سایر مجموعههای داده میتوان برای شناسایی افراد استفاده کرد. نتفلیکس مجموعه دادهای منتشر کرد که شامل ۱۰۰ میلیون رکورد از امتیازدهی مشتریانش به فیلمها میشد و یک میلیون دلار جایزه برای هر دانشمند دادهای تعیین کرد که میتوانست الگوریتم پیشنهاد فیلم بهتری برای این شرکت خلق کند.
دادهها هیچ شناساگر مستقیمی از مشتریان نداشتند و فقط شامل نمونهای از امتیازهای هر مشتری میشدند. پژوهشگران توانستند با مقایسه امتیازها و تاریخ امتیازهای افراد با مجموعه داده شخص ثالثی که IMDb (پلتفرم دیگری که بسیاری از مشتریان نتفلیکس در آن هم به فیلمها امتیاز میدهند) منتشر کرده بود، هویت ۸۴ درصد افراد را شناسایی کنند. در نتیجه هیئتهای ارزیابی نهادی در ارزیابی مسائل حریم خصوصی مربوط به دادههای انسانی باید دستکم بررسی کنند که دیواره گمنامسازی، بهویژه با توجه به قدرت آنالیتیکس داده در شکستن گمنامی چقدر مؤثر است.
روشی به نام حریم خصوصی تفاضلی ممکن است حفاظت را در سطح بالاتری فراهم کند. نرمافزار شرکت Sarus، استارتاپی تأمین مالیشده در وایکامبینیتور، از این روش استفاده میکند که به الگوریتمهای ساختهشده برای انتشار دادههای تجمیعشده اجازه نمیدهد اطلاعاتی درباره رکوردی خاص را افشا کنند و در نتیجه احتمال نشت دادهها در نتیجه افشای اطلاعات کاربری، کارمندان خودسر یا خطای انسانی را کاهش میدهد.
اما حریم خصوصی حتی با وجود گمنامسازی مؤثر دادهها نیز ممکن است به واسطه شیوه جمعآوری و پردازش دادهها نقض شود. نقض دادههای ناخواستهای در شرکت موقعیتیابی MaxMind اتفاق افتاد که خدمات موقعیت جغرافیایی عرضه میکند که به کسبوکارها امکان جلب توجه مشتریان به محصولات و خدمات نزدیکشان را میدهد. موقعیت جغرافیایی همچنین به جستوجوهای اینترنتی کمک میکند و اگر سرویسی که به آدرس آیپی شما نیاز دارد (مثل سایتهای ویدئو استریم) درست کار نکند، میتواند مفید واقع شود. اما موقعیتیابی دقیق به هر کسی که آدرس آیپی شما را دارد، این امکان را میدهد که محله و حتی خانه شما را پیدا کند. تلفیق آدرس شما با Zillow یا پایگاه داده املاک دیگری میتواند اطلاعاتی را درباره ثروت و همچنین تصاویری از داخل و خارج از خانه شما فراهم کند.
متأسفانه موقعیتیابی آیپی علم دقیقی نیست و برقراری ارتباط دقیق بین یک آدرس آیپی و آدرس فیزیکی میتواند دشوار باشد. موقعیتیاب ممکن است آیپی را به نزدیکترین ساختمان یا صرفاً یک ناحیه، مثلاً یک کشور، نگاشت کند و از مختصات مرکزی آن ناحیه بهعنوان آدرس دقیق استفاده کند. شاید منطقی به نظر برسد، اما پیامدهای این کار برای خانوادهای وحشتناک بود که خانهای روستایی را در پوتوین (Potwin) ایالت کانزاس اجاره کرده بودند.
آدرس آیپی این خانواده به همراه مختصات جغرافیایی خانه روستایی فهرست شده بود که اتفاقاً با مختصات مرکز ایالات متحده مطابقت داشت. مسئله این بود که MaxMind بیش از ۶۰۰ میلیون آدرس آیپی دیگر را که امکان نگاشت آنها با هیچ روش دیگری وجود نداشت، به این مختصات نگاشت کرده بود. این تصمیم به سالها رنج و عذاب برای این خانواده در این خانه روستایی منجر شده بود. «کشمیر هیل»، خبرنگاری که اولینبار این ماجرا را عمومی کرد، گفت:
«این خانواده بارها به سرقت هویت، هرزفرستی و کلاهبرداری متهم شده بود. مأموران FBI، کلانترهای فدرال، مأموران اداره خدمات درآمد داخلی، آمبولانسهای در جستوجوی کهنهسربازهای در حال خودکشی و مأموران پلیس در پی کودکان فراری به این خانواده سر زده بودند. این خانواده افرادی را دیده بودند که در انبار کاهشان بهدنبال چیزی میگشتند. افراد خودسر نام و آدرس این مستأجران را در اینترنت منتشر کرده بودند.»
هیل با یکی از بنیانگذاران MaxMind تماس میگیرد که در نهایت فهرست بلندی از آدرسهای فیزیکی تهیه میکند که آدرسهای آیپی زیادی به آنها نگاشت شده بود و اعتراف میکند که هنگام راهاندازی شرکت به فکر تیمش خطور نکرده بود که «افراد از این پایگاه داده برای پیدا کردن موقعیت دقیق خانه دیگران استفاده خواهند کرد». او گفته بود: «همیشه این پایگاه داده را بهعنوان ابزار تعیینکننده موقعیت در مقیاس شهر یا کد پستی تبلیغ کرده بودیم.» درس این ماجرا این است که تصمیمهای بیغرض و بیضرری که دانشمندان داده و مدیران پایگاه داده میگیرند، ممکن است آثاری واقعی و بسیار منفی روی حریم خصوصی اشخاص ثالث بیگناه بگذارند. حال پای مسئله پنجم به میان میآید.
۵. آمادهسازی
دادهها برای تحلیل چطور آماده میشوند؟ صحت و دقت آنها چطور تأیید میشود یا اگر نیاز بود، چطور اصلاح میشوند؟ مجموعههای داده ناکامل و متغیرهای جامانده چطور مدیریت میشوند؟ دادههای جامانده، نادرست و پرت میتوانند تأثیر چشمگیری روی کیفیت تحلیل آماری بگذارند، اما کیفیت دادهها اغلب پایین است. شرکت خدمات اعتباری اکسپرین گزارش میدهد که بهطور میانگین مشتریانش در ایالات متحده معتقدند که ۲۷ درصد از درآمدشان بهدلیل دادههای مشتریان یا مشتریان بالقوه نادقیق و ناکامل به هدر میرود.
پاکسازی دادهها بهویژه در مواردی که در دورههای متفاوت و از واحدهای کسبوکار یا کشورهای متفاوت جمعآوری شدهاند، میتواند بسیار چالشبرانگیز باشد. در موردی به شرکت بینالمللی بزرگی در زمینه مدیریت استعداد و یادگیری آنلاین مراجعه کردیم تا به ما کمک کند در این مورد تحقیق کنیم که آیا زنان و مردان بهطور مساوی از مزیتهای شغلی آموزش بهره بردهاند یا خیر. این شرکت پذیرفت که این پرسش هم برای مشتریانش و هم برای عموم مردم موضوعیت و اهمیت دارد و در نتیجه دادههای موجود در سرورهایش را استخراج کرد. برای اطمینان از حفظ حریم خصوصی، دادهها گمنامسازی شدند تا نه کارفرمایان و نه کارمندانشان بهصورت مجزا قابل شناسایی نباشند. بهدلیل اندازه مجموعه داده و ساختار داخلی آن، چهار مجموعه داده مجزا استخراج شد.
معمولاً پایگاههای داده را که باز میکنیم، فایل صفحه گستردهای میبینیم که ویژگیهای هر فرد مثل جنسیت را نشان میدهد. یک زن ممکن است بهصورت «زن» یا «مؤنث» یا صرفاً حرف «F» شناسایی شده باشد. مقادیر ممکن است اشتباه املایی داشته باشند (مثلاً بهجای «مؤنث» نوشته شده باشد «مؤث»)، به زبانهای گوناگونی باشند (مثلاً به اسپانیایی Mujer یا آلمانی Frau نوشته شده باشد)، یا هم از حروف بزرگ و هم کوچک استفاده شده باشد (مثلاً f یا F). اگر صفحه گسترده کوچک باشد (مثلاً یکهزار ردیف داشته باشد)، اصلاح اینگونه ناهمخوانیها ساده و آسان است. اما دادههای ما بیش از یک میلیارد مشاهده داشت (بدیهی است که برای صفحه گستردهای معمولی خیلی زیاد بود)؛ بنابراین باید فرایند پاکسازی را برنامهنویسی و آزمایش میکردیم.
چالش بزرگ در این زمینه تعیین تعداد مقادیر مورد استفاده برای شناسایی متغیرها بود. چون دادهها از زیرمجموعههای خارجی شرکتهای چندملیتی آمده بودند، به زبانهای متفاوت ثبت شده بودند و در نتیجه چند متغیر مقادیر بسیار زیادی داشتند (بهعنوان مثال برای جنسیت بهتنهایی ۹۴ مقدار وجود داشت). کدی نوشتیم تا همه این مقادیر را استاندارد کنیم و بهعنوان مثال جنسیت را به سه مقدار شامل مؤنث، مذکر و نامعلوم کاهش دهیم. تاریخهای شروع و پایان کار نیز به واسطه قالبهای متفاوت مورد استفاده برای تاریخ بسیار دردسرساز بودند.
به گفته پلتفرم آنالیتیکس داده Tableau، پاکسازی دادهها پنج گام اساسی دارد؛ ۱. حذف مشاهدههای تکراری یا نامربوط، ۲. اصلاح خطاهای ساختاری (مثل استفاده از مقادیر متغیر)، ۳. حذف دادههای پرت ناخواسته، ۴. مدیریت دادههای جامانده از جمله با جایگزینی هر مقدار جامانده با میانگینی برای مجموعه داده و ۵. اعتبارسنجی و آزمایش دادهها و نتایج آنالیتیکس. در واقع باید بپرسید آیا ارقام منطقی به نظر میرسند.
شاید اینطور نباشند. یکی از مجموعههای داده ما که تعداد قدمهایی را ثبت کرده بود که دانشجویان MBA دانشکده مطالعات بازرگانی پاریس در هر روز برمیداشتند، غافلگیری بزرگی داشت. میانگین قدمهای دانشجویان در هر روز حدود ۷۵۰۰ بود، اما در چند داده پرت دانشجویانی بیش از یک میلیون قدم در روز برداشته بودند. این دادههای پرت نتیجه خطای نرمافزار پردازش داده بودند و حذف شدند. بدیهی است که اگر بهصورت دستی و آماری این مجموعه داده را بررسی نکرده بودیم، تحلیل نهایی ما کاملاً اشتباه میبود.
چطور هوش مصنوعی اهمیت مسئله را بیشتر میکند
اخلاق برای شرکتهایی با رقیبان قدرتمند ممکن است مسئله تجملی پرهزینهای باشد. بهعنوان مثال مایکروسافت کل تیم اخلاق پروژه بینگ ایآی را اخراج کرد، زیرا بر اساس گزارش رسانهها و بلاگها گوگل به انتشار اپلیکیشن متکی بر هوش مصنوعی خودش نزدیک بود و در نتیجه زمان اهمیت بسزایی داشت.
اما در بحث هوش مصنوعی، برخورد با اخلاقیات داده بهعنوان مقوله اختیاری دلپذیر ریسکهایی را به همراه دارد. مدیر ارشد فناوری OpenAI، شرکت توسعهدهنده چت جیپیتی، در مصاحبه جدیدی اشاره کرد که «هر وقت چیز بسیار قدرتمندی میسازید که با آن اتفاقهای خوب زیادی امکانپذیر میشود، پیامدهای منفی گسترده بالقوهای را هم به همراه دارد و به همین دلیل است که تلاش میکنیم بفهمیم چطور میتوانیم این سیستمها را مسئولانه پیادهسازی کنیم.»
دانشمندان داده به لطف هوش مصنوعی میتوانند بر اساس ردپاهای دیجیتال بسیار کمی که افراد با بازدید از پلتفرمهای اجتماعی بر جای میگذارند، پروفایلهای روانشناختی و شخصی بسیار دقیقی از آنها ایجاد کنند. سه پژوهشگر به نامهای «مایکال کوزینسکی»، «دیوید استیلول» و «تور گریپل» از دانشگاه کمبریج نشان دادند که لایکهای فیسبوک چقدر آسان میتوانند بهدقت «طیفی از ویژگیهای شخصی بسیار حساس شامل گرایش جنسی، قومیتی، دیدگاههای مذهبی و سیاسی، ویژگیهای شخصیتی، هوش، شادی، استفاده از مواد اعتیادآور، جدایی والدین، سن و جنسیت» را پیشبینی کنند (در واقع همین پژوهش، الهامبخش استفاده کمبریج آنالیتیکا از دادههای فیسبوک شد).
پژوهش بعدی یویو وو، مایکال کوزینسکی و دیوید استیلول این یافتهها را بیش از پیش تأیید کرد و نشان داد که تشخیصهای شخصیتی مبتنی بر کامپیوتر میتوانند دقیقتر از تشخیصهای انسانی باشند. پیشبینیهای کامپیوتری ویژگیهای شخصیتی (پذیرا بودن، توافقپذیری، برونگرایی، وجدانمندی و روانرنجوری که بهعنوان پنج ویژگی بزرگ شخصیت شناخته میشوند) با استفاده از لایکهای فیسبوک تقریباً به اندازه ارزیابی همسر فرد دقیق بودند. نباید به پیامدهای این مسئله بیتوجهی کرد. اگر دولتتان میخواست افکار و اقدامهای خصوصی شما را ثبت کند، چه احساسی به شما دست میداد؟
همچنین مسئلهای ممکن است نه در دادههای تحلیلشده، بلکه در دادههای چشمپوشیشده ریشه داشته باشد. ماشینها تنها میتوانند از آنچه به آنها تزریق میشود، «یاد بگیرند»؛ نمیتوانند متغیرهایی را شناسایی کنند که برای مشاهده آنها برنامهریزی نشدهاند. این مسئله را سوگیری متغیر حذفشده میخوانند. شناختهشدهترین مثال در این زمینه توسعه الگوریتمی برای شناسایی مشتریان باردار توسط شرکت تارگت است.
دانشمند داده این شرکت، متخصص آماری به نام «اندرو پول» است که سیستم امتیازی «پیشبینی بارداری» را بر اساس خرید حدود ۲۵ محصول مانند لوسیونهای بیبو و مکملهای کلسیم ایجاد کرده بود. این سیستم به تارگت این امکان را میداد که پیش از رقیبان محصولاتش را تبلیغ کند و امیدوار بود با این ترفند کاری کند مشتریان وفادار همه محصولات مرتبط با نوزادشان را از تارگت بخرند. متغیر حذفشده سن مشتری هدف بود و اتفاق مورد انتظار زمانی افتاد که پدر نوجوانی ۱۷ساله تبلیغات مرتبط با بارداری را در صندوق پستش مشاهده کرد. ناآگاه از باردار بودن دخترش، با تارگت تماس گرفت تا بپرسد چرا این شرکت رابطه جنسی پیش از ازدواج را ترویج میکند.
حتی با استانداردهای آن دوره نیز جاسوسی از افراد نابالغ با هدف شناسایی اطلاعات پزشکی شخصی و خصوصی غیراخلاقی دانسته میشد. «پول» بعدتر در مصاحبهای اذعان کرد که فکر کرده بود دریافت کاتالوگ تبلیغاتی برخی افراد را معذب خواهد کرد، اما در هر صورت نگرانیهایی که شاید در آن زمان ابراز کرده بود، تأثیر چندانی در به تعویق افتادن اجرای این برنامه نداشت و به گفته خبرنگاری ترفیع هم گرفت. تارگت در نهایت بیانیهای منتشر کرد که در آن ادعا میکرد «از همه قوانین فدرال و ایالتی از جمله قوانین مربوط به اطلاعات سلامت حفاظتشده» پیروی کرده است.
مسئله پیش روی هیئتمدیرهها و مدیران ارشد این است که استفاده از هوش مصنوعی برای حفظ مشتریان، تعیین تناسب مصاحبه شغلی یا تأیید درخواست وام میتواند آثار فاجعهباری داشته باشد. پیشبینیهای هوش مصنوعی از رفتار انسان ممکن است بسیار دقیق باشند، اما در بافت مناسبی قرار نگیرند. همچنین ممکن است به پیشبینیهای آشکارا اشتباهی منجر شوند که بهروشنی احمقانه یا از لحاظ اخلاقی مشمئزکننده باشند. اتکا به ابزارهای آماری خودکار برای تصمیمگیری ایده بدی است. اعضای هیئتمدیره و مدیران ارشد نباید با هیئت ارزیابی نهادی شرکت بهعنوان هزینه، محدودیت یا وظیفه اجتماعی برخورد کنند؛ بلکه باید آن را سیستم هشدار اولیه ببینند.