حفاظت از حریم خصوصی در پایگاه داده های ژنومی

شهروز مطهری
جمعه, 22 مرداد 1395

محققان علوم کامپیوتر دانشگاه MIT و آزمایشگاه هوش مصنوعی دانشگاه ایندیانا در بلومینگتون یک سیستم جدید برای پایگاه داده مطالعات ژنومی را مهیا می کنند که شانس نقض حریم خصوصی را تقریبا به صفر می رساند. این سیستم کمک می کند تا اطمینان حاصل شود اطلاعات استفاده شده شخصی بیماران در پژوهش های پزشکی محرمانه است و از بین نمی رود.

مطالعات ژنومی، که سعی میکند بین تغییرات ژنتیکی خاص و تشخیص بیماری ارتباط پیدا کند، یک شاخه اصلی از پژوهش های پزشکی مدرن محسوب میشود.

اما از آنجا که این کار وابسته به پایگاه داده هایی است که حاوی تاریخچه پزشکی مردم است، یک خطر برای حفظ حریم خصوصی محسوب میشود. یک مهاجم مسلح به اطلاعات ژنتیکی -مثلا یک نمونه پوست -می تواند پایگاه داده را برای داده های پزشکی فرد جست وجوکند. حتی بدون نمونه پوست هم می تواند از پایگاه داده اطلاعات خصوصی را استخراج کند.

در آخرین شماره از مجله ی سیستم های سلولی، محققان علوم کامپیوترMIT و آزمایشگاه هوش مصنوعی دانشگاه ایندیانا در بلومینگتون یک سیستم جدید برای پایگاه داده مطالعات ژنومی را مهیا کردند که شانس نقض حریم خصوصی را تقریبا به صفر می رساند.

که با اضافه کردن کمی اطلاعات غلط به نتایج پرس و جو این کار را انجام داده اند. این بدان معناست که محققان با استفاده از این سیستم می تواند شروع به دنبال ;کردن اهداف دارویی با داده های کمی نادرست کنند که در اغلب موارد، پاسخ بازگردانده شده توسط سیستم به اندازه کافی نزدیک به واقعیت است.

و یک پایگاه داده آنلاین با قابلیت جستجو از اطلاعات ژنتیکی، حتی در صورتی که اطلاعات کمی نادرست باشد، می تواند تحقیقات زیست پزشکی را کارآمد تر کند.

" شان سیمونز، فوق دکتری ریاضیات از دانشگاه MIT و نویسنده اول مقاله میگوید:"در حال حاضر، آنچه بسیاری از مردم از جمله NIH، برای یک مدت طولانی باید انجام بدهند این است که تمام اطلاعات خود - از جمله، داده های کلی، آماری که ممکن است شخصی به نظر برسد – را در مخازن وارد کنند ."

بانی برگر، استاد ریاضیات سیمونز در دانشگاه MIT که مشاور پایان نامه سیمونز نیز بوده است گفت:" ما برای دسترسی به مخازن مختلف ماه ها صبر کرده ایم."

اضافه کردن نویز

مطالعات ژنومی به طور کلی به تغییرات ژنتیکی ای که پلی مورفیسم تک نوکلئوتیدی - و یا به اختصارSNP ها – نامیده میشود تکیه میکند. یک SNP تغییرات یک نوکلئوتید یا "حرف" دی ان ای در یک مکان مشخص در گنوم است. میلیونهاSNP در جمعیت انسانی شناسایی شده است، و ترکیب خاصی از SNP ها می تواند به عنوان پایه ای برای ساختار بزرگترDNA ها یافت شود.

این سیستم جدید که توسط برگر و سیمونز همراه با Cenk Sahinalp ، استاد علوم کامپیوتر دانشگاه ایندیانا توسعه داده شده اجرای یک تکنیک به نام " دیفرانسیل خصوصی" است که قسمت بزرگی از تحقیقات رمزنگاری در سال های اخیر بوده است. تکنیک دیفرانسیل- خصوصی کمی نویز و یا تغییرات تصادفی ، به نتایج حاصل از جستجو پایگاه داده اضافه میکند تا الگوریتم هایی که به دنبال استخراج اطلاعات خصوصی هستند را ناتوان کنند.

میزان نویز مورد نیاز به قدرت تضمین حریم خصوصی – چقدر می خواهید اطلاعات شبیه به هم نباشند یا میزان داده های غلط چقدر باشد- و نوع و حجم داده ها بستگی دارد. هر چه افراد بیشتری در اطلاعات پایگاه داده شامل SNP بیشتر باشد ، سیستم نویز کمتری نیاز به اضافه کردن دارد. در واقع، پنهان شدن در یک جمعیت بسیار زیاد آسان تر است. اما هرچهSNP ها بیشتر باشند، یک مهاجم انعطاف پذیری بیشتری در جستجوی حریم خصوصی افراد دارد که نویز بیشتری می طلبد.

محققان دو نوع پرسشنامه در نظر گرفته اند. در اولی از کاربر برای همبستگی آماری میان یک SNP خاص و یک بیماری خاص می پرسد در دیگری از کاربر از یک لیست از SNP ها در یک منطقه خاص از ژنوم که مرتبط با یک بیماری خاص است می پرسد.

در مورد سیستم اول ،اندازه ی هبستگی گسترده به نام p-value را می دهد. در اینجا P-value به منظور اطمینان از حفظ حریم خصوصی می تواند با افزودن یا کاهش توسط فاکتورها تصادفی اصلاح شود .

در مورد دوم، سیستم شانس بازگشت ازSNP ها در یک منطقه داده شده را دارد. اما چند تا از SNP ها ی بالا و شاید یک یا دو SNP که پایین تراست، برای محاسبه احتمال این که SNP داده شده با نتایج درست همراه است ،محققان از یک روش به نام فاصله همینگ استفاده میکنند. این روش به نتایج مفید تری از تکیه بر P-value میرسد. پیدا کردن یک الگوریتم کارآمد برای محاسبه فاصله همینگ در پرواز یکی از نوآوری ها است.

کاهش اختلافات

مورد دیگر این است که سیستم مشکلات مشترک در ژنتیک جمعیت به نام "طبقه بندی جمعیت" را شناسایی می کند. سیمونز توضیح می دهد:" به عنوان مثال یک SNP خاص به عدم تحمل لاکتوز مرتبط است. مثلا در مردم شرق آسیا به احتمال زیاد عدم تحمل لاکتوز نسبت به کسی که در شمال اروپا است بیشتر است. همچنین مردم اروپای شمالی بلندتر از مردم شرق آسیاهستند.این روش نشان می دهد که این SNP خاص در قد مردم تاثیر گذار است."

الگوریتم پژوهشگران فرض می کند که بیشترین تغییرات در یک جمعیت ،نتایج حاصل از تفاوت های بین زیر گروه های جمعیتی هستند.

ژان پیر هوباکس، استاد علوم کامپیوتر در مؤسسه پلی تکنیک فدرال لوزان، با اشاره به یک مقاله توسط نیلز هومر، به یک دانشجوی کارشناسی ارشد در دانشگاه کالیفرنیا در لس آنجلس در جواب اینکه داده های ژنتیکی چه افرادی باید در پایگاه داده باشد میگوید "از سال 2008، جامعه پزشکی در حال بحث بر سر این است که پایگاه داده های ژنومی و فنوتیپی چه کسانی تا چه اندازه باید قابل دسترسی باشد. "به موازات، Cynthia Dwork و دیگر دانشمندان کامپیوتر مفهوم دیفرانسیل خصوصی را توسعه داده اند، تئوری که در حال حاضر به خوبی درک شده است. نویسندگان این مقاله کار مهمی انجام داده اند چرا که آنها از چگونگی استفاده از دیفرانسیل خصوصی برای محافظت از حریم خصوصی مطالعات ژنومی در جمعیت ناهمگن انسان پرده برداشتند. امیدوارم، این کار جامعه پزشکی را تشویق به تست این روش بکند."

منبع خبر:

برچسب‌ها