روش GDPR,محافظت PII,ماسک‌گذاری داده,ناشناس‌سازی داده

ناشناس‌سازی داده (Data Anonymization) چیست؟

با توجه به اینکه حریم خصوصی داده‌ها هم به یک الزام قانونی و هم به یک مزیت رقابتی تبدیل شده است، سازمان‌ها برای استفاده مسئولانه از اطلاعات حساس به سمت ناشناس‌سازی داده حرکت می‌کنند. با حذف یا تغییر شناسه‌های شخصی، ناشناس‌سازی به تیم‌ها این امکان را می‌دهد که در حالی که از حریم خصوصی افراد محافظت می‌کنند، به بینش‌های ارزشمند نیز دست یابند.

بررسی اجمالی

مشتریان امروزی برای حریم خصوصی خود ارزش قائل‌اند و به لطف قوانینی مانند GDPR و CPRA، سازمان‌ها حریم خصوصی داده را در اولویت قرار داده‌اند. ناشناس‌سازی داده به سازمان‌ها کمک می‌کند که از اطلاعات حساس به شکل مسئولانه استفاده کنند. با تغییر یا حذف اطلاعات هویتی شخصی (PII) از مجموعه داده‌ها، می‌توان داده‌های حساس را با ایمنی تحلیل و به اشتراک گذاشت. در این مقاله توضیح خواهیم داد ناشناس‌سازی داده چگونه کار می‌کند و چه نوع داده‌هایی باید ناشناس شوند. همچنین پنج روش رایج ناشناس‌سازی داده را بررسی کرده و خواهیم گفت هرکدام چگونه به محافظت از حریم خصوصی افراد و انطباق با قوانین مربوط به آن کمک می‌کنند.

ناشناس‌سازی داده چیست؟

ناشناس‌سازی داده فرایند تغییر یا حذف اطلاعات هویتی شخصی از مجموعه داده‌ها به‌منظور محافظت از حریم خصوصی افراد است. هدف آن این است که داده‌ها به‌گونه‌ای تبدیل شوند که دیگر به افراد خاصی مرتبط نباشند و در نتیجه ناشناس باقی بمانند، در حالی که همچنان برای تحلیل، پژوهش و سایر اهداف کاربردی باشند. ناشناس‌سازی می‌تواند از طریق جایگزینی داده اصلی با داده مصنوعی، بازآرایی ویژگی‌های مجموعه داده به شکلی متفاوت از حالت اصلی یا استفاده از داده مصنوعی تولیدشده توسط ماشین انجام گیرد.

در حالی که روش‌های ناشناس‌سازی نقش مهمی در کاهش خطر افشای نامناسب داده‌های حساس ایفا می‌کنند، اما به‌تنهایی یک راه‌حل جامع برای حریم خصوصی داده نیستند. ناشناس‌سازی داده باید همراه با سایر کنترل‌های حریم خصوصی داده مانند کنترل دسترسی مبتنی بر نقش (RBAC) یا مبتنی بر ویژگی (ABAC) استفاده شود. رمزنگاری داده یکی دیگر از روش‌های استاندارد است که باید برای ایمن‌سازی داده‌های حساس پیاده‌سازی گردد. این روش از کلید رمزنگاری استفاده می‌کند؛ کلیدی ریاضی که مانع خوانده شدن داده‌ها توسط اشخاص ثالث در حالت ذخیره، انتقال یا استفاده فعال می‌شود.

چه نوع داده‌هایی باید ناشناس شوند؟

رایج‌ترین نوع داده برای ناشناس‌سازی، PII یا اطلاعات هویتی شخصی است. نمونه‌ها شامل اطلاعات تماس، تاریخ تولد، شماره حساب کارت اعتباری و شماره‌های تأمین اجتماعی است. PII همچنین شامل اطلاعات بیومتریک مانند عکس‌هایی با ویژگی‌های قابل شناسایی یا امضای صوتی و نیز اطلاعات آموزشی، شغلی، مالی و پزشکی می‌شود. ناشناس‌سازی داده همچنین می‌تواند روی سایر داده‌هایی که باید محرمانه بمانند اعمال گردد، از جمله گزارش‌های مالی سازمان یا دارایی‌های فکری مانند یافته‌های پژوهشی یا فرایندهای تولید اختصاصی.

معرفی ۵ رویکرد رایج در ناشناس‌سازی داده 

ناشناس‌سازی داده می‌تواند به روش‌های مختلفی انجام گیرد. انتخاب رویکرد درست برای ناشناس‌سازی داده به عوامل متعددی بستگی دارد، از جمله موارد استفاده سازمان، اهداف داده‌ای، نوع داده و میزان حساسیت آن.

۱. ماسک‌گذاری داده (Data masking)

یکی از رایج‌ترین روش‌هاست. در این فرایند، مقادیر موجود در مجموعه داده اصلی پنهان یا تغییر داده می‌شوند و با داده‌های مصنوعی جایگزین می‌گردند که واقعی به نظر می‌رسند اما هیچ ارتباطی با داده اصلی ندارند. این روش به سازمان‌ها امکان می‌دهد همچنان به مجموعه داده اصلی دسترسی داشته باشند، در حالی که مقاومت بالایی در برابر شناسایی یا مهندسی معکوس دارد. ماسک‌گذاری داده به دو دسته اصلی تقسیم می‌شود: ایستا و پویا. در ماسک‌گذاری ایستا، قوانین ماسک‌گذاری پیش از ذخیره یا به اشتراک‌گذاری روی داده اعمال می‌شود. در ماسک‌گذاری پویا، این قوانین هنگام پرس‌وجو یا انتقال داده اعمال می‌شوند.

۲. توکنی‌سازی داده (Data tokenization)

توکنی‌سازی داده، اطلاعات حساس را با جایگزین‌های غیرحساس یا «توکن‌ها» جایگزین می‌کند. این توکن‌ها رشته‌هایی از داده‌های تصادفی هستند که به‌خودی‌خود هیچ معنا یا ارزشی ندارند. از آنجا که تنها سیستمی که توکن را ایجاد کرده می‌تواند به داده اصلی دسترسی داشته باشد، داده حساس توکنی‌شده قابل مهندسی معکوس نیست.

۳. نام‌مستعارسازی (Pseudonymization)

در این روش، شناسه‌های خصوصی مانند نام‌ها یا آدرس‌های ایمیل با شناسه‌های ساختگی جایگزین می‌شوند. این روش یکپارچگی داده را حفظ می‌کند و اطمینان می‌دهد که داده‌ها از نظر آماری دقیق باقی بمانند، که در آموزش مدل، آزمون و تحلیل اهمیت دارد. برخلاف بسیاری دیگر از تکنیک‌های ناشناس‌سازی، این روش شناسه‌های غیرمستقیم مانند سن، موقعیت جغرافیایی یا نشانی را که در ترکیب با اطلاعات دیگر می‌توانند افراد را شناسایی کنند، پوشش نمی‌دهد. به همین دلیل داده‌هایی که با این روش محافظت می‌شوند همچنان تحت قوانین حریم خصوصی GDPR قرار می‌گیرند.

۴. جابجایی داده (Data swapping)

جابجایی داده مقادیر ویژگی‌های مجموعه داده را به‌گونه‌ای بازآرایی می‌کند که دیگر شبیه داده اصلی نباشند. با جابجایی داده‌ها در ردیف‌های پایگاه‌داده، این روش در حالی که ارتباط آماری داده را حفظ می‌کند، خطر شناسایی مجدد را کاهش می‌دهد.

۵. داده مصنوعی (Synthetic data)

این روش نگرانی‌های مربوط به حریم خصوصی داده را به شکلی منحصربه‌فرد رفع می‌کند. داده مصنوعی به‌طور مصنوعی تولید می‌شود و هیچ ارتباط قابل ردیابی با داده‌های واقعی ندارد. اگرچه داده مصنوعی توسط ماشین تولید می‌شود، اما بازنمایی واقعی از مجموعه داده اصلی است و می‌تواند برای اهداف مشابه استفاده گردد، بدون اینکه نگرانی‌های مربوط به حریم خصوصی داده ایجاد شود.

پردازش خودکار داده‌ها (ADP) چیست؟
داده‌های نیمه‌ساختارمند (Semi-Structured Data) چیست؟

دیدگاهتان را بنویسید

سبد خرید
علاقه‌مندی‌ها
مشاهدات اخیر
دسته بندی ها