با توجه به اینکه حریم خصوصی دادهها هم به یک الزام قانونی و هم به یک مزیت رقابتی تبدیل شده است، سازمانها برای استفاده مسئولانه از اطلاعات حساس به سمت ناشناسسازی داده حرکت میکنند. با حذف یا تغییر شناسههای شخصی، ناشناسسازی به تیمها این امکان را میدهد که در حالی که از حریم خصوصی افراد محافظت میکنند، به بینشهای ارزشمند نیز دست یابند.
بررسی اجمالی
مشتریان امروزی برای حریم خصوصی خود ارزش قائلاند و به لطف قوانینی مانند GDPR و CPRA، سازمانها حریم خصوصی داده را در اولویت قرار دادهاند. ناشناسسازی داده به سازمانها کمک میکند که از اطلاعات حساس به شکل مسئولانه استفاده کنند. با تغییر یا حذف اطلاعات هویتی شخصی (PII) از مجموعه دادهها، میتوان دادههای حساس را با ایمنی تحلیل و به اشتراک گذاشت. در این مقاله توضیح خواهیم داد ناشناسسازی داده چگونه کار میکند و چه نوع دادههایی باید ناشناس شوند. همچنین پنج روش رایج ناشناسسازی داده را بررسی کرده و خواهیم گفت هرکدام چگونه به محافظت از حریم خصوصی افراد و انطباق با قوانین مربوط به آن کمک میکنند.
ناشناسسازی داده چیست؟
ناشناسسازی داده فرایند تغییر یا حذف اطلاعات هویتی شخصی از مجموعه دادهها بهمنظور محافظت از حریم خصوصی افراد است. هدف آن این است که دادهها بهگونهای تبدیل شوند که دیگر به افراد خاصی مرتبط نباشند و در نتیجه ناشناس باقی بمانند، در حالی که همچنان برای تحلیل، پژوهش و سایر اهداف کاربردی باشند. ناشناسسازی میتواند از طریق جایگزینی داده اصلی با داده مصنوعی، بازآرایی ویژگیهای مجموعه داده به شکلی متفاوت از حالت اصلی یا استفاده از داده مصنوعی تولیدشده توسط ماشین انجام گیرد.
در حالی که روشهای ناشناسسازی نقش مهمی در کاهش خطر افشای نامناسب دادههای حساس ایفا میکنند، اما بهتنهایی یک راهحل جامع برای حریم خصوصی داده نیستند. ناشناسسازی داده باید همراه با سایر کنترلهای حریم خصوصی داده مانند کنترل دسترسی مبتنی بر نقش (RBAC) یا مبتنی بر ویژگی (ABAC) استفاده شود. رمزنگاری داده یکی دیگر از روشهای استاندارد است که باید برای ایمنسازی دادههای حساس پیادهسازی گردد. این روش از کلید رمزنگاری استفاده میکند؛ کلیدی ریاضی که مانع خوانده شدن دادهها توسط اشخاص ثالث در حالت ذخیره، انتقال یا استفاده فعال میشود.
چه نوع دادههایی باید ناشناس شوند؟
رایجترین نوع داده برای ناشناسسازی، PII یا اطلاعات هویتی شخصی است. نمونهها شامل اطلاعات تماس، تاریخ تولد، شماره حساب کارت اعتباری و شمارههای تأمین اجتماعی است. PII همچنین شامل اطلاعات بیومتریک مانند عکسهایی با ویژگیهای قابل شناسایی یا امضای صوتی و نیز اطلاعات آموزشی، شغلی، مالی و پزشکی میشود. ناشناسسازی داده همچنین میتواند روی سایر دادههایی که باید محرمانه بمانند اعمال گردد، از جمله گزارشهای مالی سازمان یا داراییهای فکری مانند یافتههای پژوهشی یا فرایندهای تولید اختصاصی.
معرفی ۵ رویکرد رایج در ناشناسسازی داده
ناشناسسازی داده میتواند به روشهای مختلفی انجام گیرد. انتخاب رویکرد درست برای ناشناسسازی داده به عوامل متعددی بستگی دارد، از جمله موارد استفاده سازمان، اهداف دادهای، نوع داده و میزان حساسیت آن.
۱. ماسکگذاری داده (Data masking)
یکی از رایجترین روشهاست. در این فرایند، مقادیر موجود در مجموعه داده اصلی پنهان یا تغییر داده میشوند و با دادههای مصنوعی جایگزین میگردند که واقعی به نظر میرسند اما هیچ ارتباطی با داده اصلی ندارند. این روش به سازمانها امکان میدهد همچنان به مجموعه داده اصلی دسترسی داشته باشند، در حالی که مقاومت بالایی در برابر شناسایی یا مهندسی معکوس دارد. ماسکگذاری داده به دو دسته اصلی تقسیم میشود: ایستا و پویا. در ماسکگذاری ایستا، قوانین ماسکگذاری پیش از ذخیره یا به اشتراکگذاری روی داده اعمال میشود. در ماسکگذاری پویا، این قوانین هنگام پرسوجو یا انتقال داده اعمال میشوند.
۲. توکنیسازی داده (Data tokenization)
توکنیسازی داده، اطلاعات حساس را با جایگزینهای غیرحساس یا «توکنها» جایگزین میکند. این توکنها رشتههایی از دادههای تصادفی هستند که بهخودیخود هیچ معنا یا ارزشی ندارند. از آنجا که تنها سیستمی که توکن را ایجاد کرده میتواند به داده اصلی دسترسی داشته باشد، داده حساس توکنیشده قابل مهندسی معکوس نیست.
۳. ناممستعارسازی (Pseudonymization)
در این روش، شناسههای خصوصی مانند نامها یا آدرسهای ایمیل با شناسههای ساختگی جایگزین میشوند. این روش یکپارچگی داده را حفظ میکند و اطمینان میدهد که دادهها از نظر آماری دقیق باقی بمانند، که در آموزش مدل، آزمون و تحلیل اهمیت دارد. برخلاف بسیاری دیگر از تکنیکهای ناشناسسازی، این روش شناسههای غیرمستقیم مانند سن، موقعیت جغرافیایی یا نشانی را که در ترکیب با اطلاعات دیگر میتوانند افراد را شناسایی کنند، پوشش نمیدهد. به همین دلیل دادههایی که با این روش محافظت میشوند همچنان تحت قوانین حریم خصوصی GDPR قرار میگیرند.
۴. جابجایی داده (Data swapping)
جابجایی داده مقادیر ویژگیهای مجموعه داده را بهگونهای بازآرایی میکند که دیگر شبیه داده اصلی نباشند. با جابجایی دادهها در ردیفهای پایگاهداده، این روش در حالی که ارتباط آماری داده را حفظ میکند، خطر شناسایی مجدد را کاهش میدهد.
۵. داده مصنوعی (Synthetic data)
این روش نگرانیهای مربوط به حریم خصوصی داده را به شکلی منحصربهفرد رفع میکند. داده مصنوعی بهطور مصنوعی تولید میشود و هیچ ارتباط قابل ردیابی با دادههای واقعی ندارد. اگرچه داده مصنوعی توسط ماشین تولید میشود، اما بازنمایی واقعی از مجموعه داده اصلی است و میتواند برای اهداف مشابه استفاده گردد، بدون اینکه نگرانیهای مربوط به حریم خصوصی داده ایجاد شود.
