Büyük Veri |
4. BÜYÜK VERİDE ANONİMLEŞTİRME |
4. BÜYÜK VERİDE ANONİMLEŞTİRME
Birlikte Düşünelim
1. Anonimleştirme kelimesi sizlere ne ifade etmektedir?
2. Büyük verinin anonimleştirilmesinin önemi nedir?
3. Hangi anonimleştirme teknikleri vardır?
4. Hangi anonimleştirme tekniğinin uygun olduğu nasıl belirlenir?
5. Anonimleştirmenin başarısız olması nasıl bir sorun ortaya çıkarır?
6. Anonimleştirme işlemlerinde dikkat edilmesi gereken önemli hususlar nelerdir?
Başlamadan Önce
Anonimleştirme, kimlik bilgilerini kaldıran veya değiştiren bir veri işleme tekniğidir; sonuç olarak, hiçbir bireyle ilişkilendirilemeyen anonim veriler ortaya çıkar.
Paylaşılmış büyük veri küme setlerinde yer alan veri sahiplerinin kimlik bilgisi ve hassas verilerinin ifşa edilmesini önlemek, gizliliklerini korumak ve veri sahiplerine yapılabilecek her türlü saldırıları önlemek amacıyla kullanıcı verilerinde veri anonimleştirilmesi yapılır. Anonimleştirilmiş verileri analiz ederek güvenli, değerli ürünler ve özellikler oluşturabilir. Örneğin girilen bir arama sorgusunun otomatik olarak tamamlanması Google tarafından bu yöntemle sağlanmakta ve kimlik avı, kötü amaçlı site ve benzeri güvenlik tehditlerini bu analiz sonucunda tespit edebilir. Aynı zamanda birçok kuruluş anonim verileri harici olarak güvenli bir şekilde paylaşabilir, kullanıcıların gizliliğini riske atmadan başkalarının yararlanabilmesini sağlar. Anonimleştirme işlemi, veri tipi ve biçiminde bir değişikliğe sebep olmadan onları korur. Bu işlemindeki temel amaç veriyi paylaşılabilir yapmaktır. Fakat paylaşılan veriler bilişim teknikleri ve arka- plan bağlama yöntemleri gibi çeşitli uygulamalar ile kişilerin kimlikleri tespit edilmesi önemli bir sorundur. Anonimliğin bozulmasına dair bilinçli olarak yürütülen işlemlere “anonimliğin bozulmasına yönelik saldırılar” denilmektedir. Bu kapsamda, anonim hale getirilmiş kişisel verilerin çeşitli müdahalelerle tersine döndürülmesi ve anonim hale getirilmiş verinin yeniden kimliği tespit edici ve gerçek kişileri ayırt edici hale dönüşmesi riski olup olmadığı araştırılarak ona göre işlem tesis edilmelidir. |
4.1. Veriyi Anonimleştirme
Veri anonimleştirme, büyük veri içerisinde depolanan değişkenlerden doğrudan kişiyi adresleyecek tanımlayıcıların silinmesi veya şifrelenmesi yönetimiyle özel, hassas ya da kişisel nitelikli verilerin kötü amaçlı kullanımından koruma işlemidir. Örneğin, doğrudan kişiyi adresleyecek isimler, sosyal güvenlik numaraları, T.C. kimlik numaraları ve adres gibi veri setleri anonimleştirilerek verinin korunması sağlanır. Ancak, tanımlayıcıların verileri temizlense bile, saldırganlar tarafından kişisel veri anonimleştirme süreci tersten işleterek anonimleştirme yöntemleri deşifre edebilir.
Genellikle anonimleştirme işleminden arındırma teknikleri birden fazla kaynaktan geçtiğinden anonimleştirme teknikleri kaynaklara çapraz referans verebilir ve kişisel bilgileri açığa çıkarabilir. 6698 Sayılı Kişisel Verilerin Korunması Kanunu’nda da (KVKK) veri anonimleştirme ya da anonim hale getirme, kişisel ve özel nitelikli kişisel verilerin korunması için alınması gereken teknik tedbirler kapsamındadır.
Yasal düzenlemeler şirketlerin tüm tanımlayıcıları verilerden kaldırdığı sürece istatistikî amaçla anonimleştirilmiş veri toplanmasına, kullanmasına ve süresiz olarak saklamasına izin vermektedir. Veri sahibi topladığı büyük veri kümesinden anonimleştirme yöntemlerini kullanarak veri alıcısına şekil 4.1’de görüldüğü üzere anonim veri kümesi halinde getirerek sunar.
Şekil 4.1. Büyük verinin anonimleştirilmesi.
Verinin açık hale getirilmesi amacıyla yapılan işlemler ile ilgili temel kavramlar tablo 4.1’de verilmiştir.
Tablo 4.1. Büyük verinin anonimleştirilmesi ile ilgili temel kavramlar [1,2]
4.2. Veriyi Anonimleştirme Teknikleri
Anonimleştirme kimlik ve hassas bilgiler içeren verilerin ifşasının önlenmesi amacıyla mahremiyet modelleri tarafından yarı tanımlayıcı öznitelikler üzerinde yapılan dönüşüm işlemleridir. Bu işlemler sayesinde verinin tipi ve biçimi korunarak paylaşılmış büyük veri kümelerinde yer alan veri sahiplerinin kimlik bilgileri ve hassas verilerinin ifşa edilmesi zorlaştırılır.
Anonimleştirmenin kabul edilebilir düzeyde veri kaybıyla yapılması büyük veriden sağlanan fayda açısından önemlidir. Veri kayıplarındaki artış veri kalitesini düşürerek paylaşılan büyük veriden sağlanan faydanın azalmasına hatta tamamen yok olmasına yol açabilir.
Anonimleştirme kavramı için, hassas verinin yapısı ve biçimi korunarak değiştirilmesi veya çıkarılması işlemleri, mahremiyet-duyarlı verilerin gizlenmesi gibi farklı tanımlamalar yapılmıştır.
Anonimleştirme işleminin temel amacı, veriyi çeşitli katma değerler elde etmek adına paylaşılabilir kılmaktır. Veri paylaşımları içeren büyük veri uygulamaları, mahremiyet ihlallerini de beraberinde getirebilir. Her ne kadar büyük veri karmaşık olarak görünse de çeşitli mahremiyet odaklı saldırılar ile veri sahibinin kimliği veya hassas verileri ifşa edilebilir.
Buna en basit örnek veri bağlama (veri eşleştirme) saldırısıdır. Bu saldırıda, saldırgan daha önceden farklı yollardan temin ettiği çeşitli veriler ile yayınlanan veriler arasında bir ilişki tespit etmesi halinde kimlik ve hassas veriler ifşa edebilir. Önceki bölümlerde de anlatıldığı üzere, 1990 yılında ABD’de sayım uygulamasıyla toplanan cinsiyet, posta kutusu ve doğum tarihi gibi yarı tanımlayıcı bilgilerin kullanılarak ABD nüfusunun %87’sinin kimliklerinin tespit edilebileceği Sweeney tarafından raporlanmıştır.
Dolayısıyla geleneksel anonimleştirme işleminde en temel tekniklerle bile yeterli koruma sağlanamadığı tespit edildiği için, kişisel, kurumsal ve ulusal verilerin korunması açısından yeni tekniklerin büyük veriden sağlanan fayda dikkate alınarak geliştirilmesi hem bir ihtiyaç hem de bir gerekliliktir.
Veri mahremiyetinin korunmasına yönelik, çeşitli anonimleştirme teknikleri ve çözümleri mevcuttur. Bu teknikler en temelde, kayıt bağlama, öznitelik bağlama, tablo bağlama ve olasılık saldırılarına karşı koruma sağlar.
Veriyi anonimleştirme için yaygın olarak kullanılan bazı teknikler [3]:
Veri Maskeleme (Data Masking): Verilerin değiştirilmiş değerlerle gizlenmesi yöntemidir. Veri maskeleme de en çok kullanılan yöntemlerin başında şifreleme, simge kullanma, bulanıklaştırma, karıştırma, geçersizleştirmedir. Veri maskelemede veri formatı değiştirilmez sadece değerler değiştirilir ancak bu değişim herhangi bir şekilde tespit edilmeyecek ve geri döndürülmeyecek şekilde yapılmalıdır. Örneğin, bir değer karakteri “*” ya da “x” gibi bir sembolle değiştirebilir. Veri maskeleme, tersine mühendislik veya algılamayı imkânsız hale getirir. Doğru uygulanmış herhangi bir yöntemle herhangi biri kurumlardaki kişisel verilerin güvenliği için yeterlidir. Veri maskeleme 5 farklı şekilde yapılabilir:
§ Statik veri maskeleme
§ Dinamik veri maskeleme
§ Anında veri maskeleme
§ Deterministik veri maskeleme
§ İstatistiksel veri maskeleme
Statik veri maskeleme orijinal veri tabanının bir kopyasının değiştirilerek kullanıma açılması ile oluşturulur. Bu yöntem yetkili erişimlere karşı güvenlik sağlamakta ancak yetkisiz erişimlere karşı güvenlik sağlamamaktadır.
Dinamik veri maskeleme verilerin veri tabanından çağrıldığı anda maskeleme işleminin yapılması demektir. Dinamik maskelemede kimlik yetkilendirme yöntemi kullanılarak kimlerin hangi verilere ulaşabileceği belirlenerek sadece yetkisi olan kişilerin görmesi gereken bilgileri görmesi ve diğer bilgilerin maskelenmesi sağlanır. Dinamik çalışmasından dolayı tehditler karşısında daha güvenlidir.
Anında maskeleme dinamik veri maskeleme gibi sonuçlar üretmekle birlikte çok fazla veri maskeleme gerektiren uygulamalar veya kurumlar için kullanılabilecek olan bir maskeleme türüdür. Kullandığı ETL (Extract Transform Load) yöntemiyle daha hızlı ve daha az işlem ile maskeleme yapılmasını sağlar.
Deterministtik veri maskeleme bir sütundaki verinin, aynı satırda, aynı tabloda, aynı veri tabanında, veri tabanı türleri arasında aynı değerle değiştirilmesi yöntemidir. Örneğin; bir veri tabanında adı “Ali” olanların her zaman “Mehmet” değeri ile değiştirilmesi işlemidir.
İstatistiksel veri maskeleme orijinal verilerin birtakım istatistiksel özelliklerini koruyan verilerin rastlantısal bozulmalarına dayanır. İstatistiksel veri gizleme yöntemlerine örnek olarak Diferansiyel Gizlilik ve DataSifter yöntemleri verilebilir [4].
Takma Adlandırma (Pseudonymization): Özel tanımlayıcıları sahte tanımlayıcılarla veya takma adlarla değiştiren, örneğin “Levent KARTAL” tanımlayıcısını “Mert DEMİR” ile değiştiren bir veri yönetim ve kimlik belirleme yöntemidir. Takma adlandırma, istatistiksel doğruluğu ve veri bütünlüğünü korurken aynı zamanda değiştirilen verilerin eğitim, geliştirme, test ve analitik için kullanılmasına izin verir ve veri gizliliğini korur.
Burada takma ad ile adlandırılan hassas veri sahte bir dizgi ile değiştirilir. Elde edilen dizgi her zaman aynı giriş için aynı olacak şekilde kullanılır. Bu gizlenmiş bir anahtar ile yapılmaktadır. Sadece bu anahtarı bilenler orijinal veriyi elde edebilmektedir. Veri güvenliğini artırmak için bu gizli anahtarın da periyodik değişimi gerçekleştirilmelidir.
Genelleme (Generalization): Daha az tanımlanabilir hale getirmek maksadıyla bazı verilerin kasıtlı olarak kaldırılması yöntemidir. Örneğin, bir adresteki bina numarasının kaldırılması durumunda sokak isminin kaldırılmaması önem arz etmektedir. Buradaki amaç, veri doğruluğu ölçüsünü korurken bazı tanımlayıcıları ortadan kaldırmaktır.
Ayrıca bu yöntem ile bazı alanlardaki değerler daha geniş bir kategori ile değiştirilir. Örneğin boy alanında yer alan değer ‘≥ 170 cm’ veya ‘180 cm≥ boy ≥ 160 cm’ şeklinde değiştirilerek genelleme yapılabilir. Bu değişim hassas verilerde kalıcıdır ve geri dönüşü olmayan bir işlemdir.
Veri Değiştirme (Data Swapping): Karıştırma ve permütasyon olarak da bilinir, veri kümesi öznitelik değerlerini orijinal kayıtlara karşılık gelmeyecek şekilde yeniden düzenlemek maksadıyla kullanılan bir tekniktir. Örneğin doğum tarihi gibi tanımlayıcı değerleri içeren verilerin (sütunlar) anonimleştirme üzerinde üyelik türü değerlerinden daha fazla etkisi olabilir.
Veri Bozulması (Data Perturbation): Sayıları yuvarlayan ve rastgele gürültü ekleyen teknikler uygulayarak orijinal veri kümesinin biraz değiştirilmesi yöntemidir. Değer aralığı, bozulma ile orantılı olmalıdır. Küçük bir taban zayıf anonimleştirmeye yol açarken, büyük bir taban veri kümesinin faydasını azaltabilir. Örneğin, orijinal değerle orantılı olduğundan, yaş veya ev numarası gibi değerleri yuvarlamak için 5 tabanını kullanabilirsiniz. Bir bina numarasını 15 ile çarpabilirsiniz ve değer onun güvenilirliğini koruyabilir. Bununla birlikte, 15 gibi daha yüksek bazların kullanılması, yaş değerlerinin sahte görünmesini sağlayabilir.
Sentetik Veriler (Synthetic Data): Gerçek olaylarla bağlantısı olmayan algoritmik olarak üretilmiş bilgilerin kullanılması yöntemidir. Sentetik veriler, orijinal veri kümesini değiştirmek veya olduğu gibi kullanmak, aynı zamanda gizlilik ve güvenliği riske atmak yerine yapay veri kümeleri oluşturmak için kullanılır. İşlem, orijinal veri kümesinde bulunan kalıplara dayalı istatistiksel modeller oluşturmayı içerir. Sentetik verileri oluşturmak için standart sapmalar, medyanlar, doğrusal regresyon veya diğer istatistiksel teknikler kullanabilir [5].
Anonim Hale Getirmeyi Kuvvetlendirici İstatistik Yöntemler
Anonimleştirilmiş veri kümelerinde yer alan kayıtlardaki bazı değerlerin tekil senaryolarla bir araya gelmesi sonucunda, kayıtlardaki kişilerin kimliklerinin tespit edilmesi veya kişisel verilerine dair varsayımların türetilebilmesi ihtimali ortaya çıkabilmektedir. Bu sebeple anonimleştirilmiş veri kümelerinde çeşitli istatistiksel yöntemler kullanılarak veri kümesi içindeki kayıtların tekilliğini minimuma indirerek anonimlik güçlendirilebilmektedir. Bu yöntemlerdeki temel amaç, anonimliğin bozulması riskini en aza indirirken, veri kümesinden sağlanacak faydayı da belli bir seviyede tutabilmektir.
K-Anonimlik: Anonim hale getirilmiş veri kümelerinde, dolaylı tanımlayıcıların doğru kombinasyonlarla bir araya gelmesi halinde kayıtlardaki kişilerin kimliklerinin saptanabilir olması veya belirli bir kişiye dair bilgilerin rahatlıkla tahmin edilebilir duruma gelmesi anonim hale getirme süreçlerine dair olan güveni sarsmıştır. Buna istinaden çeşitli istatistiksel yöntemlerle anonim hale getirilmiş veri kümelerinin daha güvenilir duruma getirilmesi gerekmiştir.
K-anonimlik, bir veri kümesindeki belirli alanlarla, birden fazla kişinin tanımlanmasını sağlayarak, belli kombinasyonlarda tekil özellikler gösteren kişilere özgü bilgilerin açığa çıkmasını engellemek için geliştirilmiştir. Bir veri kümesindeki değişkenlerden bazılarının bir araya getirilerek oluşturulan kombinasyonlara ait birden fazla kayıt bulunması halinde, bu kombinasyona denk gelen kişilerin kimliklerinin saptanabilmesi olasılığı azalmaktadır. Örneğin; Tablo 4.1’de ad-soyad, doğum tarihi, cinsiyet, hastalık ve posta kodu gibi değişkenler vardır.
Tablo 4.1. K-anonimlik uygulanmış veri kümesi
Tabloda ad-soyad ve posta kodu değişkenlerine dair değerlerde maskeleme uygulanarak veri anonim hale getirilmiş olmakla birlikte, böyle bir anonimleştirme yapılırken aynı değerleri içeren sadece bir kayıt varsa bu kayıtla doğru kişiyi tespit mümkün olacaktır. Ancak kayıtların çoklanması halinde, tekillik yaratabilecek değişkenlere dair belli bir çeşitlilik sağlanmış olacaktır. Örneğin; Tablo 4.1’de 1983 yılında doğmuş, cinsiyeti erkek ve posta kodu 3440 ile başlayan 3 adet kayıt için “Hastalık Adı” alanında üç ayrı hastalık çeşitliliği sağlanmış olduğundan 1983 yılında doğmuş cinsiyeti erkek olan ve posta kodu 3440 ile başlayan bir kişinin bu 3 hastalıktan hangisine sahip olduğuna dair tahmin yürütmek mümkün olmayacaktır.
L-Çeşitlilik: K-anonimliğin eksikleri üzerinden yürütülen çalışmalar ile oluşan L-çeşitlilik yöntemi aynı değişken kombinasyonlarına denk gelen hassas değişkenlerin oluşturduğu çeşitliliği dikkate almaktadır. Tablo 4.2’de, bir hastanede yatmakta olan kişilere ait hastalık bilgisi verilirken bu kişilerin ad soyad veya kimlik numarası verilmeyerek K-anonimlik uygulanmış olmakla birlikte posta kodu, yaş ve etnik köken bilgisi paylaşılmış olduğundan tespit edilebilme ihtimali bulunmaktadır.
Tablo 4.2. L-Çeşitlilik orijinal veri kümesi
Tablo 4.3. L-Çeşitlilik uygulanmış veri kümesi
Tablo 4.3’ten görüleceği üzere, tablo 4.2’de yer alan bilgiler maskeleme mantığı (posta kodu ve yaş bilgisinden maskelemeyle 4’erli gruplar yaratılmıştır) içerisinde gruplanarak öncelikle K=4 anonimlik yöntemiyle anonimliği kuvvetlendirilmiştir. Ancak ilk işlem sonucunda tablodan görüleceği gibi son 4 kayıttaki grupta tüm “Hastalık” değerleri “Kanser” olarak gruplanmıştır. Bu durum posta kodu 130 ile başlayan 30’lu yaşlardaki herkesin uyruğundan bağımsız olarak “Kanser” hastası olduğu bilgisini paylaşmaktadır. Bu iki bilgiye sahip olan bir kullanıcı, tanıdığı bu özellikte bir kişinin kanser hastası olduğu sonucuna kolaylıkla varabilecektir. Bu nedenle her bir grubun içinde belli bir çeşitlilik yaratılmasına dikkat edilerek maskeleme yöntemi kullanılmalıdır.
T-Yakınlık: L-çeşitlilik yöntemi kişisel verilerde çeşitlilik sağlıyor olmasına rağmen, söz konusu yöntem kişisel verilerin içeriğiyle ve hassasiyet derecesiyle ilgilenmediği için yeterli korumayı sağlayamadığı durumlar oluşmaktadır. Bu haliyle kişisel verilerin, değerlerin kendi içlerinde birbirlerine yakınlık derecelerinin hesaplanması ve veri kümesinin bu yakınlık derecelerine göre alt sınıflara ayrılarak anonim hale getirilmesi sürecine T-yakınlık yöntemi denmektedir. Tablo 4.4’te; doğum tarihi, cinsiyet ve posta kodu alanlarına göre K=3 olacak şeklinde K-anonimlik ve L=3 olacak şekilde L-çeşitlilik sağlanmasına rağmen 1970 yılında doğmuş, 3440* adresinde oturan ve cinsiyeti erkek olan bir kişinin hastalıkları kanser, beyin tümörü ve hepatit b gibi ciddi hastalıklar olduğu için, bu grupta söz konusu kişinin hastalığının ciddi olduğu tespit edilebilir.
Tablo 4.4. T-Yakınlık orijinal veri kümesi.
Bu tahmin gücünü azaltabilmek için de anonimleştirme içindeki gruplamalarda Tablo 4.5’te görülebileceği üzere öyle bir düzenleme yapılmıştır ki üçerli kayıtlardan oluşan gruplarda (K=3) en az 3 farklı (L=3) hastalık tipi olacak şekilde ayarlanmış ancak bir araya gelen bu 3 farklı hastalığın da hepsinin ciddi olmaması sağlanarak (beyin tümörü ve Hepatit-B ciddi hastalıklar iken baş ağrısı ciddi sayılmayacak bir hastalıktır) o gruptaki hastalara dair tahminler azaltılmıştır.
Tablo 4.5. T-Yakınlık uygulanmış veri kümesi.
Yukarıda verilen yöntemlerin yanında bir kişisel verinin silinmesi ya da yok edilmesi yerine anonimleştirilmesine karar verilebilmesi için veri sorumlusunun yerine getirmesi gereken bazı şartlar vardır:
§ Anonimleştirilmiş veri kümesinin bir başka veri kümesiyle birleştirilerek anonimliğin bozulamaması,
§ Bir ya da birden fazla değerin bir kaydı tekil hale getirebilecek şekilde anlamlı bir bütün oluşturulmaması,
§ Anonim hale getirilmiş veri kümesindeki değerlerin birleşip bir varsayım veya sonuç üretebilir hale gelmemesi.
Bu riskler sebebiyle veri sorumlularının, anonim hale getirdikleri veri kümeleri üzerinde bu maddede sıralanan özellikler değiştikçe kontroller yapmaları ve anonimliğin korunduğundan emin olmaları gerekmektedir [6].
4.3. Veriyi Anonimleştirme Yöntemlerinde Seçim Kriterleri
Veri sorumluları yukarıdaki yöntemlerden hangilerinin uygulanacağına ellerindeki verilere bakarak karar verirler. Anonimleştirme yöntemleri uygulanırken sahip olunan veri kümesine dair aşağıdaki özelliklerin de veri sorumluları tarafından dikkate alınması gerekmektedir:
§ Verinin niteliği,
§ Verinin büyüklüğü,
§ Verinin fiziki ortamlarda bulunma yapısı,
§ Verinin çeşitliliği,
§ Veriden sağlanmak istenen fayda / işleme amacı,
§ Verinin işleme sıklığı,
§ Verinin aktarılacağı tarafın güvenilirliği,
§ Verinin anonim hale getirilmesi için harcanacak çabanın anlamlı olması,
§ Verinin anonimleştirmenin bozulması halinde ortaya çıkabilecek zararın büyüklüğü, etki alanı,
§ Verinin dağıtıklık / merkezilik oranı,
§ Kullanıcıların ilgili veriye erişim yetki kontrolü ve
§ Anonimleştirmeyi bozacak bir saldırı kurgulanması ve hayata geçirilmesi için harcayacağı çabanın anlamlı olması ihtimali.
Bir veriyi anonimleştirmeyi düşünen veri sorumlusu, kişisel veriyi aktardığı diğer kurum ve kuruluşların bünyesinde olduğu bilinen ya da kamuya açık bilgilerin kullanılması ile söz konusu verinin yeniden bir kişiyi tanımlar nitelikte olup olmadığını, yapacağı sözleşmelerle ve risk analizleriyle kontrol etmek sorumluluğundadır [6].
4.4. Veriyi Anonimleştirme Çalışmalarında Başarısız Örnekler
Anonimleştirme işlemi, kişisel verilere uygulanan ve veri kümesinin ayırt edici ve kimliği belirleyici özelliklerini yok etme işlemi olduğundan bu işlemlerin çeşitli müdahalelerle tersine döndürülmesi ve anonimleştirilmiş verinin yeniden kimliği tespit edici ve gerçek kişileri ayırt edici hale dönüşmesi riski bulunmaktadır. Bu durum anonimliğin bozulması olarak ifade edilir.
Yeterli düzeyde anonimleştirme seviyesi sağlanmadan paylaşılan veri kümelerinin saldırıya ve ihlale açık olduğu bilinmektedir. Saldırıların motivasyonlarını aşağıdaki başlıklarda toplayabiliriz:
§ Anonimliğin derecesini ve güvenilirliğini test etmek amacıyla yapılan saldırılar,
§ Kurumları, şirketleri, organizasyonları, belirli bir kişiyi veya topluluğu zor durumda bırakmaya ve itibar riski yaratmaya yönelik saldırılar,
§ Anonimliğin bozulması sonucu ortaya çıkacak kişisel verilerden ve elde edilebilecek değerlerden maddi veya manevi fayda sağlama amacıyla yapılan saldırılar.
Yukarıda sıralanan senaryoların farklılığına bağlı olarak saldırıları yürüten kullanıcıların profilleri ve erişim yetkileri de değişkenlik göstermektedir. Bu kişiler aşağıda listelenen örneklerdeki profillere sahip olabilirler:
§ Kamuya açılmış veriye erişimi olan genel bir kullanıcı,
§ Yazılım, istatistik, veri madenciliği konularında uzmanlaşmış bir profesyonel, akademisyen veya araştırmacı,
§ Kuruluş, şirket, organizasyon içinde çalışan veya sistemlere erişim hakkı olan bir kullanıcı,
§ Anonim hale getirilmiş veriyi kullanarak çalışan ancak diğer bazı verilere veya sistemlere erişimi olan kullanıcı,
§ Açıklanmış /paylaşılmış veri kümesinde yer aldığını bildiği bir kişinin yakını, aile üyesi veya arkadaşı.
Saldırıların sonucunda başarılı olunmuş ve anonimlik bozulmuşsa ortaya çıkan kişisel veriye dair üç farklı senaryo oluşmaktadır. Bu senaryolar;
§ Gerçek kişinin kimliğinin tamamen ortaya çıkmış olması,
§ Gerçek kişiye ait belli bir bilginin ortaya çıkmış olması,
§ Bir kişiye dair varsayımsal bir bilginin ortaya çıkmış olması,
olarak sayılabilir.
Kişinin kimliğinin tamamen ortaya çıkmış olması durumu, çoğunlukla saldırganın elindeki anonim hale getirilmiş veriyi elde ettiği veya erişiminin olduğu bir başka veri kümesiyle birleştirmesinden veya doğrudan tanımlayıcılar yerine kullanılan kod veya takma isimlerin kodlamalarının bozulmasından kaynaklanabilir.
Böyle bir durumda gerçek kişinin doğrudan tanımlayıcılarına ulaşılır ve kimlik tamamen saptanabilir hale gelir.
Bu duruma bilinen en iyi örneklerden biri, 2006 yılında AOL firması tarafından çeşitli araştırma faaliyetleri için, kullanıcı kimliği ve IP numarası silinerek 650 bin kadar kullanıcıya ait 20 milyon arama sorgu verisi paylaşılmış, ancak birkaç gün içerisinde bu sorguların kimlere ait olduğu araştırmacılar tarafından tespit edilmiştir.
Veri mahremiyetinin korunamadığı durumlarda veri sahibinin mahremiyetini ihlal eden durumlara bir diğer örnek çevrimiçi yayıncılık ve DVD satış sitesi Netflix’in kullanıcıların geçmiş oylamalarına dayanan film öneri sistemini geliştirmek için 2006’da başlattığı ödüllü yarışmadır. Netflix 500 bin kadar abonesinin film derecelendirmeleriyle ilgili yaklaşık 100 milyon kaydı içeren veri kümesini bu yarışma için yayınlamıştır. Aboneleri tanımlayan kişisel bilgiler (ad, soyad, IP adresi vb.) yarışma için yayınlanan kayıtlardan çıkarılmıştır. Aboneleri birbirinden ayırt etmek amacıyla sayısal numaralar kayıtlara verilere eklenerek yayınlanmıştır. Ancak, 2007’de Austin Üniversitesi’nden iki araştırmacı, yayınlanan veri kümelerini İnternet Film Veritabanı (IMDB) üzerindeki film derecelendirmeleriyle eşleştirerek abonelerin kimliklerinin yeniden tanımlanabileceğini göstermiştir.
Massachusetts’de 1990’lı yıllarda Grup Sigorta Komisyonu isimli bir sigorta şirketi bölgedeki kamu personelinin sağlık sigortası süreçlerini üstlenerek, talep eden araştırmacılara ücretsiz olarak işçilerin hastane ziyaretlerine ait olan veriyi anonimleştirerek paylaşabileceğini duyurmuştur. Paylaşımlar öncesinde Grup, isim, adres, sosyal güvenlik numarası gibi direkt betimleyicileri veriden çıkartarak güvenli ve anonimleştirilmiş bir veri kümesi yaratmayı hedeflenmiştir. Latanya Sweeney isimli araştırmacı sigorta grubundan bu veriyi talep eder, sonrasında ise Massachusetts eyaletinde yer alan Cambridge şehrinin belediyesinden 20 dolar karşılığında tüm seçmen kayıtlarını satın alır. Bu iki veri kümesinde posta kodu, doğum tarihi ve cinsiyet değişkenleri ortaktır. Bu üç değişken üzerinden iki veri kümesi birbiriyle eşleştirildiğinde kişilerin kimliklerinin kolaylıkla tahmin edilebileceği kayıtlar yaratılmış olur. Örneğin, Massachusetts eyalet valisi William Weld o günlerde Cambridge’de oturmaktadır ve kamu personeli olduğundan kayıtlarının sigorta grubunun sağlık verileri içinde yer aldığı bilinmektedir. Sweeney’in eşleştirmesinden sonra ortaya çıkan veri kümesinde sadece 6 kişi vali ile aynı doğum tarihini paylaşmaktadır, bunlardan sadece 3’ü erkektir ve sadece biri vali gibi 5 rakamlı posta koduna sahiptir. Sweeney araştırmanın önemini vurgulamak adına kayıtlar içinde kimliğini saptayabildiği valinin teşhis ve tedavi detaylarını da içeren sağlık kayıtlarını ofisine postalamıştır.
AOL, 1998 yılında 12 milyon, 2006 yılında 27 milyon gibi abone sayılarına ulaşabilmiş Amerika’da hizmet veren büyük bir servis sağlayıcıdır. Şirket, 2006 yılında “AOL Research” adıyla yeni bir girişimde bulunarak, AOL arama motorlarındaki 650.000 kullanıcıya ait olan 20 milyon arama sorgu kaydını sitelerinde kamuya ifşa ederek araştırmacıların dikkatine sunmuşlardır. Arama sorguları ifşa edilmeden önce anonimleştirilerek kimlik saptaması yapılabilecek kişisel verilerden arındırılmış ve bunun yerine kullanıcılara numaralar atanmıştır. Ancak kısa zaman içinde araştırmacılar, arama sorguları içindeki ifadeleri takip ederek ve aynı kullanıcı numarasına ait birden fazla sorguyu birleştirdiklerinde birebir kimlik saptaması yapılabildiğini görmüşlerdir. Bu durum önceki bölümlerde çalıştığımız, birden fazla anonimleştirilmiş veri kümesinin birleşiminden ve veri kümelerindeki dolaylı betimleyicilerin kombinasyonlarından orijinal kümenin açığa çıktığı modele güzel bir örnektir.
İfşa edilen sorgu veri kümesinde ‘4417749’ kullanıcı numarası ile yer alan kişi “Lilburn, Ga’daki bahçe düzenleyicileri”, “Gwinnet County Georgia’da satılık göl kenarı parsel”, ve pek çok “Arnold” soyadlı kişiye ait aramalar yapmıştır. Bu üç veri takip edilip Internet üzerinde arama yapıldığında 62 yaşında Lilburn, Georgia’da yaşayan Thelma Arnold isimli kişinin kimliği kolaylıkla saptanmıştır. Thelma Arnold bunun gibi “hissiz parmaklar”, “60 bekar adam”, “her yere işeyen köpekler” gibi özel hayatıyla ilgili pek çok hassas detayı açık eden ve toplumda utanç verici bir konuma düşmesine sebep olacak aramalar da yapmıştır. Kimliği ifşa edilmiş kayıtlar içinde teşhis edildikten sonra kişiye dair bu ve benzeri pek çok hassas veri açığa çıkmış ve kişinin özel alan gizliliği ve kişisel verileri ihlal edilmiştir.
4.5. Veriyi Anonimleştirme Çalışmalarında Önemli Hususlar
Bu bölümde değinilen birçok husus teknik ve içeriksel açıdan ele alınmış olup ancak bu çalışmaların hukuki boyutunun geri kaldığını görmekteyiz. Anonimleştirme süreçlerinin teknik ve istatistiksel çözümler üretiyor olması, konunun yalnızca teknik çerçevesine odaklanılmasına sebep olmuş ve süreç istatistiksel metotların başarı oranlarına odaklanmış bulunmaktadır. Literatüre geçmiş bazı çalışmalarda gizlilik ve fayda kavramının içeriklerine odaklanmış ancak bu içeriğin hukuki tanımı yerine sosyal içeriğini vurgulamıştır. Buna istinaden, bu çalışmada elde edilen en önemli sonuçlardan biri anonimleştirmenin güvenilirliği tartışmasının hukuki olarak ele alınmamış ve anonimleştirmenin genel esaslarının hukuksal bir yaklaşımla belirlenmemiş olmasıdır.
Yasal mevzuatlar incelendiğinde görülmektedir ki, anonimleştirme, silme ve rıza kavramlarıyla ikame olarak ele alınmış ve birbirinin yerine geçebilen süreçler olarak değerlendirilmiştir. Veri yönetimi süreçlerinde verilerin silinmesi kayıtların tüm arşiv ve yedekleme ortamlarından geri dönüşsüz olarak yok edilmesi anlamına gelmektedir. Ancak böyle bir yok etme işlemi, ilişkisel veri tabanlarındaki mimariyi bozacağından sistem yöneticileri verilerin tamamen uçurulması yerine pasif olarak sistemde varlıklarını sürdürmesini tercih etmektedir. Yani veriler zaman içinde ilişkiler kurdukları tablolara, raporlara, veri ambarlarına zarar gelmemesi için tamamen yok edilmez, sistemde pasif olarak tanımlanır. Örneğin mobil operatörüyle aboneliğini sonlandırılmış bir müşterinin veriler, operatörün veri tabanlarından hemen silinemez. Bu durum o müşterinin verilerinin yer aldığı tüm strateji, pazarlama, trafik yönetimi vs. raporlarını bozacak bir eylemdir. Diğer taraftan, kayıtların çok eskimesi halinde verinin tamamen yok edilmesi halinde de o veriye yeniden ulaşmak mümkün olmayacaktır. Her iki durumda da silme işlemi anonimleştirilmiş veri ile denk değildir.
Anonimleştirilmiş veri her daim belli kimlik saptama risklerini barındırmaktadır. Ancak silme işleminin uygulanış şekline göre riskleri değişkendir ve anonimleştirilmiş veri ile bir tutulması yerine silme işleminin de süreçlerinin net şekilde çalışılması gerekmektedir. Benzer şekilde rıza kavramı da farklı dinamiklere sahiptir. Rızası alınan müşteri veya kullanıcının verileri genel bilgi güvenliği kuralları çerçevesinde işlenebilir hale gelmektedir. Ancak burada veri öznesiyle olan ilişkinin kopartılmasına dair bir şart koşulmamıştır. Hâlbuki, veri anonimleştirme süreci pek çok şartı ve hesaplamayı içerir. Rıza alındıktan sonraki süreç açıkça belirlenmediğinden, veri işlem sorumlusu olan işletmeciler veya kurumlar, rızası alınan veri öznesinin verileri üzerinde daha fazla hak iddia edebilmektedirler. Bu anlamda anonimleştirilmiş veri, rızası alınmış veriden daha güvenli hale gelmektedir.
Burada önemli olan, anonimleştirmenin çerçevesinin ve ilkelerinin belirlenmesi ve anonimleştirmeye hukuki bir yaklaşım kazandırılmasıdır. Buna istinaden, anonimleştirmenin ilkelerini şöyle tanımlayabiliriz;
Anonimleştirme tekil bir çözüm olarak ele alınmalıdır: Anonimleştirme ikame bir çözüm olarak değil, uygulama alanı ve sınırları belli bir tekil çözüm olarak ele alınmalıdır. Silme ve rıza gibi farklı dinamikleri olan süreçlerin bir ikamesi olarak ele alınması anonimleştirme süreçlerine karşı hukuki yaklaşımda yanlış algıların oluşmasına sebep olmaktadır.
Anonimleştirme veri kümesinin niceliğine ve niteliğine bağlı gerçekleşmelidir: Anonimleştirme süreçleri anonimleştirmenin uygulandığı veri kümesinden bağımsız olarak ele alınamaz. Burada önemli olan verinin niteliği, hassas ve özel kategorilerde veriler içerip içermediği, veri öznelerinin koruma dereceleri (çocuklar v.s), verinin çeşitliliği ve büyüklüğü, dış veriye olan hassasiyeti konularında değerlendirmelere tabi tutulduktan sonra anonimleştirmenin uygulanıp uygulanmaması gerektiğine ve hangi metodun daha uygun olacağına karar verilmelidir.
Anonimleştirme iş ve çalışma modellerini dikkate almalıdır: Veri sorumlularının ve veri odaklı çalışan tüm ticari ve idari kuruluşların çalışma yöntemleri birbirinden farklıdır. Bu durum kuruluşların veri yönetim süreçlerine, veri politikalarına ve yapılan yatırımlara yansımaktadır. Bu çeşitliğin içinde anonimleştirme süreçleri kuruluşların iş ve çalışma şekillerini dikkate alarak uygulanmalıdır. Bir üniversitenin verilerine istinaden uyguladığı anonimleştirme süreci ile dünya çapında tanınan bir arama motorunun uygulaması beklenen anonimleştirme süreci aynı olamaz. Kuruluşun sahip olduğu veri hacmi, veri yönetimi yatırımları, tabi olduğu güvenlik politikaları, bilinirliği, dış kaynak ilişkileri, yurt dışı bağlantıları gibi iş modelini etkileyen kriterler dikkate alınarak anonimleştirme çözümleri değerlendirilmelidir.
Anonimleştirme seviyelendirilmelidir: Anonimleştirme kuruluşların bilgi güvenliği politikaları nezdinde seviyelendirilmeli ve hangi şartlar altında başvurulacak bir çözüm olduğu netleştirilmelidir. Özellikle şirket içi paylaşımlar söz konusu olduğunda bilgi güvenliği politikaları, yetki profilleri, erişim kısıtları, fiziksel önlemler gibi süreçler dikkate alınarak anonimleştirmenin konumu diğer tüm tedbirler içinde netleştirilmelidir.
Anonimleştirmeye bağlı ihlaller öncül ve ardıl yaptırımlarla denetlenmelidir: Hukuksal yaptırımların sadece öncül ya da sadece ardıl olarak ele alınması anonimleştirme riskleri hususunda eksik yaklaşımlar gelişmesine sebep olacaktır. Yalnızca öncül yaklaşımlar geliştirilmesi, yukarıda incelediğimiz üzere kurumların anonimleştirme metotlarını uyguladıktan sonra yasal yükümlülüklerinden kurtuldukları imajını yaratarak olası bir ihlal durumunda sorumluluk almalarını engelleyecektir. Aynı şekilde fazla korumacı gizlilik politikaları, kurumlar tarafından art niyetli veya dar yorumlanarak özellikle araştırma ve geliştirme süreçlerinin devamlılığı için gerekli olan veri kümelerini paylaşmaktan veya ifşa etmekten kaçınmalarına yol açabilir. Diğer taraftan yalnızca ardıl yaptırımlar uygulanması, zararın oluşmasından sonra sürece müdahale edilmesini gerektirir.
Anonimleştirme muafiyet getirmemelidir: Anonimleştirilmiş verinin “tüm veri koruması ilkelerinden muaf tutulması”, anonimleştirme sürecini yerine getiren işletme veya kurum için veri güvenliğini sağlanmıştır algısını oluşturmaktadır. Halbuki anonimleştirilmiş veri de hassas veriler gibi ayrı bir veri sınıfı olarak algılanmalı ve anonimleştirmenin olası risklerine istinaden de güvenlik önlemleri önemini korumalıdır.
Bölüm Özeti
Anonimleştirme, verinin tipinin ve biçiminin korunarak paylaşılmış büyük veri kümelerinde yer alan veri sahiplerinin kimlik bilgileri ve hassas verilerinin ifşa edilmesini önlemek amacıyla yapılan bir işlemdir. Anonimleştirmede, büyük veriden fayda sağlayabilmek için veri kaybı yapılmalıdır. Ama veri kayıplarındaki artış veri kalitesini düşürür ve bu da veriden sağlanacak faydanın azalmasına sebep olur. O yüzden anonimleştirme işlemi sırasında veri kaybı kabul edilir düzeyde yapılmalıdır.
Anonimleştirme işleminin temel amacı, veriyi paylaşılabilir kılmaktır. Veri anonimleştirme için yaygın olarak kullanılan teknikler ise; veri maskeleme (data masking), takma adlandırma (psuedonymization), genelleme (generalization), veri değiştirme (data swapping), veri bozulması (data perturbation), sentetik veriler (synthetic data) işlemleridir. Veri anonimleştirilmesi sırasında dikkate alınması gereken bazı kriterler olmuştur. Bunlar, verinin niteliği, büyüklüğü, çeşitliği, aktarılacağı tarafın güvenliği vb. durumlar dikkate alınması gereken kriterlerdir.
Anonimliğin bozulması durumu, anonimleştirme işlemi kişisel verilere uygulanan ve kimlik belirleyici özelliklerin yok edilmesi işlemi olduğu için çeşitli müdahalelerle tersine döndürülmesi ve anonimleşmiş verinin yeniden kimlik tespit edici hale dönüşme durumuna verilen isimdir. Anonimliği bozulan veriden kaynaklı kişisel verilerin açığa çıkmasından veri sahiplerine maddi manevi kayıplar yaşatabilir. İtibar riski yaşanabilir.
Kaynakça
[1] Sağıroğlu, Ş. (2017). Büyük Veri Dünyası: Büyük Veri Büyük Etki. (Ed.), SAĞIROĞLU, Ş ve KOÇ, O., Büyük Veri ve Açık Veri Analitiği: Yöntemler ve Uygulamalar içinde (81-97), Grafiker Yayınları, Ankara.
[2] Lugmayr, A., Lugmayr, A., Stockleben, B., Stockleben, B., Scheib, C., Scheib, C., … & Mailaparampil, M. A. (2017). Cognitive big data: survey and review on big data research and its implications. What is really “new” in big data?. Journal of Knowledge Management, 21(1), 197-212.
[3] Proente Web (Son Erişim:20.01.2022)
URL: https://proente.com/big-data-buyuk-veri-nedir/
[4] BeyazNet Web Sitesi. (Son Erişim: 17.09.2019)
URL:https://www.beyaz.net/tr/guvenlik/makaleler/veri_maskeleme_nedir_turleri_nelerdir.html
[5] Terra Bilişim Web Sitesi (Son Erişim: 10.11.202)
URL: https://terabilisim.com/kvkk-veri-anonimlestirme-nedir-nasil-yapilir/
[6] Kişisel Verileri Koruma Kurumu (KVKK), (2017), Kişisel Verilerin Silinmesi, Yok Edilmesi veya Anonim Hale Getirilmesi Rehberi, ISBN: 978-975-19-6807-4
Comments