Kuinka erilainen yksityisyys ylläpitää sekä hyödyllisiä että luottamuksellisia tietoja

Vaikka se k√§ytt√§√§ usein melko monimutkaisia ‚Äč‚Äčalgoritmeja, eriytetyn yksityisyyden tarkoitus on melko yksinkertainen: varmista, ett√§ ihmisill√§, joiden tietoja ker√§t√§√§n, on sama yksityisyys kuin jos heit√§ ei olisi koskaan rekister√∂ity. Sinun ei pit√§isi koskaan pysty tunnistamaan henkil√∂√§ yksinkertaisesti tarkastelemalla h√§nt√§ varten tallennettuja tietoja.

Kuinka erilainen yksityisyys toimii

Koska meitä koskevia tietoja kerätään ennennäkemätöntä vauhtia ja ihmiset tuntevat olonsa vaivattomiksi, ajatus siitä, että voit todistaa tietosuojasi matemaattisesti, alkaa näyttää hyvältä. Yritykset, kuten Microsoft, Google, Apple. Facebook, ja Uber on joko toteuttanut sen jossain muodossa tai tutkii mahdollisuuksia, mutta ennen kuin suuri tekniikka kiinnosti sitä, sitä käytettiin tällaiseen arkaluonteiseen tutkimustietoon, potilastietoihin ja jopa osiin Yhdysvaltain väestölaskentaa.

Se tekee tämän lisäämällä melua sekä tallennettuihin tietoihin että tuloksiin, jotka palautetaan, kun joku kysyy, että se rikkoa yksittäisiä tietoja, mutta ylläpitää yleistä muotoa. Melu on pääosin epäsäännöllistä tai selittämätöntä datan vaihtelua, ja tässä tavoitteena on lisätä melua yksittäisiin datapisteisiin pitäen samalla yllä yleisiä mittoja, kuten keskiarvo, mediaani, tila ja keskihajonta lähellä sitä, missä ne olivat ennen.

Yksinkertainen erilainen yksityisyys

Kuvittele, ett√§ sinut valittiin osallistumaan uraauurtavaan yhteiskuntatieteelliseen tutkimukseen. T√§ss√§ on saalis: Jotkut kysymykset voivat olla kiusallisia, syytt√§vi√§ tai muuten ep√§mukavia. Oletetaan, ett√§ kukaan ei n√§e nime√§si tarrasarakkeen valintamerkin vieress√§. Oikeastaan ‚Äč‚Äčnauttivat Game of Thronesin viimeisest√§ kaudesta.

Erilaiset yksityisyystutkimustiedot

Onneksi tutkijat muuttivat tutkimuksen nimettömäksi. Nimen sijasta saat satunnaisluvun, mutta silloinkin ihmiset voivat käyttää vastauksiasi ja rajata se sinulle.

Tämä on ongelma, joka esiintyy tosiasiassa melko usein todellisessa maailmassa, tunnetaan ehkä parhaiten, kun tutkijat eivät vain pystyneet tunnistamaan Netflix-käyttäjiä mutta jopa tietää joihinkin heidän poliittisista mieltymyksistään. Mutta entä jos voisimme väärentää nämä tiedot samoin kuin kyselymme, jotta kukaan tuloksia lukevaa ei tietäisi varmasti mitä kukin ihminen sanoi?

Lisää melua kääntämällä kolikoita

T√§ss√§ on tekniikka, jota voimme k√§ytt√§√§ sek√§ yksityisyyden s√§ilytt√§miseen ett√§ tulosten saamiseen, jotka n√§ytt√§v√§t yhdess√§ silt√§, ‚Äč‚Äčkuin kaikki olisivat kertoneet totuuden:

Erityisen yksityisyyden suojamekanismin lohkokaavio
    Joten kysy kyll√§ ‚Äč‚Äč/ ei (oletko nauttinut Game of Thronesin viimeisest√§ kaudesta?). Heit√§t kolikon. Jos kolikko on p√§√§, k√§√§nn√§ se uudelleen. (Ei ole v√§li√§ mit√§ saat toisen kerran.) Vastaa kysymykseen rehellisesti. (Kyll√§.) Jos h√§nen h√§nn√§ns√§, k√§√§nn√§ kolikko uudelleen. Jos h√§nell√§ on p√§√§ns√§rky, sano Kyll√§. Jos h√§nen h√§nn√§ns√§, sano ei.

Emme katso kolikkoa, joten emme tied√§, k√§skettiink√∂ sinun valehdella. Me vain tied√§mme, ett√§ sinulla oli 50% mahdollisuus kertoa totuus ja 50% mahdollisuus sanoa kyll√§ ‚Äč‚Äčtai ei.

Kolikkojen diferentsiaalin heittäminen

Vastauksesi tallennetaan sitten nimesi tai tunnusnumerosi viereen, mutta nyt olet todennäköisesti kieltänyt sen. Jos joku syyttää sinua siitä, että nautit viimeisestä Game of Thrones -kaudesta, sinulla on puolustus, jota tukee todennäköisyyslaki: kolikon läppä käski sanoa sen.

Tosiasialliset algoritmit, joita useimmat teknologiayritykset käyttävät eriytetyn yksityisyyden tarjoamiseen, ovat paljon monimutkaisempia (kaksi esimerkkiä alla), mutta periaate on sama. Koska on epäselvää, onko kukin vastaus todella tärkeä, ja jopa muuttamalla vastauksia satunnaisesti, nämä algoritmit voivat varmistaa, että riippumatta siitä, kuinka monta kyselyä joku lähettää tietokantaan, he eivät pysty tunnistamaan ketään tarkemmin.

Kaikissa tietokannoissa ei kuitenkaan käsitellä sitä samalla tavalla. Jotkut käyttävät algoritmeja vain, kun dataa etsitään, mikä tarkoittaa, että itse tieto on tallennettu jonnekin alkuperäisessä muodossaan. Tämä ei tietenkään ole ihanteellinen tietosuojakäytäntö, mutta eriytetyn yksityisyyden soveltaminen milloin tahansa on parempi kuin työntää raakadataa maailmaan.

Kuinka sitä käytetään?

Apple

Erilainen yksityisyys Apple Piirustus keskimääräisestä läänistäLuonnosten keskimääräisen määrän algoritmi käyttänyt Apple eriytetyn yksityisyyden hyväksi

Apple käyttää erilaista yksityisyyttä peittää yksittäiset käyttäjätiedot ennen lähettämistä logiikan avulla, että jos monet ihmiset lähettävät tietonsa, melulla ei ole merkittävää vaikutusta aggregaattitietoihin. He käyttävät Count Mean Sketch -nimistä tekniikkaa, joka tarkoittaa periaatteessa sitä, että tiedot koodataan, satunnaiset elementit vaihdetaan ja sitten virheellinen versio dekoodataan ja lähetetään Apple Analysoitavaksi. Kerro sinulle esimerkiksi kirjoittamalla ehdotuksia, hakuvinkkejä ja jopa hymiöitä, jotka ilmestyvät sanan kirjoittamisen yhteydessä.

google

Googlen ensimmäinen suuri yritys yksityisyyden erottamiseen oli RAPPOR (Randomized Aggregatable), joka välittää tietoja suodattimen läpi ja muuttaa satunnaisesti fragmenttejaan käyttämällä yllä kuvattua kolikkokäännösmenetelmää. Aluksi he käyttivät sitä tiedon keräämiseen tietoturvaongelmista Chrome-selaimessa, ja ovat sittemmin käyttäneet eriytettyä yksityisyyttä muualla esimerkiksi määrittämään, kuinka kiireinen yritys on tiettynä ajankohtana paljastamatta yksittäisten käyttäjien toimintaa. Itse asiassa tämä projekti on julkaistu avoimen lähdekoodin pohjalta, joten niiden työhön perustuvia sovelluksia voi ilmestyä enemmän.

Miksi kaikkia tietoja ei käsitellä tällä tavalla?

Eri tietosuoja on tällä hetkellä melko monimutkainen toteuttaa, ja siihen sisältyy tarkkuuden kompromissi, joka voi tietyissä olosuhteissa vaikuttaa kielteisesti kriittisiin tietoihin. Esimerkiksi koneoppimisalgoritmit, jotka käyttävät yksityistettyjä tietoja luottamukselliseen lääketieteelliseen tutkimukseen, voivat tehdä virheitä, jotka ovat riittävän suuria tappamaan ihmisiä. Siitä huolimatta, että jo kun tosiasiallinen käyttö tekniikan maailmassa otetaan huomioon ja kun otetaan huomioon kasvava tietoisuus tietosuojaa koskevasta yleisöstä, on suuri mahdollisuus, että hyvin havaittu matemaattisesti todistettu yksityisyys mainostetaan tulevaisuudessa myyntipisteenä.

Kuvalainat: RAPPOR-tiedonkulku. Palvelinpuolen algoritmi Hademard-laskelmien keskimääräisen luonnoksen luonnostamiseksi. R-MASS-pakettidatajoukotutkimus. Todennäköisyyspuu Рkäännä kolikko

Lue lisää:

Onko artikkeli hyödyllinen?