物联网安全：基于差分隐私的数据发布-黑客业务

物联网会感知大量的数据，通常需要发布和共享。然而，数据在发布和共享时面临着巨大的隐私泄露风险。随着数据挖掘技术的不断提高，数据挖掘者越来越容易获得隐私保护物联网数据中的敏感信息。因此，如何保护发布数据中的隐私已成为一个新的研究热点。

从根本上说，数据发布隐私保护是在数据发布的同时，尽可能保护发布数据中的隐私信息。差异隐私作为当前数据发布隐私保护的标准，可以在数据发布过程中处理原始数据，从而保护原始数据中的敏感信息。简单地说，差异隐私数据发布是数据所有者以某种形式向外界显示数据，并使用差异隐私技术来保护数据中的隐私信息的过程。

01 隐私差异的概念

差异隐私是数据发布隐私保护技术中理论保障强、数学证明严格的隐私保护模式。差异隐私保护是一种增加数据扰动保护的保护技术。它可以保证数据集的统计特征不变，而不考虑攻击者的背景知识。同时，它还保护数据集，方便研究人员在数据保护后挖掘和统计数据，不泄露用户的隐私。

差分隐私具有严格的数学证明，该机制可以确保在对数据进行保护以后不会影响输出结果的统计特性，攻击者无法判断该用户是不是在该数据集中，因为使用差分隐私保护以后对于数据的查询结果在形式上不可区分，所以保证了用户的个人隐私信息不被泄露。

差异隐私可以增加或删除数据库中的记录，使攻击者无法判断在分析的数据库中是否存在任何知识背景下的记录。假设有一个数据表，如图1所示，该数据是医院的门诊病历记录，包括患者的姓名、年龄、性别、临床诊断和其他信息1（a）是原始数据记录的直方图发布形式。如果攻击者想知道Cole例如，攻击者已经知道诊断和强大的背景知识Cole性别是男性，年龄在60~80攻击者将能够在岁之间推断出其他人的临床诊断信息Cole临床诊断信息导致Cole隐私信息被泄露。差异化隐私想要解决的问题是，当攻击者有任何背景知识时，数据集中的隐私信息不会被泄露。

图1（b）从图中可以看出，即使攻击者知道年龄在60~80岁之间除了Cole他无法获取所有人以外的信息Cole诊断信息。

图1 医院门诊病历记录(统计数据直方图发布)

差异隐私：经典差异隐私（DP）最初，基于数据集提出的隐私保护概念，可以为数据隐私的保护效果提供严格的信息论保障。DP以概率的形式描述原始数据集对最终统计输出的影响，并通过隐私参数￡约束这种概率变化，达到隐私保护的目的。

假设D是具有n个记录、d个属性数据集，假设变量r表示数据集中的记录。两个数据集D和D′它是兄弟数据集，即如果它们有相同的属性，并且只有一个不同的记录ri表示此记录，Di表示带有ri记录的数据集，D-i表示删除ri隐私定义如下。

ε-差异隐私：两个数据集的差异最多是一个记录D和D′，Range(A)表示随机函数A取值范围，Pr[Es]表示事件Es随机函数的披露风险A提供ε-差分隐私保护，则对于所有的S⊆Range(A)，都满足如下所示：

如图2所示，算法通过添加一些常规噪声来区分隐私，并确保在删除或添加记录时查询的一些统计概率不会改变，从而保护用户之间的隐私信息。

图2 相邻数据集中随机算法的输出概率

（ε,δ）-差分隐私：对于差别至多为一个记录的两个数据集D和D′，Range(A)表示随机函数K取值范围，Pr[Es]表示事件Es随机函数的披露风险A提供（ε,δ）对于所有隐私保护的差异S⊆Range(A)，满足以下内容：

其中，D和D′根据相邻数据集的以根据相邻数据集的差异将差异隐私分为有界差异隐私（Bounded Differential Privacy，BDP）隐私与无限差别（Unbounded Differential Privacy，UDP）。在BDP中，D和D′它是一个可以替代的相邻数据集D′得到一个实体D。在UDP中，D和D′通过添加或删除相邻数据集D′得到一个实体D。BDP相邻数据集的大小相同，UDP但没有这种约束。

（ε,δ）-差分隐私是ε-松弛版本的差异隐私允许参数违反隐私的概率δ控制在很小的范围内。隐私保护的定义ε-在差异化隐私带来过度噪声、效用性低的场景中，可以显示出明显的优势。

通过添加随机噪声，可以实现差异隐私的查询操作。添加的噪声是隐私参数ε一个函数，这种查询的性质被称为敏感性。敏感性的类型会随着两个相邻数据库的查询结果而变化。在大多数情况下，我们将把整体敏感性作为决定查询结果安全性的重要参数。

ε隐私预算是衡量隐私保护强度的参数。从上图可以看出，ε值越小，算法的隐私保护就越强。相反，隐私保护就越弱。差异隐私保证，无论数据库中的任何记录是否存在，对算法的输出分布几乎没有影响。

相邻数据集：若D与D′对于相邻数据集，则D可通过D′添加、删除或修改数据元组。

从上述定义可以看出，对于任何两个相邻的数据集，输出相同结果的概率比差介于e-ε和eε之间；可见参数ε对控制隐私泄露起着至关重要的作用。

基于DP学者设计了一些符合要求的随机机制；在同一个定义中ε在水平上，机制的设计和适用性将极大地影响隐私数据的可用性。

全球敏感性：给定的查询函数f:Dn→Rd，f的Lp全局敏感度定义为：

GSf=maxD,D′||f(D)-f(D′)||p

数据集D和D′数据记录最多相差一条。

局部敏感性：给定的查询函数f:Dn→Rd，其中D∈Dn，D的Lp局部敏感度定义为：

LSf(D)=maxD′|| f(D)-f(D′)||p

对于一些查询操作函数f，得到的∆f都比较小，对于计数查询函数来说∆f=1，此外，该属性与查询函数有关，与数据集的属性无关。数据集可以通过该属性发布，即多种函数操作，使数据集满足数据保护的要求。拉普拉斯机制和指数机制一般用于差异化隐私保护。

差分隐私算法具有组合特征，即通过组合获得的几种满足差分隐私的独立算法仍然满足差分隐私。差分隐私的组合特征保证了计算差分隐私算法的一系列隐私，可以根据这一特征得出以下特征。

顺序组合（Sequential Composition）：若机制M由多个子机制组成，如M=（M1,M2,…,Mn），其中Mi满足εi-区分隐私，然后机制M满足εi-区分隐私，其中

并行组合（Parallel Composition）。如果数据库中的每个不相交的子集Di在机制Mi下都满足εi-区分隐私，那么

在机制Mi下也满足εi-差分隐私。

02 隐私保护模型差异化

差异化隐私数据发布主要有两种保护模型：交互式保护模型和非交互式保护模型。如图3所示，在交互式保护模型下，数据所有者根据实际需要设计数据发布算法，以满足差异化隐私A，用户向服务器发出查询请求Q当隐私预算未消耗时，返回给用户的查询结果将通过差分隐私算法A添加一定量的噪声，即用户获得的查询结果是添加噪声后的答案，而不是真实的答案。该交互式保护模型具有及时性好的特点，可以及时更新数据库，并实时返回查询结果。但该模型的问题是隐私预算消耗过快，需要尽可能多地使用有限的隐私预算来回答查询请求，这也涉及到如何分配每个查询的隐私预算。

图3 交互保护模型

图4显示了差分隐私数据发布的非交互式保护模型。数据所有者首先使用差分隐私算法A隐私保护要发布的数据，然后形成一个新的合成数据库，具有与原始数据库相似的统计特征。此时，所有用户查询和数据挖掘都在合成数据库上进行，以确保原始数据中的隐私信息不被泄露。该模型的特点是不限制用户的查询次数，但会导致数据发布的可用性低，数据查询的及时性差。

图4 非交互式保护模型

03 区分隐私数据发布机制

任何满足差异隐私定义的机制都可以被视为差异隐私数据发布机制。目前，提出了拉普拉斯机制、指数机制、中位数机制、矩阵机制等许多差异隐私数据发布机制，但拉普拉斯机制和指数机制是差异隐私数据发布中应用最广泛的两种机制。这两种机制都可以保护发布的数据，以满足差异隐私。此外，还有敏感数据集发布机制和非敏感数据集发布机制。

(1)拉普拉斯机制

拉普拉斯机制（Laplace Mechanism）适用于输出结果是一个查询函数。该机制通过在实际输出结果中添加适当的拉普拉斯噪声来获得差异隐私，噪声是根据满足概率分布的

拉普拉斯分布LAP(λ)其中λ它是分布的规模因素，其价值取决于整体敏感性∆f隐私变量与预期不同ε，该分布的方差为σ2=2λ2。下面的定理和定义给出了这些变量之间的关系。

对于任意的f:Dn→Rd，当

当添加满足拉普拉斯分布时间LAP(λ)满足机制的输出结果ε-差分隐私。

拉普拉斯机制:若机制M满足ε-在数据集中区分隐私D上面有一个函数f:D→R，拉普拉斯机制可以表示为：

M（D）=f（D） LAP（∆/ε）

拉普拉斯机制的原理是将独立的拉普拉斯噪声添加到真实的数据中，从尺度参数到λ产生拉普拉斯概率密度函数。如果使用LAP（λ）拉普拉斯机制的定义如下：

(2)指数机制

对于非数值数据，差分隐私利用指数机制随机处理结果，并使用评分函数q（D,Φ）来评估输出Φ质量。此外，由于评分函数依赖于实际应用，不同的应用会有不同的评分函数，因此没有一个通用的评分函数可以使用。

指数机制（Exponential Mechanism）：令q（D,Φ）表示数据集D打分函数可以测量输出Φ的质量。∆q表示输出Φ当指数机制的敏感M满足下面的公式，满足差异隐私。

在实际应用中，许多查询函数的输出结果是非数值的，这使得添加拉普拉斯噪声毫无意义。为此，一些学者提出了实现非数值数据差异隐私保护的指数机制，并设计了一个可以获得更好查询响应的应用场景。首先定义一个有效的函数u:(D×τ)→R，向输出域R中的输出r添加实数值噪声。在这里，值越大，效用越好。然后满足。

选择输出的概率r∈R，其中，∆u=maxD,D′,∀r|u(D,r)−u(D′,r)|是功能函数的敏感性。u值越大，越容易选择，所以这种机制可以看作是对的u最优化。此外，效用函数对数据库中单个记录的变化不敏感。

下面给出一个具体的实例来说明指数机制。假如班级举办运动会，需要挑选一个项目来进行比赛，为了保护投票的信息不被泄露，因为最后得到的结果不是数值型的，所以使用指数机制进行保护；对票数进行计数统计时，很显然函数的∆q=1，因此，每个项目的概率值可以根据指数机制的要求来保护表1中的投票结果。

表1 指数机制应用实例

从上表的计算结果可以看出，当隐私保护参数比较大的时候，输出结果的概率值也比较大，同时，如果隐私保护参数变小的话，则最后的结果会趋于相等。

任意查询函数u:(D×τ)→R，指数机制以

选择输出的概率r时可以保证ε-差分隐私。

(3)敏感候选发布机制

针对敏感候选集，因为里面包含的不仅是群体用户的行为特征区域，还有用户之间的关联位置信息，所以为了重点保护用户的位置信息不被攻击者推断攻击而泄露用户的位置关联信息，针对敏感候选集提出了关联敏感度差分隐私保护方法，即对差分隐私中的全局敏感度进行改进，进而减少噪声的引入。然后对敏感候选集中的所有聚类簇进行隐私保护，以保护用户的关联位置隐私。上文得到了用户个体的关联敏感度，并且根据得到的敏感候选集的关联属性的强弱可以合理地分配ε确保数据保护的隐私预算满足差异化隐私的要求。对于每个敏感候选人集中的用户进行个性化的关键保护，对于相关信息强的用户，使用相对较弱的相关机制进行数据保护，然后将相关信息降低到可接受的范围，使攻击者进行相关攻击，相关属性的数量大大降低。

处理用户敏感候选集后，获得的数据不仅保护了用户的位置信息，而且保护了用户的相关信息，并将数据操作转换为矩阵，进一步降低了算法的复杂性。

(4)非敏感候选发布机制

对于非敏感候选人收集的用户位置数据，主要是为了保护非停留点位置数据的隐私。用户的非停留点包含了大量的路径问题，如果没有得到保护，用户的隐私信息就会泄露。对于用户轨迹点，虽然它也有一些相关信息，但它并不像停留区那么严重。如果用户的轨迹点只是使用差异化隐私的拉普拉斯噪声进行处理，它将在现有的轨迹位置形成毛刺点，因此很难抵抗攻击者的滤波攻击。因此，该指数机制用于解决这个问题，并结合用户位置的速度和方向因素，在极坐标系下添加相邻位置点的噪声，使噪声的添加更能保护用户的隐私，对抗滤波攻击。该算法主要是为相邻位置点计算下一点的速度、方向和距离，然后将笛卡尔坐标系转换为极坐标系进行不同维度的噪声添加，使数据集的可用性更好地保护和数据集的可用性。

04 数据发布面临挑战

目前，虽然许多研究人员致力于数据发布隐私保护技术的研究，但随着信息技术的发展，数据规模的增加，数据类型变得更加复杂和多样化，特别是随着数据挖掘技术水平的提高，隐私保护技术在数据发布中的研究意义更加突出。差异隐私作为数据发布隐私保护技术的标准，对解决当前数据发布与隐私保护之间的矛盾至关重要。因此，研究更好的差异隐私数据发布方法具有重要的现实意义。综上所述，现有差异隐私数据发布的主要挑战如下。

(1)数据类型的变化

目前，由于现实生活中的许多应用程序倾向于动态生成和发布数据，数据类型从静态变为动态，导致许多不同的隐私数据发布方法不适用于当前的动态数据发布。如果动态数据采用静态数据发布方法发布，隐私预算有限可能导致发布数据的可用性极差。即使提出了一些适合动态数据发布的不同隐私方法，动态数据发布的可用性仍有待提高。

(2)隐私预算分配

在差异化隐私数据发布中，隐私预算的分配与数据发布的有效性密切相关，特别是在动态数据发布过程中，如果有限的隐私预算不能合理分配，可能会导致动态数据发布的有效性恶化。现有的差异化隐私动态数据发布方法大多采用相对简单的方法来分配隐私预算，如均匀、增减到需要发布的采样点，而不是根据动态数据的特点，导致隐私预算过早耗尽或浪费。因此，如何在动态数据发布中合理分配有限的隐私预算已成为差异化隐私动态数据发布面临的挑战。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

黑客业务

24小时接单的黑客,黑客业务,黑客怎么找,网络黑客,黑客技术

物联网安全：基于差分隐私的数据发布