焦点期刊
在线客服

著作编辑 著作编辑

投稿邮箱: 941198995@qq.com

论隐私保护的经济统计信息发布高级职称论文范文

时间:2014-09-25 20:43:37 阅读量:0次 所属分类:经济论文

经济统计学作为一门应用非常广泛的科学,是经济管理专业学生必备的专业基础知识,也是从事经济理论研究与实际工作的人士必不可少的分析与决策工具

  摘要:经济统计学作为一门应用非常广泛的科学,是经济管理专业学生必备的专业基础知识,也是从事经济理论研究与实际工作的人士必不可少的分析与决策工具。

  关键词:隐私保护,经济统计,信息发布,高级职称论文范文

  统计学专业主要包括一般统计和经济统计两类专业方向,培养具有良好的数学或数学与经济学素养,掌握统计学的基本理论和方法,能熟练地运用计算机分析数据,能在企业、事业单位和经济、管理部门从事统计调查、统计信息管理、数量分析等开发、应用和管理工作,或在科研、教育部门从事研究和教学工作的高级专门人才。

  1 引 言

  21世纪以来,随着信息技术的进步和互联网的广泛应用,信息共享已成为人们日常工作、生活和学习中的普遍行为。政府部门、社会团体和个人的统计信息大量涌现,信息数据收集的种类和数量呈指数级增长。与此同时,国家和有关部门制定了有关信息安全的法规及相关制度,舆论媒体对统计数据的关注度和要求也越来越高,但有关国民经济的各种统计数据因存在虚假和泄露隐私受到质疑的情况却时有发生。

  大量的隐私数据发布和共享已经对隐私和信息安全构成威胁,隐私数据的泄露已成为急待解决的问题[1]。如何保证隐私数据在发布或使用时不被对应到特定人和特定部门已成为一个研究热点。

  本篇论文发表在《中外企业家》 杂志创刊于1984年10月,是人文社科综合类期刊,半月刊。由中外企业家杂志社主办,哈尔滨工业大学主管,国内外公开发行,国内刊号:CN23—1025/F,国际标准刊号:ISSN1000—8772。刊物以企业家独特视角,与您共同关注世界经济领域的新产品、新技术、新市场、新视野。

  本文所述的隐私保护主要是指对统计数据中个人敏感信息的安全保护,是防止不法分子对个人敏感信息非法窃取的私有信息保护[2]。隐私攻击者除了能访问发布的统计数据表外,还可能通过文献资料、技术文档等获得发布的统计数据表中所采用的隐私模型和实现算法等。我们假定攻击者可能获得的数据信息统称为背景知识。通常攻击者都是从背景知识中获得目标对象的QID属性(如出生日期、性别、出生地、邮政编码等)。

  用户对经济统计数据的第一要求是查询结果必须准确。从这个前提出发,本文提出一种基于交互的序列表发布模型,它能保证敏感信息不泄露,同时又能最大程度地减少统计数据的信息损失,提高统计数据的效用。实验结果表明,该模型对于大数据集的隐私能很好地进行保护,而且丢失的重要信息少,能够满足统计数据发布的需要。

  2 隐私保护模型

  为了解决隐私保护问题,国内外研究者提出了很多方法,这些方法主要有:① 匿名保护。为了保护个人信息,在数据发布时,对能够直接标识个人身份的标识符进行删除或加密。② 扰乱、随机化数据技术。通过对数据的随机化处理,增加数据“噪声”,使得数据不再反映真实的世界,从而无法被滥用而侵犯个人隐私。

  当然,关键的技术是要从处理后的数据中获得有效的分析结果。③ 分布式的隐私保护技术。双方或多方进行数据分析挖掘时,由于某种原因,参与者不愿将数据与他人共享而只愿共享数据分析挖掘结果。这需要运用密码学技术来解决实际的隐私问题。如安全两方或多方计算问题等。④ k-匿名技术。它要求在公布后的数据中保留一定数量的个体特征,从而防止匿名处理后的数据被链接攻击,造成个人隐私泄露。

  研究者们根据隐私保护方法建立了很多隐私信息保护发布模型,如k-匿名模型[3]、L-多样性模型[4]、t-closness框架[5]和个性化匿名模型[6]等。这些隐私保护模型都是针对可能存在隐私泄露建立的。

  3 基于统计应用的交互序列发布模型及算法

  3.1 序列发布模型

  隐私保护模型实际是利用好的数据发布方法来保护隐私,使用最多的算法是泛化或有损连接(降低QID和SA两者之间的联系)[7]。在一些统计分析中,需要进行联合查询,用户对统计数据进行查询最重要的要求是查询结果准确,这样发布的数据才有较高的应用价值。

  而匿名化技术将发布的数据表中涉及个体的标志属性删除了,因此降低了QID属性和SA之间的联系,无法得到用户关心的准确查询结果。在对应用查询的实际需求和大量实际数据集的QID属性的统计中发现,应用查询中所涉及的QID属性数目一般只有3个左右,而原始数据集中一般都存在大量满足匿名要求的数据记录,且所占比例跟QID的数目存在密切的关系。

  例如一个人口统计的实际数据集共有14 种属性,记录约4万条,其中QID的全部组合数目为9。在k-匿名模型中,当k = 20,QID数目为3时,其平均满足k-匿名的记录比例可高达85%,而QID数目为全部组合时满足k-匿名的记录比例只有5%左右;当k = 2,QID数目为全部组合时,满足k-匿名的记录比例只有40%左右。由此可见,如果将所有的QID属性捆绑在一起进行匿名,必然会导致大量记录的QID属性和SA被割断。

  本文提出一种基于用户应用查询的序列发布模型,将满足k-匿名的记录按照QID数目由高到低分成一组序列表进行发布。首先发布属性包含了全部QID组合和SA的记录,然后将QID数减少一个,发布属性包含QID组合和SA的剩余记录。如此类推,直到最后QID的数目减少为3,再将这些剩余记录按照属性为3个QID和SA泛化发布,从而提高泛化表的查准率。

  20世纪的最后五年,人类富有创造性的勤奋努力,使信息技术、生命科学等领域的研究取得了重大突破,在科学技术史册中谱写了光辉的篇章。统计学学科伴随着科学技术的发展在理论研究和实际应用中也取得了可喜的进展。本报告分别从国外、国内研究概况及中国高校统计学科的研究发展情况给予扼要总结和回顾。


本文链接:https://www.133lw.com/lunwen/jjlw/4190.html