浅谈数据挖掘中的个人信息保护
时间:2018-11-20
【摘要】数据挖掘是当今社会最为重要的发现工具,它在为人们揭示出数据中的隐藏规律并创造出财富的同时,也对各类数据有着大量的需求。随着互联网的出现和发展,对所需数据的收集、交换和发布的过程正变得越来越便利。然而,这些丰富的数据资源中也同时包含着大量的个人隐私。更令人担忧的是,在这些数据的实际使用过程中,特别是在挖掘过程中,大量的信息却能被不加限制的打包、出售、利用,个人信息的泄露严重影响了人们的日常生活甚至社会的稳定。于是,数据挖掘过程中的海量信息也就引发人们对个人信息的保护不断产生忧虑。
【关键词】数据挖掘;个人信息保护;信息泄露;个人隐私
【Abstract】Data mining is the most important discovery tool in today's society, it is to reveal the hidden laws in the data and create wealth, but also have a lot of demand for all kinds of data. With the advent and development of the Internet, the process of collecting, exchanging and publishing the required data is becoming more and more convenient. However, these rich data resources also contain a lot of personal privacy. What is more worrying is that in the actual use of these data, especially in the excavation process, a large amount of information can be unlimited packaging, sale, use, the disclosure of personal information has seriously affected people's daily life and even social stability. As a result, the vast amount of information in the process of data mining also leads to people's constant concern about the protection of personal information.
【Keywords】data mining; personal information protection; Information disclosure; personal privacy
【案例来源】
1、暗网:https://mp.weixin.qq.com/s/bqe1SQvSOXRqPUm7eKc-jQ
2、财新网:https://mp.weixin.qq.com/s/nR7HO2GM3owWR_GOJJqVHQ
【案例介绍】
2018年8月28日,有自媒体发布消息称,疑似华住集团旗下连锁酒店用户数据在暗网售卖。从卖家发布内容看,数据包含华住旗下汉庭酒店、美爵、禧玥、漫心、诺富特、美居、CitiGo、桔子、全季、星程、宜必思、怡莱、海友等酒店。随后,一张“黑客出售华住酒店集团客户数据”的截图在社交网络中流传,有人在境外网站兜售1.3亿国人在华住旗下酒店入住数据,总数约5亿条,被售卖的用户信息可以说应有尽有——包括住客信息,身份证、手机号、邮箱、身份证号、登录密码等,共53G约1.23亿条记录;入住登记身份信息:姓名、身份证号、家庭住址、生日、内部ID号,共22.3G约1.3亿条;酒店开房记录:内部ID号、同房间关联号、姓名、卡号、手机号、邮箱、入住时间、离开时间、酒店ID号、房间号、消费金额等,共66.2G约2.4亿条。卖家称,以上数据信息的截止时间为2018年8月14日,这部分数据打包出售价格为8比特币或520门罗币,约37万人民币。
随后,华住集团声明已迅速开展内部核查,并第一时间报警。9月19日,上海警方称已经抓获了窃取信息的犯罪嫌疑人刘某某。经查,其利用黑客手段窃取华住集团旗下酒店数据并在境外网站兜售,但未交易成功。
这不是华住第一次被爆用户信息泄露。2013年10月,国内安全漏洞监测平台“乌云网”披露,浙江慧达驿站公司因为安全漏洞问题,使与其有合作关系的大批酒店的开房记录在网上泄露,包括汉庭(华住旗下)、如家等。此后,一个名为“2000w开房数据”的文件出现在网上。当时,包括汉庭在内的酒店曾予以否认。
此次,华住酒店近5亿条个人信息的泄露,成为迄今为止最大最严重的酒店信息泄露事件。
【案例分析】
在“互联网+”时代下,传统行业能够突破自身局限走向终端智能化,升级用户体验,增强用户粘度,促进产品的全面提高,是未来获得新竞争优势的新动力。目前,各大企业都致力于搜集并分析用户数据,用以辅助经营决策。在数据挖掘的相关过程中,经常会涉及用户的个人信息和隐私。
一、数据挖掘与个人信息的保护
(一)个人信息面临的威胁
法规和体制的不断完善同时也代表着政府和社会对个人信息保护问题的担忧程度。然而,随着网络和数据库技术的发展,尤其是数据挖掘技术的出现,个人信息面临着目益严峻的挑战。在酒店行业,多个酒店集团已完成升级转型,打造出新的住宿生态圈,客户只要打开手机就可以实现自助预定、网上选房、在线支付、在线退房等多项功能。
据《2018年中国大住宿业发展报告》,截止2017年底,全国住宿业的设施总数为457834家,客房总规模16,770,394间。其中酒店类住宿业设施317,476家,客房总数15,480,813间。每位乘客入住酒店后,包括其身份证件、电话号码、房间号等在内的所有个人信息将会同步上传至公安信息系统以及酒店内部的管理系统。按照公安部的要求,相关的开房记录将被保留一定年限,以随时备查。因此,酒店行业由于其行业特殊性,高频接触个人信息,其所收集、存储的数据规模之大超乎想象,个人信息安全问题,也遭受到前所未有的威胁。
(二)数据挖掘与个人信息保护的矛盾
严格来看,个人信息保护的问题在数据挖掘研究兴起之前就开始了。然而,在大数据时代背景下,所有数据构成一个完整且有效的数据库,每个个体都由字符组成,通过互联网的行为都能够杯列成一条条数据链,这就强烈的威胁到这些记录中包含的个人信息。在正常的数据挖掘中,算法通常被用来分析和研究数据集合的分布情况和属性的统计特性,每一个步骤中所需的统计值都是通过对所有相关记录逐一进行计算才获得的。于是,在挖掘者所得到的数据中,一旦有任何一条记录被用于不正当的目的,就会侵犯到该记录所涉及的全部的个人信息。于是,个人信息保护的目标和现有的挖掘过程就形成了一对矛盾:现有的算法需要得到具体个人数据,但是又不能威胁到其中包含的个人敏感信息。正是因为这个矛盾的存在,在当今算法盛行的时代让信息泄露频繁发生。对于此次华住酒店事件中的个人信息泄露就能看出,酒店行业的整体网络安全、数据合规现状令人堪忧。而此次事件更是突出了一个叩待解决的现实问题:如何在挖掘数据价值的同时保护好用户隐私、维护好用户利益。
二、在数据挖掘中做到保护好个人信息
(一)在个人信息和个人隐私之间进行权衡,划定隐私保护的最优边界。
个人隐私是指公民私人生活中的私人信息,我国民法规定,我国公民享有隐私权,并且要依法保护公民隐私权。对于个人信息的概念,王利民教授曾阐述,个人信息是指与特定个体相关联并反映个人特征的可识别符号系统。包括个人身份工作、家庭、财产、健康等方面的信息。根据中国“关于加强网络信息保护工作的决定”第一条的规定,“国家保护可以识别公民的个人身份和有关公民隐私的电子信息”。也就是说,个人信息分为两类,一类是可以识别公民个人身份的电子信息;另一类是涉及个人隐私的电子信息。也就是说,个人信息包含个人隐私,个人隐私是个人信息的组成部分之一,同时许多未公布的个人信息也属于个人隐私范畴,二者相互交错。
美国隐私保护专家、前白宫首席信息官佩顿在《大数据时代的隐私》一书中指出,隐私是以个体为中心的同心圆,越接近圆心越不愿意让渡隐私。在同心圆的外围,个体产生交集,也产生了隐私的交换,并以此获得友谊、亲情、理解,甚至经济利益。根据这一观点,隐私固然要保护,但如果将隐私保护的范围划得过于宽泛,就会影响人们的交流和互动,对企业搜集和分析数据造成过高的壁垒,从而对其改进经营和管理造成阻碍,这显然不利于社会发展。而如果对隐私保护过于宽松,将隐私过于窄化,就可能损害用户的基本权益。因此,从社会最优的角度看,必须在两种影响之间进行权衡,找到一个最优的边界,尽可能维护各方利益,既不可以放任侵犯隐私、损害用户正当权益的现象不管,也不可以管得过死,妨碍正常的数据使用。
(二)强化平台自身的治理,鼓励各类利益相关主体参与到数据治理中
数据治理和隐私保护当然不能仅靠政府的监管,作为数据的直接搜集和使用者,各类平台更应当做好工作,强化自身治理。在这个过程中,必须充分体现各利益相关者尤其是用户的利益,同时调动他们参与治理过程。
首先,在数据治理规则的制定过程中,吸纳利益主体,有助于让数据治理的规则更为现实、更能体现和维护各方利益。考虑到用户在时间、能力和信息获取上的欠缺,平台还须积极赋权,通过增加透明度保障用户知情权,并在制度架构设计上尽量采取选择适用模式,以实现真正意义上的审议和决定。
其次,在数据规则的执行中,要建立严格的负责机制和多元化的激励机制,提高参与主体共同参与的责任感与积极性。例如,Facebook于3月21日推出的漏洞奖励计划:用户发现应用的开发者滥用个人数据并提出举报,就能获得相应奖励。这不仅能提高用户自我反省、自我检查的活跃度,更能时时刻刻敲响企业内部的数据事故的警钟。
最后,平台自身要加强信息安全保护的意识。根据《网络安全法》规定,网络运营者需要承担网络安全保护义务,包括网络安全等级保护义务、个人信息保护义务和网络安全应急处置义务等。在这次的华住酒店信息泄露实践中,可看出酒店存储着大量用户信息,甚至为敏感信息,应当依法切实履行网络安全保护义务,采取技术措施保障信息系统安全及个人信息安全。酒店应建立健全用户信息保护制度,在收集、使用个人信息时必须符合合法、正当、必要的原则和知情同意的原则。若酒店在运营过程中未履行网络安全保护义务,需要承担相应的行政责任和民事责任,甚至可能有被认定为拒不履行信息网络安全管理义务罪而承担刑事责任的风险。
酒店在采取个人信息保护措施时,应当建立个人信息保护制度,设立监管机构和负责人,确定个人信息安全管理责任,妥善保管和储存个人信息,并建立个人信息安全事件应急制度,当用户个人信息数据泄露事件发生时,及时通知用户和有关主管部门。
(三)发挥好区块链等新技术手段的作用
目前,数据治理和隐私保护的一大难题在于数据可以被反复复制和使用,因此数据一旦流出,其传播和使用将难以被控制。这次华住酒店信息泄露实践,皆是涉及华住用户姓名、手机号、邮箱、身份证号、登录账号密码、家庭地址、生日、同房间关联号、卡号、入住时间、离开时间、房间号、消费金额等详细数据,并且这些信息都是更新到事故前半个月的最新数据。要解决类似事件,第一个层面是要进一步明确数据产权的边界,对数据的二次传播作出限制;明确用户可共享、可传播的公开个人信息,以及保护用户不愿意分享和显示的个人隐私。第二个层面就是要从技术上真正做到对数据的把控和保护。现在的区块链等新技术可以帮助应对数据被再次复制、传播的难题。区块链具有可追踪的特性,借助这一特性,人们可以知道数据是否曾被使用、曾被谁使用、作为什么用途,从而更有效地对数据进行管理
【参考文献】
[1]杨维佳.在数据挖掘中保护隐私信息的研究[D].上海.上海交通大学,2009
[2]吴丹君.大数据律师解读华住酒店信息泄露事件,法律责任谁来担[EB/OL](2018-09-01).
[3]王蕊. 企业数据泄露频发如何保障信息安全[J].计算机与网络,2013年22期
上一条:基于“绍兴黑灰团伙数据盗窃案”的思考:社交媒体环境下个人信息保护 下一条:从支付宝“内鬼”事件浅谈大数据时代个人信息保护
评论
|
|
匿名发布 验证码 看不清楚,换张图片 | |
共0条评论 共1页 当前第1页 | |
|
|