数据要素流通的安全挑战与对策

2023-12-12      317

嘉宾介绍

OS安全分论坛

李凤华,OpenHarmony项目群技术指导委员会安全及机密计算TSG成员,中国科学院信息工程研究所二级研究员、副总师、中国科学院特聘研究员、博士生导师。国务院学位委员会网络空间安全学科评议组成员,中国科学院“百人计划”学者,国家重点研发计划“十三五”和“十四五”项目负责人、国家863计划主题项目首席专家、NSFC-通用联合基金重点项目负责人等;中国中文信息学会常务理事、大数据安全与隐私计算专业委员会主任等。主要从事网络与系统安全、隐私计算、数据安全等方面研究。

正文内容

数字化时代,人们的生活被海量的数据包围和影响。数据作为新型生产要素,是数字化、网络化、智能化的基础,已快速融入生产、消费、社交和社会服务管理等各环节,深刻改变着生产方式、生活方式和社会治理方式。数据要素流通过程中,有哪些安全挑战?又有哪些应对方案?中国科学院信息工程研究所二级研究员、副总师李凤华在第二届OpenHarmony技术大会上进行了精彩分享。



01 数据要素流通背景

数据要素是指将原始数据通过加工整理、确权、交易流通,让这些数据资产成为可用于社会生产经营活动,可为使用者带来经济效益的生产要素,对经济社会变革产生深远影响,已经成为国家关键战略性基础性资源。数据指围绕产品设计、生产、销售、售后服务,以及服务业(微信、金融、邮政等)等经营活动中产生的全流程数据。而具备“六性”(可用性、机密性、隐私性、可控性、交易性以及仲裁性)的数据才能称之为生产要素。

从IT到DT时代,数据流通已从泛在共享向安全交易转变。泛在共享重点关注机密性、完整性、访问控制、支持跨系统协同、移动办公等;安全交易重点关注权属确定、权益迁移、使用验证、争议仲裁等。




释放数据价值需要制度设计、技术支撑、市场交易三措并举。构建体系化的架构与技术,有效解决数据提供方、数据使用方、第三方服务方及监管方等不同主体间的安全与信任问题,才能形成助力制度与市场构建、数据要素价值释放的有效支点,从而促进数据要素价值释放。



02 数据安全新挑战及对策




数据作为新型生产要素,在交易流通中的主要需求是跨系统可信确权、确权要素抗损毁、多轮交易权益可信转移、交易数据按约使用等。然而,现有技术难以支撑新型需求,数据交易全生命周期安全保障体系不完善,无法实现真正意义上泛在场景下数据要素的交易流通。



2.1 元数据管理




元数据管理是在整个数据价值流中对数据采集、标识、清洗、存储组织、关联关系的管理,贯穿覆盖从数据产生、汇聚、加工到销毁的全生命周期。元数据管理技术主要包括元数据采集、元数据存储管理、元数据访问管理等。基于元数据管理简约描述、一致性维护的本质,可以解决元数据形式描述冗余和多源数据一致性冲突问题,以支撑动态和个性化数据应用。


2.2 数据确权与数据目录




如何保障数据来源安全可信,如何在海量数据库中高效检索所需数据?通过确定数据权益主体和权益属性,确定数据所有权,可以支撑数据流通交易效率和数据要素市场的有效运行;通过数据目录建立高效的便于检索的数据索引(元数据的索引集合),用户可以借助数据目录快速检索所需数据,实现高效访问。


2.3 数据血缘




数据血缘(Data lineage)是指数据全生命周期中从数据产生、处理、加工、融合、流转到销毁的关联关系,本质是关联关系的准确性与时序性。通过完善数据血缘机制,构建数据血缘图,可以实现逆向追溯数据演化过程,支撑数据溯源和数据权属仲裁。

2.4 确权解析




确权解析体系是确定数据的“所有权、权益权”,实现资源权属的灵活区分和管理,是实现企业数据流通的关键枢纽。通过确权解析可以解决海量数据权属标识和权属标识快速安全解析的相关问题。

2.5 数据控制




数据控制是指在数据采集、传输、存储、利用、销毁等环节,通过电子合约等方式,控制数据资产使用的时间、地点、主体、行为和客体等因素的控制;是从单一信息系统走向泛在共享的信息利用的控制机理的迭代演进。通过数据控制,能够实现数据流动细粒度边界管控,解决泛在传播的权限控制问题,支持移动业务的数据使用,支持数据销毁和监管。

2.6 机密计算




数据处理过程中将敏感数据隔离在受保护的区域(如可信执行环境)中,本质是安全依赖于可控环境,解决参与计算的数据安全。通过机密计算方式,能够保障计算环境的可信性、可控性以及机密性。

2.7 多方安全计算




多方安全计算通常采用不经意传输( Oblivious Transfer)、秘密分享(Secret Sharing)、混淆电路(Garbled Circuit)、同态加密(Homomorphic Encryption)等密码算法实现,支撑联合统计、联合建模、隐私集合求交和隐匿查询等功能的实现,本质是非交换的原始数据不出域、结果安全交换,支撑计算结果安全共享。通过多方安全计算,能够保护消息接收方的意图,且限定非交换的原始数据不出域。

03 隐私保护新挑战及对策




3.1 隐私保护面临的挑战




数据时代,信息泛在共享已成为常态。然而,传统隐私保护缺乏全生命周期的体系化保护理论和技术支撑,严重制约了数据泛在共享、流通交易。目前,隐私保护面临挑战主要有:(1)App频繁超范围采集个人信息:后台信息服务系统中的隐私数据越权使用、大数据杀熟、个人画像结果滥用、个人信息过度留存等问题;(2)生态圈之间信息共享缺乏延伸控制来抑制非授权共享,缺乏抗隐私挖掘的迭代按需脱敏,多副本留存和保护短板效应凸显,删除权无法保障;(3)数据交易和流动缺少有效监管手段,数据利用、脱敏、删除的合规评测缺少技术支撑。

除了上述挑战外,在隐私保护的研究上,也仍存在部分问题亟需解决:(1)传统隐私保护虽有数学基础,但是针对单环节、零散的理论,缺乏全生命周期的理论体系;(2)现有技术局限于局部环节,全生命周期隐私保护机制不完善,缺乏完善的技术体系,难以支撑隐私信息泛在受控共享;(3)脱敏技术局限于单一场景,缺乏泛在互联环境下跨生态圈信息共享传播的多次脱敏控制机制、抗隐私挖掘的普适性解决方案。



3.2 隐私计算




自1978年有关学者提出的密码学解决方案起,隐私保护技术发展了匿名解决方案、访问控制解决方案、加噪解决方案以及全生命周期解决方案等,2015年作者本人在国际上率先提出并首次精准定义了隐私计算(Privacy Computing)的概念、定义和学术内涵,详细介绍了面向隐私信息全生命周期保护的计算理论和方法、隐私保护各环节中对隐私信息的计算操作以及隐私信息系统的设计理论与架构等内容,并提出了隐私计算理论与关键技术体系。



隐私计算内涵。隐私计算是面向隐私信息全生命周期保护的计算理论和方法,涵盖了信息搜集者、发布者和使用者在信息产生、感知、发布、传播、存储、处理、使用、销毁等全生命周期过程的所有计算操作,并包含支持海量用户、高并发、高效能隐私保护的系统设计理论与架构。基于隐私计算框架,可以实现隐私数据全生命周期迭代延伸控制、差异化按需保护、泛在传播的跨系统量化映射以及隐私侵权行为溯源取证等能力。

隐私计算要点。隐私计算的六个关键技术环节包括:感知、隐私化、存储、融合、交换以及销毁。在隐私计算框架上,基于从源数据抽取到的隐私信息,对其进行场景描述、隐私控制、隐私操作并进行隐私效果评估。对于不好的评估结果,可对隐私信息进行更换场景描述、重新调整控制策略以及重新定义隐私操作等工作。基于该框架,能够进一步构建全流程的隐私信息系统。

隐私信息描述。隐私信息可以由六元组集合进行描述:(1)隐私信息向量 𝐼:信息𝑀中语义上含有信息量、不可分割、彼此互不相交的原子信息;(2)约束条件集合 𝛩:隐私信息分量对应的约束条件向量,用于描述在不同场景下实体访问所需的访问权限;(3)隐私属性向量 𝐴:隐私属性分量,用于量化隐私信息分量及分量组合的保护程度;(4)广义定位信息集合 𝛤:隐私信息分量在信息中的位置信息及属性信息,可对隐私信息分量快速定位;(5)审计控制信息集合 𝛺:隐私信息传播过程中的审计控制向量,用于记录隐私信息分量在流转过程中的主客体信息和被执行的操作记录;(6)传播控制操作集合 𝛹:描述隐私信息分量及其组合可被执行的操作。

隐私计算重要特性。隐私计算具有五个重要特性:(1)延伸控制性:泛在互联环境下隐私信息共享过程中全生命周期各环节隐私操作的迭代控制、控制策略的动态调整、控制策略的可控传递、控制策略执行的可信审计;(2)原子性:隐私分量可以刻画到不可细分;(3)一致性:对相同的隐私数据,不同算法的隐私保护效果都趋近于零,即趋势保持一致性;(4)顺序性:算法中所有操作必须按照设计的顺序执行,部分操作的顺序不同可能导致隐私保护的效果不同;(5)可逆性:一些隐私保护算法可以通过密钥等形式将原有隐私信息可逆还原,但脱敏算法对隐私信息的处理则是不可逆的。

隐私计算算法设计准则。隐私计算中保护算法设计准则包括:(1)预处理:确定数据分布特征、取值范围、数据隐私保护敏感度、隐私操作次数的期望值、隐私操作结果的社会经验值等;(2)算法框架:确定隐私保护算法的数学基础,给出算法步骤及步骤间的组合关系,并明确隐私属性向量与隐私信息向量之间的关系;(3)算法参数设计:确定隐私保护算法中相关参数的具体取值;(4)算法组合:在算法内部实现不同步骤的组合,或在相似算法间实现排列组合;(5)算法复杂度与效能分析:分析算法的时空复杂度、隐私保护效果的期望值以及隐私保护算法的实现代价。

隐私计算重要研究进展。目前,李凤华团队在隐私计算领域取得的重要研究进展包括:

一、在国际上率先提出了隐私计算体系架构,解决了隐私计算架构的抽象建模、全流程体系化保护技术难点,构建了隐私计算的核心基础理论;




二、发明了面向隐私信息流转的泛在共享延伸控制方法,解决了动态流转场景下延伸控制策略迭代、基于证据自存证隐私侵权判定与溯源等技术难点,实现了跨系统隐私信息受控共享;


三、提出了差分隐私的算法通用框架和跨系统交换的迭代脱敏控制模型,解决了普适稳定的算法通用框架、场景适应的脱敏管理等技术难点,实现了隐私信息的按需保护。


隐私计算在数据交易方面的作用。数据的一次交易不是全生命周期,数据的多次交易或者多个数据交易所之间的联动交易才是数据的全生命周期。因此,隐私计算的全生命周期保护理论与方法在数据交易中将发挥不可替代的重要作用。

04 总结与展望




正确理解不同技术所能解决的问题,针对不同环节选择合适的技术方案,才能够正确利用不同技术解决泛在共享环境中不同环节的数据安全与隐私保护问题。

期待业界同仁能够以历史责任感的高度正确诠释不同技术的内涵及其作用,促进生态链健康发展,为数字经济发展提供有力支撑。