您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(理学版)》

《山东大学学报(理学版)》 ›› 2024, Vol. 59 ›› Issue (3): 95-106.doi: 10.6040/j.issn.1671-9352.7.2023.2681

•   • 上一篇    下一篇

政府开放数据中个人信息披露识别与统计方法

陈海粟(),廖佳纯*(),姚思诚   

  1. 南湖实验室大数据技术研究中心,浙江 嘉兴 314002
  • 收稿日期:2023-04-29 出版日期:2024-03-20 发布日期:2024-03-06
  • 通讯作者: 廖佳纯 E-mail:hschen@nanhulab.ac.cn;jliao@nanhulab.ac.cn
  • 作者简介:陈海粟(1999—),男,硕士,研究方向为信息处理、智慧城市与个人信息保护. E-mail: hschen@nanhulab.ac.cn
  • 基金资助:
    南湖实验室小微课题资助项目(NSS2023C2002)

Identification and statistical analysis methods of personal information disclosure in open government data

Haisu CHEN(),Jiachun LIAO*(),Sicheng YAO   

  1. Research Center of Big Data Technology, Nanhu Laboratory, Jiaxing 314002, Zhejiang, China
  • Received:2023-04-29 Online:2024-03-20 Published:2024-03-06
  • Contact: Jiachun LIAO E-mail:hschen@nanhulab.ac.cn;jliao@nanhulab.ac.cn

摘要:

为推进数据开放过程中个人信息保护,深入分析政府开放数据中个人信息的披露现状:首先从相关平台中获取数据,并对其预处理,根据字段、表名等特征筛选出含有个人信息的数据;其次利用敏感信息识别方法识别数据中各类个人信息,并将其映射到个体,以统计个体数量同时检测其关联数据;最后通过数据可视化,直观展示个人信息披露现状。虽然部分公共数据开放平台虽然对公共数据进行分级分类以及去标识化等处理,但是已开放的数据中依旧包含大量直接展示的个人信息,需要在数据规范化分级分类、敏感信息识别和敏感信息脱敏等方面进行完善。

关键词: 大数据隐私, 个人信息, 政府开放数据, 信息识别, 统计分析

Abstract:

To promote the protection of personal information during data opening, an in-depth analysis of the current status of disclosure of personal information in the open government data is conducted. Firstly, the paper obtains the datasets from relevant platforms and pre-process to classify the datasets that containing personal information based on features such as field and table names, etc. Then, methods of sensitive information identification are applied to identify and extract various types of personal information in the data, and map the information back to individuals to summarise the total number of individuals and detect their associated data. Through data visualizations, the current status of personal information disclosure could be examined. Although some open government data platforms may have implemented certain measures such as data categorization and de-identification, the published open datasets still contain a large amount of personal information, which is required to be improved in terms of data categorization and classification, sensitive information identification and data desensitization in a normative and accurate manner.

Key words: big data privacy, personal information, open government data, information identification, statistical analysis

中图分类号: 

  • TP391.1

图1

应用框架基本架构"

图2

对象平台含个人信息数据集的数据容量和字段属性数量综合情况"

表1

婚姻矛盾纠纷数据集样例(总计137条)"

主要诉求 调处情况
刘*与丈夫陈**2010年结婚,育有2个孩子…… 联系**派出所询问情况,请派出所帮助开具家暴告诫书……

表2

老人信息数据集样例(总计4 619条)"

门磁ID 老人证件号码 老人姓名
8632170****4067 ******1939******47 许**

表3

基线识别算法罗列"

识别类型 目标类信息 识别模式
统一编码类信息 身份证 正则表达式:
r’^[1-9]\d{5}(18|19|([23]\d))\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{3}[0-9Xx]$’
手机号 正则表达式:
r’^((\+?[0-9]{1, 4})|(\(\+86\)))?(13[0-9]|14[57]|15[012356789]|17[03678]|18[0-9])\d{8}$’
车牌号 正则表达式:
r’^[京津沪渝冀豫云辽黑湘皖鲁新苏浙赣鄂桂甘晋蒙陕吉闽贵粤青藏川宁琼使领][A-HJ-NP-Z](?: ((\d{5}[A-HJK])|([A-HJK][A-HJ-NP-Z0-9][0-9]{4}))|[A-HJ-NP-Z0-9]{4}[A-HJ-NP-Z0-9挂学警港澳])$’
银行卡号 正则表达式:
r’(?<![0-9a-zA-Z\-])[1-9](?: \d{11, 18})(?![0-9a-zA-Z\-])’
姓名信息 姓名 LAC工具命名实体识别

表4

本文识别算法罗列"

识别类型 目标类信息 识别模式
统一编码类信息 身份证 正则表达式:
r’[1-9]\d{5}(?: 18|19|(?: [23]\d))\d{2}(?: (?: 0[1-9])|(?: 10|11|12))(?: (?: [0-2][1-9])|10|20|30|31)\d{3}[0-9Xx]’
身份证校验:模11算法校验、地区码和时间合规校验
手机号 正则表达式:
r’(?<![0-9a-zA-Z\-])(?: \+?86)?1(?: (?: 34[0-8])|(?: 8\d{2})|(?: (?: [35][0-35-9]|4[14-9]|6[567]|7[0-8]|9[12389])\d))\d{7}(?![0-9a-zA-Z\-])’
车牌号 正则表达式:
r’(?<![锅容管瓶梯起索游车]\d{2}(?=[京津沪渝冀豫云辽黑湘皖鲁新苏浙赣鄂桂甘晋蒙陕吉闽贵粤青藏川宁台琼使领军北南成广沈济空海]{1}[A-Z]{1}[A-Z0-9]{4}(?: [A-Z0-9挂领学警港澳]{1}|[A-Z0-9]{2}\(\d{2}\))))[京津沪渝冀豫云辽黑湘皖鲁新苏浙赣鄂桂甘晋蒙陕吉闽贵粤青藏川宁台琼使领军北南成广沈济空海]{1}[A-Z]{1}[A-Z0-9]{4}(?: [A-Z0-9挂领学警港澳]{1}|[A-Z0-9]{2})(?!\d)’
银行卡号 正则表达式:
r’(?<![0-9a-zA-Z\-])[1-9](?: \d{11, 18})(?![0-9a-zA-Z\-])’
银行卡校验:Luhn规则校验和银行卡号前缀匹配
姓名信息 姓名 HanLP工具命名实体识别

表5

婚姻家庭矛盾纠纷数据集识别结果"

统一编码类信息(漏检/误检) 姓名(漏检/误检)
基线识别算法 0/4 10/20
本文识别算法 0/0 1/4

表6

老人信息数据集识别结果"

统一编码类信息(漏检/误检) 姓名(漏检/误检)
基线识别算法 0/11 184/0
本文识别算法 0/0 0/0

表7

对象平台单个数据集内直接披露的各个人信息类型涉及人数情况"

领域标注 披露的个人信息类型涉及人数/人
个人基本信息 个人身份信息 个人健康生理信息 个人教育工作信息 个人财产信息 其他个人信息
社会救助 42 111 24 19 413 0 8 0
市场监督 10 110 3 0 10 094 0 0
科技创新 2 965 0 0 2 965 0 0
气象服务 1 027 0 0 0 0 0
生态环境 1 260 0 0 667 0 0
生活服务 256 7 1 29 17 94
城建住房 159 0 0 0 0 0
教育文化 64 162 2 143 0 61 138 0 0
地理空间 123 0 0 0 0 0
交通运输 42 59 0 59 0 0
信用服务 399 19 0 0 0 0
机构团体 1 0 0 0 0 0
工业农业 16 0 0 0 0 0
其他 12 0 0 12 0 0

图3

关联数据集进行重标识后披露的个人信息类型的涉及人数"

图4

关联数据集进行重标识后在不同确信度下对个人信息主体个人信息的扩充量及其对应的涉及人数"

1 梅宏. 数据治理之路: 贵州实践[M]. 北京: 中国人民大学出版社, 2022: 47.
MEI Hong . On data governance: practice in Guizhou[M]. Beijing: China Renmin University Press, 2022: 47.
2 国务院. 国务院关于印发促进大数据发展行动纲要的通知[EB/OL]. (2015-09-05)[2023-02-12]. https://www.gov.cn/zhengce/content/2015-09/05/content_10137.htm.
The State Council. Circular of the state council on printing and issuing the action outline for promoting the big data development[EB/OL]. (2015-09-05)[2023-02-12]. https://www.gov.cn/zhengce/content/2015-09/05/content_10137.htm.
3 复旦大学数字与移动治理实验室. 中国地方政府数据开放报告—城市指数(2022年度)[R/OL]. (2023-01-10)[2023-01-30]. http://ifopendata.fudan.edu.cn/report.
DMG Lab Fudan University. China's local government open data report—city index (2022)[R/OL]. (2023-01-10)[2023-01-30]. http://ifopendata.fudan.edu.cn/report
4 黄玥, 周丽霞, 蒲攀. 基于AHP方法的我国信息安全政策方案优化决策研究[J]. 现代情报, 2015, 35 (3): 77- 81.
HUANG Yue , ZHOU Lixia , PU Pan . Study on the optimizing of information security policy based on AHP[J]. Journal of Modern Information, 2015, 35 (3): 77- 81.
5 周林兴, 周丽. 政府数据开放中的隐私信息治理研究[J]. 图书馆学研究, 2019, (12): 41- 47.
ZHOU Linxing , ZHOU Li . Research on privacy information governance in open government data[J]. Research on Library Science, 2019, (12): 41- 47.
6 李立新, 唐培洪, 臧滔, 等. 一种身份证号码识别方法、装置和电子设备: CN112380211A[P]. 2021-02-19.
LI Lixin, TANG Peihong, ZANG Tao, et al. The invention relates to a method, a device and an electronic device for the identification of resident identity card number: CN112380211A[P]. 2021-02-19.
7 闫萍. 基于规则和概率统计相结合的中文命名实体识别研究[J]. 计算机与数字工程, 2011, 39 (9): 88- 91.
YAN Ping . Research on the identification for Chinese named entity based on combination of rules and statistic analysis[J]. Computer & Digital Engineering, 2011, 39 (9): 88- 91.
8 俞鸿魁, 张华平, 刘群, 等. 基于层叠隐马尔可夫模型的中文命名实体识别[J]. 通信学报, 2006, (2): 87- 94.
YU Hongkui , ZHANG Huaping , LIU Qun , et al. Chinese named entity identification using cascaded hidden Markov model[J]. Journal on Communications, 2006, (2): 87- 94.
9 GUILLAUME L, BALLESTEROS M, SUBRAMANIAN S, et al. Neural architectures for named entity recognition[C]//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. San Diego: Association for Computational Linguistics, 2016: 260-270.
10 孙瑞英, 李杰茹. 我国政府数据开放平台个人隐私保护政策评价研究[J]. 图书情报工作, 2022, 66 (12): 3- 16.
SUN Ruiying , LI Jieru . Research on the evaluation of personal privacy protection policies of government data open platforms in China[J]. Library and Information Service, 2022, 66 (12): 3- 16.
11 杜荷花. 我国政府数据开放平台隐私保护评价体系构建研究[J]. 情报杂志, 2020, 39 (3): 172- 179.
DU Hehua . On construction of privacy protection evaluation system of government data open platform in China[J]. Journal of Intelligence, 2020, 39 (3): 172- 179.
12 SWEENEY L . K-anonymity: a model for protecting privacy[J]. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 2002, 10 (5): 557- 570.
13 LEE J S , JUN S P . Privacy-preserving data mining for open government data from heterogeneous sources[J]. Government Information Quarterly, 2021, 38 (1): 101544.
14 全国信息安全标准化技术委员会. 信息安全技术—个人信息去标识化指南: GB/T 37964—2019[S]. 北京: 中国标准出版社, 2019.
National Information Security Standardization Technical Committee. Information security technology—guide for de-identifying personal information: GB/T 37964—2019[S]. Beijing: Standards Press of China, 2019.
15 全国信息安全标准化技术委员会秘书处. 网络安全标准实践指南—网络数据分级分类指引[EB/OL]. (2021-12-31)[2023-01-30]. https://www.tc260.org.cn/upload/2021-12-31/1640948142376022576.pdf.
The Secretariat of National Information Security Standardization Technical Committee. Practice guide on network security standards—guidelines on classification of network data[EB/OL]. (2021-12-31)[2023-01-30]. https://www.tc260.org.cn/upload/2021-12-31/1640948142376022576.pdf.
16 JIAO Zhenyu, SUN Shuqi, SUN Ke. Chinese lexical analysis with deep Bi-GRU-CRF network[EB/OL]. (2018-06-05)[2023-01-30]. https://doi.org/10.48550/arXiv.1807.01882.
17 HE H, CHOI J D. The stem cell hypothesis: dilemma behind multi-task learning with transformer encoders[C]//Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. Punta Cana, Dominian: Association for Computational Linguistics, 2021: 5555-5577.
[1] 许侃,刘瑞鑫,林鸿飞,刘海峰,冯娇娇,李家平,林原,徐博. 基于异质网络嵌入的学术论文推荐方法[J]. 《山东大学学报(理学版)》, 2020, 55(11): 35-45.
[2] 王佳麒,杨沐昀,赵铁军,赵臻宇. 检务文书检索数据集的构建[J]. 《山东大学学报(理学版)》, 2020, 55(7): 81-87.
[3] 庞博,刘远超. 融合pointwise及深度学习方法的篇章排序[J]. 山东大学学报(理学版), 2018, 53(3): 30-35.
[4] 杨艳,徐冰,杨沐昀,赵晶晶. 一种基于联合深度学习模型的情感分类方法[J]. 山东大学学报(理学版), 2017, 52(9): 19-25.
[5] 黄栋,徐博,许侃,林鸿飞,杨志豪. 基于词向量和EMD距离的短文本聚类[J]. 山东大学学报(理学版), 2017, 52(7): 66-72.
[6] 杜漫,徐学可,杜慧,伍大勇,刘悦,程学旗. 面向情绪分类的情绪词向量学习[J]. 山东大学学报(理学版), 2017, 52(7): 52-58.
[7] 曹蓉,黄金柱,易绵竹. 信息检索—DARPA人类语言技术研究的最终指向[J]. 山东大学学报(理学版), 2016, 51(9): 11-17.
[8] 奉国和,王丹迪,李媚婵. 基于SVD的档案学主题挖掘[J]. 山东大学学报(理学版), 2016, 51(1): 95-100.
[9] 谭金源,刁宇峰,杨亮,祁瑞华,林鸿飞. 基于BERT-SUMOPN模型的抽取-生成式文本自动摘要[J]. 《山东大学学报(理学版)》, 2021, 56(7): 82-90.
[10] 郑承宇,王新,王婷,邓亚萍,尹甜甜. 基于ALBERT-TextCNN模型的多标签医疗文本分类方法[J]. 《山东大学学报(理学版)》, 2022, 57(4): 21-29.
[11] 孟金旭,单鸿涛,黄润才,闫丰亭,李志伟,郑光远,刘一鸣,石昌通. 基于XLNet的双通道特征融合文本分类模型[J]. 《山东大学学报(理学版)》, 2023, 58(5): 36-45.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 杨莹,江龙*,索新丽. 容度空间上保费泛函的Choquet积分表示及相关性质[J]. J4, 2013, 48(1): 78 -82 .
[2] 谢云龙,杜英玲 . 函数S-粗集与规律积分度量[J]. J4, 2007, 42(10): 118 -122 .
[3] 宋玉丹,王士同*. 基于特征缺省的最小类内方差支持向量机[J]. J4, 2010, 45(7): 102 -107 .
[4] 史艳华1,石东洋2*. 伪双曲方程类Wilson非协调元逼近[J]. J4, 2013, 48(4): 77 -84 .
[5] 刘汝军,曹玉霞,周 平 . 利用小反馈实现离散非线性混沌系统的反控制[J]. J4, 2007, 42(7): 30 -32 .
[6] 梁霄, 王林山 . 一类S分布时滞递归神经网络的全局吸引子[J]. J4, 2009, 44(4): 57 -60 .
[7] 董新梅 . 关于Suryanarayana的若干问题[J]. J4, 2007, 42(2): 83 -86 .
[8] 许春华,高宝玉*,卢磊,徐世平,曹百川,岳钦艳,张建 . 城市纳污河道废水化学强化一级处理的研究[J]. J4, 2006, 41(2): 116 -120 .
[9] 陈宏宇1, 张丽2. 不含弦5-圈和弦6-圈的平面图的线性2荫度[J]. 山东大学学报(理学版), 2014, 49(06): 26 -30 .
[10] 陈 勇, . 树的费用全染色的近似算法[J]. J4, 2006, 41(1): 111 -114 .