《山东大学学报(理学版)》 ›› 2024, Vol. 59 ›› Issue (3): 95-106.doi: 10.6040/j.issn.1671-9352.7.2023.2681
Haisu CHEN(),Jiachun LIAO*(),Sicheng YAO
摘要:
为推进数据开放过程中个人信息保护,深入分析政府开放数据中个人信息的披露现状:首先从相关平台中获取数据,并对其预处理,根据字段、表名等特征筛选出含有个人信息的数据;其次利用敏感信息识别方法识别数据中各类个人信息,并将其映射到个体,以统计个体数量同时检测其关联数据;最后通过数据可视化,直观展示个人信息披露现状。虽然部分公共数据开放平台虽然对公共数据进行分级分类以及去标识化等处理,但是已开放的数据中依旧包含大量直接展示的个人信息,需要在数据规范化分级分类、敏感信息识别和敏感信息脱敏等方面进行完善。
中图分类号:
1 | 梅宏. 数据治理之路: 贵州实践[M]. 北京: 中国人民大学出版社, 2022: 47. |
MEI Hong . On data governance: practice in Guizhou[M]. Beijing: China Renmin University Press, 2022: 47. | |
2 | 国务院. 国务院关于印发促进大数据发展行动纲要的通知[EB/OL]. (2015-09-05)[2023-02-12]. https://www.gov.cn/zhengce/content/2015-09/05/content_10137.htm. |
The State Council. Circular of the state council on printing and issuing the action outline for promoting the big data development[EB/OL]. (2015-09-05)[2023-02-12]. https://www.gov.cn/zhengce/content/2015-09/05/content_10137.htm. | |
3 | 复旦大学数字与移动治理实验室. 中国地方政府数据开放报告—城市指数(2022年度)[R/OL]. (2023-01-10)[2023-01-30]. http://ifopendata.fudan.edu.cn/report. |
DMG Lab Fudan University. China's local government open data report—city index (2022)[R/OL]. (2023-01-10)[2023-01-30]. http://ifopendata.fudan.edu.cn/report | |
4 | 黄玥, 周丽霞, 蒲攀. 基于AHP方法的我国信息安全政策方案优化决策研究[J]. 现代情报, 2015, 35 (3): 77- 81. |
HUANG Yue , ZHOU Lixia , PU Pan . Study on the optimizing of information security policy based on AHP[J]. Journal of Modern Information, 2015, 35 (3): 77- 81. | |
5 | 周林兴, 周丽. 政府数据开放中的隐私信息治理研究[J]. 图书馆学研究, 2019, (12): 41- 47. |
ZHOU Linxing , ZHOU Li . Research on privacy information governance in open government data[J]. Research on Library Science, 2019, (12): 41- 47. | |
6 | 李立新, 唐培洪, 臧滔, 等. 一种身份证号码识别方法、装置和电子设备: CN112380211A[P]. 2021-02-19. |
LI Lixin, TANG Peihong, ZANG Tao, et al. The invention relates to a method, a device and an electronic device for the identification of resident identity card number: CN112380211A[P]. 2021-02-19. | |
7 | 闫萍. 基于规则和概率统计相结合的中文命名实体识别研究[J]. 计算机与数字工程, 2011, 39 (9): 88- 91. |
YAN Ping . Research on the identification for Chinese named entity based on combination of rules and statistic analysis[J]. Computer & Digital Engineering, 2011, 39 (9): 88- 91. | |
8 | 俞鸿魁, 张华平, 刘群, 等. 基于层叠隐马尔可夫模型的中文命名实体识别[J]. 通信学报, 2006, (2): 87- 94. |
YU Hongkui , ZHANG Huaping , LIU Qun , et al. Chinese named entity identification using cascaded hidden Markov model[J]. Journal on Communications, 2006, (2): 87- 94. | |
9 | GUILLAUME L, BALLESTEROS M, SUBRAMANIAN S, et al. Neural architectures for named entity recognition[C]//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. San Diego: Association for Computational Linguistics, 2016: 260-270. |
10 | 孙瑞英, 李杰茹. 我国政府数据开放平台个人隐私保护政策评价研究[J]. 图书情报工作, 2022, 66 (12): 3- 16. |
SUN Ruiying , LI Jieru . Research on the evaluation of personal privacy protection policies of government data open platforms in China[J]. Library and Information Service, 2022, 66 (12): 3- 16. | |
11 | 杜荷花. 我国政府数据开放平台隐私保护评价体系构建研究[J]. 情报杂志, 2020, 39 (3): 172- 179. |
DU Hehua . On construction of privacy protection evaluation system of government data open platform in China[J]. Journal of Intelligence, 2020, 39 (3): 172- 179. | |
12 | SWEENEY L . K-anonymity: a model for protecting privacy[J]. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 2002, 10 (5): 557- 570. |
13 | LEE J S , JUN S P . Privacy-preserving data mining for open government data from heterogeneous sources[J]. Government Information Quarterly, 2021, 38 (1): 101544. |
14 | 全国信息安全标准化技术委员会. 信息安全技术—个人信息去标识化指南: GB/T 37964—2019[S]. 北京: 中国标准出版社, 2019. |
National Information Security Standardization Technical Committee. Information security technology—guide for de-identifying personal information: GB/T 37964—2019[S]. Beijing: Standards Press of China, 2019. | |
15 | 全国信息安全标准化技术委员会秘书处. 网络安全标准实践指南—网络数据分级分类指引[EB/OL]. (2021-12-31)[2023-01-30]. https://www.tc260.org.cn/upload/2021-12-31/1640948142376022576.pdf. |
The Secretariat of National Information Security Standardization Technical Committee. Practice guide on network security standards—guidelines on classification of network data[EB/OL]. (2021-12-31)[2023-01-30]. https://www.tc260.org.cn/upload/2021-12-31/1640948142376022576.pdf. | |
16 | JIAO Zhenyu, SUN Shuqi, SUN Ke. Chinese lexical analysis with deep Bi-GRU-CRF network[EB/OL]. (2018-06-05)[2023-01-30]. https://doi.org/10.48550/arXiv.1807.01882. |
17 | HE H, CHOI J D. The stem cell hypothesis: dilemma behind multi-task learning with transformer encoders[C]//Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. Punta Cana, Dominian: Association for Computational Linguistics, 2021: 5555-5577. |
[1] | 许侃,刘瑞鑫,林鸿飞,刘海峰,冯娇娇,李家平,林原,徐博. 基于异质网络嵌入的学术论文推荐方法[J]. 《山东大学学报(理学版)》, 2020, 55(11): 35-45. |
[2] | 王佳麒,杨沐昀,赵铁军,赵臻宇. 检务文书检索数据集的构建[J]. 《山东大学学报(理学版)》, 2020, 55(7): 81-87. |
[3] | 庞博,刘远超. 融合pointwise及深度学习方法的篇章排序[J]. 山东大学学报(理学版), 2018, 53(3): 30-35. |
[4] | 杨艳,徐冰,杨沐昀,赵晶晶. 一种基于联合深度学习模型的情感分类方法[J]. 山东大学学报(理学版), 2017, 52(9): 19-25. |
[5] | 黄栋,徐博,许侃,林鸿飞,杨志豪. 基于词向量和EMD距离的短文本聚类[J]. 山东大学学报(理学版), 2017, 52(7): 66-72. |
[6] | 杜漫,徐学可,杜慧,伍大勇,刘悦,程学旗. 面向情绪分类的情绪词向量学习[J]. 山东大学学报(理学版), 2017, 52(7): 52-58. |
[7] | 曹蓉,黄金柱,易绵竹. 信息检索—DARPA人类语言技术研究的最终指向[J]. 山东大学学报(理学版), 2016, 51(9): 11-17. |
[8] | 奉国和,王丹迪,李媚婵. 基于SVD的档案学主题挖掘[J]. 山东大学学报(理学版), 2016, 51(1): 95-100. |
[9] | 谭金源,刁宇峰,杨亮,祁瑞华,林鸿飞. 基于BERT-SUMOPN模型的抽取-生成式文本自动摘要[J]. 《山东大学学报(理学版)》, 2021, 56(7): 82-90. |
[10] | 郑承宇,王新,王婷,邓亚萍,尹甜甜. 基于ALBERT-TextCNN模型的多标签医疗文本分类方法[J]. 《山东大学学报(理学版)》, 2022, 57(4): 21-29. |
[11] | 孟金旭,单鸿涛,黄润才,闫丰亭,李志伟,郑光远,刘一鸣,石昌通. 基于XLNet的双通道特征融合文本分类模型[J]. 《山东大学学报(理学版)》, 2023, 58(5): 36-45. |
|