  1. 1. 哈尔滨工业大学计算学部,黑龙江 哈尔滨 150001
    2. 哈尔滨市公安局香坊分局,黑龙江 哈尔滨 150000
  • 收稿日期:2023-10-18 出版日期:2024-07-20 发布日期:2024-07-15
  • 通讯作者: 孙承杰 E-mail:jijie@insun.hit.edu.cn;sunchengjie@hit.edu.cn
  • 作者简介:纪杰(1999—),男,硕士研究生,研究方向为自然语言处理、文本分类、问答系统. E-mail: jijie@insun.hit.edu.cn
A prompt learning approach for telecom network fraud case classification

Jie JI1(),Chengjie SUN1,*(),Lili SHAN1,Boyue SHANG2,Lei LIN1   

  1. 1. Faculty of Computing, Harbin Institute of Technology, Harbin 150001, Heilongjiang, China
    2. Xiangfang Branch, Harbin Public Security Bureau, Harbin 150000, Heilongjiang, China
  • Received:2023-10-18 Online:2024-07-20 Published:2024-07-15
关键词: 提示学习, 电信网络诈骗, 去标识化, 案件分类


For the automatic classification technology of telecom fraud cases, a classification system of telecom network fraud based on situational analysis is formulated, the privacy protection method of case text de-identification is realized, and accuracy and F1-score of a classification method of telecom network fraud cases based on prompt learning is proposed. The experimental results show that the method is on average 1 to 2 percentage points higher than the BERT-based classification method on the data set constructed in the paper.

Key words: prompt learning, telecom network fraud, de-identificaiton, case classification


类别 范围
手机号 11位连续数字
身份证号 18位连续数字(最后一位可能是罗马数字X)
银行卡号 13~19位连续数字
QQ号 5~11位连续数字
微信号 6~20位字母、数字、下划线和减号的组合,以字母开头



去除信息 正则表达式
号码 [\da-zA-Z_]{6, }
出生年月(birth)   (\d{2, 4}年\d{1, 2}月\d{1, 2}日)|(\d{2, 4}-\d{1, 2}-\d{1, 2})|(\d{2, 4}.\d{1, 2}.\d{1, 2})|\d{2, 4}年
出生日期 {birth}出?生)|(出生(日期|年月|于)[: :]?{birth}
电子邮箱 [a-zA-Z0-9]*@(qq|163|gmail)\.com
网址   [hH][tT]{2}[pP][sS]?[: :; ;]?(//|//|//)?[a-zA-Z0-9/.]+[wW]{3}\.)?[a-zA-Z0-9.]+\.(com|COM|vip|VIP|cc|CC|site|SITE|top|TOP)







类别名称 类别定义 覆盖现有类别
购物消费 花费资金,用以购买商品、服务等 冒充电商物流客服类
业务办理 办理各类业务(无需花费资金) 贷款、代办信用卡类
婚恋交友 建立一种关系(婚姻、恋爱、朋友) 网络婚恋、交友类(非虚假网络投资理财类)
配合公务 配合行政、司法等人员执行公务 冒充公检法及政府机关类
人际互助 信任某种人际关系 冒充领导、熟人类
投资盈利 以盈利为目的的行为 刷单返利类



类别 样本数量 类别 样本数量
刷单返利类 35 459 冒充公检法及政府机关类 4 407
冒充电商物流客服类 13 772 网络游戏产品虚假交易类 2 155
虚假网络投资理财类 11 836 网络婚恋、交友类(非虚假网络投资理财类) 1 654
贷款、代办信用卡类 11 105 冒充军警购物类 1 197
虚假征信类 8 464 网黑案件 1 092
虚假购物、服务类 7 058 总计 102 762
冒充领导、熟人类 4 563



类别名称 类别标签 类别名称 类别标签
刷单返利类 刷单返利 冒充公检法及政府机关类 政府机关
冒充电商物流客服类 电商物流 冒充领导、熟人类 领导熟人
虚假网络投资理财类 投资理财 网络游戏产品虚假交易类 游戏产品
贷款、代办信用卡类 贷款信用 网络婚恋、交友类(非虚假网络投资理财类) 婚恋交友
虚假征信类 虚假征信 冒充军警购物类 军警购物
虚假购物、服务类 购物服务 网黑案件 网黑案件





模型 Acc Macro AvgF1 Weighted Avg F1
TextCNN 0.884 7 0.841 1 0.883 9
ERNIE 0.884 8 0.846 0 0.884 3
RoBERTa 0.882 8 0.846 7 0.881 4
BERT(base) 0.884 9 0.850 3 0.883 6
BERT+prompt 0.901 8(+1.69%) 0.876 4(+2.61%) 0.903 8(+2.24%)



类别 BERT BERT+prompt
刷单返利类 0.959 1 0.984 4
冒充电商物流客服类 0.793 9 0.731 9
虚假网络投资理财类 0.884 6 0.917 7
贷款、代办信用卡类 0.941 7 0.964 1
虚假征信类 0.810 4 0.930 5
虚假购物、服务类 0.698 0 0.791 8
冒充公检法及政府机关类 0.902 1 0.933 3
冒充领导、熟人类 0.902 5 0.883 5
网络游戏产品虚假交易类 0.913 0 0.978 7
网络婚恋、交友类(非虚假网络投资理财类) 0.636 4 0.583 7
冒充军警购物类 0.790 7 0.834 2
网黑案件 0.971 0 0.983 1
