预训练语言模型能够表达句子丰富的句法和语法信息,并且能够对词的多义性建模,在自然语言处理中有着广泛的应用,BERT(bidirectional encoder representations from transformers)预训练语言模型是其中之一。在基于BERT微调的命名实体识别方法中,存在的问题是训练参数过多,训练时间过长。针对这个问题提出了基于BERT-IDCNN-CRF(BERT-iterated dilated convolutional neural network-conditional random field)的中文命名实体识别方法,该方法通过BERT预训练语言模型得到字的上下文表示,再将字向量序列输入IDCNN-CRF模型中进行训练,训练过程中保持BERT参数不变,只训练IDCNN-CRF部分,在保持多义性的同时减少了训练参数。实验表明,该模型在MSRA语料上F1值能够达到94.41%,在中文命名实体任务上优于目前最好的Lattice-LSTM模型,提高了1.23%;与基于BERT微调的方法相比,该方法的F1值略低但是训练时间大幅度缩短。将该模型应用于信息安全、电网电磁环境舆情等领域的敏感实体识别,速度更快,响应更及时。
显著性检测的目标是快速找出图像视频等视觉数据中最吸引人注意的区域,作为计算机视觉领域的基本任务之一,近年来备受关注,众多的方法被提出。这些显著性检测工作可分为2个分支:视觉显著性检测方法和显著性物体检测方法。尽管这2个分支的方法有很多相同点甚至共享相同的计算模型,但是在不同分支的评价数据集上有巨大的性能差异,很少有工作对这2个分支的方法进行比较和分析。通过详细分析和阐述2个分支主流方法的计算模型、采用的评价机制以及使用的数据集,总结了多种改进视觉显著性检测方法用来检测显著性物体的方式,通过这些方式视觉显著性检测方法可应用于显著性物体检测数据集,其性能达到了领先水平甚至超过了一些主流显著性物体检测方法,从而缓解了2个分支显著性检测方法在不同分支数据集上表现的不一致的问题。
针对Hive数据库中的数据共享所带来的敏感信息泄漏问题,以数据分级为前提,利用基于标签的访问控制技术,提出了一种基于安全域的数据隔离保护框架(SD-DIPF)。首先,通过设计层次安全标签树划分标签级别,用来对系统中的主客体进行标识;结合分级标签阐明安全域(SD)的设计思想,对安全域及其子域进行定义以及安全性的形式化证明;最后,利用安全域对平台数据进行逻辑划分保证不同敏感级别数据的有效隔离;针对该框架对Hive数据库的适用性进行说明,并结合现有的认证机制给出了其在Hive数据库中的实现。通过实验分析验证该框架可以保障敏感数据不被非法访问,证明了本框架的可行性和安全性。
针对传统的室内WiFi定位方法难以解决大型活动及区域间流动人群轨迹分析需要这一问题,提出了基于三边测量定位和信号强度(RSSI)的应用于大型场馆、复杂环境下的人群定位新方法,实现区域内人员定位、区域内外人群划分、区域内人群流量分析。使用基于一种概率统计预测算法进行人群轨迹预测,建立了WiFi区域内人群轨迹模型,通过进一步建立的跨区域人群移动轨迹模型,实现大跨度区域间人群流动分析。通过搭建WiFi区域人群轨迹模型验证系统,使用2016年贵阳数博会数据,进行了数据可视化分析,证明了模型的有效性。
为了更加准确地检测恶意Office(*.docx、*.rtf)文档,提出了一种基于文档熵时间序列对恶意Office文档进行检测的方法。该方法将恶意与非恶意文档二进制之间的差异转换为文件熵时间序列功率谱之间的差异性,然后采用IBK、random committe(RC)和random forest(RF)3种机器学习方法分别对数据进行学习和检测。实验结果显示,针对基于XML压缩技术的docx格式文档的准确率可以达到92.14%,而针对富文本格式(rtf)文件的准确率可以达到98.20%。
在对话过程中,人们通常根据对方上一句话的关键词做出相应的回复。为了生成与关键词含义相关的回复,提出了拓展关键词信息注意力机制的对话生成模型。首先从输入语句中提取关键词,然后根据关键词词向量余弦相似度找出与关键词相关的词语构成拓展关键词集合,将集合中词语的词向量通过注意力机制的方式加入解码过程来影响回复生成。在中文微博数据集及英文Twitter数据集上的实验表明,该模型在回复语句的相关性及多样性方面取得了优于其他模型的结果。
对于水军评论检测问题,已有方法在提取用户行为关系以及通过神经网络提取特征时复杂度过大,同时由于网络评论属于短文本类,其书写的不规范会导致训练过程中文本特征提取困难;另外,已有方法对数据集不平衡分布情况考虑不足。为此,提出了一种基于双层堆叠分类模型的水军评论检测方法。首先通过三元组形式构造矩阵表示用户间关系,并通过主成分分析得到低维用户关系表示,以此刻画用户在评论数据中的行为差异并且降低计算的复杂度;然后,通过评论的段落向量表示以及计算离散型特征(包括文本相似度、信息熵等)解决文本特征难以提取的问题;最后将三者相联结作为融合文本与行为特征的整体特征表示。利用集成学习的方法构造双层堆叠分类模型对评论分类,以提升模型在非平衡数据集下的检测性能。实验采用Yelp2013评论数据集,结果表明,与目前最好的基准方法对比, F1值提高了1.7%~5.2%,在非平衡数据集中提升尤为明显。
随着经济协作日益密切,产业网络关联程度的加深,部门的生产变化会波及其上游和下游部门的生产,直接或间接地影响其他部门,进而对整体经济产生影响。从部门间投入产出网络的角度,衡量每个产业部门对于总产出波动的影响。通过直接消耗系数矩阵构建投入产出网络,研究部门冲击对总产出波动的影响。在构建的投入产出网络基础上,从对总产出波动影响大小的角度,刻画关键产业,其生产冲击对整个网络的产出波动影响最大。用我国2012年投入产出数据实证分析,发现批发、零售业和农产品业通过网络关联对总产出波动影响最大,可作为关键产业。
提出了一种自编码器与PSO算法优化卷积神经网络结合的电力系统短期负荷预测模型。首先利用自编码器对相关变量数据进行处理,降低所需数据的噪声变量,提高预测效率;然后利用粒子群算法对卷积神经网络的权值和阈值进行优化,可有效提高预测模型的预测精度和预测速度。通过对实际电网的负荷数据进行仿真,验证了模型具有较高的预测精度。
对山东省生物多样性较高的25个省级以上自然保护区的植物多样性进行了调查研究,发现共有175科918属2 362种维管束植物,保护了山东省93%以上的维管束植物物种。利用多种生物多样性测度方法分析表明,所研究的25个自然保护区中物种丰富度最高的为青岛崂山省级自然保护区,其次为泰山省级自然保护区和烟台昆嵛山国家级自然保护区。所研究的自然保护区内共有152种珍稀濒危植物,珍稀濒危植物物种丰富度最大的为青岛崂山省级自然保护区。研究区内共发现289种境外外来植物,其中入侵类有98种。所研究的自然保护区均受到了不同程度的境外外来植物入侵,境外外来植物中草本植物的数量远远多于木本植物的数量,且物种较为丰富的自然保护区境外外来植物物种数量也比较多。本研究可为山东省自然保护区植物多样性保护以及自然保护区管理提供科学依据。
微博正逐步成为公共信息传播的主要社交媒体,高效地获取微博数据对于网络舆情分析具有重要意义。以新浪微博为研究对象,研究了通过微博API、模拟登录和构造访客Cookie进行数据采集的3种方案,提出了一种多策略融合的微博数据采集方案。针对模拟登录的方案设计实现了自适应的并发采集算法,使数据采集较为稳定高效;针对构造访客Cookie的方案设计实现了高可用代理池模块,进一步提高了数据采集效率。实验结果表明,基于模拟登录的自适应并发采集策略和构造访客Cookie融合的方案能够高效、全面、稳定地获取微博数据。
虚拟机的信任问题是虚拟机安全的关键问题之一,可信密码模块作为计算机信任的源头,其在虚拟机上的应用也引起了越来越多的关注。提出了虚拟可信密码模块(virtual trusted cryptography module, vTCM)方案,该方案将现有可信密码模块(trusted cryptography module, TCM)方案扩展为可切换vTCM场景的vTCM物理环境来支持少量物理vTCM场景,通过vTCM场景的虚拟化调度,从而支持多个虚拟机的TCM访问,为每个虚拟机分配一个绑定的vTCM实例,并使这些实例可以轮流在物理vTCM场景中运行,以使vTCM的安全性分析可以借助TCM结论,增强vTCM的安全性。这一方案在vTCM的管理,包括vTCM迁移等操作上,也体现出了其优势。给出了该方案在KVM虚拟化平台下的实现方法,实现结果表明,该方案不但可行,并且对现有的虚拟机机制有良好的兼容性。
我国碳排放权交易价格具有明显的波动性和地区差异性,科学刻画碳排放权交易价格的波动性和解析不同地区的差异性有利于规避投资风险、平稳发展碳市场和提高国内碳市场在国际市场的定价能力,对加快建立全国统一碳市场也尤为重要。H-P滤波法是经常使用的经济变量趋势分解方法,可有效地解析时间序列数据中的季节变动规律。选取2013年12月至2018年6月之间国内7大区碳市场域碳排放权交易价格月度数据,采用H-P滤波法实证研究了国内碳价波动规律和区域特征。研究结果表明,国内碳价具备“波动中下降”的显著特征,呈现3个完整周期,每个周期时间范围在10~22个月之间,峰值与谷值都呈现不同程度的下降趋势且均由正变负,周期类型都表现出陡降趋势;从区域影响看,天津和北京的碳排放权交易价格的波动一致特征更明显,而湖北和重庆的碳排放权交易价格波动对天津的影响程度较小。
对未知协议消息序列进行聚类处理是分析协议格式的基础。从字符串匹配的角度出发,利用协议格式字段的连续性,在传统K-均值算法基础上提出一种基于连续特征的未知协议消息聚类算法。首先基于协议格式字段连续性对待测数据集进行粗聚类,提取出K-均值算法的初始聚类中心,再使用消息距离及收敛函数改进的迭代算法对数据进行迭代处理实现消息的进一步聚类。实验表明,提出的新方法与传统K-均值算法相比,在聚类准确度上提升了17.58%,迭代次数上减少了约58.27%,与EM算法、DBSCAN算法相比在聚类准确率与时间上均有明显提升。
针对广域网中软件定义网络(software defined network, SDN)在运行过程中控制器发生不可恢复的故障的情况,提出一种考虑控制器节点故障的部署方法。首先将网络划分成多个子网络,进而提出采用改进的粒子群优化算法对SDN控制器进行部署,以达到较高的可靠性和较低的时间延迟以及负载较为均衡的目的;在网络运行的过程中,当控制器发生不可恢复的故障时,采用熵权多目标决策法确定由发生故障区域的目标slave控制器,将其升级为master控制器,从而保证网络的正常运行。实验结果表明,相对于采取K-means或贪心算法,使用本方法进行控制器部署,在SDN网络的负载均衡率、链路时间延迟等网络关键指标方面均有所提升,且能以较低的代价降低控制器故障节点对网络正常运行的影响。
分析识别社交网络用户敏感信息,有利于从技术上量化隐私泄露程度,进行隐私保护。针对现有的用户属性识别方法需要对用户属性取值进行强假设的问题,结合RL迭代分类框架和扩展wvRN关系识别的方法,提出了一种社交网络用户敏感属性迭代识别方法。通过卷积神经网络提取用户文本特征进行识别,结合邻居结点迭代地进行关系识别,不仅弱化了对用户属性的假设,而且提高了可用性。实验结果表明,通过在社交网络中获取少量的标注数据,对迭代识别方法设置合理的参数值,可以获得较好的用户敏感属性识别结果。
考虑突发需求增大对应急服务供应链收益的影响,利用联合契约对应急物流服务供应链进行协调。首先对联合契约在市场需求稳定的前提下的协调性进行分析,指出联合契约下的服务供应链更具有协调性,然后通过合理的契约参数对突发事件下的物流服务供应链进行收益优化,使得联合契约在应对突发事件发生时可以继续协调供应链,并得到集成商的最优订购策略,最后通过算例分析,进一步验证了联合契约协调突发事件的有效性,对供应链的准确决策提供更为精准的信息。
为了探究城市土地利用与生态环境之间存在的耦合关系,找出促进城市土地利用与生态环境和谐发展的方法,以黄河三角洲区域核心城市东营和滨州为研究区域,利用耦合协调测度模型,对研究区域2002—2016年的土地利用综合指数、生态环境综合指数以及2个系统的耦合协调度进行分析,同时对指标的权重进行敏感性验证。结果表明,2002—2016年东营和滨州的土地利用与生态环境的综合指数均呈现上升趋势,从耦合度和耦合协调度来看,研究区域处于良好耦合阶段,土地利用与生态环境的协调发展经历了从中度失调到良好协调的5个阶段,应用熵值法确定的指标权重合理可靠。研究结果可为东营和滨州的城市管理提供科学依据,也可为同类型城市的研究提供方法和参考。
轻量级的射频识别(radio frequency identification,RFID)协议常采用同步更新机制以避免位置隐私的泄露,但却带来了去同步攻击的问题。去同步攻击使得标签与数据库同步更新的秘密数据不一致,导致标签永久失效。通过对已有协议的分析,发现其不具备抵御去同步攻击的效果。对已有协议进行改进,提出了一种新的抗去同步攻击的轻量级双向认证协议,并利用串空间理想诚实理论对新协议进行了形式化分析,证明了新协议的正确性。
湿地是全球重要的陆地碳库之一,对于全球变化的响应十分敏感。根据有关调查资料,对山东省河流湿地植被构成、河流湿地植物生长型及其植物区系地理成分等进行了分析,阐述了它们与植物之间的关系。山东省河流湿地面积257 795.20 hm2,占全省湿地面积的14.84%。山东省河流湿地内分布植物82科、216属、301种。在植物区系地理成分上,包括15个类型和12个变型。温带性质和热带性质的分布型和变型的属为145个,占总属数的67.13%,体现了植物属分布的温带和热带特点。
现有多服务器环境下的身份认证方案大多存在无法抵御各种安全攻击,不能实现匿名性等问题,基于扩展的混沌映射和生物特征方法提出了一种多服务器环境下的身份认证协议,实现用户与多服务器之间的身份认证,并在认证过程中协商了会话密钥。利用BAN逻辑对提出的协议进行了安全证明。安全性分析结果表明,本文的协议可抵御假冒攻击、离线口令猜测攻击、偷取智能卡攻击等,并具有强匿名性。最后,与现有的相关协议比较,本文的协议更安全高效,适合在实际中应用。
软件漏洞检测在信息物理融合系统中通常使用模糊测试(Fuzzing)技术。针对Fuzzing技术中存在大量冗余的测试样本,且样本探测异常的有效性较低的情况,提出一种面向软件漏洞检测的Fuzzing样本优化的方法。首先筛除随机样本中软件不接受的样本,并通过改进的动态规划算法获得初始样本的精简集,以减小初始样本的数量;然后在测试过程中跟踪污点传播路径,利用Simhash和海明距离的改进算法求解样本传播路径相似度,通过删除相似度较高的样本进一步降低样本冗余;最后对触发异常的样本进行遗传变异构建新的测试样本,以增加样本的有效性。通过实验结果可以看出,相较于利用基于贪心算法和基于异常分布导向的方法,这里提出的方法有效减小了测试样本冗余,并且提升了测试样本的有效性。
为了研究对比北京、伊斯兰堡冬季PM10中重金属、水溶性无机离子以及碳组分的污染特征,于2014年12月—2015年1月分别在两地每天采集1次PM10样品,对大气颗粒物中以上3种物质的质量浓度进行了分析。结果表明,两地PM10中重金属污染情况较为严重,北京地区的As、Cr(Ⅵ)以及伊斯兰堡的Cd、Cr(Ⅵ)均超过WHO标准。根据主成分分析,北京重金属主要排放源为燃煤和移动源,而伊斯兰堡主要为移动源。两地颗粒物中水溶性无机离子二次污染情况较为严重,在霾天浓度也同样会上升,虽然污染程度不同,但造成霾天污染的一个重要原因均为机动车等移动源。对于碳组分,北京OC、EC线性关系较好(特别是在非霾天),说明其来源比较相似和简单,在排放后被类似的过程所控制,主要为煤炭燃烧和汽车排放;而伊斯兰堡OC、EC线性关系较差,在非霾天甚至出现负相关,说明其来源差别较大,主要为汽车排放。北京地区在研究期间SOC的质量浓度为2.58 μg/m3,仅占OC质量浓度的10.1%,而伊斯兰堡基本没有SOC的生成。
对用户网络结构信息和主题标签的情感性、地域性等信息进行特征分析,提出了一种考虑用户粉丝网络结构特征以及主题标签自身特性的流行度预测模型。实验表明,新提出的特征是有效的,对以后主题标签的流行度预测具有较高的参考价值。
为了提高车货匹配平台的服务水平与竞争优势,分析了共享经济下车货匹配平台的运输服务供应商特质,将运输服务供应商划分为专业型和非专业型两大类,在考虑两者交叉网络外部性差异的基础上,构建了竞争环境下车货匹配平台的Hotelling博弈模型。通过研究发现,若双边用户单归属,则车货匹配平台对两类供应商收取相同注册费;若供应商多归属,则车货匹配平台倾向于对非专业型供应商收取的注册费高于专业型供应商;且采取供应商先加入策略对车货匹配平台更为有利。
提出了一种基于密码协议实现的行为安全分析模型,该模型把密码协议实现分2个部分:一是外部行为(开放网络空间交互通信的行为);二是内部行为(代码实现的行为)。通过行为的可控性,能够发现、控制或纠正密码协议实现的安全。基于该分析模型方法,以经典的密码协议为实例进行模拟实验。实验结果表明,密码协议实现的行为安全是可控的。