《山东大学学报(理学版)》

基于链接聚类的Shark-Search算法

苏祺,项锟,孙斌

2006, 41(3): 1-04 . doi:

摘要 ( 4642 )

相关文章 | 多维度评价

根据对Shark-Search主题爬取算法的分析，提出了一种基于链接聚类的改进Shark-Search算法. 并通过几个对比实验对该算法进行了验证. 实验结果表明,新算法能够更有效地识别链接与主题的相关性.

基于新闻环境的人物肖像检索

王太峰,袁平波,荚济民,俞能海

2006, 41(3): 5-10 . doi:

摘要 ( 2173 )

相关文章 | 多维度评价

提出了一种基于新闻环境的人物肖像检索方案. 该方案可从新闻中找到相关人物的描述，并以此作为人物的背景信息，对现有的通用图像搜索引擎的检索结果过滤，再通过人脸检测技术以及多媒体信息检索方法，最终找到新闻人物最佳的肖像图像，并在此基础上展示了一种新的互联网新闻表示方法. 实验证明，该方法能够比较准确地得到新闻人物的肖像表示，而且以新闻人物的肖像作为互联网新闻表示中的一个补充对提高读者的新闻阅读兴趣和阅读效率都有一定帮助.

模糊聚类算法在Web信息搜索中的应用

高翔,王敏

2006, 41(3): 11-12 . doi:

摘要 ( 1977 )

相关文章 | 多维度评价

随着Internet的普及，Web信息量爆炸性的增长，数以亿计的Web页面形成了内容丰富而庞杂的WWW资源，如何从海量的数据中高效、高质量地检索到用户所感兴趣的信息资源是当前我国Internet资源挖掘的热点问题之一. 将基于模糊逻辑的聚类算法FKprototype引入到Web信息搜索中,改良了传统方法一刀切的分类处理方式，从而有效地提高了Web文档的检索质量.

一种问答式检索系统布尔查询生成方法

何靖

2006, 41(3): 13-17 . doi:

摘要 ( 2063 )

相关文章 | 多维度评价

提出了一种基于简单语法分析的问答系统查询生成方法，利用对问题的词性标注，形成初始化布尔查询，根据查询结果文档集对查询迭代调整，最终产生合理的布尔查询. 通过TREC2004和TREC2005的QA TRACK数据集上的实验，表明该方法在没有增加很大复杂度（平均迭代2.5次）的情况下大大提高了平均查准率，覆盖率和重复率.

局部核方法及其应用

万海平,何华灿,周延泉

2006, 41(3): 18-20 . doi:

摘要 ( 2037 )

相关文章 | 多维度评价

核方法是机器学习中一种强有力的学习算法.多个领域的实践表明，通过将领域知识嵌入到核函数中，一般会得到比较好的学习效果. 从微分流形的观点讨论了机器学习中全局信息与局部信息的关系，并提出了一种嵌入局部有意义信息的核方法.文本分类的实验结果表明，与其它几个分类算法相比，它具有较高的性能.

基于文本分块的多模板隐马尔可夫模型的文本信息抽取

王雷,陈治平,李志成

2006, 41(3): 19-24 . doi:

摘要 ( 1813 )

相关文章 | 多维度评价

针对文本信息抽取中训练数据来源的多样化，不利于学习到最优的模型参数的问题，提出了一种基于多模板隐马尔可夫模型的文本信息抽取算法. 新算法利用文本排版格式、分隔符等信息，对文本进行分块，在此基础上，通过对训练数据分成多个形式模板训练隐马尔可夫初始概率及转移概率参数，最后，结合统一训练的释放概率参数，对文本信息进行抽取. 实验结果表明，新算法在精确度和召回率指标上比简单隐马尔可夫模型具有更好的性能.

一种基于语义的Web数据搜索引擎方法研究

石翌轶,宋自林,尹康银

2006, 41(3): 23-29 . doi:

摘要 ( 1836 )

相关文章 | 多维度评价

Web网上大量的异构、非结构化的数据使人们难以有效地发现自己所需信息. 通过利用元数据和本体语义特点，借助Web服务技术，提出构建元数据登记库MDR和本体管理系统OMS，在分布式闭包生成基础上进行推理，实现基于本体表示语言RDF特性的Web数据搜索引擎SBWSE，达到分布异构环境下高效发现信息的目的，解决了基于关键词的搜索引擎所表现的查全率和查准率不佳问题.

面向中文问答系统的问句句法分析

张亮,,王树梅,黄河燕,张孝飞

2006, 41(3): 30-33 . doi:

摘要 ( 2242 )

相关文章 | 多维度评价

中文句法分析是汉语研究和信息处理中的一个关键环节，同时也是难点之一.探讨了中文问句的结构特征，在面向中文问答系统的问句句法分析算法中，运用语料库句法处理技术，并对问句长度短、含疑问词、有疑问结构句式等特点加以利用，初步实验结果达到了预期目标.

基于粒子群优化的快速KNN分类算法

张国英,沙芸,江慧娜

2006, 41(3): 34-36 . doi:

摘要 ( 2387 )

相关文章 | 多维度评价

提出了一种有效的快速ｋ近邻分类文本分类算法,即PSOKNN算法，该算法利用粒子群优化方法的随机搜索能力在训练文档集中进行有指导的全局随机搜索. 在搜索ｋ近邻的过程中，粒子群跳跃式移动，掠过大量不可能成为ｋ近邻的文档向量，从而可以快速找到测试样本的ｋ个近邻. 以Reuters21578文档集分类为例验证算法的有效性，结果表明，保持ｋ近邻法分类精度，新算法比KNN算法降低分类时间70％.

一种基于内容的广告垃圾图像过滤方法

许洋洋,袁华

2006, 41(3): 37-41 . doi:

摘要 ( 1718 )

相关文章 | 多维度评价

垃圾邮件制造者为了躲避基于文本的垃圾邮件过滤器的过滤，常常将文字嵌入到图像中，产生了大量的广告垃圾图像.为解决这一问题，提出了基于图像内容的垃圾图像过滤方法.首先提取出图像中的文字区域，再利用广告垃圾图像中的文字区域特征进行广告垃圾图像过滤.实验结果表明利用文字区域特征过滤广告垃圾图像是行之有效的.

基于大规模语料的新词语识别方法

施水才,俞鸿魁,吕学强,李渝勤

2006, 41(3): 42-45 . doi:

摘要 ( 2527 )

相关文章 | 多维度评价

根据新词语的不同特征，提出了一整套自动检测新词语的方法，通过大规模地统计分析，分别建立字，词，N元组的词典，从中自动检测出新词语来，然后再根据构词规则对自动检测的结果进行进一步的过滤，最终抽取出语料中的新词语. 根据此方案实现的系统，可以抽取不限长度不限领域的新词语.

基于类别核心词的朴素贝叶斯中文文本分类

袁方,苑俊英

2006, 41(3): 46-49 . doi:

摘要 ( 2504 )

相关文章 | 多维度评价

摘要及关键词中提取类别核心词，通过加权方式，强化它们在文本分类中的作用. 基于朴素贝叶斯分类方法的实验表明，提出的方法能够有效提高中文文本的分类准确率.

基于特征域词频的邮件过滤方法的研究

刘慧,马军,雷景生,连莉

2006, 41(3): 50-53 . doi:

摘要 ( 1931 )

相关文章 | 多维度评价

出了根据邮件特征域信息和特征词频进行垃圾邮件过滤的新方法，并介绍在该方法中的文本特征选取、特征词典构造以及基于TF的权值计算等相关技术，以及改进的文本相似度计算概率模型.实验表明该方法在邮件过滤的查全率、查准率等几个性能评价指标上，比传统的Rocchio方法有了明显改善.

基于兴趣相似性的Web用户聚类

张文东,易轶虎

2006, 41(3): 54-57 . doi:

摘要 ( 1782 )

相关文章 | 多维度评价

按照访问兴趣对用户进行聚类分析是Web挖掘的一项重要内容. 在用户访问兴趣度量中综合考虑网页内容和浏览路径因素；在聚类分析中，依据访问兴趣定义提出新的相似度计算方法. 利用传递闭包法对用户进行聚类. 算法可以提高用户聚类的准确性，试验结果验证此算法是有效的.

基于谱图的维度约简及其应用

万海平,何华灿

2006, 41(3): 58-60 . doi:

摘要 ( 1912 )

相关文章 | 多维度评价

为了提取主要特征和方便处理，大多数机器学习任务都要求把高维数据投影到低维空间.在这些拓扑空间中，数据对象的相似性一般由欧式距离来度量.讨论了对某些应用而言，相似性也可以以路径为指标来衡量，并且讨论了特征选取中局部和全局的关系.基于图谱理论，提出了一种结合路径特征和距离特征的维数约简方法，旨在发掘和保持原有数据中有意义的局部近邻关系.在信息检索和人脸识别的试验中，它取得了较好的效果.

一种基于关联规则的搜索引擎结果聚类算法

宋春芳,石冰

2006, 41(3): 61-65 . doi:

摘要 ( 2234 )

相关文章 | 多维度评价

提出一种搜索引擎结果的聚类方法，采用关联规则方法确定网页文档中的显著短语，并把这些显著短语作为对相应聚类的描述，聚类中包含的文档就是显著短语所关联的文档，然后对形成的聚类按照相关度分数进行排队，最终把结果展现给用户.

基于加权策略的SVM多元分类器

曹鸿,董守斌,张凌

2006, 41(3): 66-69 . doi:

摘要 ( 1954 )

相关文章 | 多维度评价

多元分类器通常需要在训练时间和分类精度之间折衷.提出了加权阈值策略和一对多分类方法的改进算法 OVAWWT，以增加结果融合的公平性，从而提高分类精度.基于OVAWWT策略和SVMlight二元分类器，实现了基于SVMlight的多元分类器MSVMlight.在CWT100G数据集进行的实验表明，该分类器具有较高的分类精度以及较短的训练和分类时间.相同的数据集上的阈值策略选择实验也说明了加权阈值策略能提高分类精度.

基于粗糙集理论和BP神经网络的文本自动分类方法研究

白如江,王效岳

2006, 41(3): 70-75 . doi:

摘要 ( 2008 )

相关文章 | 多维度评价

结合粗糙集的属性约简和神经网络的分类机理，提出了一种混合算法. 首先应用粗糙集理论的属性约简作为预处理器，把冗余的属性从决策表中删去，然后运用神经网络进行分类. 这样可以大大降低向量维数，克服粗糙集对于决策表噪声比较敏感的缺点. 试验结果表明，与朴素贝叶斯、SVM、kNN传统分类方法相比，该方法在保持分类精度的基础上，分类速度有明显的提高，体现出较好的稳定性和容错性，尤其适用于特征向量多且难以分类的文本.

基于URL类型优先级的入口页面查询算法

胡俊刚,董守斌,陈晓志,张元丰

2006, 41(3): 76-80 . doi:

摘要 ( 1923 )

相关文章 | 多维度评价

入口页面(主页)查询结果只有一个，并且用户的查询词常常是简短的页面名称，由于它要求更高的精准度，一般认为是较为困难的. 依据语言模型分析，挖掘出对中文入口页面(entry page)检索有意义的查询域作为基准检索的内容域，同时考虑到非内容网页优先级(URLtype等)特征的重要性，建立综合内容域和非内容网页特征的检索模型. 通过URL类型优先级(URLtype prior)的概率统计，发现入口页面和其相关的子页面之间存在比较大的联系. 据此提出基于相关子页面的入口页面提取算法PERS(page extracted from relevant subpage). 对比实验数据表明，PERS算法对检索的性能有较大提高.

对数字化科技论文的自动分类研究

李森,马军,赵嫣,雷景生,

2006, 41(3): 81-84 . doi:

摘要 ( 1783 )

相关文章 | 多维度评价

针对科技论文具有半结构化的特点，提出利用科技论文的元数据的多层次分类模型. 这里元数据包含论文的标题、关键词集合和摘要等信息. 实验证明，若只利用元数据，可以取得与传统的基于全文信息分类方法近似的分类精度；若基于领域知识所产生的分类法, 先利用元数据进行粗分类，然后再进行全文分类，所得到的分类精度要高于已知最好算法. 因元数据的尺寸远远小于论文全文的尺寸，而粗分类后每类的论文数要远远小于全体论文数，故在分类类别数目较多且分类文本分布较为平均的情况下，可极大地缩短分类的时间.

用于邮件过滤的标准样本生成系统研究

徐选,丁伟

2006, 41(3): 85-89 . doi:

摘要 ( 1571 )

相关文章 | 多维度评价

由于缺乏标准的中文邮件样本集，无法评测不同垃圾邮件过滤系统的性能.通过分析邮件样本收集过程中存在的各种问题，研究了生成标准样本涉及的问题，设计了一个基于真实环境的标准邮件样本生成系统结构，并希望以此推出一个用于衡量邮件过滤系统性能的标准的邮件样本集，最终作为邮件过滤技术研究的基本语料.

基于本体语义的定题爬虫

郑健珍,林坤辉,周昌乐,康恺

2006, 41(3): 90-94 . doi:

摘要 ( 1710 )

相关文章 | 多维度评价

定题爬虫能迅速获取网络上特定主题的大量信息，对专业搜索引擎及数据挖掘应用都具有重大价值.针对目前通用的基于关键词主题过滤策略的不足，在概念聚集思想启发下，提出了基于本体语义的主题过滤策略.同时根据网页具有不同位置不同信息重要性的特点，提出了改进的加权特征项权值计算公式，实现基于语义的网页实时过滤.为进一步提高爬虫的工作效率提出链接相关度预测算法.对比实验表明此策略具有可行性.

基于序列数据挖掘的中文网页特征选择方法

谷峰,刘晨曦,吴扬扬

2006, 41(3): 95-99 . doi:

摘要 ( 1906 )

相关文章 | 多维度评价

提出了一种基于序列数据挖掘的中文网页候选特征的选择方法，并用于中文网页分类模型. 该方法运用改进的PAT树结构挖掘频繁出现在同一类中文网页中的字符串，通过净频率计算，挖掘出中文网页中频繁出现的有意义的词、短语、英文单词等，并结合CHI算法得到文本特征. 实验表明，该算法不仅能挖掘出传统方法所选择出的绝大部分特征，还能挖掘出一些有意义的、切词系统词库中没有的、能反映分类特点的人名，地名，新词、常用语、外文单词等.

基于问题模式匹配的智能答疑系统原型

冼健,莫玄朗,奚建清

2006, 41(3): 100-103 . doi:

摘要 ( 1891 )

相关文章 | 多维度评价

智能答疑系统是将学生的问题和老师的解答有机地组织起来并存放至相应的答题库中，通过自然语言的语义理解技术来分析并自动的匹配学生所提出的问题，自动地给予问题解答的系统. 智能答疑系统能够给予提问者即时的回应，减轻教学人员的工作压力，在远程教学中具有重要意义.红棉智能答疑系统（原型系统）针对国内现有的智能答疑系统普遍存在的问题，借鉴了国外先进智能答疑系统的成功经验与设计理念，根据中文智能答疑的特殊需求，引入了基于概率的双向最大匹配分词算法、智能问题模式匹配、基于语义依存树的语义分析等技术进行智能问题分析，形成了具有更高答案召回率、合理性与正确性的新一代智能答疑系统.

最小方方法的一种优化方法

马嘉赛,张永军

2006, 41(3): 104-107 . doi:

摘要 ( 2044 )

相关文章 | 多维度评价

数据立方体在许多多维数据的数据仓库的高速OLAP操作中扮演着重要的角色. 但在许多高维的数据仓库的应用中，查询分析效率是个关键的问题.例如超过100维，大约106个元组.在这样高维情况下建立全物化数据立方体来减少分析时间是不可行的.利用最小方的方法可以在高维数据集上进行有效OLAP操作的方法.如果能根据查询分析的历史记录合理地为立方体的维分片,就能在相同空间复杂度的情况下提高OLAP操作的效率.

利用分块重要度进行中文网页分类的研究

段昕,马军,宋玲

2006, 41(3): 108-111 . doi:

摘要 ( 1988 )

相关文章 | 多维度评价

由于网页中存在着许多“噪声”信息，所以相对于传统的纯文本分类来说，中文主题网页分类是一项更为困难的工作. 但网页可以划分成不同的块，对分类而言每个块的重要度是不同的，可以利用分块的重要度提高网页分类的质量.介绍了几种流行的网页分块技术，并通过实验验证了基于分块重要度的主题网页分类法的分类质量优于传统的主题网页分类法.

基于SVM的句子组块识别

林煜明,李优

2006, 41(3): 112-115 . doi:

摘要 ( 2097 )

相关文章 | 多维度评价

阐述了基于统计的SVM（支持向量机）模型的汉语句子组块识别. SVM模型使用已进行组块标注的语料，通过多种特征参数选择和多分类划分，对数据进行统计学习得到训练模型后实现. 给出模型的算法和识别结果，分析了统计模型的特点.

基于互信息的粗糙集信息检索模型

付雪峰,刘邱云,王明文

2006, 41(3): 116-119 . doi:

摘要 ( 1912 )

相关文章 | 多维度评价

在信息检索过程中，由于文档中存在大量的多义和近义现象，导致不确定性出现，这将影响检索的性能.为此采用基于互信息的粗糙集理论来处理这类不确定性问题.首先计算训练文档集中的词之间的互信息，对互信息做模糊聚类来构造词之间的等价关系，然后借助于该等价关系提出并实现了一个以粗糙集上下近似为基础的信息检索模型，通过实验的测试，该模型能够提高信息检索的效率.

基于用户兴趣的个性化信息检索方法

张瑜,袁方

2006, 41(3): 120-125 . doi:

摘要 ( 2133 )

相关文章 | 多维度评价

目前检索工具的设计大多面向所有用户，而不考虑用户个人的兴趣，导致查准率较低. 由此提出一种基于用户兴趣的个性化检索方法. 该方法利用ODP，把用户的兴趣映射到一个树形结构上，当用户提出查询时，根据用户的兴趣为其提供相应的检索结果. 考虑到人类大脑周期性衰减的生理特点，使用户特征文件随时间动态更新. 实验结果表明，所提出的方法能够基于用户兴趣实现信息的个性化推荐，从而更好地满足用户的需求.

基于Markov网络的检索模型

曹瑛,王明文,陶红亮

2006, 41(3): 126-130 . doi:

摘要 ( 2119 )

相关文章 | 多维度评价

基于Markov网络的信息检索模型提出一种贝叶斯网络推广的检索模型，该模型利用词项在文档集中的共现信息来构造Markov网络，通过该索引项子Markov网络来加载附加查询证据源，计算文档与查询之间的相关性概率，由此概率进行文档排序. 实验结果表明,本文提出的Markov网络模型比其他传统的检索方法具有更优的检索性能.

基于结构与内容的网页主题信息提取研究

吴鹏飞,孟祥增,刘俊晓,马凤娟

2006, 41(3): 131-134 . doi:

摘要 ( 2221 )

相关文章 | 多维度评价

结合HTML网页内部特征与外部的结构布局，提出采用映射表这种网页映射模式对网页视图进行变换，基于结构与启发式规则对网页进行区域分割与识别，并利用向量空间模型对网页内容分析，从而准确得到具有高语义内聚性的网页主题内容.实验结果表明，此方法对各种复杂结构的网页主题信息提取较为理想.

基于分解的向量空间模型的Web新闻信息检索

王卫东,宋丹,宋人杰

2006, 41(3): 135-138 . doi:

摘要 ( 1922 )

相关文章 | 多维度评价

在分析了传统向量空间检索模型的不足的基础上，给出了一种利用分解的向量空间模型进行Web新闻信息检索的方法.该方法没有使用传统向量空间模型中的单个向量，而是按照语义将特征词划分为4个组（人物，时间，地点，内容）并形成4个向量空间，每个空间进行独立的权重计算和相似度计算.而且将报道中的时间信息标准化，利用地理知识将报道中的地点特征词扩充，并利用这些信息进行检索.实验证明这些方法是有效的.

基于随机森林的文本分类模型研究

张华伟,王明文,甘丽新

2006, 41(3): 139-143 . doi:

摘要 ( 2857 )

相关文章 | 多维度评价

随着WWW的迅猛发展，文本分类成为处理和组织大量文档数据的关键技术.随机森林模型是决策树的集成，并且由一随机向量决定决策树的构造. 当森林中决策树的数目增大，随机森林的泛化误差将趋向一个上界.将随机森林模型应用于文本分类,在Reuter21578数据集上的实验表明，分类效果比较好，性能比较稳定，将其同C4.5, KNN, SM0, SVM 4种典型的文本分类器进行了比较，结果显示它的分类性能胜于C4.5，同KNN, SMO和SVM方法相当.

文本分类中的类别信息特征选择方法

余俊英,王明文,盛俊

2006, 41(3): 144-148 . doi:

摘要 ( 2179 )

相关文章 | 多维度评价

随着网上电子文档的急剧增长，文本分类技术在信息检索中的应用变得日益重要.特征维数增加会使样本统计特性的评估变得更加困难，从而降低分类器的泛化能力，出现“过学习”的现象.因此，文档特征的选择和提取是文本分类的必要前提.提出一种基于类别信息的特征选择方法，该方法在尽量保留文档信息的同时，考虑了文档的类别信息.实验表明，这种方法的分类性能比较好，特别是在微平均指标上，与OCFS以及卡方统计量相比有较大幅度的提高.

当期目录