山西省自然科学基金(2010011021-1) 作品数:20 被引量:62 H指数:4 相关作者: 李德玉 王素格 康向平 吕云云 程利涛 更多>> 相关机构: 山西大学 中国土地勘测规划院 中国科学院 更多>> 发文基金: 山西省自然科学基金 国家自然科学基金 山西省科技攻关计划项目 更多>> 相关领域: 自动化与计算机技术 自然科学总论 理学 交通运输工程 更多>>
文本褒贬倾向判别研究 2011年 在文本的向量空间表示模型下,针对文本褒贬倾向判别问题,提出了一种基于潜在语义分析的特征权重计算方法。除词频信息外,该方法考虑了潜在语义分析所提供的同义词、近义词信息对特征权重的影响。采用基于Fisher判别准则的特征选择方法,以支持向量机作为分类器,在2739篇语料(2008年中文倾向性分析评测)上进行了实验。实验结果表明,提出的特征权重计算方法对文本褒贬倾向判别是有效的。 李银花 王素格关键词:概率潜在语义分析 FISHER判别准则 支持向量机 基于粗糙集的交通道路与城镇用地扩展关系分析 被引量:8 2010年 交通道路是城镇用地扩展的重要驱动力因素之一,对城镇用地的扩展具有积极的作用。城镇用地的扩展也不断地对交通道路的发展提出新的需求。目前,众多的数理方法和空间模型已用以研究交通道路与城镇用地扩展之间的相互作用。为了更加有效地分析交通道路与城镇用地扩展的作用关系,以更加有效地研究交通道路与城镇用地扩展的相互作用程度和模式,需进一步探索新的技术方法和手段。本文利用粗糙集理论,以广东省城镇化问题为例,从一个新的角度来研究交通道路与城镇用地扩展之间的关系。结果表明,使用粗糙集抽取的反映交通道路和城镇用地扩展的决策规则可以有效地反映交通道路与城镇用地扩展的关系,对于城镇化的研究具有一定的指导作用。 曹峰 宋海荣 葛咏 李德玉关键词:交通道路 粗糙集 基于多划分的不完备信息系统的完备化模型 被引量:1 2011年 针对信息系统中的数据缺失问题,提出了基于模糊关系的多划分技术,建立了一个基于多划分的不完备信息系统的完备化模型。在该模型中,将不完备信息系统分解,引入模糊聚类分析方法构建了一个信息完备化平台,该平台融合了不同用户的需求,而非片面的依据某一个用户的喜好,使信息完备化结果更加合理。在信息完备化过程中,该模型考虑了属性重要性之间的差异,并赋予了相应的权值。该模型利用一些隐含在不完备信息系统中的有用知识为缺失信息的获取提供有效支持,是对传统模型"最高频率的属性值"的一个扩展。实例验证了该模型的有效性,该模型可以为不完备信息系统的完备化提供了可行的解决途径。 康向平 李德玉 李瑞萍关键词:信息系统 不完备信息系统 不完备形式背景中的知识获取方法 被引量:1 2010年 重点讨论了不完备形式背景中的相容概念以及基于相容概念的相容规则获取方法,同时给出了相应的构造算法。为了压缩规模庞大的相容规则集合,提出了一条推理规则来减少生成冗余相容规则的数目,最终得到一个完备的无冗余的相容规则集合。通过参数的设定可以满足不同用户的实际需求,实例证明该方法是有效的。该方法不仅为不完备形式背景的处理提供了一条新的途径,同时也为更深入的研究奠定了基础。 康向平 李德玉 曲开社基于依存关系的旅游景点评论的特征-观点对抽取 被引量:17 2012年 特征—观点对的抽取是观点挖掘中非常重要的研究课题之一。该文首先利用依存语法对句子进行了依存分析,在此基础上研究了旅游评论文本中特征-观点对的抽取。利用词对间的依存关系,构建了获取含有特征和观点词语的组块规则,并设计了候选特征的识别算法和特征—观点对的抽取算法。该文对山西旅游景点评论语料进行了实验,结果表明,特征—观点对的抽取整体的F1值达到了87.10%,验证了方法的有效性。 王素格 吴苏红关键词:组块 基于BootStrapping的集成分类器的中文观点句识别方法 被引量:8 2013年 领域相关的大规模和高质量的标注训练数据是分类器性能的重要保证,而标注训练语料是一件费时费力的工作。该文提出了一种采用小规模标注语料识别中文观点句的方法。首先采用Bootstrapping方法扩展训练语料,分别训练贝叶斯、支持向量机和最大熵分类器。最后,通过给三个训练好的分类器赋权获得一个集成分类器。实验结果表明,集成后的分类器性能优于单分类器,并且该方法在使用部分标注训练数据的情况下也能取得与采用全部标注训练数据相近的实验结果。 吕云云 李旸 王素格关键词:BOOTSTRAPPING 集成分类器 基于概率潜在语义分析的词汇情感倾向判别 本文利用概率潜在语义分析,给出了两种用于判别词汇的情感倾向的方法。一种是使用概率潜在语义分析获得每个目标词和基准词之间的相似度矩阵,再利用投票法决定每个目标词的情感倾向;二是利用概率潜在语义分析对目标词进行语义聚类和扩展... 宋晓雷 王素格 李红霞关键词:概率潜在语义分析 数据稀疏 语义聚类 情感倾向 文献传递 非平衡文本情感分类的数据集设计与评价指标 2013年 随着非平衡分类问题研究的深入,训练数据与测试数据如何划分成为一个值得思考的问题。针对非平衡文本情感分类数据集设计问题,通过下采样方法,对测试数据集设计了平衡与非平衡两种方案,给出了在不同任务需求下,选择相应的实验方案,并对验证分类器分类性能的评价指标进行了讨论。通过在真实的网络评论数据上的实验,验证了这些方案的合理性和适用性。 赵立东 李德玉 王素格关键词:非平衡数据 情感分类 保持局部邻域关系的增量Hessian LLE算法 被引量:2 2012年 Hessian LLE算法是一种经典的流形学习算法,但该方法是以批处理的方式进行的,当新的数据点加入时,必须重新运行整个算法,计算所有数据点低维嵌入,原来的运算结果被全部丢弃。鉴于此,提出了一种保持局部邻域关系的增量Hessian LLE(LIHLLE)算法,该方法通过保证流形新增样本点在原空间和嵌入空间局部邻域的线性关系不变,用其已有邻域点的低维坐标线性表示新增样本点,来得到新增点的低维嵌入,实现增量学习。在Swiss roll withhole和frey_rawface数据集上的实验表明,该方法简便、有效可行。 高翠珍 胡建龙 李德玉关键词:流形学习 HESSIAN LLE 基于LDA特征选择的文本聚类 被引量:3 2012年 特征选择在文本聚类中起着至关重要的作用,将产生式模型Latent Dirichlet Allocation(LDA)引入基于K-means算法的文本聚类中,通过提取特征与隐含主题的关系进行特征选择。在第2届中文倾向性分析评测的语料上的实验结果表明,当选择2%的特征时,相对于单词贡献度(TC,Term Contribution)方法的纯度和F值分别提高了0.15和0.16,相对于LDA直接得到文本与主题的关系的实验结果的纯度和F值分别提高了0.14和0.13。 张梦笑 王素格 王智强关键词:文本聚类 LATENT DIRICHLET ALLOCATION