杨思春
- 作品数:61 被引量:245H指数:9
- 供职机构:安徽工业大学计算机学院更多>>
- 发文基金:安徽省高校省级自然科学研究项目国家自然科学基金安徽省自然科学基金更多>>
- 相关领域:自动化与计算机技术语言文字理学文化科学更多>>
- 基于数据仓库的数据挖掘技术分析研究被引量:13
- 2003年
- 基于数据仓库的数据挖掘技术是一种对数据仓库中的数据进行深层次的加工和处理的过程,也是一种实现数据仓库决策价值的方法和工具。文中分析了数据仓库、数据挖掘等概念,并结合数据挖掘在实际决策支持系统中的应用,说明了数据挖掘的基本方法、主要过程以及发展方向。
- 杨思春
- 关键词:数据挖掘数据仓库体系结构数据源数据集成
- 中文自动问答中句子相似度计算研究被引量:10
- 2008年
- 句子相似度计算是自动问答系统的重要理论基础和关键实现技术。目前,用于中文自动问答系统的句子相似度计算方法很多,由于缺乏系统的分析,给研究人员带来了较大的不便。依据所利用的特征信息,可以将这些方法分为四类,即基于关键词信息、基于语义信息、基于句法结构信息以及基于多重信息。通过对各类方法实验结果的比较,指出各自的优势和不足。同时指出,基于多重信息的方法是当前的主流方法,实现不同特征信息的最佳权重分配是该类方法今后的研究重点。另外,还提出一个有关相似度概念认识上的看法,即对于中文自动问答系统,实质上依据的是句子的相关度,而不是句子的相似度。通过本文的研究,旨在为中文自动问答领域的句子相似度计算研究提供一定的参考。
- 杨思春陈家骏
- 关键词:自然语言处理句子相似度
- 基于改进VSM的中文问答系统研究被引量:3
- 2008年
- 针对向量空间模型中的权重计算公式仅考虑词语项在文档中的相关频数,提出词语项本身的领域权重概念,改进了向量空间模型的权重计算。同时结合关键词距离和关键词顺序信息,实现了句子相似度计算,以特定课程的FAQ库检索作S@n测试对比,结果表明改进后的相似度模型提高了S@n值。
- 苏小虎杨思春
- 关键词:向量空间模型中文问答系统
- 面向EBMT的汉语句子模式构造被引量:1
- 2003年
- 实例匹配是基于实例的机器翻译(Example_Based Machine Translation,简称EBMT)系统实现的关键,它直接关系到EBMT系统本身的翻译质量。在基于模式的实例匹配方法中,模式的构造是基础。依据“谓词(或特殊词)+常见搭配成分’的形式构造汉语中常见的句子模式,并应用于汉英EBMT中的相似实例匹配。该模式构造方法可以有效地提高当前汉英EBMT系统的实现效率与准确率。
- 杨思春陈家骏
- 关键词:机器翻译EBMT信息处理计算机
- 基于SVM的中文查询分类被引量:2
- 2011年
- 在问答系统中用户的查询是以自然语言问句的形式出现的,查询分类对生成合适的答案有着重要的指导性作用。现有文献大多基于SVM统计学习模型实现查询分类。文章详细分析了中文查询分类的典型特征及其编码过程,并给出了LibSVM分类器的参数优化及核函数选取方法。比较了词袋特征(bag-of-word)和词性与词袋绑定特征(bag-of-word/pos)在LibSVM(RBF)、LibSVM(Linear)和Liblinear三个分类器上的分类精度。实验结果表明,在问题训练集规模较大、特征维数较高的情况下,Liblinear分类器具有更好的性能。同时,得出一个结论:bagof-word/pos特征对英文查询分类有一定的贡献;对于中文查询分类,虽然理论上增加特征有利于提高SVM分类器的精度,但由于绑定词性特征后可能会引入噪声,进而降低查询分类的精度。
- 杨思春高超戴新宇陈家骏
- 关键词:问答系统查询分类SVM核函数
- 神经网络研究的背景及其意义被引量:1
- 1997年
- 首先分析传统计算机体系结构在解决非结构性问题时的缺陷和不足,然后由此引出人工神经网络研究的必要性和重要性.
- 王玉山杨思春朱志伯周柏海
- 关键词:人工神经网络
- 基于简单路径上的识别字实现DFA的最小化
- 2005年
- DFA最小化的关键在于给出状态集合中所有的等价类。根据状态等价的定义,若能求出每一状态在其所有识别路径上的识别字,则通过比较这些状态的识别字,就可获得状态集合中所有的等价类。现有文献中并未采用这一方法,原因是对于某些状态,可能存在一些较为复杂的识别路径,若按这些路径逐一求出对应的识别字,则有一定的难度。文中基于识别路径中的简单路径,给出一种基于简单路径上的识别字实现DFA最小化的算法。该算法可作为现有算法的一个有益补充。
- 杨思春
- 关键词:自动机DFA最小化等价类
- 基于向量空间模型的中文问答系统研究与实现被引量:2
- 2009年
- 基于传统向量空间模型的问答系统在向量维数较大时所需的时间开销较大。为了尽可能地减少所需时间,利用数据库SQL语句及视图来统计词在句子中出现的频率和词对句子的分辨能力。实验结果表明,随着向量维数的增大,该方法在时间开销上优于传统的处理方法。
- 郝祥根杨思春高远飙张伟
- 关键词:问答系统向量空间模型SQL相似度
- 基于加权潜在语义分析的答案抽取
- 2012年
- 问答系统应该能够用准确、简洁的语言回答用户用自然语言提出的问题,其关键和核心实现技术是答案抽取。结合关键词在用户问句和返回文档中的权重,通过潜在语义分析技术实现了中文问答系统中的答案抽取。实验结果表明,加权LSA的MRR值要明显优于未加权LSA和空间向量模型的MRR值,实际用于回答用户提出的问题具有较好的效果。
- 陈永平杨思春苏新毛万胜
- 关键词:问答系统答案抽取潜在语义分析空间向量模型
- 汉英EBMT中的模式构造与应用
- 2003年
- 在基于实例的机器翻译(Example-BasedMachineTranslation,简称EBMT)中,实例的相似性判断是关键,它直接关系到EBMT本身的翻译质量。本文根据汉英EBMT的具体要求,基于模式方法进行汉语句子相似性判断。
- 杨思春周云霞
- 关键词:模式构造机器翻译EBMT英语