王曙 作品数:7 被引量:86 H指数:5 供职机构: 南京师范大学 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 中央高校基本科研业务费专项资金 更多>> 相关领域: 天文地球 自动化与计算机技术 社会学 经济管理 更多>>
中文文本中时间信息解析方法 被引量:17 2014年 探讨了基于触发词汇和规则模型相结合的中文文本中时间信息解析方法。通过分析、归纳中文文本中时间信息描述特点,构建时间词汇词典和时间信息描述模式库,设计时间信息抽取、规范化表达和语义推理算法,实现了中文文本中时间信息的解析。实验结果表明,中文文本中时间信息抽取的准确率、召回率和F1值分别为75.00%、88.24%和40.54%,为泛在时空信息动态关联更新和实时挖掘分析提供数据源,且通过与空间维数据有机地、交互地组织,能够实时展现地理现象和事物的时空演化过程、时空分布特征,从而推动地理信息检索、LBS等地理信息服务向动态化、多维化方向发展。 张春菊 张雪英 李明 王曙关键词:中文文本 自然语言驱动的地理知识图谱构建方法研究 “如何科学地表达、组织、存储地理知识?”一直以来就是地理学者所关注的核心科学问题。知识是人类对物质世界以及精神世界探索的结果总和,寄托着人类对智慧的象征。地理知识具有宽泛的概念边界,概念陈述、演化机理、约束关系等等,都属... 王曙关键词:自然语言 地理实体 数据存储 文献传递 面向中文文本的地理信息资源挖掘与利用 究针对中文文本中地理信息描述的非结构化、定性化和不确定性等特点,通过系统分析地理信息的自然语言描述机制,围绕“规范化一结构化一时空化”的技术主线,重点突破了面向中文文本的地理信息资源挖掘与利用技术。 首先,通过归纳... 张雪英 王曙 张春菊关键词:地理信息 中文文本 数据挖掘 语言特征 语义结构 基于深度信念网络的地质实体识别方法 被引量:38 2018年 地质实体作为地质信息表达的核心要素,对其准确识别是地质文本数据挖掘和应用的重要基础。本文通过分析各种类型文本数据中地质实体信息的描述特点,构建了地质实体信息的标注规范和语料库,设计了基于深度信念网络(Deep Belief Networks)的地质实体识别模型,解决了文本数据中地质实体信息的结构化、规范化处理问题。以矿产资源地质调查报告为实验数据,对本文的地质实体识别方法性能进行了评估分析。结果表明,深度学习模型能够在较小规模语料库的基础上,达到较好的地质实体识别性能。 张雪英 叶鹏 叶鹏 杜咪关键词:大数据 文本 基于CHI特征选取的文本事件分类方法 本发明公开了一种基于CHI特征选取的文本事件分类方法,包括针对训练语料的分类模型训练过程和文本分类过程。该方法通过分析中文文本事件的语言描述特征,选取CHI值作为主题特征向量,针对选取的训练语料形成特征文件和训练模版,最... 张雪英 王曙 顾佳诚 廖健平 朱瑞军文献传递 面向网页文本的地理要素变化检测 被引量:15 2013年 地理要素变化检测已成为国家地理信息"十二五"规划和全国地理国情普查的重要组成部分。网页文本中蕴含海量的地理要素信息,尤其是新闻、政府、社交平台等网站的网页文本更新频繁,可为地理要素变化检测提供现势性的数据源。本文针对网页文本中地理要素变化的语言描述特点,构建了表达地理要素变化的语义知识库,设计了搜索引擎和通用主题相结合的网页爬虫,实现了相关网页文本的高效获取;采用规则模型和条件随机场模型,分别进行网页文本中地理要素变化信息抽取,包括地理要素名称、位置(地名)、时间和属性等。实验结果显示,本文设计的网页爬虫具有较高的相关网页文本获取能力,地理要素变化信息抽取的准确率能够达到70%以上,但是,语义知识库的完备程度对于信息抽取性能具有较大影响。研究成果表明,以网页文本为数据源的地理要素变化信息获取方法,能提供一种快速检测地理要素变化的新途径,与实地调绘和遥感影像检测等方法结合应用具有较好的优势互补性,可作为有力的辅助手段解决地理要素的持续更新和实时更新问题。 王曙 吉雷静 张雪英 赵仁亮 陈晓丹 余浩关键词:网页文本 信息抽取 文本解析 中文文本的事件时空信息标注 被引量:12 2016年 基于文本数据源的地理空间信息解析研究侧重于地名实体、空间关系等空间语义角色的标注和抽取,忽略了丰富的时间信息、主题事件信息及其时空一体化信息。该文通过分析中文文本中事件信息描述的语言特点和事件的时空语义特征,基于地名实体和空间关系标注研究成果,制定了中文文本的事件时空信息标注体系和标注模式,并以GATE(General Architecture for Text Engineering)为标注平台,以网页文本为数据源,构建了事件时空信息标注语料库。研究成果为中文文本中地理信息的语义解析提供标准化的训练和测试数据。 张春菊 张雪英 王曙 廖建平 陈晓丹关键词:中文文本 时空信息 标注语料库