国家自然科学基金(41271385)
- 作品数:7 被引量:60H指数:3
- 相关作者:高勇邬伦刘磊李浩然张瑞洁更多>>
- 相关机构:北京大学空间信息集成与3S工程应用北京市重点实验室更多>>
- 发文基金:国家自然科学基金测绘遥感信息工程国家重点实验室开放研究基金更多>>
- 相关领域:天文地球自动化与计算机技术更多>>
- 基于链接分析的网页文本核心地名提取方法被引量:3
- 2016年
- 本文围绕互联网中网页文本蕴含的丰富地理空间信息,抽取网页文本中蕴含的地名实体,提出了一种地名共现网络模型,该模型综合考虑网页中地名的频次信息,表达网页文本中地名的共现及联系传递特征。在此基础上,提出一种基于链接分析的网页文本核心地名的提取方法,通过PageRank算法计算每个地名在共现网络中的链接权重,对网页文本构建的共现地名网络进行核心地名的提取,从而在庞大的网络资源中发现具有显著的焦点特征或导航枢纽特征的重要地名。最后,采用人民日报与新浪新闻体育版2份语料进行实验验证,证明了该方法的有效性。
- 钟翔高勇邬伦
- 关键词:地名链接分析复杂网络
- 基于Storm的地理编码引擎被引量:5
- 2015年
- 近年来,随着Web 2.0和具有位置感知能力的移动计算设备的普及应用,带来了大量含有时空语义的地理大数据。在这个背景下,以地图厂商人工方式和半自动方式更新地名地址库为基础的传统地理编码服务,已难以满足新的应用需求。本文提出一种地理大数据驱动的自适应地理编码引擎的构建思路和方法,通过引入实时计算和流式计算平台Storm,实现对网络中的多源地理大数据的爬取与实时处理,加速地名地址库及相关资源的生成与更新过程,并给出了相适应的地理编码匹配方法。在实时流式计算框架基础上,通过JTS Topology Suite实现流式并行的空间操作,设计并实现了基于Storm的地理编码引擎原型系统,满足多源地理大数据的高效处理和地理编码要求。实验结果表明,该引擎通过实时流式处理可加速地址库的扩充与更新过程,并且利用地址库持续更新的方法,提升了地理编码的匹配率和定位准确度。
- 余靖毅邬伦高勇
- 关键词:地理编码STORM
- 一种地理信息检索的定性模型被引量:3
- 2016年
- 提出一种定性地理信息检索方法,用于地理信息的定性表达、语义匹配、推理和结果排序,可以避免目前定量地理信息检索中语义信息丢失问题。采用命题逻辑方法综合表达查询和文档中的主题信息和地理语义信息,将文档与查询的相关性度量分为主题相似度和地理相似度。前者通过命题关键词间加权本体距离获得。后者可进一步分为概念相似度和位置相似度,分别基于地理本体和空间语义度量。由于信息的表达形式为命题和信息单元,采用证据理论和模糊逻辑对上述子相关性度量进行统一建模。所提方法可以基于语义检索网页中的定性地理信息,并对相关文档进行排序。这种检索和排序方法符合人类空间认知,因此可以有效提高地理信息检索的效率。
- 高勇姜丹刘磊林星邬伦
- 关键词:定性空间推理
- 地理信息检索中空间相似性度量的一种模糊方法被引量:2
- 2015年
- 一般使用地理信息检索技术提取互联网中以文本方式存在的地理信息,检索返回结果的排序需充分考虑其空间范围的相似性。但传统的空间相似性计算方式忽视了以文本形式存在的地理信息所隐藏的模糊性,从而导致片面性和局限性。该文对文本中以空间陈述形式存在的地理信息进行深入分析,将模糊性因素主要归纳为参照对象和空间关系。通过引入不确定场模型来描述每个因素对模糊性的贡献程度,整合得到空间陈述的模糊footprint表达,建立文档与查询的模糊footprint表达模型。在此基础上,提出了空间相似性模糊度量的计算方法,根据空间相似度对返回的检索结果进行排序。实验结果显示,该方法能够更好地反映空间检索的模糊性,更好地衡量空间检索和网页文档在空间位置上的相似程度,从而在检索结果的排序上优于传统方法。
- 刘家骏李浩然钟翔高勇
- 即时通信文本中地理信息提取——以微信为例被引量:2
- 2016年
- 提出一套面向即时通信文本中地理信息提取的技术方案,综合使用文本分词、空间分析匹配与图文一体服务等技术,实现即时文本中地理信息的分析获取和同步地图服务,可以在即时通信交流中提供同步的空间信息分析和主动的网络地图服务。以微信为例,对上述技术方案进行实例验证。验证结果表明,所提的技术方案正确、合理、可行。研究成果拓宽了Web GIS/LBS的应用领域,增强了即时通信软件的服务能力,可为相关研究和实践提供有力支持。
- 张瑞洁田原刘思叶王雯夫
- 关键词:即时通信软件
- 基于地理关联度和证据理论的地名消歧方法研究被引量:4
- 2017年
- 针对目前地名消歧方法普遍缺乏理论基础和统一形式化方法的现状,以地理学第一定律为理论基础,使用地理关联度形式化地理实体之间的邻近性。在此基础上,提出基于证据理论的地名消歧计算模型,用于表示与合成上下文中共现的地名证据。该模型模拟人类阅读和理解文本中时空语义的认知过程,并为地名消歧处理提供一个统一的易扩展的形式化框架。最后,给出本文地名消歧方法的实现算法及其实验评估。结果显示,算法综合性能指标F1达到89.60%,取得较好的实验效果。
- 王星光张瑞洁张毅
- 关键词:证据理论
- 基于条件随机场的中文地名识别方法被引量:45
- 2017年
- 在互联网迅速发展的现代化信息社会,大量地理信息都以非结构化的文本形式存在,而地名识别是挖掘这些地理信息的重要基础。目前已有的地名识别方法主要是从自然语言处理的角度来实现,并没有充分考虑到地名的构成和使用习惯等特征,造成识别率偏低或过拟合等问题。本文引入语言学相关知识,分析中文地名用字特征,在传统的地名专名+通名的结构上,更细致地划分地名的词素类型,总结归纳各词素类型的特征,将这些特征融入条件随机场的方法中,使地名识别问题转化为序列标注问题。并根据中文地名的特征,制定形式化规则,设计基于字的标注规范。在此基础上,设计中文地名特征模板,通过条件随机场模型训练和预测,识别自然语言文本中的中文地名。采用170万字的人民日报标注语料进行实验验证,结果表明本文方法对中文地名识别的召回率、准确率和F值分别达到92.69%、96.73%和94.67%,优于已有研究成果,能为地理信息科学领域的研究和应用提供更有效的地名服务。
- 邬伦刘磊李浩然高勇
- 关键词:地名识别条件随机场自然语言处理中文地名