您的位置: 专家智库 > >

“核心电子器件、高端通用芯片及基础软件产品”国家科技重大专项(2011ZX01042-001-001)

作品数:7 被引量:99H指数:5
相关作者:刘挺车万翔张梅山李生邓知龙更多>>
相关机构:哈尔滨工业大学北京大学百度股份有限公司更多>>
发文基金:国家科技重大专项国家自然科学基金国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术文化科学更多>>

文献类型

  • 7篇中文期刊文章

领域

  • 6篇自动化与计算...
  • 1篇文化科学

主题

  • 2篇日志
  • 1篇倒排索引
  • 1篇引擎
  • 1篇用户
  • 1篇用户行为
  • 1篇用户行为分析
  • 1篇日志挖掘
  • 1篇社会网络分析
  • 1篇视觉信息
  • 1篇数字图
  • 1篇数字图书馆
  • 1篇搜索
  • 1篇搜索引擎
  • 1篇索引
  • 1篇统计学习
  • 1篇图书
  • 1篇图书馆
  • 1篇图书借阅
  • 1篇中文
  • 1篇中文分词

机构

  • 4篇哈尔滨工业大...
  • 3篇北京大学
  • 1篇百度股份有限...

作者

  • 4篇刘挺
  • 2篇张梅山
  • 2篇李生
  • 2篇车万翔
  • 1篇肖珑
  • 1篇张铭
  • 1篇刘展
  • 1篇邓知龙
  • 1篇单栋栋
  • 1篇孙韬
  • 1篇豆浩斌
  • 1篇李晓明
  • 1篇张宇
  • 1篇燕飞
  • 1篇宋巍
  • 1篇王海峰
  • 1篇刘占一
  • 1篇罗定生

传媒

  • 2篇中文信息学报
  • 1篇计算机研究与...
  • 1篇模式识别与人...
  • 1篇华南理工大学...
  • 1篇情报学报
  • 1篇软件学报

年份

  • 1篇2013
  • 4篇2012
  • 2篇2011
7 条 记 录,以下是 1-7
排序方式:
基于文档重要度的静态索引剪枝方法被引量:1
2011年
针对网页质量参差不齐、重要程度差别巨大的问题,提出了按照网页重要程度确定其剪枝幅度的静态索引剪枝方法,并在GOV2数据集上进行了验证.实验结果表明:这种方法体现了静态索引剪枝能极大降低存储需求、提高查询效率的优点;当剪枝后的索引大小是原始大小的13%时,P@10、P@20值能达到甚至超过使用完整索引时的结果;在相同的剪枝幅度下,P@10、P@20和MAP都明显好于以往的剪枝方法.
李晓明单栋栋
关键词:搜索引擎倒排索引
统计与词典相结合的领域自适应中文分词被引量:44
2012年
基于统计的中文分词方法由于训练语料领域的限制,导致其领域自适应性能力较差。相比分词训练语料,领域词典的获取要容易许多,而且能为分词提供丰富的领域信息。该文通过将词典信息以特征的方式融入到统计分词模型(该文使用CRF统计模型)中来实现领域自适应性。实验表明,这种方法显著提高了统计中文分词的领域自适应能力。当测试领域和训练领域相同时,分词的F-measure值提升了2%;当测试领域和训练领域不同时,分词的F-measure值提升了6%。
张梅山邓知龙车万翔刘挺
关键词:中文分词CRF领域自适应
基于主动学习的中文依存句法分析被引量:10
2012年
目前依存句法分析仍主要采用有指导的机器学习方法,即需要大规模高质量的树库作为训练语料,而现阶段中文依存树库资源相对较少,树库标注又是一件费时费力的工作。面对大量未标注语料,该文将主动学习应用到中文依存句法分析,优先选择句法模型预测不准的实例交由人工标注。该文提出并比较了多种衡量依存句法模型预测可信度的准则。实验表明,一方面,与随机选择标注实例相比,当使用相同数目训练实例时,主动学习使中文依存分析性能最高提升0.8%;另一方面,主动学习使依存分析达到相同准确率时只需标注更少量实例,人工标注量最多可减少30%。
车万翔张梅山刘挺
基于网络特征的用户图书借阅行为分析——以北京大学图书馆为例被引量:17
2011年
图书借阅是图书馆提供的重要服务之一。研究用户的图书借阅行为模式,有助于图书馆提供面向用户的个性化服务,从而提升服务质最。以北京大学图书馆为例,几乎所有的学生都有图书借阅记录。这种图书借阅行为形成了一个用户到图书的"图书借阅网络"。另一方面,相同的图书可以被不同的用户所借阅,图书作为知识的载体,通过这种共同借阅关系将不同背景的用户联系在一起,形成了一种用户到用户的知识分享社会网络,称作"共同借阅网络"。基于这两种网络,本文对用户的借阅行为模式进行了深入的分析,发现了影响用户借阅行为的因素,并从用户借阅行为中挖掘出了新的知识,构造了个性化图书借阅推荐系统。本文的研究成果有利于推进图书馆服务向Library 2.0时代迈进。
燕飞张铭孙韬肖珑
关键词:用户行为分析社会网络分析数字图书馆日志挖掘
基于URL主题的查询分类方法被引量:15
2012年
互联网上很多资源蕴含人类群体智慧.分类网站目录人工地对网站按照主题进行组织.基于网站目录中具有主题标注的URL设计URL主题分类器,结合伪相关反馈技术以及搜索引擎查询日志,提出了自动、快速、有效的查询主题分类方法.具体地,方法为2种策略的结合.策略1通过计算搜索结果中URL的主题分布预测查询主题,策略2基于查询日志点击关系,利用具有主题标注的URL,对查询进行标注获取数据并训练统计分类器预测查询主题.实验表明,方法可获得比当前最好算法更好的准确率,更好的在线处理效率并且可基于查询日志自动获取训练数据,具有良好的可扩展性.
张宇宋巍刘挺李生
关键词:查询分类查询日志统计学习
利用统计搭配模型改进基于实例的机器翻译被引量:11
2012年
基于实例的机器翻译(example-based machine translation,简称EBMT)使用预处理过的双语例句作为主要翻译资源,通过编辑与待翻译句子匹配的翻译实例来生成译文.在EBMT系统中,翻译实例选择及译文选择对系统性能影响较大.提出利用统计搭配模型来增强EBMT系统中翻译实例选择及译文选择的能力,提高译文质量.首先,使用单语统计词对齐从单语语料中训练统计搭配模型.然后,利用该模型从3个方面提高EBMT的性能:(1)利用统计搭配模型估计待翻译句子与翻译实例之间的匹配度,从而增强系统的翻译实例选择能力;(2)通过引入候选译文与上下文之间搭配强度的估计来提高译文选择能力;(3)使用统计搭配模型检测翻译实例中被替换词的搭配词,同时根据新的替换词及上下文对搭配词进行矫正,进一步提高EBMT系统的译文质量.为了验证所提出的方法,在基于词的EBMT系统上评价了英汉翻译的译文质量.与基线系统相比,所提出的方法使译文的BLEU得分提高了4.73~6.48个百分点.在半结构化的EBMT系统上进一步检验了基于统计搭配模型的译文选择方法,从实验结果来看,该方法使译文的BLEU得分提高了1.82个百分点.同时,人工评价结果显示,改进后的半结构化EBMT系统的译文能够表达原文的大部分信息,并且具有较高的流利度.
刘占一李生刘挺王海峰
融合测程法与视觉信息的足球机器人自定位方法被引量:1
2013年
针对足球机器人自定位问题,提出一种融合测程法与视觉信息的定位方法.方法综合考虑两种信息的特点,有效实现优势互补:一方面,针对视觉定位易出现的歧义,利用测程法获得的定位结果予以有效消解;另一方面,随着运动,测程法定位易出现误差的累积,利用消歧后的视觉定位结果加以动态修正.最后,在Webots模拟平台上进行的机器人球场定位实验表明文中方法的有效性.
刘展豆浩斌罗定生
关键词:视觉信息
共1页<1>
聚类工具0