陈苗
- 作品数:7 被引量:20H指数:2
- 供职机构:浙江工业大学更多>>
- 发文基金:浙江省重大科技专项基金浙江省“钱江人才计划”更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种大数据环境下非结构化表格文档数据抽取与组织方法
- 本发明涉及一种大数据环境下非结构化表格文档数据抽取与组织方法。首先,分析了非结构化表格文档的结构特征和数据流特征,定义了数据抽取规则;其次,给出了非结构化表格文档数据抽取流程与抽取算法;再次,给出了一种将抽取结果转换为结...
- 张元鸣肖刚陈苗陆佳炜徐俊高飞沈志鹏高亚琳
- 一种服务产业联盟的远程有限元分析方法
- 一种服务产业联盟的远程有限元分析方法,包括以下步骤:(1)有限元模板提取,对产业联盟内成员企业产品中需要有限元分析的零部件进行分类和分析,提取有限元模板,包括边界条件类型和分析过程参数;(2)几何模型构建,利用CAD系统...
- 肖刚张元鸣马成龙高飞陆佳炜卢金晨陈苗
- 非结构化表格文档数据抽取与组织模型研究被引量:12
- 2016年
- 针对现有文档数据抽取方法无法抽取多值属性且灵活性不高的问题,提出了一种面向非结构化表格文档的数据抽取方法与组织模型.在分析文档结构特征和数据流特征的基础上,定义了数据流生成基本规则,给出了一个基于规则的数据抽取流程,包括逻辑结构抽取、文档预处理、数据抽取和数据组织等主要步骤,设计实现了单值区域与多值区域数据抽取算法;从文档中抽取的数据被组织成适合于MapReduce分析的结构化数据模型,该模型能够为大数据分析提供模型支持.实验结果表明:该抽取方法具有较高的准确率与召回率,数据组织模型也能够有效地支持大数据分析.
- 张元鸣陈苗陆佳炜徐俊肖刚
- 关键词:数据抽取数据分析
- 基于MapReduce的Bagging决策树优化算法被引量:8
- 2017年
- 针对经典C4.5决策树算法存在过度拟合和伸缩性差的问题,提出了一种基于Bagging的决策树改进算法,并基于MapReduce模型对改进算法进行了并行化。首先,基于Bagging技术对C4.5算法进行了改进,通过有放回采样得到多个与初始训练集大小相等的新训练集,并在每个训练集上进行训练,得到多个分类器,再根据多数投票规则集成训练结果得到最终的分类器;然后,基于MapReduce模型对改进算法进行了并行化,能够并行化处理训练集、并行选择最佳分割属性和最佳分割点,以及并行生成子节点,实现了基于MapReduce Job工作流的并行决策树改进算法,提高了对大数据集的分析能力。实验结果表明,并行Bagging决策树改进算法具有较高的准确度与敏感度,以及较好的伸缩性和加速比。
- 张元鸣陈苗陆佳炜徐俊肖刚
- 关键词:决策树BAGGINGMAPREDUCE模型
- 一种大数据环境下非结构化表格文档数据抽取与组织方法
- 本发明专利涉及一种大数据环境下非结构化表格文档数据抽取与组织方法。首先,分析了非结构化表格文档的结构特征和数据流特征,定义了数据抽取规则;其次,给出了非结构化表格文档数据抽取流程与抽取算法;再次,给出了一种将抽取结果转换...
- 张元鸣肖刚陈苗陆佳炜徐俊高飞沈志鹏高亚琳
- 文献传递
- 基于MapReduce的文档大数据挖掘若干关键技术研究
- 文档作为一种重要的大数据类型,蕴含着丰富的有价值的数据,其具有非结构化、样式不固定、数据混杂、价值稀疏等特征。针对文档大数据的特点,提出了一种基于MapReduce的文档大数据挖掘方法,对文档大数据挖掘的平台框架、文档大...
- 陈苗
- 关键词:数据抽取
- 文献传递
- 一种服务产业联盟的远程有限元分析方法
- 一种服务产业联盟的远程有限元分析方法,包括以下步骤:(1)有限元模板提取,对产业联盟内成员企业产品中需要有限元分析的零部件进行分类和分析,提取有限元模板,包括边界条件类型和分析过程参数;(2)几何模型构建,利用CAD系统...
- 肖刚张元鸣马成龙高飞陆佳炜卢金晨陈苗
- 文献传递