专利名称:一种网页信息抽取方法及其系统专利类型:发明专利发明人:王传刚,,张立明申请号:CN201110047743.0申请日:20110228公开号:CN102651002A公开日:20120829
摘要:本发明公开了一种网页信息抽取方法及其系统,该方法包括:将待抽取网页解析为文档对象模型DOM树,获取与待抽取网页对应的模板;根据所述模板定义的网页划分粒度遍历所述DOM树,将对应网页划分为内容块;根据所述模板定义的输出规则,将所述内容块的内容和类型信息进行输出。采用本发明可提高网页信息抽取精度。
申请人:腾讯科技(深圳)有限公司
地址:518057 广东省深圳市福田区振兴路赛格科技园2栋东403室
国籍:CN
代理机构:北京鑫媛睿博知识产权代理有限公司
代理人:龚家骅
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- banwoyixia.com 版权所有 湘ICP备2023022004号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务