摘
着互联网迅速发展Web信息量越越通搜索引擎互联网搜索想信息百度谷歌搜狗等类搜索引擎称通搜索引擎户提供户想信息着互联网信息量越越户搜索出信息想信息相径庭种问题需更加专业面特定领域搜索引擎解决
题网络爬虫垂直搜索引擎关键部分文题网络爬虫中关键技术进行研究研究容:
(1)题容抽取网页题识重步骤文结合网页容分布特征题容相关特征设计种网页题容抽取方法
(2)提出种基实体链接题识算法识网页题基知识库实体链接方法运特征抽取实验表明该方法提高题网页识准确率
(3)提出种基BestFirst算法题搜索策略题搜索策略指导题网络爬虫抓取网页关键文采基BestFirst算法题搜索策略
关键词:题网络爬虫实体链接BestFirst算法题搜索策略
第章 绪
11 背景意义
着Internet飞速发展互联网信息呈指数增长根中国互联网络信息中心(CNNIC)发布第40次中国互联网络发展状况统计报告[1]数显示截2017年6月中国网民规模达751亿占全球网民总数五分互联网普率543中国网站数量506万半年增长48
量网站中包含着计数网页网页信息载体般通百度谷歌等通搜索引擎互联网获取想信息然利通搜索引擎搜索出信息较宽泛垂直搜索引擎针特定行业通搜索引擎细分某领域网页信息进行整合处理某种形式返回户垂直搜索针引擎某领域特定户特定需求提供相关信息服务垂直搜索引擎专注某领域专业显更加专注具体深入
题网络爬虫称聚焦爬虫垂直搜索引擎重组成部分题网络爬虫研究具重意义题网络爬虫动互联网抓取网页程序根预设题访问互联网题相关链接获取网页信息通网络爬虫干种子链接开始先抓取种子链接网页然网页中抽取新链接放入抓取队列中直满足系统设定抓取结束条件者抓取队列空相题网络爬虫抓取流程较复杂抓取程中需预测链接题相似度然放入根题相似度排序抓取队列中
12 题网络爬虫国外研究现状
1999 年SChakrabani[2]第次提出聚焦爬虫概念设计实现 Focus Proiect 系统[3]该技术提出快获广泛关注接理实现系统两方面介绍题网络爬虫国外研究现状
121 题识算法题搜索策略
PDeBra[4]等提出利FishSearch 算法作爬虫搜索策略该算法假设题相关页面逻辑相接搜索题相关网页SharkSearch 爬虫[5]FishSearch算法基础进行改进FishSearch算法利二值模型评估题相关性SharkSearch算法根链接锚文网页题相关容计算出相关性值[01]值该算法提高题爬虫召回率 BestFirst爬虫[6] CHO J 等 1998 年提出思想构建抓取队列评价策略队列中链接进行评价挑选链接进行抓取
Larry Page Sergey Brin[7]提出 PageRank 算法运Google搜索引擎leinberg博士首先提出HITS算法
Diligenti[8]利语境图构造分类器作爬虫搜索策略题页面较页面会优先抓取认部分页面题相关度较高
陈军[13]提出种基网页分块 SharkSearch 算法该算法块基单位计算链接价值熊忠阳[14]等提出种基信息增益题爬虫搜索策略
122 题爬虫系统
根理研究国外专家设计实现高效题爬虫系统
(1)Scirus系统Scirus系统[15]Elsevier ScienceFAST合作开发垂直搜索引擎学生科研工作者服务该系统次评佳垂直搜索引擎
(2)美国国家数字科学图书馆 Collection Building Programe(CBP)系统该系统面科学数学线数字图书操作简单户需输入简单查询信息查询相关度较高链接
(3)NEC 研究院 CiteSeer 系统该系统面计算机领域科学文检索系统
(4) STIP系统该系统中科院文献情报中心实施中科院文献信息享系统子课题面科技信息类资源
(5) 南京学互联网数采集系统(IDGS)该系统釆模式匹配技术实现动搜索互联网中英文技术资料
(6) 北天网该系统[16]采组关键词表示题爬虫利组题关键词策略互联网中抓取数快全面抓取某题相关信息资源
(7) 题信息采集系统Gsearch周鑫等设计实现Gsearch 系统[17]企业决策支持行业市场分析等领域着广泛引前景
13 文研究容
文通网络爬虫基础通引入网页题容提取基实体链接题识算法识题网页然基BestFirst算法题搜索策略指导题网络爬虫互联网抓取题相关网页
文研究容:
(1)集合网页容分布特征题容相关特征设计种网页题容抽取方法
(2)题网页识方面采基实体链接题识算法识题网页
(3)搜索策略采基BestFirst算法题搜索策略指导题网络爬虫抓取题相关网页
文分六章篇节安排:
第章绪介绍研究背景意义题网络爬虫国外研究现状文研究容篇章结构
第二章介绍爬虫体系结构通介绍通网络爬虫题网络爬虫体系结构阐述题网络爬虫通网络爬虫区
第三章介绍网页题容抽取先介绍HTML结构然介绍网页解析网页进行噪处理阐述抽取网页题容分词相关容
第四章重点介绍基实体链接题识算法部分介绍
介绍实体链接题链接运特征抽取中进提高题识算法准确率
第五章提出基BestFirst算法题搜索策略首先介绍通网络爬虫搜索策略相关算法然介绍两种题搜索策略相关较代表性算法详细阐述文研究基BestFirst算法题搜索策略
第六章文工作进行总结展
第二章 题网络爬虫体系结构
21 组成模块
211 基组成
图21题网络爬虫体系结构图
图21 题网络爬虫体系结构
图示题网络爬虫分5部分载题容抽取题网页识链接评价模块
(1) 载模块
网络爬虫说载网页始终工作载模块需考虑方面素:利线程载网页线程载中资源调度重外设定超时机制舍弃掉等时间长网页提高爬虫性
(2) 题容抽取
题网络爬虫需细致分析网页题容抽取程度影响网页题识噪音容会影响续网页题识效果需消噪消噪预处理包括网页题容提取中文分词停词删等操作
(3) 题网页识
文通判断网页容否题相关题网页进行识文中题预设某类信息资源统称题选择题信息抽取第步网页题组题相关特征表示
文文分类技术识网页题程选定定题题相关数训练集特征量表示网页然利分类算法进行分类首先特征量表示网页然利分类算法进行分类
(4) 链接题相关性评价抽取
首先掉明显广告链接然相链接转换绝链接评估链接题相关性放入抓取队列中链接题相关性计算题考虑父页面链接锚文题相关性
212 基流程
爬虫基流程分成载程网页分析程两程载程务抓取链接队列中获取链接然互联网载网页网页分析包括网页题容抽取题网页识两步骤
(1) 载程
step1 调度模块提取链接队列中链接然启动相应数量载线程
step2 载线程建立会话
step3建立连接然载网页
step4讲网页存储然次获取载链接转step3果已没载链接线程退出
(2) 网页分析程
step1 网页预处理模块先原始网页构建成dom树
step2 抽取出网页中锚文文节点分存放两容器:anchorstexts中
step3 滤掉关节点
step4 滤噪音文
step5 根网页题容特征进步抽取出网页题容
step6 抽取出网页题容进行分词处理
step7 提取特征分类特征量代表网页
step8 预先训练网页集合训练基朴素贝叶斯算法分类器分类量分类器分类判断否题相关
step9 果网页题相关网页保存网页库
step10 anchors中锚节点剔链接评估链接题相关度新链接题相关度存抓取链接队列中
22 题页面分布特性
题页面分布符合四特性HubAuthority特性LinkagesiblingLocality特性站点题特性隧道特性
221 HubAuthority特性
美国康奈尔学Kleinberg教授发现页面体分成两种中心页面权威页面中心页面含许链接外种页面权威页面种页面倾说明单题Kleinberg教授页面引入HubAuthority值体现述特性[18]种特性提出HITS算法
222 LinkageSibling Locality特性
Linkage特性指网页包含链接指网页题通常该题题相关Sibling Locality特性指网页区域链接通常题相关[19]
223 站点题特性
站点包含题相关题页面聚集起题页面团间链接较少
224 隧道特性
题页面分布种特性站点题页面团会通题关链接连接起链接横跨题页面团间隧道隧道特性抓取程中隧道会影响抓取效率
23 搜索策略链接提取
搜索策略网络爬虫爬虫互联网抓取网页核心程度决定爬虫效率中部分链接需根相关协议排掉
231 robots协议相链接转换
2311 robotstxt文件META标签
(1)robotstxt网站容希爬虫抓取ROBOTS开发界提供两解决方案robotstxtMETA标签robotstxt存放网站根目录文件名写纯文文件网站中想网络爬虫访问部分该文件中申明
robotstxt文件包含许记录条记录格式示
robotstxt文件针整网站描述站点爬虫访问情况META标签单具体页面
(2)META标签中没写分nameRobots表示作网络爬虫针某具体网络爬虫写nameBaiduSpider
2312 相链接转换
相URL服务器相URL文档相URL绝URL格式
scheme serverpathresource
中scheme指定资源协议httpmailtoftp等协议server指资源服务器名称wwwbaiducompath指达资源路径18040209resource通常文件名DECL75C900118017html单二进制流简单文件结构化文档定位资源信息包括绝URL中
相URL相某网页位置目标链接现实环境中网站服务器发生变更会引发链接错误相链接指服务器网页前网页位置般视特定网页位置者base标签定义 该网页中链接httpmobile163com前缀
232 搜索策略概述
通网络爬虫较高覆盖率般采图广度优先策略遍历互联网网页题网络爬虫需搜索容会针特定题需遍历整网络需选择题相关网页进行遍历
题网络爬虫通常采优先原互联网搜索网页次价值链接进行访问高效获取更题相关网页题网络爬虫搜索策略链接价值评价方法决定链接包含页面容中般父页面价值高包含链接般具较高价值评价链接价值结合网页容分析
24 章结
章概述题网络爬虫基流程组成部分介绍链接提取规介绍网络爬虫搜索策略概念
第三章 网页题容抽取
31 HTML简介
目前部分网页HTML编写网页通超链接链接起进形成紧密连接起网络结构
通网络爬虫说需抽取网页中链接然题网络爬虫需分析提取网页容然链接进行价值评估进行取舍致标签分三类
(1)网页进行布局标签常标签
摘
着互联网迅速发展Web信息量越越通搜索引擎互联网搜索想信息百度谷歌搜狗等类搜索引擎称通搜索引擎户提供户想信息着互联网信息量越越户搜索出信息想信息相径庭种问题需更加专业面特定领域搜索引擎解决
题网络爬虫垂直搜索引擎关键部分文题网络爬虫中关键技术进行研究研究容:
(1)题容抽取网页题识重步骤文结合网页容分布特征题容相关特征设计种网页题容抽取方法
(2)提出种基实体链接题识算法识网页题基知识库实体链接方法运特征抽取实验表明该方法提高题网页识准确率
(3)提出种基BestFirst算法题搜索策略题搜索策略指导题网络爬虫抓取网页关键文采基BestFirst算法题搜索策略
关键词:题网络爬虫实体链接BestFirst算法题搜索策略
第章 绪
11 背景意义
着Internet飞速发展互联网信息呈指数增长根中国互联网络信息中心(CNNIC)发布第40次中国互联网络发展状况统计报告[1]数显示截2017年6月中国网民规模达751亿占全球网民总数五分互联网普率543中国网站数量506万半年增长48
量网站中包含着计数网页网页信息载体般通百度谷歌等通搜索引擎互联网获取想信息然利通搜索引擎搜索出信息较宽泛垂直搜索引擎针特定行业通搜索引擎细分某领域网页信息进行整合处理某种形式返回户垂直搜索针引擎某领域特定户特定需求提供相关信息服务垂直搜索引擎专注某领域专业显更加专注具体深入
题网络爬虫称聚焦爬虫垂直搜索引擎重组成部分题网络爬虫研究具重意义题网络爬虫动互联网抓取网页程序根预设题访问互联网题相关链接获取网页信息通网络爬虫干种子链接开始先抓取种子链接网页然网页中抽取新链接放入抓取队列中直满足系统设定抓取结束条件者抓取队列空相题网络爬虫抓取流程较复杂抓取程中需预测链接题相似度然放入根题相似度排序抓取队列中
12 题网络爬虫国外研究现状
1999 年SChakrabani[2]第次提出聚焦爬虫概念设计实现 Focus Proiect 系统[3]该技术提出快获广泛关注接理实现系统两方面介绍题网络爬虫国外研究现状
121 题识算法题搜索策略
PDeBra[4]等提出利FishSearch 算法作爬虫搜索策略该算法假设题相关页面逻辑相接搜索题相关网页SharkSearch 爬虫[5]FishSearch算法基础进行改进FishSearch算法利二值模型评估题相关性SharkSearch算法根链接锚文网页题相关容计算出相关性值[01]值该算法提高题爬虫召回率 BestFirst爬虫[6] CHO J 等 1998 年提出思想构建抓取队列评价策略队列中链接进行评价挑选链接进行抓取
Larry Page Sergey Brin[7]提出 PageRank 算法运Google搜索引擎leinberg博士首先提出HITS算法
Diligenti[8]利语境图构造分类器作爬虫搜索策略题页面较页面会优先抓取认部分页面题相关度较高
陈军[13]提出种基网页分块 SharkSearch 算法该算法块基单位计算链接价值熊忠阳[14]等提出种基信息增益题爬虫搜索策略
122 题爬虫系统
根理研究国外专家设计实现高效题爬虫系统
(1)Scirus系统Scirus系统[15]Elsevier ScienceFAST合作开发垂直搜索引擎学生科研工作者服务该系统次评佳垂直搜索引擎
(2)美国国家数字科学图书馆 Collection Building Programe(CBP)系统该系统面科学数学线数字图书操作简单户需输入简单查询信息查询相关度较高链接
(3)NEC 研究院 CiteSeer 系统该系统面计算机领域科学文检索系统
(4) STIP系统该系统中科院文献情报中心实施中科院文献信息享系统子课题面科技信息类资源
(5) 南京学互联网数采集系统(IDGS)该系统釆模式匹配技术实现动搜索互联网中英文技术资料
(6) 北天网该系统[16]采组关键词表示题爬虫利组题关键词策略互联网中抓取数快全面抓取某题相关信息资源
(7) 题信息采集系统Gsearch周鑫等设计实现Gsearch 系统[17]企业决策支持行业市场分析等领域着广泛引前景
13 文研究容
文通网络爬虫基础通引入网页题容提取基实体链接题识算法识题网页然基BestFirst算法题搜索策略指导题网络爬虫互联网抓取题相关网页
文研究容:
(1)集合网页容分布特征题容相关特征设计种网页题容抽取方法
(2)题网页识方面采基实体链接题识算法识题网页
(3)搜索策略采基BestFirst算法题搜索策略指导题网络爬虫抓取题相关网页
文分六章篇节安排:
第章绪介绍研究背景意义题网络爬虫国外研究现状文研究容篇章结构
第二章介绍爬虫体系结构通介绍通网络爬虫题网络爬虫体系结构阐述题网络爬虫通网络爬虫区
第三章介绍网页题容抽取先介绍HTML结构然介绍网页解析网页进行噪处理阐述抽取网页题容分词相关容
第四章重点介绍基实体链接题识算法部分介绍
介绍实体链接题链接运特征抽取中进提高题识算法准确率
第五章提出基BestFirst算法题搜索策略首先介绍通网络爬虫搜索策略相关算法然介绍两种题搜索策略相关较代表性算法详细阐述文研究基BestFirst算法题搜索策略
第六章文工作进行总结展
第二章 题网络爬虫体系结构
21 组成模块
211 基组成
图21题网络爬虫体系结构图
图21 题网络爬虫体系结构
图示题网络爬虫分5部分载题容抽取题网页识链接评价模块
(1) 载模块
网络爬虫说载网页始终工作载模块需考虑方面素:利线程载网页线程载中资源调度重外设定超时机制舍弃掉等时间长网页提高爬虫性
(2) 题容抽取
题网络爬虫需细致分析网页题容抽取程度影响网页题识噪音容会影响续网页题识效果需消噪消噪预处理包括网页题容提取中文分词停词删等操作
(3) 题网页识
文通判断网页容否题相关题网页进行识文中题预设某类信息资源统称题选择题信息抽取第步网页题组题相关特征表示
文文分类技术识网页题程选定定题题相关数训练集特征量表示网页然利分类算法进行分类首先特征量表示网页然利分类算法进行分类
(4) 链接题相关性评价抽取
首先掉明显广告链接然相链接转换绝链接评估链接题相关性放入抓取队列中链接题相关性计算题考虑父页面链接锚文题相关性
212 基流程
爬虫基流程分成载程网页分析程两程载程务抓取链接队列中获取链接然互联网载网页网页分析包括网页题容抽取题网页识两步骤
(1) 载程
step1 调度模块提取链接队列中链接然启动相应数量载线程
step2 载线程建立会话
step3建立连接然载网页
step4讲网页存储然次获取载链接转step3果已没载链接线程退出
(2) 网页分析程
step1 网页预处理模块先原始网页构建成dom树
step2 抽取出网页中锚文文节点分存放两容器:anchorstexts中
step3 滤掉关节点
step4 滤噪音文
step5 根网页题容特征进步抽取出网页题容
step6 抽取出网页题容进行分词处理
step7 提取特征分类特征量代表网页
step8 预先训练网页集合训练基朴素贝叶斯算法分类器分类量分类器分类判断否题相关
step9 果网页题相关网页保存网页库
step10 anchors中锚节点剔链接评估链接题相关度新链接题相关度存抓取链接队列中
22 题页面分布特性
题页面分布符合四特性HubAuthority特性LinkagesiblingLocality特性站点题特性隧道特性
221 HubAuthority特性
美国康奈尔学Kleinberg教授发现页面体分成两种中心页面权威页面中心页面含许链接外种页面权威页面种页面倾说明单题Kleinberg教授页面引入HubAuthority值体现述特性[18]种特性提出HITS算法
222 LinkageSibling Locality特性
Linkage特性指网页包含链接指网页题通常该题题相关Sibling Locality特性指网页区域链接通常题相关[19]
223 站点题特性
站点包含题相关题页面聚集起题页面团间链接较少
224 隧道特性
题页面分布种特性站点题页面团会通题关链接连接起链接横跨题页面团间隧道隧道特性抓取程中隧道会影响抓取效率
23 搜索策略链接提取
搜索策略网络爬虫爬虫互联网抓取网页核心程度决定爬虫效率中部分链接需根相关协议排掉
231 robots协议相链接转换
2311 robotstxt文件META标签
(1)robotstxt网站容希爬虫抓取ROBOTS开发界提供两解决方案robotstxtMETA标签robotstxt存放网站根目录文件名写纯文文件网站中想网络爬虫访问部分该文件中申明
robotstxt文件包含许记录条记录格式示
robotstxt文件针整网站描述站点爬虫访问情况META标签单具体页面
(2)META标签中没写分nameRobots表示作网络爬虫针某具体网络爬虫写nameBaiduSpider
2312 相链接转换
相URL服务器相URL文档相URL绝URL格式
scheme serverpathresource
中scheme指定资源协议httpmailtoftp等协议server指资源服务器名称wwwbaiducompath指达资源路径18040209resource通常文件名DECL75C900118017html单二进制流简单文件结构化文档定位资源信息包括绝URL中
相URL相某网页位置目标链接现实环境中网站服务器发生变更会引发链接错误相链接指服务器网页前网页位置般视特定网页位置者base标签定义
232 搜索策略概述
通网络爬虫较高覆盖率般采图广度优先策略遍历互联网网页题网络爬虫需搜索容会针特定题需遍历整网络需选择题相关网页进行遍历
题网络爬虫通常采优先原互联网搜索网页次价值链接进行访问高效获取更题相关网页题网络爬虫搜索策略链接价值评价方法决定链接包含页面容中般父页面价值高包含链接般具较高价值评价链接价值结合网页容分析
24 章结
章概述题网络爬虫基流程组成部分介绍链接提取规介绍网络爬虫搜索策略概念
第三章 网页题容抽取
31 HTML简介
目前部分网页HTML编写网页通超链接链接起进形成紧密连接起网络结构
通网络爬虫说需抽取网页中链接然题网络爬虫需分析提取网页容然链接进行价值评估进行取舍致标签分三类
(1)网页进行布局标签常标签