新闻媒体政府部门型企事业单位纷纷通互联网技术搭建网络信息收集台:新闻媒体需获取量互联网新闻资料充实新闻资料库政府机关需收集身业务相关文献资料提升办公决策效率型
企事业单位需快速获取行业宏观环境政策动态竞争手信息……
天宇智互联网信息采集系统(CGSEEK)集成网页搜索容智提取滤动分类动重等技术实现互联网信息采集滤提取批量载动化体化
系统结构
系统功
信息采集
支持种标准格式信息资源采集HTML页面文信息表格图片声音视频
等
实现网页联图片统采集
支持繁体页面(BIG5码)采集动转换标准简体码(GB码)支持Unicode码集
支持程序动生成页面容采集JavaScript生成页面
方便抓取网站台数库容(JSPASPCGI)抓取需通户身份校验网站容
支持单篇网页网站历史数批量载
信息利
采集网页信息放置机器指定某文件夹进行利
系统支持采集文容批量载天宇CGRS全文数库中利天宇采编发系统全文检索系统进行信息采编审核发布全文检索等利
智提取文容载SQL Server等流关系型数库中充实资料库利第三方应系统信息进行采编发布检索等应
系统特点
网页采集容全面
适应网站容格式变性完整获取需采集页面遗漏少网页采集容完整性99
容准确度高
方便网页中信息提取出日期标题作者栏目等容滤网页中信息
精确定义采集范围
精确描述需采集网站范围精确整网站特定栏目特定页面
方便动化程度高
系统参数设置简单次设置次修改方便直观快捷
信息采集快
系统通线程处理技术时启动搜索器快速高效目标站点栏目进行信息采集
系统性
采集速度:分钟采集数百新目标页面(机器性网络带宽关)
处理速度:分钟提取滤载数百网页
动分类:页面容动分类准确率90
提取效率:页面容(标题日期作者正文等)准确提取率达99
运行环境
普通PC机256M存
操作系统:Windows 20002003XP
行业应
网络传媒:动踪采集国外网络媒体信息关键词滤搜索批量采集方式实现类新闻效采集分类编辑理发布检索体化系统支持第三方应系统采编系统发布系统检索系统
政机关:实时收集业务工作相关信息资源新闻网外网实时动态发布出满足办公员互联网信息需提高办公办事效率
型企事业单位:通系统实时追踪收集行业政策宏观环境竞争手等相关情报资料利提升企业综合竞争力
文档香网(httpswwwxiangdangnet)户传
《香当网》用户分享的内容,不代表《香当网》观点或立场,请自行判断内容的真实性和可靠性!
该内容是文档的文本内容,更好的格式请下载文档