系统概述
着互联网高速发展面十亿Web页面通常采搜索引擎作查询信息手段采搜索引擎手工搜索方式费时费力需特定行业领域新专业知识采般搜索引擎法动态实时踪相关信息搜索信息缺乏效存储理手段传统搜索引擎法效满足知识理领域中更高层次需求
深思公司述问题提出行解决方案深思知识雷达系统
深思知识雷达系统采IBM中国研究中心独家授权新中文信息处理研究成果应网代理技术智分类技术容重中文语义检索技术够基户定义知识体系动态搜索互联网实时监测抓取相关信息户提供基互联网实时知识获取知识发现知识理服务
特点
实时网采集
快速:网页抓取采线程发搜索技术设置发线程数
灵活:时踪抓取网站够提供灵活网站栏目频道采集策略利逻辑关系定位采集容
准确:抓少抓定义需抓取文件格式够抓取图片表格信息抓取程成熟容错性强完成初始设定长时间稳定运行
动网页分析
语种识――动识网页语种
容滤――够滤掉广告导航信息版权等信息够剔反动色情容
容排重――网站相雷容够动判标注雷判方法户定义规判定动容相似度判定
格式转换――动HTML格式转换文文件
动标引――网页动提取标题版次日期作者栏目分类等信息
高效动分类
支持机检分类――够利预定义关键词规方法判定类
支持动分类――通机器动学预学动分类达80准确率
支持种分类标准――域(华北华南等)容(政治科技军事教育等)源(新华网民网新浪网等)等
素材享发布
素材享存储――抓取分类网页素材文件方式保存存储关系数库中
分类导航浏览――提供网页素材分类导航浏览
全文语义检索――提供选中文语义全文检索引擎实现关键字全文检索
性订阅推送――提供性化定制订阅推送功户定义规设置感兴趣新闻素材进行订阅系统根户订阅设置定期定时新符合订阅规新闻素材通邮件门户网站推送户
便捷系统理
整合单界面――系统提供基Web户界面理员界面满足系统理员户双重需求利浏览器远程理分类目录户权限调整加强分类结果
完整目录维护――提供完整分类目录进行新增移动修改删等理维护
权限理设定理目录单文件权限加强安全理
实时文件理――浏览目录分类结果实时进行移动更名等调整指定训练样强化分类质量
友线帮助――提供友指南
系统开放性
提供C API Javabeans组件
支持 DB2 Oracle等流RDBMS缝集成领先方案
支持种WindowsAIXSolarisLinux等流操作系统支持种Web应服务器Web服务器
应环境
硬件环境
求硬件运行AIXSolarisLinuxWindows NTWindows 2000操作系统存建议512M
软件系统
支持AIXLinuxSolaris三种UNIX操作系统Windows NTWindows 2000操作系统
软件运行外需关系型数库(DB2OracleSQL Server等)Java应服务器(WebsphereWeblogic等)支持
文档香网(httpswwwxiangdangnet)户传
《香当网》用户分享的内容,不代表《香当网》观点或立场,请自行判断内容的真实性和可靠性!
该内容是文档的文本内容,更好的格式请下载文档