(一) 方案概述
客户的业务问题:
随着互联网的高速发展,面对几十亿的Web页面,人们通常采用搜索引擎来作为查询信息的手段。但是,采用搜索引擎手工搜索的方式费时费力,而且人们往往需要的是特定行业和领域的最新专业知识,采用一般的搜索引擎无法动态实时地跟踪这些相关信息,搜索到的信息也缺乏有效的存储和管理的手段。因此,传统的搜索引擎无法有效地满足人们在知识管理领域中更高层次的需求。
方案的功能描述:
知识雷达系统,采用IBM中国研究中心最新中文信息处理研究成果,应用网上代理人技术,智能分类技术,内容去重和中文语义检索技术,能够基于用户定义的知识体系,动态搜索互联网,实时监测和抓取相关信息,为用户提供基于互联网的实时知识获取、知识发现、和知识管理服务。
系统包括两个主要模块:信息抓取和信息加工。
方案的独特卖点:
实时网上采集
o 快速:网页抓取采用多线程并发搜索技术,并可设置并发线程的最大个数。
o 灵活:可以同时跟踪抓取多个网站,能够提供灵活的网站、栏目或频道的采集策略,以及利用逻辑关系定位采集内容。
o 准确:不多抓与少抓,可自定义需要抓取的文件格式,能够抓取图片和表格信息,抓取过程成熟可靠,容错性强,完成初始设定后可长时间稳定运行。 自动网页分析
o 语种识别――自动识别网页的语种。
o 内容过滤――能够过滤掉广告、导航信息、版权等无用信息,能够剔除反动、色情内容。
o 内容排重――对于不同网站相同或雷同的内容,能够自动判别并标注为雷同,判别的方法可以由用户定义的规则判定及自动按内容的相似度判定。
o 格式转换――自动将HTML格式转换为文本文件。
o 自动标引――对网页自动提取标题、版次、日期、作者、栏目、分类等信息。
高效自动分类
o 支持机检分类――能够利用预定义的关键词和规则方法判定类别;
o 支持自动分类――通过机器自动学习或预学习自动分类,并达到80%以上的准确率。
o 支持多种分类标准――比如按地域(华北、华南等)、内容(政治、科技、军事、教育等)、来源(新华网、人民网、新浪网等)等。
素材共享发布
o 素材共享存储――抓取并分类的网页素材即可以以文件方式保存,亦可以存储在关系数据库中。
o 分类导航浏览――提供网页素材的分类导航浏览;
o 全文语义检索――提供可选的中文语义全文检索引擎,实现关键字的全文检索;
o 个性订阅推送――提供个性化定制订阅推送功能,用户可以自定义规则设置感兴趣的新闻素材进行订阅,系统根据用户的订阅设置,定期或定时将最新符合订阅规则的新闻素材通过邮件或门户网站推送给用户。
便捷系统管理
o 整合的单一界面――系统提供基于Web的用户使用界面和管理员界面,满足系统管理员和用户双重需求,可利用浏览器远程管理分类目录、用户权限并调整、加强分类结果。
o 完整的目录维护――提供完整的对分类目录进行新增、移动、修改、删除等管理维护
o 权限管理,可设定管理目录和单一文件使用权限,加强安全管理。
o 实时的文件管理――可以浏览每个目录分类结果,并实时进行移动、更名等调整。也可指定训练样本,强化分类质量。
o 友好的在线帮助――提供友好的使用指南。
系统的开放性
o 提供C API和 Javabeans组件。
o 支持与 DB2,Oracle等主流RDBMS无缝集成的领先方案。
o 支持各种Windows、AIX、Solaris、Linux等主流操作系统、支持各种Web应用服务器和Web服务器。
(二)技术配置
硬件平台:IBM P系列服务器
软件平台:WebSphere、DB2通用数据库
操作系统:Unix
适用的行业:新闻出版、政府、企业、网站
适用的用户群:新闻编辑、信息中心
(三)成功案例
客户名称:人民网
项目时间:2002年12月
客户问题:人民网需要自动监测和抓取国内上百家新闻网站当日的新闻,供人民网编辑参考。
解决方案:采用深思公司的知识雷达系统,采用并发多线程技术。可以快速、灵活地各个网站的新闻,并过滤掉无用信息,供人民网编辑参考。