| 电信 教育 政务 机械 汽车 船舶 交通 石化 烟草 服装 电力 金融 外贸 冶金 电子 |
网络信息雷达产品白皮书一. 系统概述
1. 关于线点
北京线点科技有限公司是注册在北京中关村科技园区的高新技术企业,为北京中关村高新技术企业协会会员单位,专业提供WEB应用系统解决方案,我们在Web2.0开发应用方面具有丰富的开发经验,并且可以提供全面的搜索引擎解决方案,具有多名资深的搜索引擎专家,专注于行业/垂直搜索引擎开发。 线点科技是一个优秀并且团结的团队,所有人员都是大学以上文凭,并且在企业应用软件行业都有2年以上的开发或服务经验,所使用和掌握的技术也处于行业领先地位。 线点科技经过自己的努力,建立了良好的客户关系,主要客户有摩托罗拉中国、用友股份、宁夏联通、新疆地税、国家民航总局、厦门卷烟厂等等。同时,公司也与业内多家公司保持着良好的合作伙伴关系,共同推动国内IT事业的发展。 线点科技执着的追求,力求做到"专业、专注、专精";认真、踏实、以客户为中心是我们公司的经营理念与服务准则。 我们以满足用户的需求为己任,为用户提供最先进实用的软件产品,为用户创造价值。我们期望跟用户一起在进步!共同发展! 2. 产品概述
线点科技作为国内搜索技术产品化的开创者,一直在该领域拥有先进的理念、成熟的技术和先进的信息检索、数据抽取识别和文本挖掘技术。线点科技搜索引擎产品通过在多个互联网运营项目上的成功应用,积累了丰富的行业实践经验。 线点科技结合互联网信息雷达与数据采集的业务应用需求,依托自身搜索引擎产品和中文信息处理技术,推出网络信息雷达产品(以下简称XDDAS)。 XDDAS主要面向于网站和企业数据应用,网站可以使用其进行互联网的数据定向抓取,依赖其后台的自由灵活配置,可以将数据直接抓取并即时发布到自身的网站上,而企业可以通过网络信息雷达获取自身需要的数据内容,或是对于自己关注的信息进行定向采集抓取,当然,这其中也应用了线点科技的数据抽取引擎对数据进行结构化处理和再加工。 二. 技术框架
XDDAS是基于J2EE平台的Web应用,并提供了网页客户端进行控制。 三. 功能及特点
1. 多操作系统、多平台、多数据库支持
本产品支持的操作系统、应用服务器、数据库如下:
2. 支持各种文件抓取
网络信息雷达不仅支持抓取静态html页面,也支持jsp、asp、php等动态内容的抓取,支持分页,同时也支持对于word、pdf等格式的抓取,您可以将这些文档单独保存为文件方式,也可以自动解析,存储于数据库字段中。 3. 支持多种数据库存储
网络信息雷达采集的数据支持存储到各种类型数据库中,包括Mysql、Sql Server等各种常用数据库,通过后台的灵活配置,无论您的数据库处在什么物理位置,也无论您的数据库结构如何,只要他们在逻辑上是存在连接和映射,我们都可以将数据准确存入你期望的数据表和字段中去,而且通过数据抽取引擎,数据库字段可以准确定位到网页的某个区域或片段。 4. 正文抽取与分析
XDDAS内嵌了线点中文语言处理引擎,支持自动正文内容抽取,自动时间识别,特别对于新闻资讯内容更为有效。 5. 自动关键词、自动摘要提取
XDDAS内置的线点中文语言处理引擎也支持从抓取的文章中自动提取关键字与自动生成摘要,这样可以大量减少人工处理的工作,提高数据质量。 6. 增量采集与自动更新
XDDAS采用的是增量采集方式,对于已经采集过的页面内容不会进行重复抓取,但是通过后台的配置,也可以自动对于已经变动过的页面内容进行再次抓取,这并不需要太多的人工干预过程。 7. 多线程、高效抓取
XDDAS支持多线程同步抓取,单服务器支持超过2000线程同步抓取,而其抓取能力仅限于您的网络速度与环境,经过测试部门测定,在共享百兆情况下,每天的页面抓取能力即可达百万级别。 8. 自动登录与验证码识别
对于一些需要登录后才能获取的内容,XDDAS支持站点自动登录,对于验证码也可以识别并进行处理 9. 操作简易、维护方便
线点科技全文检索产品提供完整的后台界面,所有配置和操作都可以通过IE访问产品后台进行,操作简易,维护方便,同时也不影响服务器的安全性。 四. 系统硬件要求
相关案例
|
解决方案速查(共有 14347 个方案) 基础软件
安全保密
管理软件
办公软件
软件开发
系统网络
图形多媒体
辅助设计
行业专用
教育教学
电子政务
其他软件
接入
通信
网络
存储
IT服务
推荐解决方案
领军企业实施案例
+更多领军企业案例
电子杂志订阅
重点推荐
| ||||||||||||||||||||||||||||