操作系统  办公  实用知识  设计  开发  WEB开发  移动开发  数据库  软件工程  网管  安全  管理  信息化  答疑  渠道 

文档采集网上游

2004-3-31 网友评论 0 条 点击进入论坛

作者:建民、李 

  也许,你还是一个初级网虫,没有多少资料需要管理。而对网络上很多好的文章、有用的资料,却非常想保存下来慢慢的欣赏或者建立自己的资料库。离线浏览?现在流行的“离线浏览器”一般都是针对下载整个网站而设计的,即使进行了各种设置也不能保证能够精确地下载您所需的页面;如果用IE的保存网页功能只能保存浏览过的网页,且不能在后台工作,必须一个页面一个页面地观看,太麻烦了。或者,你不喜欢把资料下载下来以后再管理,而希望能一边下载一边整理。如果有了它们,你就不用为这事儿着急了……

  一、收藏专家——网页收集器

  这是一款用来从网络上收集网页的工具,界面十分简单,只有4个浮动的菜单条、工具条。它除了能从网络上下载网页,还能从本地硬盘上导入文件,把选定的目录输出为网页或文本。

  信息的收集

  “网页收集器”有三种信息的收集方式:

  1、通过“手动添加功能”输入信息。先选择一个目录,按下“手动添加资料”按钮,在查看区输入需要添加的内容,然后“提交”,这样就会在选定的目录下生成一个新的节点。

  2、按下“导入整个目录”按钮,会弹出一个对话框,在这里我们可以导入一批网页文件或文本文件。在导入时,还可以把一个网页文件转换为一个文本文件,而且它会自动用这个目录的结构来组织资料库中的结构。

  3、“从网络导入网页”功能就是把网络上的网页下载到指定的目录中。先选择一个目录,按下这个按钮后,会弹出一个对话框,首先输入一个URL地址,“添加”后,“网页收集器”会自动分析这个URL地址,把这个页面中的所有链接显示出来,选择需要下载的页面的URL,点击“下载”按钮就可以下载网页。

  信息的查看和整理

  在一般模式下,“网页收集器”以文本的方式查看信息,网页文件显示的是源代码,按下工具栏上的“e”按钮,会激活软件中内置的网页浏览器查看网页文件。如果这个网页有图片、javascript文件,还会在附件框中显示附件的数量和名称,并可以导出、运行附件。

  我们还可以向一个文章中添加附件,通过手动方式添加一个节点,然后把文章、程序、源代码作为附件添加进去,这样,查看一个节点时,就不必再去资源管理器中找它们。

  二、搬迁能手——网页下载器

  “网页下载器”是一个专门下载网页的工具,它包含在“我要上网去”这个软件中。特点是:前台浏览,后台下载,断线浏览下载的网页。安装后会在IE的右键菜单中增加一个“网页下载器-所有或选择链接”的选项。运行“网页下载器”后,会出现一个悬浮窗口,系统托盘区也会出现一个图标(如图1)。

  资料下载

  “网页下载器”保存完整的网页:自动分析并下载每个网页中涉及到的包括图片文件(GIF、JPG格式)、样式文件CSS等各种相关的文件以及页面的框架结构。其使用方法非常简单:当我们浏览一个网页的时候,遇到要保留的链接时,直接拖动到“网页下载器”的悬浮窗口中就可以了。如果你对同一个页面中的多个链接感兴趣的话可以选定这些链接,单击右键选择“网页下载器-所有或选择链接”把多个链接添加到任务列表中。

  注意:脱机浏览只能浏览打开过的链接,如果想保存没有浏览过的网页,请把它的链接拖动到悬浮窗中,以便下次连线的时候下载。

  资料浏览

  网页下载好了,要浏览时,单击“网页下载器”图标,打开软件的主窗口,找到要浏览的网页双击就可以了。如果网页的前面有红色的叉子表明这个网页在下载的时候发生了错误,点“开始”按钮可以下载这个网页。下载后的网页保存在“我要上网去”的安装目录下的“htmldown\data”中。

  “网页下载器”可以在后台完整的保存一个网页,但是有时候我们需要保存的只是网页中的一部分文字或图片,这时我们就需要——“网海拾贝”。

  三、欢乐采购员——网海拾贝

  上网时,有无数精美的网页、文章、图片值得保存,但如何快速、准确地把需要的内容采集下来,并且妥善地保存却是个问题。“网海拾贝”能帮你完成资料的收集、整理、保存、查找和阅读。

  “网海拾贝”的优点是:快速采集网页中需要的内容,分门别类地保存。它所支持的文档类型有文本文件、网页、图片。硬盘上的文档可以采集也可以导入。安装后“网海拾贝”会在IE的右键菜单中增加12个选项,分别用来采集文字、网页(或其源代码)、图片或者是一个页面中的链接。


 

[下一页]


 

  采集网页内容

  这是它最主要的功能。运行软件后,会在系统托盘区增加一个图标,点击右键,选中“自动监视剪贴板”,这样当我们浏览某个网页的时候,只需选择感兴趣的内容复制,“网海拾贝”会弹出一个对话框(如图1)。在“当前书库”选项中我们可以选择保存到哪一个书库,下面是这个书库的目录结构。软件比较好的一点是保存内容的同时也保存了其来源地址,日后如果发现采集的内容有误,还可以回去比较。

  如果要采集图片,建议使用IE右键菜单,否则一些GIF动画会无法正确地保存(只以JPG或BMP的格式保存其中的某一帧)。除了可以保存网页的一部分外,“网海拾贝”也可以保存一个完整的网页,包括其中的格式、框架、图片和文字。使用右键菜单中的“采集网页”选项就可以了。

  查看和编辑

  在“网海拾贝”主窗口可以查看、搜索、编辑书库中的文章(如图2)。

  内容的整理:一般从网页上下载的文本内容会有许多多余的空格、空行,当查看一篇文章的时候,菜单栏中会增加一个“文本”的菜单项,其中的“段落”可以删除多余的空格和空行;“内码”可以在BIG5和GB码之间进行转换。

  检索:有时候我们知道一部分内容,但忘了在哪一篇文章中了,这时可以使用“工具”中的检索功能,在整个书库或指定的目录中进行检索。还可以把检索到的文章放入“搜索站”中以后使用,这样尤其适合检索查看不同目录中包含同一个关键字的文章。

  张贴:在“网海拾贝”中只要按一下“张贴”,再到目的地中点击一下,相当于“复制、粘贴”。

  删除和恢复

  在“网海拾贝”中提供了一个叫“回收站”的目录,在我们删除一个文章的时候,并不是真正的把文章从书库中清除出去而是放入回收站。一旦发现删错文件了,可以把它从回收站中移动到其他的目录里去。即便你把回收站清空了,文章也是可以找回来的,“网海拾贝”提供了回收文档的功能,可以把从“回收站”中清除的文章再找回来。但是无论是回收站还是回收文档都是需要空间的,如果我们确信文章不需要了,就要彻底地删除它,这就是书库的压缩。

  “网海拾贝”可以把某个目录导出为一个目录或文本文件或网页文件,在导出为网页文件的时候,会自动生成索引文件。我们也可以把一个目录导出为一个书库文件,然后再添加到书库中心里。

  使用体会

  “网海拾贝”是笔者在上网的时候最常用的文章采集软件,它方便地采集功能提高了我采集文章的效率。但是它的文本编辑功能不是特别强大,毕竟这只是一个文本搜集软件;“张贴”功能无法选择目的地位置而且只能张贴整个文章,建议你在“张贴”之前先定位好目的地的光标。如果需要收集完整的网页,尤其是在一个页面中收集多个链接时,我会使用“网页下载器”,这样既保证了网页的原汁原味又可以节省时间,最好是“网海拾贝”和“网页下载器”同时使用,一边收集文字一边下载网页。

  网页下载器:http://www8.pconline.com.cn/download/swdetail.phtml?id=4326

  网海拾贝:http://newhua.infosail.com/down/nc2001b2s.zip

  网页收集器:http://www8.pconline.com.cn/download/swdetail.phtml?id=6985

  软件是电脑的灵魂,文档是使用各种软件的产物;资源是网络的精髓,而文档又是资源的载体。为了更好地利用文档,我们需要对它们进行管理。为了使我们的资源库更加丰富,我们又要不断地采集各种新的资料文档,这就是“整理你的文档”的主旨——高效管理,不断更新。

已有 0 位对此文章感兴趣的网友发布了看法    
我来评两句 用户名: 密码:
  匿名发表
今日推荐
技术文库(共有 45972 篇文章)
操作系统
办公软件
实用知识
网络管理
软件开发
WEB开发
软件工程
数据库
设计在线
信息安全
行业信息化
管理信息化
移动开发
重点推荐
电子杂志订阅
点击电子杂志名称查看样刊
输入E-mail地址即可订阅
E-mail