电信 教育 政务 机械 汽车 船舶 交通 石化 烟草 服装 电力 金融 外贸 冶金 电子

自动分类系统(Metadata Aurora)

2004-9-3 发布方:杭州麦达电子 网友评论 0 条 点击进入论坛

    随着当今科学技术的飞速发展,各种信息层出不穷,由此产生的各种科技文献、新闻语料乃至互联网上的信息可谓是爆炸式的。人们要在如此众多的的信息中要找到自己所需的信息,则还须对它们进行分类。但是,传统的手工文本分类,由于周期长、费用高、效率低,而且往往需要具有专业知识的人员才能胜任,所以难以满足当今的实际需要;而现在的很多系统,由于对样本文档的数量要求较大,而造成系统效率的下降,或是由于不能满足样本文档的数量,造成分类不全、含义不清、缺乏学习能力等问题。因此,研究有效的自动文本分类就显得十分必要,并且它在文本检索、信息获取、信息过滤、数据组织、信息管理乃至互联网上的搜索都有十分广泛的应用。
 


    在文档的分类过程中,实例对分类起着非常重要的影响,实例越多越准确,文档分类也就越精确。然而对于大批量的文档分类来说,要精确分类,对实例数量的要求非常大,这大大降低了分类的效率。鉴于此,我们在EM ( Expectation-Maximization )算法的基础上,考虑到未分类文档对分类的影响因素,结合成 Metadata自动分类系统。Metadata自动分类系统结合了未分类文档对分类的贡献效果,达到了以较少量的实例来取得较准确的分类的效果。同时考虑到未分类文档影响因素的不确定性,添加了系数λ,可对其加以调整。通过对现有的一些实例的测试,本系统能够达到很好的分类效果,能够满足信息分类精确度的需求。在基于实例分类的基础上,我们对其部分进行改进,使用户仅提供每个类的关键词就能对未分类文档进行有效的分类。

Metadata Aurora系统具有以下特点:

1、对样本(或关键词)的需求量少,容易实现对海量文档的分类
    由于Metadata自动分类系统考虑了未分类文档对分类有一定的影响因素,大大降低了所需的已分类文档的个数。据统计,在对10000篇未分类文档进行分类中,要达到较好的分类效果,传统的分类方法需要2000篇样本文档(即已分类文档),而采用我们的Metadata自动分类系统仅需600篇样本文档就能达到同样的分类效果。

2、智能化分类,结果精确
    Metadata自动分类系统采取智能分类器对文档进行分类,通过对分类器的训练,能够不断地更新原有的分类结果。在不断的训练及学习过程中,分类器会得到更多的经验,由此,分类结果不断地得到改善,精度不断地提高,当分类器达到稳定状态时,系统便得到了最好的分类结果。

3、分类的可靠性高
    Metadata自动分类系统在统计学的基础上对文档进行分类,采用了高效的切词方法,并对英语单词作词根化处理(参Metadata Partner的词根化),使词信息与原文档信息相吻合,保证了在分类过程中的可靠性。

4、综合考虑了未分类文档对分类的作用,使其达到最优状态
    在分类过程中,未分类文档的数量远大于样本文档,根据EM算法,分类的准确性在很大程度上决定于未分类文档。未分类文档对分类的影响是两方面的:提高或降低分类的准确度。考虑到这个因素,Metadata自动分类系统对EM算法进行了改进,引进了系数λ,以对未分类文档的影响度进行调整。经过我们的测试,取λ为0.5。

5、分类速度快
    因为采用的方法在准确、高效为前提,因此分类的执行过程相当迅速。这对于大量文档的分类提供了可能。在这种情况下,系统可以用于更加广泛的领域,处理更加大量的信息。

6、具有多方面的用途
    如前文所说,在目前的很多领域里,都需要将自动文摘作为一个必须的子系统,将其嵌入后才能完成核心的工作,或者需要自动文摘系统作为获取信息、分析信息的辅助手段来处理庞杂的数据。因此,自动文摘将成为诸多领域里必不可少的好工作。

Metadata 自动分类系统概要图如下所示: 
           

已有 0 位对此文章感兴趣的网友发布了看法    
我来评两句 登录邮箱: 密码:
  匿名发表
相关案例
解决方案速查(共有 14131 个方案)
基础软件
安全保密
管理软件
办公软件
软件开发
系统网络
图形多媒体
辅助设计
行业专用
教育教学
电子政务
其他软件
接入
通信
网络
存储
IT服务
电子杂志订阅
点击电子杂志名称查看样刊
输入E-mail地址即可订阅
E-mail
赞助商链接