碧波液压网 欢迎你,游客。 登录 注册

因特网文本智能挖掘的模糊聚类算法研究

版权信息:站内文章仅供学习与参考,如触及到您的版权信息,请与本站联系。

   

  1 引言

  目前Internet有80%左右信息的是文本形式,所以对文本数据挖掘技术的研究成为数据挖掘中的一个日益流行且十分重要的研究课题。国外主要的研究单位如CMU、斯坦福。国内主要的研究单位有东北大学、上海复旦大学、哈尔滨工业大学、中科院计算所等,主要都是将国外的方法引进来应用到中文信息处理技术上。到目前为止,文本分类在国外大致经历了三个发展阶段:第一阶段(1958-1964)主要进行自动分类的可行性研究。第二阶段(1965-1974)进行自动分类的试验研究。第三阶段(1975-至今)进行实用化阶段,并在邮件分类、电子会议、信息过滤等方面取得较为广泛的应用,其中较为成功的系统有麻省理工学院(MIT)为白宫开发的邮件分类系统,卡内基集团为路透社开发的Construe系统等。我国文本分类的研究工作始于20世纪80年代,大体经历了可行性探讨、辅助分类系统、自动分类系统三个阶段。中文文本分类还处于在试验研究阶段,正确分类率约为60% ~90%,已经逐渐向商业化的软件应用靠拢,并已经尝试开发了一批自动分类系统。例如,清华大学吴军研制的自动分类系统、山西大学刘正瑛等人开发的金融自动分类系统、上海交大的西风文本自动分类系统。如何找到合理的应用并且在实践中逐步改善算法,提高性能成为文本分类算法的当务之急[1]。目前国内外常用的文本分类方法大多数是基于文本内容的相似度对文本进行分类。诸如基于概念的文档分类算法、K-最近邻接参照分类算法(K-NN)、贝叶斯分类算法、基于语义网络的概念推理网分类算法、以及决策树和支持向量机(SVM)等方法。基于这些方法的文档分类系统大都是基于平面的分类,即多采用基于词或词串信息的分类技术来实现[2]。针对这类问题,本文在动态聚类方法和基于特征属性分类法的基础上探究基于混合模糊聚类理论的文本数据分类系统新模型,并在此模型基础上提出一种文本聚类挖掘仿真算法,有效提高实际应用中文本分类的精度与可靠性,从而改善网络中目标文本获取效率,实现因特网文本智能挖掘。

  2.2 基于特征属性的混合模糊聚类分类法

  实际应用中,传统模糊聚类方法的缺陷是不能很好地解决特定属性的分类问题,因为被提取的数据组都包含一定规模的数据对象,而一般数据对象具有的诸多属性对实际需要的解发挥的作用不同,因此在特定问题解决中,目标的各属性有主次之分,主要属性才是分类问题求解的突破口,它由求解目标直接确定,这种主要属性被称作特征属性。

  特征属性概念能有效解决该分类问题,依据特征属性进行分类,使得到的结果更加真实可靠。而通过聚类源文本主属性时更改阈值λ,以产生更为满意的属性约简结果,更新和增加分类规则,从而灵活地优化分类规则以快捷地实现新文本分类,提高文本分类系统的应用性。传统模糊方法在对各属性进行水平分类时,是依据人为因素的判断来选取λ值的,即选定的λ是个经验值,随意性很大,会造成类别划分的不确定程度,为有效避免了人为因素造成的这种不确定性,λ值通过计算机随机产生。

你没有登陆,无法阅读全文内容

您需要 登录 才可以查看,没有帐号? 立即注册

标签:
点赞   收藏

相关文章

发表评论

请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。

用户名: 验证码:

最新评论