 |
 |
政务区 |
|
|
 |
服务区 |
|
 |
 |
互动区 |
|
|
 |
| 来源 : 北京市科技情报研究所 |
|
|
申请号: |
200910084841 |
申请日: |
2009/05/25 |
|
公开日: |
2009/11/04 |
公告日: |
|
|
公开号: |
101571868 |
公告号: |
|
|
授权日: |
|
授权公告日: |
|
|
专利类别: |
发明 |
国别省市代码: |
11[中国|北京] |
|
代理机构代码: |
11121[ ] |
代理人: |
周长琪 |
|
发明名称: |
一种基于信息瓶颈理论的文档聚类方法 |
|
国际分类号: |
G06F 17/30 |
|
范畴分类号: |
39A40B40D |
|
发明人: |
刘永利;熊璋;任捷;欧阳元新 |
|
申请人: |
北京航空航天大学 |
|
申请人地址: |
北京市海淀区学院路37号 |
|
邮编: |
100083 |
|
文摘: |
|
本发明公开了一种基于信息瓶颈理论的文档聚类方法,该方法首先利用信息瓶颈理论计算文档之间的相似性,采用增量式的聚类算法对文档进行聚类,并对聚类结果进行最小共有信息损失计算,如果最小共有信息损失满足规定阈值,则将该文档合并到距离最近簇,否则新建一个簇存放该文档;为了提高聚类准确性,采用序列聚类方法对聚类结果进行调整,在调整过程中,对每个文档依次进行取样,并规定对所有文档的取样次数来控制调整的强度。这种调整策略涵盖了所有的样本文档,有助于提高聚类的准确率。 |
| |
| |
|
|
|
 |
 |
 |
搜索 |
|
 |
 |
邮件订阅 |
|
|