政务区
主要职责  机构设置 
领导介绍  直属单位 
行政许可  行政审批 
政策法规  规划计划 
通知公告  工作动态 
专题专项  数据统计 
最新关注  政务公开目录 
行政执法责任制 
服务区
服务目录  办事指南 
系统登录  表格下载 
常见问题  成果推荐 
资源数据  电子地图 
常用信息  网站导航 
互动区
领导信箱  投诉信箱 
意见征集  问题解答 
问卷调查  邮件订阅 
记者之家  联系我们 
政风行风热线 
首页 > 北京重点领域发明专利数据库 > 计算机技术
一种基于信息瓶颈理论的文档聚类方法
来源 : 北京市科技情报研究所
 

申请号:

200910084841

申请日:

2009/05/25

公开日:

2009/11/04

公告日:

公开号:

101571868

公告号:

授权日:

授权公告日:

专利类别:

发明

国别省市代码:

11[中国|北京]

代理机构代码:

11121[ ]

代理人:

周长琪

发明名称:

一种基于信息瓶颈理论的文档聚类方法

国际分类号:

G06F 17/30

范畴分类号:

39A40B40D

发明人:

刘永利;熊璋;任捷;欧阳元新

申请人:

北京航空航天大学

申请人地址:

北京市海淀区学院路37

邮编:

100083

文摘:

本发明公开了一种基于信息瓶颈理论的文档聚类方法,该方法首先利用信息瓶颈理论计算文档之间的相似性,采用增量式的聚类算法对文档进行聚类,并对聚类结果进行最小共有信息损失计算,如果最小共有信息损失满足规定阈值,则将该文档合并到距离最近簇,否则新建一个簇存放该文档;为了提高聚类准确性,采用序列聚类方法对聚类结果进行调整,在调整过程中,对每个文档依次进行取样,并规定对所有文档的取样次数来控制调整的强度。这种调整策略涵盖了所有的样本文档,有助于提高聚类的准确率。

 
· 政府信息公开目录
· 政府信息公开指南
· 政府信息公开年报
· 依申请公开
· 监督投诉
常用信息更多...
北京市科委联系方式
市科委规范性文件
公务员招聘录用
技术合同认定登记机构
最新结果
高新技术企业名单
软件企业名单
科技研发机构名单
科技新星名单
问卷调查
· 市科委网站满意度调查
   
搜索
互联网搜索
 
 
全文搜索
 
邮件订阅
版权所有:北京市科学技术委员会
ICP备案编号:京ICP备05060936号
北京市科委联系电话:010-66153395 北京市科委网站联系电话:010-66114875