 |
 |
政务区 |
|
|
 |
服务区 |
|
 |
 |
互动区 |
|
|
 |
| 来源 : 北京市科技情报研究所 |
|
|
申请号: |
200910085071 |
申请日: |
2009/05/31 |
|
公开日: |
2009/11/11 |
公告日: |
|
|
公开号: |
101576911 |
公告号: |
|
|
授权日: |
|
授权公告日: |
|
|
专利类别: |
发明 |
国别省市代码: |
11[中国|北京] |
|
代理机构代码: |
11262[ ] |
代理人: |
龙洪 霍育栋 |
|
发明名称: |
一种在中文文本中识别汽车昵称的方法和装置 |
|
国际分类号: |
G06F 17/30;G06N 1/00 |
|
范畴分类号: |
39A40B40D |
|
发明人: |
王珵;于文渊 |
|
申请人: |
北京学之途网络科技有限公司 |
|
申请人地址: |
北京市朝阳区塞纳维拉水景花园40号楼4007室 |
|
邮编: |
102218 |
|
文摘: |
|
本发明公开了一种在中文文本中识别汽车昵称的方法和装置;所述方法包括:选择多个含有至少一种汽车昵称的文本作为训练集,标注出训练集中各文本中出现的汽车昵称,并根据所述训练集确定对应于各种昵称组成方式的多个状态模板;抓取网页中的文本,将该文本分割为句子,分别对各句中包含的每个字标注其观察类型,得到分别对应于各句的观察序列;根据所述训练集为所得到的各观察序列分别选择最大可能的状态序列;分别根据所计算出的状态序列中每个词的状态,将各状态序列与所述状态模板进行匹配,确认状态序列中与所述状态模板中的一种相匹配的部分为昵称。本发明可以准确识别出文本中出现的昵称。 |
| |
| |
|
|
|
 |
 |
 |
搜索 |
|
 |
 |
邮件订阅 |
|
|