一个具体案例的算法讨论:怎样为ITPUB的文章提取关键字

[复制链接]
查看11 | 回复7 | 2016-9-6 23:08:25 | 显示全部楼层 |阅读模式
现在ITPUB上的文章在发表的时候是没有输入关键字的,怎样才可以用自动的,智能的算法把关键字提炼出来?以达到以下效果
1 在一篇文章里显示相关文章,相关文章和该文章具备很大的关键字匹配
2 把文章自动归类,比如web程序开发版下有关于asp,php等的讨论,自动机可以自己判别文章是属于哪个类别的
回复

使用道具 举报

千问 | 2016-9-6 23:08:25 | 显示全部楼层
这是一个工作量比较大同时难度也较高的事情。
自动文章摘要/关键字是目前自然语言处理的一个研究方向。
我们知道,当前自然语言处理的流行算法一般都是概率统计,而像编译器那样使用词法语法分析的准确率都不太高(这是由于人类语言的灵活性决定的)。目前在这个领域的论文80%都是关于概率统计的,20%是关于语法分析的。
首先我们需要一个足够大的语料库,如使用ITPUB某一年或者两年的主题贴,对这些主题贴使用某些现成的产品进行分词,再人工校验使分词正确。这样我们就建立起ITPUB的语料库。
然后,使用这个语料库对我们的程序进行训练,可使用n-gram算法等,统计分析词汇的使用概率。
再使用上面的分析结果去对现有的ITPUB主题贴进行分词,得到分词结果后,对一篇帖子的每个不重复的词进行权重分析(这里就需要一个权重的算法,简单的可以根据该词在这个帖子中重复出现的次数),最后把权重排名靠前的几个词作为关键字。至于帖子的自动归类,也可以使用词的权重分析后进行归类。
以上是我的一点初浅想法。如果要做的话是一个很大的工程。
回复

使用道具 举报

千问 | 2016-9-6 23:08:25 | 显示全部楼层
最初由 ethanyi 发布
[B]这是一个工作量比较大同时难度也较高的事情。
自动文章摘要/关键字是目前自然语言处理的一个研究方向。
我们知道,当前自然语言处理的流行算法一般都是概率统计,而像编译器那样使用词法语法分析的准确率都不太高(这是由于人类语言的灵活性决定的)。目前在这个领域的论文80%都是关于概率统计的,20%是关于语法分析的。
首先我们需要一个足够大的语料库,如使用ITPUB某一年或者两年的主题贴,对这些主题贴使用某些现成的产品进行分词,再人工校验使分词正确。这样我们就建立起ITPUB的语料库。
然后,使用这个语料库对我们的程序进行训练,可使用n-gram算法等,统计分析词汇的使用概率。
再使用上面的分析结果去对现有的ITPUB主题贴进行分词,得到分词结果后,对一篇帖子的每个不重复的词进行权重分析(这里就需要一个权重的算法,简单的可以根据该词在这个帖子中重复出现的次数),最后把权重排名靠前的几个词作为关键字。至于帖子的自动归类,也可以使用词的权重分析后进行归类。
以上是我的一点初浅想法。如果要做的话是一个很大的工程。 [/B]


正解~确实高难度~
回复

使用道具 举报

千问 | 2016-9-6 23:08:25 | 显示全部楼层
简单的方法是可以建立关键字库,发文章的时候自动匹配,不过这样的话很容易出现垃圾文章吧。还有个方案可以替代,就是给精华贴或者热门贴进行匹配,普通文章不匹配,这样比较节约服务器资源。
当然,即使是Wiki这样的程序现在都不提供自动匹配关键字。不过新闻门户的新闻关联都是这样匹配的。
回复

使用道具 举报

千问 | 2016-9-6 23:08:25 | 显示全部楼层
最初由 labertie 发布
[B]简单的方法是可以建立关键字库,发文章的时候自动匹配,不过这样的话很容易出现垃圾文章吧。还有个方案可以替代,就是给精华贴或者热门贴进行匹配,普通文章不匹配,这样比较节约服务器资源。
当然,即使是Wiki这样的程序现在都不提供自动匹配关键字。不过新闻门户的新闻关联都是这样匹配的。 [/B]

嗯!! 这个方法倒是多块好省!可以先做一个这样的试一试,呵呵,又想起KISS原则:Keep It Simple and Stupid!
回复

使用道具 举报

千问 | 2016-9-6 23:08:25 | 显示全部楼层
最初由 labertie 发布
[B]简单的方法是可以建立关键字库,发文章的时候自动匹配,不过这样的话很容易出现垃圾文章吧。还有个方案可以替代,就是给精华贴或者热门贴进行匹配,普通文章不匹配,这样比较节约服务器资源。
当然,即使是Wiki这样的程序现在都不提供自动匹配关键字。不过新闻门户的新闻关联都是这样匹配的。 [/B]


关键字库可能要有某种学习功能才行
回复

使用道具 举报

千问 | 2016-9-6 23:08:25 | 显示全部楼层
两个版主好年轻……
回复

使用道具 举报

千问 | 2016-9-6 23:08:25 | 显示全部楼层
如果能做出根据内容自动归类,google都要服了,提取关键字还是可以的
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

主题

0

回帖

4882万

积分

论坛元老

Rank: 8Rank: 8

积分
48824836
热门排行