读书人

神经网络(或相关算法)用于中文名称

发布时间: 2012-02-23 22:01:36 作者: rapoo

神经网络(或相关算法),用于中文名称的分类
请教,遇到的问题如下:

有很多从网络中抓取下来的地点名称(例如,“金钱豹自助餐厅”,“西提牛排”,“北京百货大楼”等),
还有若干由人设定的类别(例如,“餐饮服务”,“购物场所”等)。

现在需要对抓取下来的地点名称,赋上类别。

我考虑用神经网络(或相关算法)来实现这个需求。

这里,可能需要构造庞大的训练集,以及对字符数据进行数值化等处理。
请教大家,能给我一些处理的建议吗?

我还想请教,神经网络如何进行类似“联机”学习。
就是,在初始训练完成后,在使用的过程中,能够对新的数据进行学习,不用重复训练所有样本。

谢谢!!

[解决办法]
神经网络本身就能对新的数据进行学习,并进行反馈的,例如反向传播算法BP算法,但是用在这里感觉挺困难的,这里并没有统一的输入特征向量,需要自己定义
而其他的分类算法例如基于决策树的、基于规则等一些分类方法,不能满足lz需要的“联机”功能

建议lz考虑一下用语料库作为训练样本,一来本身分析的就是文本知识,使用语料库很合适,二来这种分类不需要先去抓取样本,有很多开源项目或高校研究院会提供语料库的
[解决办法]
想问一下楼主有何应用,从网上抓下来这些东西也未必好用啊。
只是玩玩?
对这些东西进行分类,我看不出有什么好处。

建议使用方法,分词,聚类分类吧,楼主可以搜搜基于文本的聚类分类,我以前接触过得有PLSA。
决策树也不错。规则的话主要,这些餐厅啥的都有特征词。


语料库到处都有,主要用来分词,词法分析吧。 其实做文本聚类啥的,一般都要利用语料库进行分词,再根据分词结果再深入处理。

[解决办法]

探讨
谢谢!

能给个简单的例子吗?
采用语料库进行训练的方法。

引用:
神经网络本身就能对新的数据进行学习,并进行反馈的,例如反向传播算法BP算法,但是用在这里感觉挺困难的,这里并没有统一的输入特征向量,需要自己定义
而其他的分类算法例如基于决策树的、基于规则等一些分类方法,不能满足lz需要的“联机”功能

建议lz考虑一下用语料库作为训练样本,一来本身分析的就是文本知识,使用语料库很合适,二来这种分类不需要先去抓取样本,有很多开源项目或高校研究院会提供语料库的


[解决办法]
探讨
那,
您更要给个简介了。
谢谢!!

引用:
引用:
谢谢!

能给个简单的例子吗?
采用语料库进行训练的方法。

引用:
神经网络本身就能对新的数据进行学习,并进行反馈的,例如反向传播算法BP算法,但是用在这里感觉挺困难的,这里并没有统一的输入特征向量,需要自己定义
而其他的分类算法例如基于决策树的、基于规则等一些分类方法,不能满足lz需要的“联机”功能

建议lz考虑一下用语料库作为训练样本,一来本身分析的就是文本知识,使用语料库很合适,二来这种分类不需要先去抓取样本,有很多开源项目或高校研究院会提供语料库的


哦,说错了,是语义网~


[解决办法]
一开始没认真理解清楚楼主的用意,现在清楚了些。

PLSA不是很适合,是因为它是对文本进行分类的。就是说给篇文章,判断他是新闻类的,或者是什么其他类的,这个是比较好的。但不是用来对一个词进行分类。 虽然它那里面也有topic的概念,但和楼主的想法有点区别。

嗯,不确定性太多。我想我是真的做不了。
希望最后能知道你想怎么做,嗯,谢谢!

探讨
也是自己的一个想法。

目前已经有很多的,由人工标注过的数据。
就是,某个地点是什么类别(比如,“金钱豹自助餐厅”和“西提牛排”是餐饮类别;而“北京百货大楼”是购物场所类别等)。

然后,还会不断地从网上抓取下来新的(或重复)的地点数据。
需要对这些新抓取下来的数据赋上类别。

现在,我也觉得ANN的方法不见得可行。
也想通过已有的标注过的数据,来给新数据赋上类别。

现在,我想分别对已经标注的各个类别的数据(或代表该类别的关键词)建立类似Trie树的结构。
然后,将新数据通过各个类别的Trie树,来得到该新数据的类别。

请各位大侠指点,是否可行。

还想请教vshuang,
具体应该如何在这个问题上应用PLSA,
是不是还需要一些概率信息。
这些概率信息或许可以通过已有数据来得到。

谢谢!!

引用:
想问一下楼主有何应用,从网上抓下来这些东西也未必好用啊。
只是玩玩?
对这些东西进行分类,我看不出有什么好处。

建议使用方法,分词,聚类分类吧,楼主可以搜搜基于文本的聚类分类,我以前接触过得有PLSA。
决策树也不错。规则的话主要,这些餐厅啥的都有特征词。


语料库到处都有,主要用来分词,词法分析吧。 其实做文本聚类啥的,一般都要利用语料库进行分词,再根据分词结果再深入处理。


读书人网 >网络基础

热点推荐