神经网络(或相关算法)用于中文名称
发布时间: 2012-02-23 22:01:36 作者: rapoo
神经网络(或相关算法),用于中文名称的分类
请教,遇到的问题如下:
有很多从网络中抓取下来的地点名称(例如,“金钱豹自助餐厅”,“西提牛排”,“北京百货大楼”等),
还有若干由人设定的类别(例如,“餐饮服务”,“购物场所”等)。
现在需要对抓取下来的地点名称,赋上类别。
我考虑用神经网络(或相关算法)来实现这个需求。
这里,可能需要构造庞大的训练集,以及对字符数据进行数值化等处理。
请教大家,能给我一些处理的建议吗?
我还想请教,神经网络如何进行类似“联机”学习。
就是,在初始训练完成后,在使用的过程中,能够对新的数据进行学习,不用重复训练所有样本。
谢谢!!
[解决办法]
神经网络本身就能对新的数据进行学习,并进行反馈的,例如反向传播算法BP算法,但是用在这里感觉挺困难的,这里并没有统一的输入特征向量,需要自己定义
而其他的分类算法例如基于决策树的、基于规则等一些分类方法,不能满足lz需要的“联机”功能
建议lz考虑一下用语料库作为训练样本,一来本身分析的就是文本知识,使用语料库很合适,二来这种分类不需要先去抓取样本,有很多开源项目或高校研究院会提供语料库的
[解决办法]
想问一下楼主有何应用,从网上抓下来这些东西也未必好用啊。
只是玩玩?
对这些东西进行分类,我看不出有什么好处。
建议使用方法,分词,聚类分类吧,楼主可以搜搜基于文本的聚类分类,我以前接触过得有PLSA。
决策树也不错。规则的话主要,这些餐厅啥的都有特征词。
语料库到处都有,主要用来分词,词法分析吧。 其实做文本聚类啥的,一般都要利用语料库进行分词,再根据分词结果再深入处理。
[解决办法]
[解决办法][解决办法]一开始没认真理解清楚楼主的用意,现在清楚了些。
PLSA不是很适合,是因为它是对文本进行分类的。就是说给篇文章,判断他是新闻类的,或者是什么其他类的,这个是比较好的。但不是用来对一个词进行分类。 虽然它那里面也有topic的概念,但和楼主的想法有点区别。
嗯,不确定性太多。我想我是真的做不了。
希望最后能知道你想怎么做,嗯,谢谢!