神经网络（或相关算法），用于中文名称的分类,该如何处理

神经网络（或相关算法），用于中文名称的分类
请教，遇到的问题如下：

有很多从网络中抓取下来的地点名称（例如，“金钱豹自助餐厅”，“西提牛排”，“北京百货大楼”等），
还有若干由人设定的类别（例如，“餐饮服务”，“购物场所”等）。

现在需要对抓取下来的地点名称，赋上类别。

我考虑用神经网络（或相关算法）来实现这个需求。

这里，可能需要构造庞大的训练集，以及对字符数据进行数值化等处理。
请教大家，能给我一些处理的建议吗？

我还想请教，神经网络如何进行类似“联机”学习。
就是，在初始训练完成后，在使用的过程中，能够对新的数据进行学习，不用重复训练所有样本。

谢谢！！

[解决办法]
神经网络本身就能对新的数据进行学习，并进行反馈的，例如反向传播算法BP算法，但是用在这里感觉挺困难的，这里并没有统一的输入特征向量，需要自己定义
而其他的分类算法例如基于决策树的、基于规则等一些分类方法，不能满足lz需要的“联机”功能

建议lz考虑一下用语料库作为训练样本，一来本身分析的就是文本知识，使用语料库很合适，二来这种分类不需要先去抓取样本，有很多开源项目或高校研究院会提供语料库的
[解决办法]
想问一下楼主有何应用，从网上抓下来这些东西也未必好用啊。
只是玩玩？
对这些东西进行分类，我看不出有什么好处。

建议使用方法，分词，聚类分类吧，楼主可以搜搜基于文本的聚类分类,我以前接触过得有PLSA。
决策树也不错。规则的话主要，这些餐厅啥的都有特征词。

语料库到处都有，主要用来分词，词法分析吧。其实做文本聚类啥的，一般都要利用语料库进行分词，再根据分词结果再深入处理。

[解决办法]

探讨
谢谢！

能给个简单的例子吗？
采用语料库进行训练的方法。

引用:
神经网络本身就能对新的数据进行学习，并进行反馈的，例如反向传播算法BP算法，但是用在这里感觉挺困难的，这里并没有统一的输入特征向量，需要自己定义
而其他的分类算法例如基于决策树的、基于规则等一些分类方法，不能满足lz需要的“联机”功能

建议lz考虑一下用语料库作为训练样本，一来本身分析的就是文本知识，使用语料库很合适，二来这种分类不需要先去抓取样本，有很多开源项目或高校研究院会提供语料库的

[解决办法]

探讨
那，
您更要给个简介了。
谢谢！！

引用:
引用:
谢谢！

能给个简单的例子吗？
采用语料库进行训练的方法。

引用:
神经网络本身就能对新的数据进行学习，并进行反馈的，例如反向传播算法BP算法，但是用在这里感觉挺困难的，这里并没有统一的输入特征向量，需要自己定义
而其他的分类算法例如基于决策树的、基于规则等一些分类方法，不能满足lz需要的“联机”功能

建议lz考虑一下用语料库作为训练样本，一来本身分析的就是文本知识，使用语料库很合适，二来这种分类不需要先去抓取样本，有很多开源项目或高校研究院会提供语料库的

哦，说错了，是语义网~

[解决办法]
一开始没认真理解清楚楼主的用意，现在清楚了些。

PLSA不是很适合，是因为它是对文本进行分类的。就是说给篇文章，判断他是新闻类的，或者是什么其他类的，这个是比较好的。但不是用来对一个词进行分类。虽然它那里面也有topic的概念，但和楼主的想法有点区别。

嗯，不确定性太多。我想我是真的做不了。
希望最后能知道你想怎么做，嗯，谢谢！

探讨
也是自己的一个想法。

目前已经有很多的，由人工标注过的数据。
就是，某个地点是什么类别（比如，“金钱豹自助餐厅”和“西提牛排”是餐饮类别；而“北京百货大楼”是购物场所类别等）。

然后，还会不断地从网上抓取下来新的（或重复）的地点数据。
需要对这些新抓取下来的数据赋上类别。

现在，我也觉得ANN的方法不见得可行。
也想通过已有的标注过的数据，来给新数据赋上类别。

现在，我想分别对已经标注的各个类别的数据（或代表该类别的关键词）建立类似Trie树的结构。
然后，将新数据通过各个类别的Trie树，来得到该新数据的类别。

请各位大侠指点，是否可行。

还想请教vshuang，
具体应该如何在这个问题上应用PLSA，
是不是还需要一些概率信息。
这些概率信息或许可以通过已有数据来得到。

谢谢！！

引用:
想问一下楼主有何应用，从网上抓下来这些东西也未必好用啊。
只是玩玩？
对这些东西进行分类，我看不出有什么好处。

建议使用方法，分词，聚类分类吧，楼主可以搜搜基于文本的聚类分类,我以前接触过得有PLSA。
决策树也不错。规则的话主要，这些餐厅啥的都有特征词。

语料库到处都有，主要用来分词，词法分析吧。其实做文本聚类啥的，一般都要利用语料库进行分词，再根据分词结果再深入处理。

神经网络（或相关算法）用于中文名称

热点推荐