读书人

断句算法解决办法

发布时间: 2012-04-28 11:49:53 作者: rapoo

断句算法
如果有一个英文句子 例如 Thisisanapple.
要求写一个函数,输入是一个String,输出是添加了空格的句子,如This is an apple
或者是多个String组成的vector、list等容器对象,如This、is、an、apple

有大牛提供思路吗?

还有个刁钻的条件就是

比如输入中有一个*some*,那么有时候要断句成* some *,有时候又要断句成* so me *……

无语了

如果要用到语法的话,又要怎么做?

为了这题 心都碎了。。。。。

不用源码,需要思路。。。。。

[解决办法]
这跟中文分词没啥区别,需要有词库,配合Trie就可以做分词。如果同时有多重分词方法,还要有个权值计算方法,以取得最优的分词方法。没有词库的话,印象中用CRF,通过大量模板训练,也是可以的。
[解决办法]
1要有词库
2匹配调度算法


词库的话,我们公司以前有用到盘古分词(开放源码,教程,百度有),等等其他的英文分词估计更多。。。
用这个工具建立词库


第一个就是算法的研究了。。比如语句匹配度的优先啊什么的

读书人网 >软件架构设计

热点推荐