断句算法
如果有一个英文句子 例如 Thisisanapple.
要求写一个函数,输入是一个String,输出是添加了空格的句子,如This is an apple
或者是多个String组成的vector、list等容器对象,如This、is、an、apple
有大牛提供思路吗?
还有个刁钻的条件就是
比如输入中有一个*some*,那么有时候要断句成* some *,有时候又要断句成* so me *……
无语了
如果要用到语法的话,又要怎么做?
为了这题 心都碎了。。。。。
不用源码,需要思路。。。。。
[解决办法]
这跟中文分词没啥区别,需要有词库,配合Trie就可以做分词。如果同时有多重分词方法,还要有个权值计算方法,以取得最优的分词方法。没有词库的话,印象中用CRF,通过大量模板训练,也是可以的。
[解决办法]
1要有词库
2匹配调度算法
词库的话,我们公司以前有用到盘古分词(开放源码,教程,百度有),等等其他的英文分词估计更多。。。
用这个工具建立词库
第一个就是算法的研究了。。比如语句匹配度的优先啊什么的