多示例学习分类
多示例学习最早是由一位研究药物分子的时候提出。人们尝试从已知有效的药物分子数据预测未知的分子是否有效,其中存在的问题是,有效的药物分子有很多种同分异构体,学过化学的都知道,同分异构体最坑了,随着原子数目增多,同分异构体数量比指数级上升还要指数级……因此嘞,你懂的,就算分类之后,只知道分子表达式还是搞不清楚里面哪种结构的同分异构体是有效成分,就是说,标签是1的类里面也存在很多本应该标签是0的结构,只是没办法分出去了,当然标签是0的肯定都是0.
不知道解释清楚没有,反正多示例学习考虑的问题就是类别里面含有大量噪声,但是又难以去除的问题,现实中肯定有啊,因为现实远比你想象的复杂,相信很多相关研究的人深有体会,你根本不敢去跟现实对比啊,外行人根本不看你的公式啊,他们抓住你用的例子大肆讨论,理论技术瞬间被现实完爆有木有!!!
Jaume Amores 发表了一篇Multiple instance classi?cation: Review, taxonomy and comparative study,很强大有木有,当然不是说他比Jordan,Hinton, Lafferty,Koller厉害,而是他给我们广大研究者节省了时间,大家最喜欢这种文章了。他对多示例学习的算法做了充分研究和实验,总结了一个分类法,将现有算法分类。

最基本的Instance级和bag级,Instance可以理解为每个训练样本的特征向量,Bag呐,就是这些Instances的一个类别。这与传统的机器学习是不一样的,它是多个Instances才能表示一个包的类别。
1 示例空间
就是直接针对示例划分,先给每个要预测的示例分类,然后新bag中只要存在为正例的Instance,那么这个新bag就是正bag,否则是负bag。
2 bag空间
这里会定义一个距离函数D(X,Y),X是bag哈,不是特征向量,根据它来对bag进行学习,得到一个分类模型,新的Bag就根据这个分类模型来分到不同类别Y。这感觉跟传统的分类没有什么区别,可能区别在于D(X,Y),元芳,元芳??元芳呐?求元芳!!orz
3 嵌入空间
这个较好理解,就是要有个映射函数,先把bag映射到Instance,然后学习分类器,那么新的bag也是先映射,然后用分类器分类。
当然作者也提到了,大家都喜欢各种方法混在一起用,所以存在一些算法用到了不同类的方法,那么分类就看你自己的想法了。