病毒特征码的提取，求有有关经验的大侠指点

病毒特征码的提取，求有相关经验的大侠指点！
最近boss交给我一个这样的课题：将反汇编的一些病毒文件（4000个ASM文件，大约属于100个病毒家族），让我写一个程序将上述文件分好家族，并分别提取每个家族的特征码形成特征库，这些文件都经过脱壳机处理过，但是并未脱干净（比较夸张的是20M的文件，只有400K是有效代码）。

我的做法：
分家族过程：将文件从小到大一个一个文件的比对，第一个文件和后面所有文件比较，将内容相似度大于某一预定值的作为一个家族，然后第二个文件又重复上诉过程，知道所有家族都分到相应的目录下位止。
提取特征码的过程：对某一个家族目录下的所有文件以第一个文件作为提取样本，后面的文件依次与之比对并删除不同内容，从最后剩下的逻辑块中提取内容较多的几个逻辑块作为该家族的特征码。
合并所有家族的特征码即位该4000个文件的特征库。

存在的问题：
1.由于ASM文件壳信息比较多，而静态分析文件的过程无法区分出壳代码与程序代码，造成家族分类以及提取的特征码都不准确。
2.由于上述比对依赖于第一个文件，而程序无法判断第一个文件的优劣，所以直接导致最后的结果差异很大。
3.因为Boss不允许人工干预，比对的算法时间复杂度大，程序效率低下。

请教有相关经验的朋友：
1.作为提取特征码的原始文件，是否必须对其进行脱壳处理？
2.特征码应该是最能代表一个病毒家族的一串二进制数，在排除人工干预的前提下，程序如何自动提取？
3.问题很多但是又无法具体描述，还是希望大家各抒己见吧！
[解决办法]
你们是新创业的杀毒软件公司？这个工作太底层太基础了，人家20年前就开始做了，一直积累到现在

觉得不花点经济代价的话，楼主可能搞不到一个比较优秀的方案
[解决办法]
帮顶了~~
[解决办法]
帮顶顺便学习了
[解决办法]
有难度，帮顶
[解决办法]
涉及的东西很多路过。。。
[解决办法]
特征码查杀的方式我觉得太滞后了.
做免杀也不困难.

壳我觉得还是必须脱的. 去伪存真. 脱掉马甲好办事.

[解决办法]
刚刚还看了下,主动防御的微点, 不基于特征码查杀它也要脱壳.

[解决办法]
先脱壳再说，这个有的就相当难脱

其他就不了解
[解决办法]
只能帮楼主顶了~~~~~~~~
[解决办法]
之前流出过卡巴的代码你可以搜搜参考下
[解决办法]
帮顶了
[解决办法]
金山毒霸不是开源吗
[解决办法]
听着真的好难啊，帮顶了

病毒特征码的提取求有有关经验的大侠

热点推荐