ProtocolBuffer 组合 LZO在 Hadoop中的使用（三）

ProtocolBuffer 结合 LZO在 Hadoop中的使用（三）
ProtocolBuffer 结合 LZO在 Hadoop中的使用（三） 1.自动生成Protocol buffer对象

1、把protoc.exe文件复制到 c:\windows 目录中（呵呵，这样最省事），window7放在windows/system32下

下载地址

2、使用 protocol buffer 编译器编译 logFormat.proto 文件。打开命令行窗口，并定位到logFormat.proto文件目录中，运行命令 protoc --java_out=.logFormat.proto（注意.后面有空格，否则会有错误），执行这个命令后会在当前目录下生成一个java类com.searchlog.LogFormat.java。

下载 protobuf-java-2.4.1.jar

SearchLog.Builder builder = SearchLog.newBuilder()builder.setLastVisitTime(value.get(0));SearchLog msg = builder.build();

对于任意类型的成员var, 都可以通过 have_var() 来判断成员变量是否已经赋值;通过clear_var() 来清除变量内容;对于对象，可以通过 IsInitialized()函数判断required类型成员是否全部初始化；使用clear()清理对象的所有成员。对于repeated成员b，b_size()函数可以用来获取b成员的个数。

对于string成员S，使用mutable_S()函数将使得你得到直接指向该成员的指针（direct pointer）,而无论该成员是否已经初始化。

message 成员的类型可以是基础类型bool, int32, float, double与string；也可以是复杂的自定义类型，自定义类型可以嵌套。更详细的类型支持列表：http://code.google.com/apis/protocolbuffers/docs/proto.html

3.将生成的ProtoBufferPractice.java文件引入eclipse

4.把下载的protobuf-java-2.4.1.jar也引入工程

option java_package = “com.example.foo”;
我认为比较重要的文件级选项有
java_package ——指定生成的java代码的packge。
java_outer_classname ——protoc会为每个.proto文件一个java类，其中每个message都做作为该java类的内部类，这个选项就用于指定外围类的类名。
optimize_for ——用于优化protoc产生的代码，有三种模式:
SPEED 产生的代码将具有最好的序列化/反序列化执行速度。
CODE_SIZE 产生的代码将具有更少的代码行数。
LITE_RUNTIME protocol buffer有一个简化版的runtime库，比如要生成用于手机平台的代码，可以使用这个选项。
另外，packed是一个字段级选项，在上面字段修改符repeated中提到了。

分析：
个人认为pb之所以快和省流量除了本省字节少以外，序列化过程减少的字节数是主要因素
具体可参考http://kangsg219.iteye.com/blog/904762

其他参考：http://www.searchtb.com/2010/11/protocol-buffers%E7%9A%84%E5%BA%94%E7%94%A8%E4%B8%8E%E5%88%86%E6%9E%90.html

在实践中具体选择什么还需要依情况而定：
http://www.oschina.net/question/12_10307

ProtocolBuffer 组合 LZO在 Hadoop中的

热点推荐