Java方法泛型化在avro序列化与反序列化的应用

  项目中需要做到对不同流量和日志实现序列化和反序列化,每种流量和日志格式都定义为一种java bean对象类型,通常我们在序列化和反序列时会针对不同的对象写一对特定的序列化和反序列化方法,但这样重复代码太多,故考虑将序列化和反序列化方法泛型化。

基本知识

  Avro 支持多种语言, 如 C, C++, C#, Java, PHP, Python 和 Ruby. 它使用 JSON 来定义 Schema, 通过工具可以由 Schema 生成相应语言的数据对象, 比如 Java 的 avro-tools.jar. 这样可以在跨进程跨语言透明的实现为对象交换.
  下面举一个简单的例子

定义一个模式文件

1
2
3
4
5
6
7
8
9
{
"namespace": "cc.unmi.data",
"type": "record",
"name": "User",
"fields": [
{"name": "name", "type": "string"},
{"name": "address", "type": ["string", "null"]}
]
}

  这里定义了User对象,假设文件名为user.avsc

使用avro-tool生成java对象

1
avro-tool-1.8.1.jar compile schema /path/to/user.avsc /path/generate

  生成的对象中包含完整的 Schema 定义内容, 可由静态方法 getClassSchema() 和实例方法 getSchema() 获得相应的 Schema, 所以拥有了这个对象类时就不再需要 user.avsc 文件了. 在它的父类 SpecificRecordBase 类中定义了抽象方法 getSchema()。
  接下来我们可以看看在泛型化和非泛型时的处理方式。

未泛型化时的做法

序列化

  下面的代码把一个 User 对象序列化为字节数组

1
2
3
4
5
6
7
private static byte[] serializeUser(User user) throws IOException {
DatumWriter<User> userDatumWriter = new SpecificDatumWriter<>(User.class);
ByteArrayOutputStream outputStream = new ByteArrayOutputStream();
BinaryEncoder binaryEncoder = EncoderFactory.get().directBinaryEncoder(outputStream, null);
userDatumWriter.write(user, binaryEncoder);
return outputStream.toByteArray();
}

反序列化

1
2
3
4
5
private static User deserializeUser(byte[] data) throws IOException {
DatumReader<User> userDatumReader = new SpecificDatumReader<>(User.class);
BinaryDecoder binaryEncoder = DecoderFactory.get().directBinaryDecoder(new ByteArrayInputStream(data), null);
return userDatumReader.read(new User(), binaryEncoder);
}

  从上面方法输出的字节数组中反序列化出相等的对象来, userDatumReader.read(new User(), binaryEncoder) 执行后的返回值与被更新后的第一个参数是一样的, 所以这个方法要是能写成 reutnr userDatumReader.read(User.class, binaryEncoder); 会好看些。

  但是这种方法存在的问题也显而易见,当我们的对象类型很多时,我们就得为每一种类型写一个序列化和反序列化的方法,实现起来比较冗余繁杂,所以推荐使用下面的泛型化方法。

泛型化时的做法

java中的泛型方法

  泛型方法,是在调用方法的时候指明泛型的具体类型。
  定义泛型方法语法格式如下:

  调用泛型方法语法格式如下:

  说明一下,定义泛型方法时,必须在返回值前边加一个,来声明这是一个泛型方法,持有一个泛型T,然后才可以用泛型T作为方法的返回值。
  Class的作用就是指明泛型的具体类型,而Class类型的变量c,可以用来创建泛型类的对象。
  为什么要用变量c来创建对象呢?既然是泛型方法,就代表着我们不知道具体的类型是什么,也不知道构造方法如何,因此没有办法去new一个对象,但可以利用变量c的newInstance方法去创建对象,也就是利用反射创建对象。
  泛型方法要求的参数是Class类型,而Class.forName()方法的返回值也是Class,因此可以用Class.forName()作为参数。其中,forName()方法中的参数是何种类型,返回的Class就是何种类型。在本例中,forName()方法中传入的是User类的完整路径,返回的是Class类型的对象,调用泛型方法时,变量c的类型就是Class,泛型方法中的泛型T就被指明为User,变量obj的类型为User。
  当然,泛型方法不是仅仅可以有一个参数Class,可以根据需要添加其他参数。
  为什么要使用泛型方法呢?因为泛型类要在实例化的时候就指明类型,如果想换一种类型,不得不重新new一次,可能不够灵活;而泛型方法可以在调用的时候指明类型,更加灵活。

针对上面的序列化和反序列化,我们的泛型版本如下所示

序列化

1
2
3
4
5
6
7
8
9
10
11
12
13
/**
* 通用对象序列化工具方法,将对象T序列化为字节数组
*
* @param c 待序列化的对象T实例
* @return 序列化之后的字节数组
*/
private static <T> byte[] serializer(T c) throws IOException, IllegalAccessException, InstantiationException {
DatumWriter<T> datumWriter = new SpecificDatumWriter(c.getClass());
ByteArrayOutputStream outputStream = new ByteArrayOutputStream();
BinaryEncoder binaryEncoder = EncoderFactory.get().directBinaryEncoder(outputStream, null);
datumWriter.write(c, binaryEncoder);
return outputStream.toByteArray();
}

反序列化

1
2
3
4
5
6
7
8
9
10
11
12
/**
* 通用对象反序列化工具,将字节数组反序列为相应的对象
*
* @param data 序列化后的字节数组
* @param c 字节数据的对象类型,如WAFsyslog、RadiusLog
* @return 返回反序列化后的对象
*/
private static <T> T deserializer(byte[] data, Class<T> c) throws IOException, IllegalAccessException, InstantiationException {
DatumReader<T> DatumReader = new SpecificDatumReader(c);
BinaryDecoder binaryEncoder = DecoderFactory.get().directBinaryDecoder(new ByteArrayInputStream(data), null);
return DatumReader.read(c.newInstance(), binaryEncoder);
}

总结

  通过泛型化,我们可以只需要写一组序列化和反序列化函数,待运行时传入具体的对象类型,从而完成序列化和反序列化,使用此种模式,我们不需要为每个特定的对象类型生成序列化和反序列化函数,大大降低了代码的冗余性。