项目中需要做到对不同流量和日志实现序列化和反序列化,每种流量和日志格式都定义为一种java bean对象类型,通常我们在序列化和反序列时会针对不同的对象写一对特定的序列化和反序列化方法,但这样重复代码太多,故考虑将序列化和反序列化方法泛型化。
基本知识
Avro 支持多种语言, 如 C, C++, C#, Java, PHP, Python 和 Ruby. 它使用 JSON 来定义 Schema, 通过工具可以由 Schema 生成相应语言的数据对象, 比如 Java 的 avro-tools.jar. 这样可以在跨进程跨语言透明的实现为对象交换.
下面举一个简单的例子
定义一个模式文件
1 | { |
这里定义了User对象,假设文件名为user.avsc
使用avro-tool生成java对象
1 | avro-tool-1.8.1.jar compile schema /path/to/user.avsc /path/generate |
生成的对象中包含完整的 Schema 定义内容, 可由静态方法 getClassSchema() 和实例方法 getSchema() 获得相应的 Schema, 所以拥有了这个对象类时就不再需要 user.avsc 文件了. 在它的父类 SpecificRecordBase 类中定义了抽象方法 getSchema()。
接下来我们可以看看在泛型化和非泛型时的处理方式。
未泛型化时的做法
序列化
下面的代码把一个 User 对象序列化为字节数组
1 | private static byte[] serializeUser(User user) throws IOException { |
反序列化
1 | private static User deserializeUser(byte[] data) throws IOException { |
从上面方法输出的字节数组中反序列化出相等的对象来, userDatumReader.read(new User(), binaryEncoder) 执行后的返回值与被更新后的第一个参数是一样的, 所以这个方法要是能写成 reutnr userDatumReader.read(User.class, binaryEncoder); 会好看些。
但是这种方法存在的问题也显而易见,当我们的对象类型很多时,我们就得为每一种类型写一个序列化和反序列化的方法,实现起来比较冗余繁杂,所以推荐使用下面的泛型化方法。
泛型化时的做法
java中的泛型方法
泛型方法,是在调用方法的时候指明泛型的具体类型。
定义泛型方法语法格式如下:
调用泛型方法语法格式如下:
说明一下,定义泛型方法时,必须在返回值前边加一个
Class
为什么要用变量c来创建对象呢?既然是泛型方法,就代表着我们不知道具体的类型是什么,也不知道构造方法如何,因此没有办法去new一个对象,但可以利用变量c的newInstance方法去创建对象,也就是利用反射创建对象。
泛型方法要求的参数是Class
当然,泛型方法不是仅仅可以有一个参数Class
为什么要使用泛型方法呢?因为泛型类要在实例化的时候就指明类型,如果想换一种类型,不得不重新new一次,可能不够灵活;而泛型方法可以在调用的时候指明类型,更加灵活。
针对上面的序列化和反序列化,我们的泛型版本如下所示
序列化
1 | /** |
反序列化
1 | /** |
总结
通过泛型化,我们可以只需要写一组序列化和反序列化函数,待运行时传入具体的对象类型,从而完成序列化和反序列化,使用此种模式,我们不需要为每个特定的对象类型生成序列化和反序列化函数,大大降低了代码的冗余性。