Java在处理大数据结构时,常采用的工具包为fastutil.

fastutil扩展了 Java集合框架,通过提供特定类型的map、set、list和queue,以及小内存占用、快速访问和插入;也提供大(64位)array、set 和 list,以及快速、实用的 二进制文件和文本文件的I/O类。它是自由软件,依照Apache许可证2.0发布,需要Java 6或更高版本。 

类实现其标准接口(例如, map 的 Map),可以插入现有代码。此外,它们还提供未在标准类的附加??功能(如双向迭代器) 。 

除了 对象和基本类型,fastutil类提供支持引用(references),即使用相等运算符,而不是比较对象的equals()方法。 

源代码由C预处理器生成,从一组驱动文件开始。您可以在查看javadoc生成的文档。尤其是概述说明中fastutil使用的设计选择。 

大数据结构 
使用fastutil 6类的一组新类,使得它可以处理非常大的集合,特别是其规模超过2 31 。大数组是数组的数组,由一个神奇的静态方如果是带有64为索引的单位数组; big list 提供64位列表索引,hash big set 的 大小是只受限于核心内存量。常用的方法来自java.util.Arrays,类似的类已经扩展到大数组:可查看Javadoc关于 BigArrays和 IntBigArrays 的文档,以获得通用和特定类型的可用方法 。 

http://fastutil.dsi.unimi.it/ 

虽然JCF(Java Collections Framework)在设计做的很好,但是从性能很功能上都有一定的局限性,所有出现很多的扩展JDK的集合框架出现,除了fastutil之外,主要的JDK集合框架的扩展还有以下这么多,他们都各自有各自的特点,各有所长: 



由于fastutil提供了相当丰富的类,所以类库很大,比如fastutil-6.4.3.jar就有14.5MB。但是他在性能上极佳! 



fastutil以存储的元素类型来划分package,每个package下都有丰富的Class。 


如: 


   List、BigList、Map、SortedMap、Set、Stack、Iterator...... 


  • it.unimi.dsi.fastutil.booleans
  • it.unimi.dsi.fastutil.bytes
  • it.unimi.dsi.fastutil.chars
  • it.unimi.dsi.fastutil.doubles
  • it.unimi.dsi.fastutil.floats
  • it.unimi.dsi.fastutil.ints
  • it.unimi.dsi.fastutil.io
  • it.unimi.dsi.fastutil.longs
  • it.unimi.dsi.fastutil.objects
  • it.unimi.dsi.fastutil.shorts



1、Int相关

 

Java代码  

Java 两组大数据量数据对比 java大数据组件_java



1. //===========IntList
2. IntList list = new
3.   
4. for(int i = 0; i < 1000; i++){  
5.     list.add(i);  
6. }  
7.   
8. //取值
9. int value = list.getInt(0);  
10. System.out.println(value);// 0
11.   
12. //转成数组
13. int[] values = list.toIntArray();  
14. System.out.println(values.length);// 1000
15.   
16. //遍历
17. IntListIterator i = list.iterator();  
18. while(i.hasNext()){  
19.     System.out.println(i.nextInt());  
20. }  
21.   
22. //===========Int2BooleanMap
23. Int2BooleanMap map = new
24.   
25. map.put(1, true);  
26. map.put(2, false);  
27.   
28. //取值
29. boolean value1 = map.get(1);  
30. boolean value2 = map.get(2);  
31.   
32. System.out.println(value1);// true
33. System.out.println(value2);// false
34.   
35. //===========IntBigList
36. IntBigList biglist = new
37.   
38. biglist.add(0);  
39. biglist.add(1);  
40. biglist.add(2);  
41.   
42. long
43.   
44. //取值
45. for(long index = 0; index < size; index++) {  
46.     System.out.println(biglist.getInt(index));  
47. }  
48.   
49. //===========IntSortedSet
50. IntSortedSet s = new IntLinkedOpenHashSet( new int[] { 4, 3, 2, 1
51. //获取第一个元素
52. System.out.println(s.firstInt()); // 4
53. //获取最后一个元素
54. System.out.println(s.lastInt()); // 1
55. //判断是否包含一个元素
56. System.out.println(s.contains(5)); // false




2、Long相关

 

Java代码  



1. Long2IntSortedMap m = new
2.   
3. m.put( 1, 5
4. m.put( 2, 6
5. m.put( 3, 7
6. m.put( 1000000000L, 10
7.   
8. System.out.println(m.get( 1 )); // 5
9.   
10. //当查找不到的时候,默认返回0
11. System.out.println(m.get( 4 )); // 0
12.   
13. //设置默认返回值
14. m.defaultReturnValue( -1
15. System.out.println(m.get( 4 )); // -1
16.   
17. //遍历Map
18. LongBidirectionalIterator key1 = m.keySet().iterator();  
19. long s = 0;  
20. while( key1.hasNext() ) {  
21.     s += key1.nextLong();  
22. }  
23. System.out.println(s); // 1000000006
24.   
25. //获取Key值小于4的子Map
26. Long2IntSortedMap m1 = m.headMap( 4
27. LongBidirectionalIterator key2 = m1.keySet().iterator();  
28. while( key2.hasNext() ) {  
29.     System.out.println(key2.nextLong());  
30. }