JAVA 方面
1.Jsoup--Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容
2. HttpClient--网页抓取
3.Java爬虫webcrawler --网页抓取
4.Lucene--是一个开放源代码的全文检索引擎工具包
5.WEKA--基于JAVA环境下开源的机器学习以及数据挖掘软件
6.Mahout -提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括集群、分类、推荐过滤、频繁子项挖掘。
7.Hadoop 是最受欢迎的在 Internet 上对搜索关键字进行内容分类的工具
8.JSON(JavaScript Object Notation)是一种轻量级的数据交换格式
内存数据库方面
H2是一个短小精干的嵌入式数据库引擎sqlite-是一款轻型的数据库,它的设计目标是嵌入式的
Memcached 是一个高性能的分布式内存对象缓存系统,用于动态Web应用以减轻数据库负载。
非关系型数据库方面
1.Membase -是 NoSQL 家族的一个新的重量级的成员。
2.Mongo最大的特点是他支持的查询语言非常强大,其语法有点类似于面向对象的查询语言
3.Apache Cassandra是一套开源分布式Key-Value存储系统。它最初由Facebook开发,用于储存特别大的数据。Facebook目前在使用此系统。