计算机存储信息的大小,最基本的单位是字节,一个汉字由两个字节组成,字母和数字由一个字节组成。
容量的单位从小到大依次是:字节(B)、KB、MB、GB、TB。它们之间的关系如下:
1TB=1024GB
1GB=1024MB
1MB=1024KB
1KB=1024字节
1GB=1百万KB
常用数据库的处理数量级
- Excel 2010 可处理行数据量104,8576,大概1百万
- Access数据库:每个数据库文件上限 2GB 假设每行记录1KB ,大概2百万条记录
- Mircrosoft sql server :百万级记录
- Mysql:5千万以上
- Oracle:千万级记录
几种关系型数据库的优缺点比较
1. ACCESS数据库
ACCESS是小型数据库、桌面数据库。
容易操作,使用广,成本低。
优点
存储方式单一
界面友好、易操作
缺点
网站访问频繁,经常达到100人左右的在线的时候性能就会急剧下降。
记录数过多,一般记录数达到10万条左右的时候性能就会急剧下降。
数据储存量小安全性不够高,加了用户级密码容易破解。
Microsoft Access数据库有一定的极限,如果数据达到100M左右,很容易造成服务器iis假死,或者消耗掉服务器的内存导致服务器崩溃。
使用场景
适合数据量少的应用,在处理少量数据和单机访问的数据库时是很好的,效率也很高。
2. SQL Server数据库
真正的客户机/服务器体系结构。
在这种体系结构中,包括多台计算机,其中处理应用程序,请求服务的计算机称客户机,处理数据库的计算机称为服务器
优势
1.安全性和可用性高。
2.超快的性能。
3.企业安全性。
4.快速的数据发现。
5.方便易用。
6.高效的数据压缩功能。
7.集成的开发环境。
劣势
1.开放性。只能运行在微软的windows平台,没有丝毫的开放性可言。
2.可伸缩性,并行性。并行实施和共存模型并不成熟,很难处理日益增多的用户数和数据卷,伸缩性有限。
3.性能稳定性。SQLServer当用户连接多时性能会变的很差,并且不够稳定。
4.使用风险。SQLServer完全重写的代码,经历了长期的测试,不断延迟,许多功能需时间来证明。并不十分兼容早期产品。使用需要冒一定风险。
5.客户端支持及应用模式。只支持C/S模式。
6.安全性。Oracle的安全认证获得最高认证级别的ISO标准认证,而SQL Server并没有获得什么安全认证。
使用场景
主机操作系统为window,主要用于web网站的建设,承载中小型web后台数据。在租赁的虚拟主机中一般会预安装SQL Server作为数据库软件。
3. MySQL数据库类型
开源的关系型数据库
小型关联式数据库管理系统
MySQL是一个快速的、多线程、多用户和健壮的SQL数据库服务器。
特点
其体积小
总体拥有成本低
开放源码
可运行在Windows平台和大多数的Linux平台上;
快速,轻量级,易于扩展,免费,跨平台;
可以同时处理几乎不限数量的用户;
处理多达50,000,000以上的记录;
命令执行速度快,也许是现今最快的;
简单有效的用户特权系统。
优点
使用C和C++编写,并使用了多种编译器进行测试,保证源代码的可移植性。
支持AIX、FreeBSD、HP-UX、Linux、Mac OS、NovellNetware、OpenBSD、OS/2 Wrap、Solaris、Windows等多种操作系统。
为多种编程语言提供了API。这些编程语言包括C、C++、Python、Java、Perl、PHP、Eiffel、Ruby和Tcl等。
支持多线程,充分利用CPU资源。
价格便宜:Mysql是开源的,所以你不需要支付额外的费用。
MySQL使用标准的SQL数据语言形式。
Mysql对PHP有很好的支持,PHP是目前最流行的Web开发语言。
缺点
比较的难学;
MySQL也缺乏一些存储程序的功能;
使用缺省的ip端口,但是有时候这些ip也会被一些黑客闯入;
使用myisam配置,如果你不慎损坏数据库,结果可能会导致所有的数据丢失。
使用场景
广泛地应用在Internet上的中小型网站中。
LAMP(Linux+Apache+Mysql+Php)。
mysql的优势在于免费,如果业务系统数据库不是极其庞大,可用mysql。
4. DB2数据库
优势
能在所有主流平台上运行(包括windows)。最适于海量数据。
具有很好的并行性。DB2把数据库管理扩充到了并行的、多节点的环境。
获得最高认证级别的ISO标准认证。
客户端支持及应用模式。
跨平台,多层结构,支持ODBC,JDBC等客户。
操作简单,同时提供GUI和命令行,在windowsNT和unix下操作相同。
使用风险
在巨型企业得到广泛的应用,向下兼容性好。风险小。
使用场景
性能较高适用于数据仓库和在线事物处理。DB2 超大型数据库,与ORACLE类似 ,数据仓库和数据挖掘相当的不错,特别是集群技术可以使DB2的可扩性能达到极致。
5. Oracle数据库
优点
1.能在所有主流平台上运行(包括 windows)。完全支持所有的工业标准。采用完全开放策略。可以使客户选择最适合的解决方案。对开发商全力支持。
2.安全性方面,性能最高。
3.采用标准的SQL结构化查询语言。
4.具有丰富的开发工具,覆盖开发周期的各阶段。
5.支持大型数据库,数据类型支持数字、字符、大至2GB的二进制数据,为数据库的面向对象存储提供数据支持。
6.具有字符界面和图形界面,易于开发。
7.具有数据透明、网络透明,支持异种网络、异构数据库系统。并行处理采用动态数据分片技术。
8.支持客户机/服务器体系结构及混合的体系结构(集中式、分布式、客户机/服务器)。
9.数据安全保护措施:没有读锁,采取快照SNAP方式完全消除了分布读写冲突。自动检测死锁和冲突并解决。数据安全级别为C2级(最高级)。
10.在中国的销售份额占50%以上,市场份额高。
缺点
管理维护麻烦一些;
数据库崩溃后回复很麻烦,因为他把很多东西放在内存里;
数据库连接要慢些,最好用连接池;
大对象不好用,vchar2字段太短,不够用;
管理员的工作烦,且经验非常重要;
对硬件的要求很高;
价格昂贵。
使用场景
大部分企事业单位都用oracle,在电信行业占用最大的份额。
6. Hadoop类型
一个分布式系统基础架构,由Apache基金会所开发。
Hadoop是在分布式服务器集群上存储海量数据并运行分布式分析应用的一种方法。
Hadoop被设计成一种非常"鲁棒"的系统,即使某台服务器甚至集群宕机了,运行其上的大数据分析应用也不会中断。此外Hadoop的效率也很高,因为它并不需要你在网络间来回倒腾数据。
特点
1.HDFS和MapReduce.HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
2.可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。
3.高效的,因为它以并行的方式工作,通过并行处理加快处理速度。
4.可伸缩的,能够处理 PB 级数据。
5.Hadoop 依赖于社区服务,因此它的成本比较低,任何人都可以使用。
hadoop大数据处理的意义
Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。
Hadoop的分布式架构,将大数据处理引擎尽可能的靠近存储,对例如像ETL这样的批处理操作相对合适,因为类似这样操作的批处理结果可以直接走向存储。
Hadoop的MapReduce功能实现了将单个任务打碎,并将碎片任务发送(Map)到多个节点上,之后再以单个数据集的形式加载(Reduce)到数据仓库里。
使用场景
Hadoop 的最常见用法之一是 Web 搜索。
- 在百度主要用于如下场景:
日志的存储和统计;
网页数据的分析和挖掘;
商业分析,如用户的行为和广告关注度等;
在线数据的反馈,及时得到在线广告的点击情况;
用户网页的聚类,分析用户的推荐度及用户之间的关联度。
Hadoop在淘宝和支付宝的应用从09年开始,用于对海量数据的离线处理,例如对日志的分析,也涉及内容部分,结构化数据等。