这个问题看似简单,其实很复杂,至少涉及以下两方面:
1、不同字符编码格式中一个汉字占多少字节?
2、信息的可压缩性。
常见的中文字符编码,比如ANSI,Unicode,UTF-8,GB2312,GBK等。
ANSI与GBK编码,一个汉字占两个字节。这个最简单,10TB相当于10^13字节(硬盘厂商不是以1024计算的,而是1000),可以存储5x10^12个汉字,读出来就是5万亿。
UTF-8是Unicode的一种,是变长编码,通常汉字占三个字节,扩展B区以后的汉字占四个字节。我们按三个字符计算,可以存储3.3万亿字符。
考虑到压缩,ANSI编码的文本压缩后体积可以减少60%左右。相当于可以存储纯文本2.5倍的汉字。所以经过压缩后10TB的磁盘大约可以存储12.5万亿汉字。
1汉字=2字节
1000字节(B)=1kb
1024kb=1MB
1024MB=1G
1024GB=1TB
如此推算10TB大约等于10737418240000字节既是5368709120000汉字了。
=10*2^40/2=5497558138880(个)汉字
楼上的错!
一个汉字2byte!
1TB=1024GB
1GB=1024MB
1MB=1024KB
1KB=1024B
1KB能存储512个汉字,你自己算算?
1TB=1024GB,1GB=1024MB,1MB=1024kb,1kb=1024=b.一个汉字占两个B,所以为1024的4次方的一半,但实际上肯定存不了这么多,空格,回车符一样的要占空间,还有文件也要占空间