中文和英文哪个表达能力更强?二进制和十进制哪个更厉害?

作者:半瓶墨水   链接:http://www.2maomao.com/blog/chinese-vs-english-2-vs-10/

在这里不说哪个文化优秀之类的废话,从纯技术以及数学理论的角度来讨论

先说说中英文:

简单的想法:
常见的两字节Unicode中,一个中文字俩字节,一个英文字母一个字节,所以一个中文字的体积=两个英文字母的体积
两个英文字母的表达能力:26*26(空格和标点不算的),676个
一个中文字呢?Unicode里面有不少于20000个中文字,就算两万个好了
中文完胜

变数:
中英文字都有常用不常用之说,所以前面描述的仅仅是理论结果,虽然Unicode中文两万多,两万多Unicode中文字常用字才两千五,好吧,就算是两千,还是比英文的理论值(676)要多,差不多三倍。

有人不理解表达能力啥意思,好吧,举个例子:同样一本圣经(三百多万字),纯文本格式,则英文版放在电脑上大约3M左右,如果翻译成中文的,放在电脑上文件大小应该小于1M。
(只是个例子,三百多万字应该是指单词吧,没深入研究)

这个大概是为什么中文版与英文影印版相比都要薄一些的原因。
(不和原版比较的原因是:原版的纸质和中文版的有些差别,影印版则差不多)

在实际应用中,变数还有很多,比如不是每两个英文字母都有靠在一起的机会,有机会也不是同样的机会,汉字也是一样,这些变数算下去头发会白的很快,轻松一些好啊。

—————–作者脑袋被撞,思维暴走之分界线——————-

好吧,我把问题引申一下,十进制和二进制哪个表达能力强?八进制呢?十六进制呢?一百零八禁制呢?限制级呢?XXOO呢?……厄,忘了纯数学的角度了,不好意思啊,思维暴走有副作用啊

首先做个比方,大家估计都用过手提箱上的密码锁,就是有好几个转轮,每个转轮上有0-9是个数字,比如说有3个这样的转轮,那么密码的穷举范围就是1000,这也是三个十进制数的表达范围

好了,如果说我们现在有20个灯泡,我们用10个灯泡做一个转轮(漆成不同的颜色或标上0-9以示区别),那么这二十个灯泡的表达范围是多少?10×10=100喽

再来想想,如果拿两个灯泡做一个转轮,厄,好吧,我承认是难以想象了一点,但是只要想象力插上翅膀就行了~~~好,我们现在有20个灯泡,可以搞出10个这样上面只标着0和1的变态转轮!表达范围是……2^10=1024 !!! Oh Yeah,变态果然是非同凡响,比起十进制,好了十倍都不止啊,hiahia,知道为什么最近二进制的东东比较流行了吧

好吧,再来想想,4×5=20,也就是说4个数字的畸形转轮可以搞到5个,表达范围是4^5=1024,yeah,一样多!好,五个数字的畸形转轮,5^4=625

冷静,想想有什么趋势?100->625->1024->1024,似乎,有越小越好的趋势,2和4差不多,那么3呢?

不能整除?没关系,喂~路人甲,就说你呢,别光看着,先拿着这两个灯泡。各位,还剩18个灯泡,每个转轮上面有0/1/2三个数字的转轮我们可以个搞定6个耶~~~3^6=729,去,变态程度比不上两个的,表达能力又这么差~!等等,路人甲,别跑啊,把那两个灯泡还我,这样才能超过两性变态啊~~~~~~

那么,表达能力最强的,就是3进制了吗?
好吧,最后,只好动用我曾经最喜欢现在逐渐远离的公式来推导吧,直觉上,应该是自然常数E,为什么有这种直觉?因为我刚刚看过云风的这篇blog啊。不知道什么是E,或者是忘记e怎么来的,可以去看看这个帖子,就当温馨回顾了

首先,假设有M个灯泡,那么对于N进制,那么就有N^(M/N)这么大的表达能力,这个可以参照前面的例子进行理解
现在大家可以知道为什么四进制和二进制结果相同了:4^(M/4) = (2^2)^(M/4) = 2^(2*M/4) = 2^(M/2)

那么如何求最大是什么呢?好吧,或许忘记了很久了,那就是导数,如果不考虑整数的话,那么就是连续函数,那么最大点的导数应该是0
好了,N^(M/N)的导数就是…等我翻一下书先…

———————
翻书回来,555,好复杂
N^(M/N) = ( e^(ln(N)*M/N) )
让Y = ln(N) * M/N
按照复合函数求导法则, (e^Y)’ = e^Y * Y’
如果要该导数为零,那么必然是Y’=0
也就是:ln(N) * M/N 的导数是0
好吧,根据导数的四则运算法则,Y’ = (1/N * M/N) + (-ln(N)*M) / (N*N)) = (1 – ln(N)) * M / (N * N) = 0
Oh Yeah~~~唯一的可能是ln(N) = 1,也就是N=e
———————

公式化的世界真可怕,还是正常的推理世界浅显易懂啊

好的,摇摇脑袋继续

E约等于2.72,不是2也不是3,怎么办?进制毕竟是整数的世界啊,2和3到底哪个大一些?试试6个灯泡看看,2^3 = 8, 3^2 = 9,根据指数函数的性质,这个相对的大小不会根据M的变化而逆转,所以,还是3进制表达范围大啊,所以,二人世界虽然很好,3P才是王道,唔,为什么这么奇怪的看着我~~~一夫一妻一个孩不是国家大力宣传的吗?

三进制的路人甲:为什么三进制这么强大大家不采用呢?为什么二进制和十进制那么火?
路人乙:因为三进制虽然强大,但是不够好用啊,谁让人类长了十个手指头,又正好分为男女两类人呢?厄,你是个例外。。。

10 条评论 发表在“中文和英文哪个表达能力更强?二进制和十进制哪个更厉害?”上

  1. 路人甲说道:

    好文,赞一个!

  2. 兔毛猫说道:

    @路人甲
    哎,这篇文章思量良久写就,终于有人欣赏 😀

  3. 三进制说道:

    没有忽悠我吧

  4. ==说道:

    😀 LZ一边推理一边还不忘YY啊,两不误啊~ :v 以娱乐的心态来解释数学似乎更容易让人接受

  5. ==说道:

    临走再来一句,LZ的头像咋也这么YD呢, :d 无限YY···8过看8出性别啊,嘿嘿~继续Y 😀 ···

  6. 山猫说道:

    好文,赞一个!

  7. sdpfoue说道:

    这篇也是好文

  8. Betty说道:

    后面的不错,前面说中文英文的有点问题,或者说,不够严密。
    表达同样的意思,中文用的字其实比英文用的单词多,大约是3:2。但英文单词平均长度约为5个字母,所以中文用的字肯定比英文用的字母少。在计算机中一个汉字占两个字节,印刷中一个汉字的宽度也大约相当于两个字母,所以中文文章占的计算机空间、书的体积比英文的少。然而,一个汉字图形上的复杂程度一般是超过英文两个字母的,所以印刷时所费的油墨、电脑显示时所用的像素和费的电,到底谁多还不一定 :p

  9. 仰望世界小白鼠说道:

    讲的真好,醍醐灌顶。

  10. 仰望世界小白鼠说道:

    但是仍有一个问题,从哲学的角度讲,为什么e这么重要的数,数值是2.782818459……这么不三不四的呢。。。还有π,3.1415926…..我才疏学浅,大胆猜想一下。Pai和e所处的次元和我们不同吧,所以从我们现行这个二进制或是十进制的角度看显得毫无规律和章法……

留下回复