神奇的”锟斤拷”

今天发现一个冷知识,可能大家都知道了,不过个人感觉挺好玩的,就分享给大家:

在数据端得到的用户分布行为路径数据里,会看到类似这样的链接:

iknow:http://zhidao.baidu.com/search?word=����  &lm=0&site=-1&sites=0_14&date=2&ie=gbk

链接打开后显示是在zhidao里搜索“锟斤拷锟斤拷”

查阅后发现:

Unicode和老编码体系的转化过程中,肯定有一些字,用Unicode是没法表示的,Unicode官方用了一个占位符来表示这些文字,这就是:U+FFFD REPLACEMENT CHARACTER。那么U+FFFD的UTF-8编码出来,恰好是 ‘\xef\xbf\xbd’。如果这个’\xef\xbf\xbd’,重复多次,例如 ‘\xef\xbf\xbd\xef\xbf\xbd’,然后放到GBK/CP936/GB2312/GB18030的环境中显示的话就是“锟斤拷——锟(0xEFBF),斤(0xBDEF),拷(0xBFBD)”。

看来“锟斤拷”是一串神奇而经典的乱码,不过根据数据端统计结果,所有的“锟斤拷”都出现在iknow链接中,看来百度知道在这方面还是需要有所改进呢~

发表评论