, 暮春三月,草长莺飞,IT业界层出不穷的传闻八卦也有如雨后春笋此起彼伏地涌入互联网。这边厢有所谓人事地震,那一处又陡传高管离职,于是人们奔走相告——灰色唷,黑幕呀,爆料喽,潜规则啦……
花开数朵,各表一枝,这一回要说的是Google拼音输入法剽窃事件。
这件事其实往简单里说也就一句话:Google新推出的互联网输入法涉嫌剽窃了此前Sogou推出的拼音输入法的词库。苦主声称在搜狗词库建立之初就加入了“词库指纹”,现在这些以员工姓名、绰号为印记的“指纹”原封不动地都出现在了Google输入法的词库中,甚至一些Bug词语也同样被克隆了。
输入“佟子健”对比:
Google输入法
搜狗输入法
输入“赵立洋”对比:
Google输入法
搜狗输入法
输入“郭博”对比:
Google输入法
搜狗输入法
输入“茹立云”对比:
Google输入法
铁证如山,口水四溅。一边看新闻后面那些慷慨激昂的评论,一边喝黄酒啃鸡翅,不亦快哉。
起初我想,“词库指纹”这个创新的说法当真又形象又精辟,还透着点生物识别的高科技味道,搜狗输入法小组的工程师们真是太有才了。但是不亦快哉之后啃了一个鸡翅,就忆起其实是有珠玉在前。
话说上个世纪九十年代初,我国汉字字符编码标准起草人
胡万进
先生就曾在“胡”字编码里嵌入了闻名遐迩的“胡万进印”四字,堪称数字签名用于知识产权保护的启蒙,只可惜当时没总结出个“字库指纹”的概念包装。再啃再想,类似词库指纹的做法在历朝历代流传的藏头露尾诗和字谜中也曾有所表现。啃了两个鸡翅就总结出词库指纹的创新性有折扣,欣欣然感觉自己也蛮有才的。当然,搜狗采取的版权保护策略能够师法自然,逾古出新,也算是难能可贵。
新建一个Microsoft Office Word(2000以上的版本)文档,在其中输入一个“胡”字(隶书或者幼园),将字号设大(值在100左右或将显示比例增大为500%),按鼠标右键,在菜单中选择“字体”,将其改为空心字,然后会发现,“胡万进印”四个字出现在“古”字旁的“十” 字中间
啃到第三个鸡翅的时候,看到有PCword也对此事予以长篇报道。但是粗略读过之后,感觉这样一件沸沸扬扬的事情翻译成English不仅起不到树国人志气的作用,反而是明珠投暗了。西洋人不仅没有“字”的概念,而且所有的词都是由有数的字母组成,要跟他们解释词的拼法和词频尚有剽窃抄袭一说,岂不是对牛弹琴么?
看到这里,大家对Google拼音输入法事件的认识是否又提升到了一个新的高度?
有关此事的另外一些观点,且待明天再与大家分享。
本文转自
alifafa 51CTO博客,原文链接: http://blog.51cto.com/chenghong/22935,如需转载请自行联系原作者