物极必反 = Taiwan independence?
远骋同学前两天关于 Google Translate 的一个有趣发现今天辗转到了 cnbeta 并被置顶, 下面的评论自然大多数是问候 Google 的祖宗八代的了. 远骋发贴的本意自然不是如此, 无奈被 “愤青” 们用做他用了.
Google 的翻译工具尤其是中译英工具确实是很不成熟的, 这点 Google 从来都没有否认. 而且, Google 也没有给与哪个词汇特别的优先权, 不是说中国人不喜欢听 “台独” 两个字, Google 就不会在翻译结果中排除掉它们. 在我看来 Google 把 “物极必反” 错翻成 “taiwan independence”, 和把我的名字错翻成 “wangdunyu”, 把北大翻译成 “beijing university” 一样, 都不是什么了不起的错误.
那么物极必反到底是怎么和台独扯上关系的呢? (我不是技术人员, 我也不怎么懂技术, 更谈不上 “拿技术忽悠人”, 以下是我自己的一些猜测, 如果你有兴趣的可以再阅读一些关于 Google Translate 的介绍, 比如 Google Blogoscoped 和 csmonitor.com 上的这篇) 按照我的理解, Google 是通过自动学习同一篇文档的不同语言版本来建立自己的翻译对应的. 这些文档包括联合国的语料库, 各种书本的不同语言版本, 当然还是互联网上的资料. 打个比方, 我们这里有人民网的中文版, 又有人民网的英文版, 假如两者对应得更好一些, 两相对照, 就能知道很多中文词在英文里面是怎么说的了.
虽然 Google 的机器翻译已经是史上最好的了, 但由于目前技术水平的限制还是有很多不足之处. 在机器学习的过程种就可能会出很多问题, 比如不正确地 “配对”. 我猜测 “物极必反” 和 “Taiwan independence” 的对应就是在某篇类似这样的文章中被学习回来的. 这样的说法不陌生吧: “正所谓 ‘物极必反’. ‘台独’ 势力的倒行逆施终于遭遇到了台湾民众的强烈反弹, 要求发展两岸关系的台湾民意日益高涨.”
机器是不会讲什么政治正确不正确的, 应该明白这一点. Google 能做的就是不断改进算法, 当然也可以根据中国大陆的特殊需要做一些针对特殊词汇的特殊优化, 这是没有办法的事情.
另外我也可以发送 Joost 邀请, 有需要的留邮箱地址.