翻译世界上所有的网页


  个称为多灵哥(duolingo)的网站的创建者想利用正在学习特定语言的人们的努力,把世界上的网页都翻译成那些新的语言。

  如果这种方法听起来耳熟,那是因为,有一个类似的创意是被称为多重验证 (reCAPTCHA)的项目的基础,那个项目与这个新项目都是由同一位卡内基梅隆大学计算机科学教授发起的:路易斯·冯·安(Luis von Ahn)。

  一个多重验证就是一串显示给试图注册新账号或在网页上添加评论的用户看的扭曲文本;该文本来自计算机无法识别的经电子扫描过的打印体。为了获得许可,用户必须重新正确输入那些单词。每天有超过10千万条多重验证码解析。冯·安说,如果他能利用多灵哥多灵哥即使获得那个用户群的一小部分,比如一百万用户,他就能在80小时内把所有的维基英语词条翻译成西班牙文。

  尽管多灵哥站点还没有启用,冯·安说网站从现在起将进入“大约几星期”的内测阶段,但他还是透露了一些关于它如何运作的细节。基本前提很简单:给用户,即使是那些以前从未说过某种特定语言的用户,提供练习用的短词组。该系统通过定义词组中的一些单词来帮助用户。

  用户对该词组的翻译将由其他用户进行投票,最准确的翻译“获胜”。冯·安在卡内基梅隆大学最近一次TEDx大会的发言中说,其结果“和专业译员的翻译一样准确”。

  至于多灵哥作为语言老师的能力,冯·安说他的团队的测试表明,用户“做得和采用的其它方法一样好”。

  多灵哥超越其它语言工具的一大优势是:它是免费的。这意味着它的潜在用户是极大的,包括有计算机的任何人。最后,冯·安说,他想制造用手机能访问的系统,这将为它增加即使没有数十亿也有数十千万的潜在用户。

  “这些人是极聪明的。”克里斯多夫·奥唐奈(Christopher O'Donnell)说,他是语言学习软件制造商 透明度(Transparent)的前任产品主管,该公司用户包括美国国防部。“他们或许知道了极为优雅且惊人完美的某种东西,就像多重验证一样。如果他们开发语言的多重验证,那是意义重大的。”

  但多灵哥的成功将大部分依赖于该站点是否能留住用户。为了那个目的,该系统从2010年秋季起就被不断地测试和更新。

  “使之成功的绝大部分因素是,你只需要试验即可。除了反复试验没有别的。”一名卡内基梅隆的博士生兼多灵哥的首席架构师塞弗林·海克(Severin Hacker)说。

  最初,多灵哥将只发布三种语言版本:英语、西班牙语和德语。为该项目工作的8人团队原来打算处理更多种语言,但是他们很快发现,对任何一个团队成员都不是母语的语言的开发工作进展太慢。

  斯维林说,多灵哥的多语言本质是其开发工作的最大挑战之一。例如,使用英语键盘布局的用户,不能方便地生成其他语言中使用的特殊字符,诸如德语的变音符。因此,开发人员和团队的设计师不得不花费大量精力去修改界面,包括为这些字符开发一款快捷而直观的虚拟键盘。

  除了承诺免费语言指导,多灵哥将怎样吸引用户还不清楚。但是冯·安的许多以前的项目包含了休闲游戏,用来鼓励他们完成计算机本身无法做到的有用任务。(这是他开发的一种让用户标记图片变得有趣的游戏,后来被谷歌收购,现在还改进了谷歌图片搜索的可用性。)

  冯·安说:“保持积极性是学习一种语言时的困难事。大部分人都想学一种语言,但是最后难以进行。我们必须解决这个问题。”

  多灵哥成功的另一个阻碍是,它不像嵌入无数网站中的多重验证,多灵哥首先要求用户露面。冯·安说他不知道这是否会引起足够的注意,但是兴趣已经高涨。他说,那么多的人已经签名参加内测,以致“即使我们只有这些用户,我们也已经能够翻译大量内容了”。