当前位置:   金科网 > 人工智能 > 正文

弹弹堂手游最帅时装,问道手游卡79职业,还原度最高的传奇手游,龙之谷手游怎么复活币,ipaid怎么玩安卓手游

在2018年的博鳌亚洲论坛中,除了主要议程外,最引人注目的热点是首次引进了人工智能进行会议中的即时口语翻译。然而,人工智能并没有出现原先大肆宣称的“让即时口译业界面对即将失业的威胁”,相反的,严重失误的翻译结果,反倒让即时口译从业人员松了口气,看来这行饭还可以吃很久。


《圣经. 旧约. 创世纪》第11章记载,在大洪水退去后,这世界上的人类都是诺亚的子孙,说同样的语言。那时人类开始合作,建造名为巴别塔的通天之塔。这个举动惊动了神,因此神让全世界的人类开始有了不同的语言,从此人类再也无法齐心合作。造通天塔的计划以失败告终,语言差异也成为了人类沟通时最大的障碍。也许是血液中仍有想要重建巴别塔的梦想,因此翻译就成为人类在过去千百年历史不断演进的重点文化工程。


语言的隔阂并不是那么容易打破的,尤其是要跨语言来理解同样的概念。人类历史上第一次出现跨语言的平行语料,是制作于公元前196年的罗赛塔石碑(Rosetta Stone),上面同时使用了古埃及文、古希腊文以及当地通俗文字,来记载古埃及国王托勒密五世登基的诏书。这也是翻译的重大里程碑。

基于规则的机器翻译

至于机器翻译的源头,可以追溯至1949年,资讯理论研究者Warren Weave正式提出了机器翻译的概念。五年后,也就是1954年,IBM与美国乔治敦大学合作公布了世界上第一台翻译机IBM-701。它能够将俄语翻译为英文,别看它有巨大的身躯,事实上它里面只内建了6条文法规则,以及250个单字。但即使如此,这仍是技术的重大突破,那时人类开始觉得应该很快就能将语言的高墙打破。


可能是神察觉有异,又对人类重建巴别塔的计划泼了一桶冷水。1964年,美国科学院成立了语言自动处理谘询委员会(AutomaTIc Language Processing Advisory Committee, ALPAC)。两年后,在委员会提出的报告中认为机器翻译不值得继续投入,因为这份报告,造成接下来的十来年中,美国的机器翻译研究几乎完全停滞空白。


从IBM的第一台翻译机诞生到20世纪80年代,那时的技术主流都是基于规则的机器翻译。最常见的作法就是直接根据词典逐字翻译,虽然后来也有人倡议加入句法规则来修正。但是老实说,翻出来的结果都很令人沮丧,因为看起来蠢到极点。因此,到了80年代这样的作法就销声匿迹了。


为何语言没办法套用规则?因为语言是极其复杂且模糊的系统,从字的歧义到各种修辞,根本不可能穷举出所有规则。但有趣的是,不少近期投身于自然语言的新创公司,仍然企图用穷举规则来解决中文语义,但这种想法铁定会是以失败告终的。


我在这举个例子来说明为何规则是不可行的。先别提翻译在两个语言转换的复杂性,光是从中文来说,“快递送货很快”这样的概念你能想到多少种讲法?10种?还是100种?在我们之前做过的自然语言统计数据来看,一共可能会有3600种讲法,而且这个数字应该还会随时间增加。光一个概念如此简单的句子就能有那么复杂的规则体系,若用到翻译恐怕规则量会是个惊人的天文数字,因此基于规则的机器翻译思路就成为了昨日黄花。

基于实例的机器翻译

在全世界都陷入机器翻译低潮期,却有一个国家对于机器翻译有着强大的执念,那就是日本。日本人的英文能力差举世皆知,也因此对机器翻译有强烈的刚性需求。


日本京都大学的长尾真教授提出了基于实例的机器翻译,也就是别再去想让机器从无到有来翻译,我们只要存上足够多的例句,即使遇到不完全匹配的句子,我们也可以比对例句,只要替换不一样的词的翻译就可以。这种天真的想法当然没有比基于规则的机器翻译高明多少,所以并未引起风潮。但是没多久,人类重建巴别塔的希望似乎又重见曙光。

基于统计的机器翻译

引爆统计机器翻译热潮的还是IBM,在1993年发布的《机器翻译的数学理论》论文中提出了由五种以词为单位的统计模型,称为“IBM模型1”到“IBM模型5 ”。


统计模型的思路是把翻译当成机率问题。原则上是需要利用平行语料,然后逐字进行统计。例如,机器虽然不知道“知识”的英文是什么,但是在大多数的语料统计后,会发现只要有知识出现的句子,对应的英文例句就会出现“Knowledge”这个字。如此一来,即使不用人工维护词典与文法规则,也能让机器理解单词的意思。


这个概念并不新,因为最早Warren Weave就提出过类似的概念,只不过那时并没有足够的平行语料以及限于当时计算机的能力太弱,因此没有付诸实行。现代的统计机器翻译要从哪里去找来“现代的罗赛塔石碑”呢?最主要的来源其实是联合国,因为联合国的决议以及公告都会有各个会员国的语言版本,但除此之外,要自己制作平行语料,以现在人工翻译的成本换算一下就会知道这成本高到惊人。