因此小语种的另一种定义就是指英语以外的其它语种,日语是粘着词

 概况     |      2020-03-25 00:18

英语翻译公司 纵观翻译思维特征发布于:2013-08-16 14:45发布人:来源: 高度综合性(synthetical):以逻辑思维为主、以形象思维为辅、以跨语言表现为目的,翻译从来不是简单的活;(3)高度创造性(creative):英语翻译公司认为跨语言表现没有现成的路可走,译文每一个词、每一句话都得自己动脑子想;b翻译的审美艺术性说到底是一种创作,无时无刻不在“择善从优”,从每一个词、每一个句子、每一个语段到每一个篇章,处处要求运用审美判断。上海唐能翻译咨询有限公司上海市镇宁路200号欣安大厦东楼8楼(总部)邮 编 200040热 线400-693-1088电 话+86 21 6279 3688 传 真+86 21 6289 4308邮 箱talkingchina@talkingchina.com

细看日汉语法的差别发布于:2013-08-06 15:29发布人:来源:唐能翻译公司点击量:375日语翻译公司认为,词汇知识构成语言的材料,它只有接受语法规则的支配时才会有使用的价值。语法是词的变化规则和用词造句规则的综合。每一种语言都有自己的词法和句法的规则,因此,在翻译中正确地处理各种语法现象,也同正确处理词汇现象一样,是准确地表达原文思想必不可少的前提,同样具有重大的实际意义。日汉语法存在着很多差别,日语翻译公司总结出主要有以下几点:一、汉语是孤立语,词与词之间的关系、词在句中的地位,主要靠词序和虚词来表达;日语是粘着词,单词在句中的智能,主要依靠助词、助动词的粘着;二、日语的用语部分(动词、形容词、形容动词)也有词尾变化(活用),这种变化主要靠动词、助动词来体现。日语词在句中的地位比较灵活,各种形态变化,又给词增添新的含义。而汉语却没有这种变化,主要是靠虚词来给词增添确切的意义。三、日语的体验部分(名词、数词、代词)与汉语的名词、数词、代词有很多相似之处,但又有所不同,在表示名词的性、数上都不一样。此外,在日语翻译时,数词在倍数上表现方法也不相同,特别是日语名词又有敬谦之分。四、日汉两种语言的语序不同,汉语语序是:主—谓—宾(补),日语却是:主—宾(补)—谓。因此,日语翻译公司提醒大家在翻译时,绝对不能追求语法形式上的雷同,而应求得表达效果上的相等。在正确理解原文的基础上,必须注意译文的语言习惯。上海唐能翻译咨询有限公司上海市镇宁路200号欣安大厦东楼8楼(总部)邮 编 200040热 线400-693-1088电 话+86 21 6279 3688 传 真+86 21 6289 4308邮 箱talkingchina@talkingchina.com唐能官网:

导语

近年来,机器翻译有了长足的进步,这是自然语言处理与人工智能的一次重大飞跃。Google的神经翻译机器(Google Neural Machine Translation,简称GNMT)在很多语言上的翻译表现已经接近了人类翻译的水平。本次课程就是介绍Google的GNMT的主要原理和相关技术。

对于翻译公司译员来说,尤其是口译,不但要求译员有较高的翻译水平,临场的随机应变能力也是非常关键的。接下来,小编和大家一起来探讨一下口译中常遇到的困难。

图片 1

背景

所谓的机器翻译可以看作是如下这张图:

图片 2

我们的翻译机器就是其中带有问号的黑箱,它的作用就是能够将一个语言的序列(如Economic growth has slowed down in recent years)转化成目标语言序列(如La croissance economique sest ralentie ces dernieres annees)。其中翻译机器在正式工作之前可以利用已有的语料库(Corpora)来进行学习和训练。

所谓的神经网络机器翻译就是利用神经网络来实现上述的黑箱翻译机器。基于神经网络的很多技术都是从Bengio的那篇开创性论文(一种神经网络的语言模型)衍生出来的。它的架构如下图所示:

图片 3

其中,我们用一个神经网络替换了上图中的黑箱。在神经网络中存在着大量的链接权重,这些权重就是我们要通过数据训练、学习的参数。训练好的神经网络可以将输入的源语言转换为输出的目标语言。我们要让神经网络学习的目标就是要能准确的翻译。这里的准确是指机器生成的语句是比较符合我们人类的说话习惯的。这里的log p(f|e)就是指给定源语言后机器所产生的语言f的概率,我们希望这个概率对于实际的数据来说越大越好,这就是所谓的语言模型。

基于神经网络的机器翻译模型的一个最大的优点就在于它不需要我们用复杂的特征工程去设计其过程中的环节,也就是所谓的End2End(端到端)的模型。这种模型设计还可以避免中间环节的误差累计。

最近几年神经机器翻译的准确度就一直在提高,尤其是到2016年Google的GNMT的大突破。GNMT主要涉及的技术包括:

编码解码框架(2014年中期提出)

注意力机制(2014年末提出)

外存(2015年新星)

残差网络(2015年新星)

其它辅助手段(2016年新技术)

我们这节课主要介绍前面的四项基本技术,它们都代表着深度学习人工智能技术的最前沿。最后一个辅助手段是属于一种锦上添花的技术。

  1. 数字的翻译

小语种,顾名思义就是相对西班牙语、英语这种应用很广泛以外的语言,只在少数国家应用的外语语种。对小语种的定义一般有两种,我们常见的小语种通常是指除联合国通用语种(汉语、英语、法语、西班牙语、俄语、阿拉伯语)外的所有语种。还有一种认为英语是通用语种,其它语种都是非通用语种,因此小语种的另一种定义就是指英语以外的其它语种。那么北京中慧言翻译公司小语种翻译收费标准有哪些呢,简单介绍:

编码-解码框架

图片 4

编码-解码框架如上图所示其中 - W的左侧为编码器,它的右侧为解码器。A,B,C,表示的源语言的输入序列,X,Y,Z,表示的是翻译机器给出的目标语言输出序列。表示的是一句话的终结符。W为编码器对输入的语言序列A,B,C,的编码向量。图中的每一个框表示的是一个时刻展开的RNN(Recurrent Neural Network或者LSTM)神经网络。

这种编码-解码结构模拟了人类大脑翻译的过程,就是先将听到的语言存储在脑子里,然后再根据脑子中的理解给出目标语言的输出。在这里,W向量就模拟了大脑中存储的读取源语言对应的向量。

这种架构还将语言理解和语言模型联合到了一起,最终实现了端到端的机器翻译。另外,这种编码-译码结构还极其具有灵活性,它可以应用到图像标注、视频、词语等任务中。另外,这种架构还可以很好地结合外部语料,具有很好的可扩展性。

迅速地翻译数字对中国人来说不容易。这是因为汉语和英语表达数字的方式不同。汉语是个、十、百、千、万、十万、百万、千万、亿、十亿……,也就是以“十”的倍数来表达;而英语则是在数字超过千以后,以“千”(thousand)的倍数来表达的。如“一万”是“十千”,即ten

小语种翻译大约有以下语言种类:

编码器

图片 5

这张图展示了编码器的详细架构。在这里从下到上有三个层,第一层是词向量嵌入,它可以根据输入的单词向量通过查找编码表得到压缩维度的单词表征向量(第二层),之后输入给第三层,这是RNN递归单元的状态。

thousand;“十万”是“百千”,即hundred

西方:德语、法语、西班牙语、意大利语、葡萄牙语、俄语、乌克兰语、瑞典语、捷克语、阿尔巴尼亚语、波兰语、塞尔维亚语等。 亚非:波斯语、泰语、朝鲜语、韩语、越南语、阿拉伯语、日语、印尼语、印地语、马来语、缅甸语、僧伽罗语、豪萨语、斯瓦希里语等。

解码器

接下来,在让我们看解码端。在这里最底层紫色的节点表示由编码端计算出来的隐含层节点状态,它就相当于是对输入的源语言的编码向量。之后,我们将这个信息输入给解码器的RNN单元,之后到第二层,解码器会根据RNN单元计算概率向量。即对于目标语言单词表上的每一个单词的概率是多少。最后,在第三层,我们再根据这个计算得到的概率采样生成目标语言。

图片 6

然而,当我们回顾整个编码-解码过程就会发现,机器翻译的本质就是先将源语言的句子编码成一个向量,然后再将这个向量映射为目标语言,然而这种编码是将句子压缩成向量,显然会损失很多信息。于是,我们便需要引入新的机制来解决这个问题。

thousand,直至“百万”(million)。百万以上的数字则用“百万”的倍数表达;如“千万”是“十百万”,即ten

针对小语种翻译的收费有多方面的因素,首先所需翻译的行业或内容的难易程度是收费标准的关键因素,专业而且难度较大的内容翻译收费自然会比较高,若是日常信息的翻译,则收费会比较低。

注意力机制

为了解决由解码器引入的过分的信息压缩问题,人们引入了注意力机制以解决问题。在这里,注意力机制是加入到编码器和解码器之间的。如下图所示:

图片 7

编码器先将编码后的信息输入给注意力机制,注意力机制再将处理过的编码传递给解码器。那么,注意力机制是如何发挥作用的呢?让我们看下面的图:

图片 8

在这张图中,我们展现了一个法语句子翻译为英语句子的过程,其中连线代表的是在单词这个层面,两种语言的对应和关联,例如英语的Economic对应的法语是economique。由于两种语言在表达的时候单词的语序是不一样的,所以当我们按照一个给定的顺序翻译一个单词的时候,必须先找到与这个单词相关的源语言单词是哪一个。那么,注意力机制就解决了这个问题。

所谓的注意力机制实际上就是一种动态地分配权重的机制。如下图所示:

图片 9

在这里h1,h2,...,hT表示解码器端在接受源语言向量x1,x2,...,xT的时候得到的隐含层状态向量,为了尽最大努力保留信息,人们采用了双向RNN,也就是分别从正向和反向读入原始的词序列,并计算得到隐含层的状态向量。然后,我们将这些正向的向量和反向的向量对应地编成一组,也就是同一个输入单词分别从正向读取和反向读取得到的对之前信息的编码。之后,注意力机制就会为这些状态向量分配权重,这些权重就是at,1, at,2, ..,at,T。将隐含层的状态向量加权求和就得到了输入给解码器的向量需要注意的是,这些权重at,T是随着时间t而动态变化的。那么,at,T的数值是怎么取的呢?在GNMT中,权重是按照如下函数计算的:

图片 10

其中AttentionFunction是一个从整个机器的输入信息和输出信息决定注意力分配权重的函数,它也是一个可以训练的神经网络。这里yi-1是解码器的输出,xt是网络的输入,由st再经过后面两步的变换就得到了最后的权重值向量ai。

事实上,现在注意力机制也是一种通用的机制被广泛地应用于其他领域之中。比如:

图片 11

这张图展示了机器在做阅读理解的时候,注意力在一篇文章不同短语部分上的注意力分配权重。

图片 12

这张图则展示了机器在做图片标注的时候注意力在图像不同区域上的分配情况。其中,左上角的为原始的输入图片,之后的每一张图都是机器在吐出不同的标注词语(在图片的左上角显示)的时候,注意力在图片上的分配情况。

关于记忆机制我们将在下一节课中讲解。在这里,我们介绍第三个机制:残差网络。

残差网络(Residual Network)

图片 13

所谓的残差网络就是一种跨层次的链接机制。如上图所示,被灰粉色遮蔽的部分就是使用了残差网络机制的网络链接。注意,原始网络中,每一个跨层次的链接都仅仅链接上下两个层次,但是在这里由x10到+号的链接就是这种跨层次的残差网络机制链接。

有了这样一种跨层次链接的机制就使得网络可以做得很深很深,从而实现了深度上的革命,而且可以让准确率得到非常显著的降低。那么,残差网络是如何实现这种跨层次链接,同时又加速网络学习的呢?让我们看下图:

图片 14

我们知道,其实神经网络就是一个从输入到输出的函数。那么对于一个局部的两层的网络来说,它也可以被看作是一个小型的函数。我们不妨记这个小型的网络是H(x),它恰恰就是我们的两层网络要学习的函数。

我们不妨可以把这个函数分解为两部分,一部分是直接从输入端输入进来的信号x,以及一部分剩余的量(残差)F(x),而这部分残差F(x)就可以交给这两层网络来学习。这样,当我们的网络逼近F(x)函数的时候,我只需要加上输入信号x就可以自然得到我们想要的函数H(x)。

那么,我们为什么要把H(x)拆成F(x)和x两部分呢?答案就在于,当我们直接把输入信号x导入给输出节点+的时候,我们实际上创造了一个信息传输的捷径,这就可以大大节省训练这个局部小网络的世界。当然,这里面的前提是说,在大多数情况下,正确的H(x)函数是和x这个信号具有类似的数量级的。所以,我们创造了捷径后,网络只需要做微调,以学习实现一个残差函数F(x)的神经网络就可以了。

有了这种残差的机制,我们就可以让信息更快地通过网络,从而大大地节省了网络训练的时间,这也就自然可以让我们将网络的层次加深,这就是残差网络的基本原理。

有了残差机制,现在的网络可以深到1000层之多。

million;“亿”是“百百万”,即hundred

北京中慧言翻译公司小语种翻译报价与所需翻译的语言种类以及稿件的长短也有直接关系,小语种翻译服务收费标准较高,英语或者是中文的翻译服务收费标准较低,越长的稿件翻译需要的费用越高,因为专业的翻译服务公司都是根据字数的多少来收取费用的。