一個(gè)令人苦惱的事實(shí)是,英文網(wǎng)頁(yè)的數(shù)量不知道比中文網(wǎng)頁(yè)多到哪里去,而公共知識(shí)庫(kù)維基百科中,英文詞條也遠(yuǎn)比中文詞條豐富。如果是英文苦手,又想避開(kāi)可能被廣告占領(lǐng)的某度百科,就只能借助翻譯工具了。 2014年底Skype翻譯公布預(yù)覽版,后來(lái)逐漸支持?jǐn)?shù)十種語(yǔ)
一個(gè)令人苦惱的事實(shí)是,英文網(wǎng)頁(yè)的數(shù)量不知道比中文網(wǎng)頁(yè)多到哪里去,而公共知識(shí)庫(kù)維基百科中,英文詞條也遠(yuǎn)比中文詞條豐富。如果是英文苦手,又想避開(kāi)可能被廣告占領(lǐng)的某度百科,就只能借助翻譯工具了。
2014年底Skype翻譯公布預(yù)覽版,后來(lái)逐漸支持?jǐn)?shù)十種語(yǔ)言的語(yǔ)音及文本實(shí)時(shí)互譯;2006年Google推出在線翻譯工具,目前已支持103種語(yǔ)言,覆蓋99%的網(wǎng)民。不過(guò)使用過(guò)就會(huì)發(fā)現(xiàn),它們還只能算差強(qiáng)人意,譯文不準(zhǔn)確,也無(wú)法用于內(nèi)容出版。以Google為例,它經(jīng)常會(huì)詞不達(dá)意,甚至違背語(yǔ)法規(guī)則。這是因?yàn)镚oogle機(jī)器翻譯用的是基于統(tǒng)計(jì)分析的算法,需要豐富的語(yǔ)料庫(kù)才能有較好的效果,而這顯然與人類對(duì)語(yǔ)言的理解不同。
那機(jī)器翻譯就不堪重用嗎?也不是。
石家莊網(wǎng)絡(luò)建設(shè)獲悉,在新聞?lì)I(lǐng)域,機(jī)器人已經(jīng)能自動(dòng)生成稿件,數(shù)秒內(nèi)就能將重要資訊傳達(dá)給用戶,不過(guò)還僅限財(cái)經(jīng)等句式規(guī)范的內(nèi)容。機(jī)器翻譯也是如此,商鵲網(wǎng)就認(rèn)為,機(jī)器翻譯雖然遠(yuǎn)未達(dá)到成熟,但在科技專利等垂直領(lǐng)域可以取得突破。
什么樣的機(jī)器翻譯,比Google還要占優(yōu)?
skype翻譯
在翻譯上,商鵲網(wǎng)主要為垂直領(lǐng)域(專利、跨境電商和境外投資等)提供機(jī)器翻譯引擎產(chǎn)品,應(yīng)用在譯后編輯工作模式中;并以譯后編輯(通過(guò)少量人工修改以完善機(jī)器的翻譯)平臺(tái)提供人機(jī)交互翻譯服務(wù)。
此外,商鵲網(wǎng)還有在線術(shù)語(yǔ)管理平臺(tái)“語(yǔ)帆術(shù)語(yǔ)寶”和開(kāi)放詞典網(wǎng)站“一本詞典”等產(chǎn)品,并為客戶提供技術(shù)服務(wù),如語(yǔ)料對(duì)齊工具。
其核心技術(shù)在以下幾個(gè)方面:
完整的機(jī)器翻譯技術(shù),覆蓋了自然語(yǔ)言處理技術(shù)的各個(gè)層面(詞法、句法、語(yǔ)義),主要組成部分(分詞、術(shù)語(yǔ)提取、句法分析、語(yǔ)言模型、語(yǔ)義分析等)和主要技術(shù)方案(基于統(tǒng)計(jì)、基于實(shí)例、深度神經(jīng)網(wǎng)絡(luò)等)
人機(jī)交互翻譯技術(shù),目前應(yīng)用的是適合行業(yè)用戶水平的譯后編輯技術(shù);
術(shù)語(yǔ)提取技術(shù)和術(shù)語(yǔ)管理系統(tǒng),這是實(shí)現(xiàn)知識(shí)圖譜和智能知識(shí)管理的基礎(chǔ);
完整的數(shù)據(jù)采集、加工和應(yīng)用工具、流程及系統(tǒng)。
雖然工廠、寫(xiě)作及翻譯上的自動(dòng)化水平越來(lái)越高,但機(jī)器翻譯還遠(yuǎn)未達(dá)到成熟水平(用過(guò)Google和有道翻譯的應(yīng)該有同感)。讓機(jī)器學(xué)會(huì)翻譯不是件容易的事,語(yǔ)言有很大的復(fù)雜性,一些用詞與表達(dá)往往有多種含義,再加上語(yǔ)序的變化,想想也是為難機(jī)器人,畢竟人類之間也經(jīng)常發(fā)生誤解。
相比之下人機(jī)交互翻譯更成熟也更實(shí)用。而且通過(guò)反饋的方式,可以提高系統(tǒng)的智能化水平。這也是商鵲網(wǎng)使用人機(jī)交互翻譯,并專注特定領(lǐng)域的原因。
這種方式也讓人想到Facebook的人工智能服務(wù)“M”。M能提供訂餐這樣的連續(xù)對(duì)話服務(wù),這是因?yàn)樗斜环Q為“訓(xùn)練員”的人工輔助,遇到無(wú)法處理的信息時(shí)會(huì)由教練處理。這樣人工智能可以輔助人工后臺(tái),反過(guò)來(lái)人工后臺(tái)會(huì)訓(xùn)練人工智能。
商鵲網(wǎng)表示,在對(duì)自然語(yǔ)言處理*為重要的語(yǔ)料數(shù)據(jù)上也有持續(xù)的積累。在專利等領(lǐng)域,它們已經(jīng)有了大規(guī)模雙語(yǔ)語(yǔ)料和雙語(yǔ)術(shù)語(yǔ)庫(kù)。2013年啟動(dòng)的人工譯后編輯項(xiàng)目,也為其積累了大量人工反饋和行為數(shù)據(jù)。對(duì)比Google在專利領(lǐng)域的翻譯,商鵲網(wǎng)認(rèn)為,雖然Google在句式表達(dá)上占優(yōu),但自己在術(shù)語(yǔ)準(zhǔn)確度上有優(yōu)勢(shì),因?yàn)槊磕暧谐^(guò)2億字的人機(jī)專利翻譯業(yè)務(wù),這對(duì)提高翻譯引擎的準(zhǔn)確度十分重要。
無(wú)論是圖像識(shí)別還是自然語(yǔ)言處理,數(shù)據(jù)集對(duì)人工智能至關(guān)重要,反饋越多,系統(tǒng)迭代也越快,準(zhǔn)確性也越高。
對(duì)于當(dāng)紅的深度學(xué)習(xí)技術(shù),商鵲網(wǎng)也在將較為成熟的技術(shù)如WordEmbedding等應(yīng)用于技術(shù)研發(fā)中,并在克服翻譯效果、時(shí)空性能和用戶體驗(yàn)之間的平衡等問(wèn)題,在垂直領(lǐng)域取得突破?;蛟S再過(guò)不久,機(jī)器就不再需要人類協(xié)助翻譯了吧。