2)第60章 给词语一个向量_学霸的黑科技时代
字体:      护眼 关灯
上一章 目录 下一章
  很多时候单词的词语意思准确,但是放在句子中笑话百出。

  还一个是无法识别人类的语音。这主要出现在翻译机上,每个人有很多种口音,生活中的对话有很多的俚语,人和人之间对话时绝对不可能像央视主播那样每句话都是语言要素齐全,语音标准。

  机器翻译在很多时候都会捡着听得懂的翻译,听不懂的乱翻译。这也是很多品牌的翻译机拿到国外去应用的时候让顾客感到并不顺心,翻译机更不能作为会议同声翻译的原因。

  为了处理上面两个主要问题,萧铭按照说明书的建议项,编辑着。

  萧铭采用数学的思维,将每个词语设定为向量,并且分类为名词、动词等等。

  将词语设定为向量的好处就是讲长难句进行肢解,翻译软件处理时会将每个词语准确的翻译。

  接下来就是按照语言的语境筛选组合,将不同的词语按照翻译对象需要的语法和含义进行组合,并对缺少的语法要素进行补足。

  在盘古编程语言的提示下,萧铭知道自己编程的逻辑是正确的。

  但是逻辑正确只是第一步,怎么让拥有向量的词语按照语法组合为新的语句,这个很难,这也是现代翻译软件和机器最大的难点。

  没有关系,这是盘古最擅长的。

  盘古给了萧铭几个接入入了口。

  萧铭将导入大量的中英文资料,资料不仅有名著更有口水话表达的网路小说、贴吧问答、微博、推特文章等等。

  未来这些资料会可以由用户们自己上传,优化程序的准确性。

  盘古的数据库能将整合这些资料,熟悉每一个句子的语境,然后整理出数据模型(模拟出汉语和英语等人类思维表达方式的模型)。

  这些数据会帮助“词向量”在不同的语境和语法中出现在合适的位置,如此翻译会更加准确。

  这项工作最大的难点就是编译量非常大!

  所以现今市面上现存的翻译软件都是采用语言学家总结的语法库,即便有少部分软件有自我学习功能,也不能做到了解和统计当今所有的语言习惯并对其作出分析。这也是现有翻译软件机械不智能错误百出的原因。

  剩下的一些接口,萧铭将其接入全国各地的免费直播间,直播间主播有用普通话有用地方语言,也属于口语的表达,最具有代表性。

  盘古语言将搜集各地的语音和语气将其归类编译,最后形成语音数据库和文字库相对应。

  盘古编程使用方式很简单,不需要输入代码,只需要告诉逻辑意图,当萧铭告诉逻辑和方式之后,编程语言就可以明确运行。

  然后……

  然后计算机卡死了,卡得发烫!

  萧铭废了半天功夫心血化为乌有。

  劳资……

  萧铭购买的笔记本是华硕的普通笔记本,用的是i78550u处理器。

  笔记本的处理器处理如此大量的数据,不卡死才怪!

  萧铭看了下时间,已经凌晨三点。

  “我需要一组服务器。”萧铭说道,随后他躺在床上继续思考着语言翻译和英语学习助手软件的逻辑性问题。

  接下来的几天,萧铭在学校很沉默。

  除了做必要的数学和理综练习题以外,大部分时间都在做英语阅读和语文阅读。

  学校小组的成员都知道萧铭在水木大学老师离开之后心情不怎么好,都没有去打扰他。

  几天之后,萧铭问老爹要了十万块的经费,直接网购了四组英特尔XeonE5-2603v4芯片组建的服务器主机,并且联系人上门安装。又花钱开通了企业光纤专线。

  萧铭看着白花花的银子今天时间就花没了,也是肉痛。

  两个行业绝对是暴利!

  一个是英特尔的芯片行业,一个是电信的通讯行业!

  安装服务器的年轻师父看着几天没睡好觉有些沧桑猥琐的萧铭,偷偷说道:“建直播网站?小兄弟,现在风声紧,服务器好还是租用海外的好点,自己建设风险大!”

  萧铭无语,“那你要不要先充个会员?可以一对一。”

  师父嘿嘿笑了两声说道:“不了不了。”

  请收藏:https://m.shw9.cc

(温馨提示:请关闭畅读或阅读模式,否则内容无法正常显示)

上一章 目录 下一章