Google I/O全程炫技!除了AI还有这些亮点

2019年05月09日 作者:satoll

对于 AI First 的 Google 来说,已经无处不在地体现在它的产品和战略中,无论是硬件还是软件;而伴随着 Google 自身在技术方面的进展,它也在 AI 与用户需求实现更加深入的贴合,让这一次的 Google I/O 变得非常炫酷。

Google I/O 如期到来。在大会一开始,谷歌 CEO Sundar Pichai就表示谷歌已经从一家为用户提供搜索结果的公司转变为了一家为帮助用户解决问题的公司。为此,今年的 Googe I/O 的愿景便是「为每个人建设一个更加有用的谷歌」(Building a more helpful Google for everyone)。

那么,谷歌具体是怎么做的呢?EDN来带大家看看本次 Google I/O 究竟有哪些亮点。

呈现 AR 效果的Google Search

大会一开始,谷歌 CEO Sundar Pichai首先登台介绍了 Google Search 的重大更新——3D 模型 + AR。

跟昨天微软的 Build 2019 开发者大会上用 HoloLens 2 的 AR/MR 模拟演示的阿波罗登月(尽管演示失败)类似,谷歌也十分看重 AR 的应用,并在其谷歌搜索中加入了 AR 的玩法。比如当你搜索人体肌肉结构时,你可以利用相机将结构图虚拟地投影至你的书桌上;当你在网上买鞋时,你也可以将它与你现有的衣物摆放到一起,判断搭还是不搭。

在会上谷歌更是将一头大白鲨「搬上」舞台用以演示其生理结构,实际效果还是挺震撼的。而这无疑也预示着微软、谷歌、苹果这几大巨头间在 AR 应用上的竞争将更加激烈。

需要注意的是,Google Search 之所以能够呈现 3D 模型,实际上是得益于 Google 与合作伙伴的合作。Google 表示正在与 NASA、New Balance、Samsung、Target、Visible Body、Volvo、Wayfair 等企业或机构合作,以便在搜索结果中呈现更多的 3D 内容。

 

Google Lens:拍一下,承包每个人的衣食住行

Google Lens 发布于 2017 年,在本次 Google I/O 中,它也得到了重大更新;具体如下:

  • 当用户在餐厅中用 Google lens 扫描菜单时,Google Lens 可以自动推荐最受欢迎的餐品,点击之后可以直接看到食物照片和用户评价。
  • Google Lens 可以直接对车票等上的文字信息进行识别并实时翻译,然后自然地覆盖在原有的文字信息上。
  • 通过与相关的合作,当用户用 Google Lens 扫描呈现在 Bon Appetit 杂志中菜品时,甚至可以直接在画面中看到这个菜品的动态制作过程。

针对文本翻译,Google Lens 不仅能将镜头里的文本翻译成自己熟知的语言,更能朗读出来,以帮助那些无法阅读的人们,让技术惠及更多的人群。

简单来说,就是 Google Lens 更好地与 Google Maps、计算机视觉、AR 等技术相结合,从而为用户带来更多便利的功能。

Google Assistant:不再依赖网络

在去年的 Google I/O 上,谷歌炫技般地发布了在 Google Assistant 下的 Duplex 拟人化 AI 语音助手。因为其只需要用户提供何时何地几个人就能代表用户自动打电话进行预约餐厅、理发等操作而大放异彩,因为就连接电话的人类也难以听出这是由 AI 打来的电话。

据了解,作为 Google 旗下最为重要的智能助手,Google Assistant 现在覆盖了超过 10 亿台设备,在 80 个国家/地区提供 30 多种语言,并与全球 3500 多个品牌的超过 30000 台独特的家庭连接设备合作。

作为升级,今年的 Duplex 则将语音服务扩展至网络文本(Texts on the web)上,具体而言就像是租车及预订电影票。比如如果你在日历中已经添加了几天后的行程,你只需要说「帮我在 xx 平台上租赁下次行程的车辆」,Duplex 就能自动将账户中保存的个人信息填写进网页的租赁表格里,用户最后只需点击确认即可。

此外,Google 表示,在不断发展的神经网络的基础上,该公司开发了全新的语音识别和语言理解模型,将云计算中 100GB 的模型降到不到半 GB,也就是说,AI 驱动的 Google Assistant 现在可以在用户的手机上本地运行。由此,Google Assistant 可以手机上以几乎零延迟处理语音,即使在没有网络连接的情况下,也可以实时进行使用。

在打车界面直接说关闭闪光灯并打开自拍

Google 表示,基于本地部署优势,下一代 Google Assistant 将以 10 倍的速度理解和处理用户指令并给出答案;无论是跨应用操作、还是多轮对话,都能够轻松进行。

1 2

相关文章