谷歌日前发布了全新的人工智能系统 Gemini,被称为迈向真正的通用人工智能(AGI)的第一步。这一模型分为三个版本,最强大的 Gemini Ultra 在多项评测指标上已完全超越 GPT-4;而 Gemini Pro 也优于 GPT-3.5。

Gemini最大的创新在于原生多模态支持,可以语音和视觉交互,实时理解语言、图像、视频等信息。在演示中,Gemini可以根据工程师的手绘逐步 Outputs 图像的含义,配合实物进行交互验证;还可以看视频片段判断内容和氛围,进行情景配乐。这是因为其训练方式从零支持多模态,而非简单拼凑独立模型。

除多模态理解外,Gemini 在语言、图片及视频处理等单一任务上的表现同样领先。它可以快速从大量论文中提取关键信息,自动改错作业,解决极难编程问题。这得益于 Google 海量数据的支持。

目前 Gemini Pro 已经部署在 Google 搜索引擎 Bard 上,提供语言理解的升级。未来 Google 还会在更多产品中使用 Gemini,实现多模态交互。

相关阅读  Genspark AI - 很强大的AI搜索引擎

Categorized in: