原文:https://openai.com/index/hello-gpt-4o/

多模态交互的全新体验

不同于之前的语言模型只能接受和输出文本,GPT-4o 能够同时处理图像、声音和文字信息。它可以理解语音指令,查看图片内容并做出相应回应。更令人兴奋的是,GPT-4o 不仅能用文字输出,还能以合成语音或生成图像的方式来回应。

整个过程就像是在与另一个人交谈一样自然。例如,当你对着麦克风说”嗨,我是 GPT-4o,很高兴认识你”,它会用合成的人声说”你好,很高兴认识你”。如果你再问”天气怎么样?”,它或许会生成一张当天天气的插图图片作为回应。

OpenAI 在现场演示中展现了 GPT-4o 的多模态交互能力,比如两个 GPT-4o 模型通过音频和视觉互动即兴合唱歌曲、进行问答对话等,令人印象深刻。

这种多模态交互使人机对话更加自然流畅。根据 OpenAI 的测试,GPT-4o 能在 320 毫秒内响应音频输入,接近人与人交谈的反应速度。你可以像对待朋友那样,用口语的方式与它畅所欲言,它会用同样友好自然的语气予以回应。

卓越的多语种表现

除了英语,GPT-4o 在其他语种的文本生成、语音识别和翻译能力也有出众的表现。与GPT-4相比,它的多语种文本生成能力有了大幅提升,尤其在一些新语种方面实现了突破。

OpenAI 公布的测试数据显示,GPT-4o 的新分词器能大幅压缩输入tokens数量,在诸如德语、法语、西班牙语等欧洲语种上压缩比例可达1.1-1.2倍,在印地语、阿拉伯语等语种上更是可达2-4倍的压缩率,有效提升了处理效率。

在语音识别和翻译任务上,GPT-4o也展现了强大的实力,尤其是在中低资源语种上。根据OpenAI公布的评测结果,GPT-4o在语音识别和语音翻译等方面都达到了最先进的水平,显著超过了之前的Whisper模型。

这将让GPT-4o真正发挥全球化的潜力,为世界各地的用户提供更优质、更加本地化的智能语音交互体验。

创新的视觉理解能力

GPT-4o不仅在文本和音频领域出类拔萃,在视觉理解方面也有非凡的表现。根据OpenAI公布的数据,GPT-4o在诸多视觉感知基准测试中的得分已经达到了最先进的水平。

这意味着GPT-4o能够精确理解和分析图像、图表、插画等各种视觉内容,并根据问题作出合理回答。你可以把一张图片发给它,它就能分析出图中人物的情绪、场景细节、关键要素等内容。

例如在线上演示中,有用户向GPT-4o展示了一幅机器人绘画的图像,GPT-4o就能细致解读机器人在画作中的心理活动和视角变化。

这项创新能力的背后,是OpenAI在训练数据和模型架构方面的突破。他们将大量的视觉、音频和文本数据统一在了同一个神经网络模型中进行训练,让GPT-4o获得了真正的多模态理解和生成能力。

安全与不足之处

对于像GPT-4o这样的大型多模态AI系统,OpenAI也意识到了它可能带来的潜在风险。在发布之前,他们采取了数据过滤、行为微调等技术手段,努力从架构层面保障模型的安全性。

同时OpenAI还通过内外部评估,对GPT-4o在网络安全、CBRN( 化学、生物、放射性、核)、 说服力、自主性等方面的风险等级进行了检测,确保风险维持在中等以下水平。

此外,他们还与70多名外部专家进行了”红队”评估,识别并缓解GPT-4o可能带来的社会心理、偏见公正性、虚假信息等新风险。

当然,像任何新技术一样,GPT-4o仍在不断完善的过程中,存在一些不足之处。OpenAI承认,目前模型在所有模态下都还有待改进的局限性,他们将继续努力优化。

比如在视觉理解方面,有用户反馈GPT-4o有时无法准确识别图像中一些细节内容。在音频处理上,也会偶尔出现无法分辨说话人或噪声的情况。总的来说,GPT-4o依然是一款处于成长和探索阶段的先锋系统。

广阔的应用前景

除了提供身临其境的多模态对话体验,GPT-4o在诸多其他领域也有着广泛的应用前景。

它可以辅助智能写作、内容创作工作,通过理解和融合各类多模态素材,生成高质量的文字、图像、音频内容。同时,GPT-4o强大的多语种能力也使其成为高效的多语种内容翻译工具。

在专业领域,GPT-4o也有望发挥重要作用。它可以用于视觉辅助诊断、智能客服等场景。在软件界面设计时,GPT-4o或许能通过理解人机交互方式,实时生成更加人性化的界面效果。

OpenAI已在ChatGPT平台上推出GPT-4o的文本和图像能力,付费用户还可以提前体验更高消息限制。未来几周,支持语音输入输出的新版”语音模式”也将在ChatGPT Plus中进行内测。

开发者也可通过API的方式,将GPT-4o整合到自身应用中。OpenAI表示开发者也可通过API的方式,将GPT-4o整合到自身应用中。OpenAI表示,与GPT-4 Turbo相比,GPT-4o在推理速度上提升了一倍,单次请求成本降低了50%,并且拥有5倍的速率限制。这将大幅降低开发者的使用成本,促进GPT-4o的广泛应用。

在未来几周内,OpenAI还将让部分合作伙伴获得使用GPT-4o视觉和音频能力的机会,进一步拓展多模态AI的应用场景。

相关阅读  思维树提示词:提升AI思维的新方式

Categorized in: