不只是100万上下文,谷歌Gemini 1.5超强功能展示

添加书签

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

谷歌发布Gemini 1.5那天遭遇了滑铁卢,被OpenAI的Sora砸了场子。但Gemini 1.5成为首个支持100万tokens上下文的基础大模型。
这意味着,Gemini 1.5可以一次性处理1小时的视频、11小时的音频或100,000行代码,并衍生出更多的数据分析玩法。
下面「AIGC开放社区」将为大家展示Gemini 1.5,那些超强的数据分析功能。
技术报告地址:https://goo.gle/GeminiV1-5
超复杂文本分析
Gemini 1.5能对给定提示中的大量内容进行无缝分析、分类和总结。例如,给出阿波罗11 号登月任务的402页记录,它就能对整个文件中的对话、事件和细节进行推理,并找出那些奇特的细节
也能查找、理解并解释PDF中的特定内容。例如,从 DeepMind 的 Gemini 1.5 Pro 论文中提取“表 8”并解释该表的含义。
跨模式理解和推理
Gemini 1.5可以以针对不同的模式(包括视频)执行超复杂的理解和推理任务。
例如,当给出一部 44 分钟的巴斯特-基顿(Buster Keaton)无声电影时,该模型能准确分析各种情节点和事件,甚至能推理出电影中容易被忽略的小细节。
也能分辨视频是否由AI生成,例如,将Sora生成的猫咪视频上传至Gemini 1.5,进行辨别和解读。

解读复杂代码
Gemini 1.5可以一次性解读大约100,000行代码,对其进行修改、注释、优化等。例如,用文字询问,动画Little Tokyo的demo是由什么控制?
Gemini 1.5不仅找到了这个demo,解释了动画嵌入在gLTF模型中,还能根据提示继续撰写功能代码。
Gemini 1.5模型简单介绍
谷歌表示,Gemini 1.5是基于Transformer和MoE架构开发而成。虽然传统的Transformer作为一个大型神经网络运行,但MoE模型则被划分为较小的“专家”神经网络。
根据给定的输入内容类型,MoE模型可以有选择性地仅激活其神经网络中最相关的专家路径,极大地增强了模型的效率。
与上代1.0相比,Gemini 1.5在数学、科学、推理、多语言、视频理解上实现大幅度提升,并达到Ultra1.0的强度。
测试数据显示,在文本、代码、图像、音频和视频评估的综合测试时,Gemini 1.5 在87% 用于开发大语言模型的基准上都优于1.0 Pro。与Ultra 1.0在相同基准上的表现相比,Gemini 1.5的表现大致相同。
即使Gemini 1.5的上下文量增加,仍然保持高水平的性能。在“大海捞针”(NIAH)评估中,一个包含特定事实或声明的小片段文本故意放置在一长段文本中,Gemini 1.5在长达100万标记的数据块中,99%的时间内找到了嵌入的文本。

本文素材来源谷歌官网,如有侵权请联系删除

END

本篇文章来源于微信公众号: AIGC开放社区