一文读懂 Google Gemini 现状

　　今天北京气温骤降，迎来了2023年的初雪，但2023年的AI圈却如火如荼。

　　这一年，人们开启了通往AGI 世界的大门。

　　注: AGI, 指通用人工智能(Artificial General Intelligence，AGI)，或具备执行一般智能行为的能力。通用工智能通常把人工智能和意识、感性、知识和自觉等人类的特征互相链接。

　　Google Gemini 简介

　　1. 谷歌推出了最新的人工智能成果 — 双子座(Gemini)大模型，双子座大模型系列高度整合了图像、音频、视频和文本数据的处理能力，表现出对跨模态任务的强大通用处理能力，并在多个基准测试中树立新标杆。

　　2. 双子座大模型的成功发布体现了谷歌凭借在机器学习、数据管理、基础设施构建和人工智能伦理发展方面的技术创新，向着开发大规模、模块化、多模态泛化能力系统的宏伟目标迈进。谷歌期待这一系列模型为各行各业带来新的创新，同时为人工智能的未来探索提供坚实的基础。

　　Google Gemini 热度不减

　　1. 今年初谷歌匆忙发布 Bard 导致明显事实错误并其母公司(Alphabet)蒸发千亿美金也好。

　　Gemini 发布会视频被怀疑剪辑也罢。丝毫不影响 Gemini 的火热。

　　2. 数据截止发稿前，Gemini热度居高不下，热度甚至超越ChatGPT，从全球范围看，中国关注度最高

　　Google Trends 热力图

　　过去7天热度图

　　全球热度占比图-Gemini

　　全球热度占比图-ChatGPT

　　Google Bard 事实性错误

　　其中一个建议是利用 JWST 拍摄了第一张太阳系外行星或系外行星的照片。

　　然而，经 NASA 证实，第一张系外行星照片是由欧洲南方天文台甚大望远镜 (VLT) 在 2004 年拍摄。

　　Bard 事实性错误示例

　　Google Gemini 体验

　　1. 考虑到很多渠道已发布相关体验说明，在此不再赘述

　　2. 想体验Gemini Pro的同学，现在可以使用英文与 Bard 交流便可开启

　　3. 想集成Gemini Pro API 的则需要等到 12月13号

　　4. 想使用 Gemini Ultra 则需等到明年1月份

　　5. Bard Link: https://bard.google.com

　　Google Gemini 报告总结

　　1. 双子座模型家族分为三种规模

　　Ultra、Pro和Nano，分别服务于不同的应用需求和计算资源限制。Ultra版模型展现出在高复杂性推理和多模态任务中的领先性能，例如在多模态多样化基准测试(MMLU)上达到90.04%的准确率，超越了人类专家水平。Pro和Nano规格则展示出高效的推理能力及应用于设备端的潜力。

　　2. 在视频理解方面，双子座超级模型采用了大上下文窗口中的帧序列编码方法，显示出优秀的视频内容处理能力。在音频处理上，双子座Pro模型同样在ASR和语音翻译任务上显示出卓越优势，领先于其他同类模型。

　　3. 双子座模型建立在增强版的Transformer解码器之上，并经过精心训练，支持至32k令牌的长上下文长度，使用高效的注意力机制，在不同数据集上训练以适应多种音频和视觉输入。通过这种方式，双子座模型能够在多样化的任务集中体现其多语言能力，包括机器翻译、总结和多语言文本生成等。

　　4. 为规避可能发生的影响评估问题，谷歌采取了一系列负责任部署的策略，包括影响评估、模型政策制定以及在部署决策之前进行伤害减轻。