谷歌大杀器来了,最大规模Gemini震撼发布:真超GPT4，三大版本！

　　时过境迁?

　　谷歌有史以来最大，功能最强大的模式已经出现。

　　12月6日，谷歌首席执行官桑达尔•皮查伊发布了他的 Gemini1.0版本。

　　此次公布的 Gemini大模型，是谷歌在大数据领域迈出的重要一步，包含三个层次：最强大的 Gemini Ultra、面向多任务的 Gemini Pro、面向特殊任务的 Gemini Nano、面向特殊任务的 Gemini Nano。

　　目前，谷歌的“Chat GPT”程序 Bard已更新至 Gemini专业版，该软件具有更高级的推理，计划，理解等功能，但仍然是免费的。谷歌预期明年早些时候会发布“高级 Bard”，这款手机采用的是 Gemini超级手机。

　　这是自 Bard诞生以来，最大的一次升级。

　　自从 Chat GPT发布之后，谷歌宣称的竞争对手 Gemini模式的性能就让我们很感兴趣。这个大型机型从三月开始就有传闻，五月的 I/O会议上已经宣布“准备上市”。

　　从熟悉这一点的人口中，我们可以得知， Gemini的参数高达一万亿，比GPT-4快了五倍。然而，由于种种原因， Gemini的官方发行被一再拖延。

　　谷歌坚决地放弃了 PaLM 2，转而使用 Gemini，并且在四月将谷歌的大脑与 DeepMind合并，而微软则将 Gemini整合到新成立的 Google DeepMind中。

　　可以看出，谷歌将所有赌注都押在了大型机型的军备竞赛上。

　　Gemini真的会带给我们一个惊喜么?除了在各项基准测试中取得优异的成绩，以及超过人类之外，还有一件很有意思的事情，那就是谷歌还在尝试着理解 Gemini超级手机的所有功能，比如“Gemini的新功能是什么?”

　　下面请看谷歌首席执行官皮查伊的发言：

　　每次科技进步，都有可能推动科学发现，加快人类进步，提高生活质量。我认为，我们目前所见到的人工智能革命，将会是人类生活中最为深远的一次变革，其意义远超过以前对手机和互联网的改造。人工智能具有潜在的潜能，可以让全世界的人从每天的生活中获得巨大的机遇。这将引发一场新的革新和经济发展浪潮，推动知识，学习，创造力和生产率的空前提高。

　　这令我很激动：能够让人工智能服务于全世界的每一个人。

　　在过去的8年里，我们一直是以人工智能为主导的企业，而这一进程还在加速：如今，数以百万的人们正在利用产生型人工智能来解决我们一年内还做不到的事，包括找到答案、利用新的工具来解决更加复杂的问题。同时，开发者们也在利用我们的模式和架构建立新型的、可持续发展的人工智能应用。

　　这是一个不可思议的势头，但是，我们仅仅是在探索各种可能性的冰山一角。

　　我们正以一种勇敢和负责的态度进行这一工作。这就要求我们在科研上要有雄心壮志，要有能力为人类及社会造福，要有安全保障，要与各国政府及专业人士共同努力，共同应对人工智能越来越强所带来的危险。我们会继续在最好的工具，基础模型和架构上投入，并且按照我们的人工智能原理，把这些技术应用到我们的产品上。

　　谷歌官方发布了 Gemini大型模型

　　谷歌深空网首席执行官兼共同创始人迪米斯·哈萨比作为其团队的代言人，官方发布了 Gemini的大型机型。

　　哈萨比斯说，谷歌很早就希望打造出新一代人工智能模式。他认为，人工智能不仅仅让人类拥有了智能化的软件，还让人类变得更加有用和直观。

　　谷歌的大型机型 Gemini今日正式发布，它是迄今为止最强大和最多功能的机型。Gemini就是由谷歌研究院的研究人员组成的谷歌不同小组之间的大型协作的结果。

　　其中， Gemini具有多模态大数据特征，能够对文本、代码、音频、图像、视频等多种数据进行无缝理解、处理和组合。

　　谷歌称 Gemini仍然是他们目前最具弹性的机型，可以在多种平台上工作，比如数据中心、手机等。Gemini所提供的 SOTA功能将极大地提高开发者和企业用户在构建和扩充人工智能方面的能力。

　　现在 Gemini1.0有三种不同大小的版本：

　　Gemini Ultra：最大的，性能最好的，是为执行高难度的任务而设计的;

　　适合不同任务的最好模式;

　　GeminiNano：一种效率最高的终端任务模型。

　　谷歌已经对 Gemini模式进行了严密的测试，并且对其在不同的任务上的性能进行了评价。Gemini Ultra在32个大规模语言模型开发标准集上取得了优于现有 SOTA的30个测试集，从自然图像、音频和视频理解到数学推断等多个领域。

　　此外， Gemini Ultra在 MMLU (MMLU)测试中取得了90.0%的高分，首次超过人类。MMLU数据库包括57门学科，包括数学，物理，历史，法律，医学，道德，这些学科，主要考察了这些学科在大数据时代的知识储备和问题求解能力。

　　基于 MMLU测试用例， Gemini可以充分发挥自己的逻辑思维能力，在解答复杂问题前进行深入分析，从而大大提高了 Gemini的解题效率。

　　Gemini在大部分评测中表现优于GPT-4。

　　如果您想了解更多详情，可以在

　　https://storage.googleapis.com/deepmind-media/gemini_1_report.pdf

　　Gemini Ultra在最近的 MMMU上获得了最好的分数，59.4%。增强的测试集包含了多个模态的任务，这些任务需要仔细地进行推理。

　　在实验中， Gemini Ultra实现了 OCR识别，而无需从图片中抽取文字，充分体现了 Gemin内建的多模识别功能，同时也为 Gemini具备更加复杂的推理能力提供了可能。

　　新一代全面提升能力

　　Gemini在设计之初就已具备多模态特性，在初始阶段就对各模态进行预训练，再通过附加的多模态数据对其进行精细调整，从而提高识别效果。这使得 Gemini可以对多种类型的数据进行无缝隙的理解与推理，大大超越了已有的多模数据，在各个方面都具有很好的应用前景。

　　推理推理力

　　Gemini1.0具备了复杂的多模逻辑推理功能，能够更好地处理复杂书写与视觉信息。这让它在识别大量数据时特别有优势。Gemini1.0拥有从成千上万个文档中抽取观点的非凡力量，它可以读取，过滤，理解信息，从而帮助科学、金融等众多领域实现快速的新突破。

　　同时理解文本，图片，声音和其他形式的信息

　　Gemini1.0通过对文本、图像和声音的学习，可以实现对文本、图像、声音等多种不同类型的理解，从而更好地理解文本和图像的具体内容。所以，在解决像数学、物理这样的复杂问题时，它尤其善于推理。

　　下面这张图片显示，一名教师为一名滑雪运动员滑下山坡，另一名学生为一名运动员提供了一种求速的解法。基于 Gemini的多模态推理功能，本项目提出了一种基于 Gemini的多模推理方法，实现对复杂字迹的阅读，并对问题进行准确的表达，并将问题与解答转化成一个数学方程，确定学生解题过程中出现错误的具体推导过程，并提出相应的解答方法。

　　进阶编码

　　Gemini是一种能够理解、解释并生成高品质的主流程序语言(如 Python, Java, C++, Go等)的程序，具有强大的跨语言处理能力，是目前国际上最有影响力的一种编码模式。

　　Gemini Ultra已经获得了多项具有自主知识产权的开源代码库(HumanEval)和谷歌开源开源(Natural2Code)等，均取得了优异的成绩。

　　Gemini也可以作为一个发动机来使用更先进的编码系统。两年之前，谷歌发布了阿尔法码，该系统是在程序设计比赛中处于竞争地位的首个人工智能程序产生系统。

　　谷歌借助 Gemini的专用版，开发出了一套更加高级的程序产生系统阿尔法代码2，该程序在程序设计方面是一把好手，这类问题不仅涉及到了程序设计，而且还涉及到了复杂数学以及理论计算领域。

　　在同样的平台上测试了阿尔法代码，阿尔法代码得到了极大的提升，并且解决了将近一倍的问题。

　　特殊训练

　　谷歌利用自主研发的 TPU (TPU)v4、v5e等先进的人工智能算法，对 Gemini1.0进行大规模的深度学习，使之成为性能最好、性能最好、可扩展性最强、最有效的服务模式。

　　在 TPU上， Gemini比以前的小规模和性能都要快得多。谷歌的人工智能产品以其为中心，为数以亿计的用户提供了服务，包括搜索， YouTube, Gmail，谷歌地图，谷歌游戏和安卓系统。他们也协助全球企业培训大型人工智能模式，使其经济而有效。

　　谷歌于今日推出了功能最强，效率最高，可伸缩的 TPU，云 TPUv5p，专门用来训练最先进的人工智能模型。新一代 TPU将会加快 Gemini的研发速度，使开发者和企业用户能够更快速的学习到大量产生型人工智能模型，从而使用户能够更早的接触到新的产品和特性。

　　谷歌的数据中心里，一列超级电脑的云 TPUv5p人工智能加速器。

　　谷歌将全面更新自己的产品

　　从今日起，谷歌将会把 Gemini加入到它的产品中，比如 Bard，它将会用一个经过修改的 Gemini专业版本来完成更高级的推理，计划，理解等工作。这也是自从 Bard发布以来最大的一次更新。

　　升级后的 Bard可以在超过170个国家使用英语版，而且还将支持更多的模式和更多的语种。

　　谷歌也在 Pixel中推出了 Gemini。像素8 Pro将成为首部搭载 Geminnano的智能手机。

　　像素8 Pro将 Geminnano用于录音程序中的会议音频摘要功能，甚至在不联网的情况下也能完成。

　　未来数月，谷歌还会推出更多的 Gemini产品与服务，包括搜索，广告， Chrome, DuetAI等。

　　谷歌称，他们已将 Gemini应用于搜索领域，该技术可以加快用户的搜索生成体验，降低40%的延迟，并提高产品的质量。

　　《使用指南》和今后的计划

　　最后，开发人员是怎样使用 Gemini的?

　　从12月13日起，开发者和公司用户都可以在谷歌人工智能工作室或者谷歌云Vertex AI系统中使用 Gemini API来访问 Gemini Pro。

　　安卓开发者也可以在 AICore中安装 Geminnano，从像素8专业版的手机上下载。Andriod AICore是一个全新的安卓系统服务，它可以解决模型管理，运行时间，安全等方面的问题，从而使用户更容易地把人工智能整合到你的应用中。

　　AICore利用 Gemini Nano对其进行低秩自适应(LoRA)精细调节。这一功能强大的功能允许开发者在自己的培训数据基础上，建立一个小型的 LoRA适配器。AICore装载了 LoRA适配器，它生成了一个大的语言模型，用于优化你的应用程序自己的情况。

　　此外，谷歌还透露了近期将推出 Gemini Ultra和 Bard的下一个更新计划。

　　当前， Gemini Ultra模式已经进入了可信第三方的“红队”，并通过精细调优、人机反馈增强学习等方法对其进行改进。

　　在此期间，谷歌首先将 Gemini Ultra用于部分用户，开发者，合作伙伴，以及安全与职责方面的专家，用于初期的试验，并给予反馈，之后将于明年年初发布给开发者和企业用户。

　　Gemini Ultra是谷歌目前最大，功能最强的机型，专门用于完成高难度的工作。一般用户要想获得 Gemini Ultra，首先要使用 Bard高级版本，谷歌将于明年早些时候发布高级Bard-Advanced。

　　谷歌称，他们会在将来拓展 Gemini的特性，其中包括计划和存储能力，还会添加上下文窗口，以便对更多的信息进行更好的反应。