12月7日消息,北京时间7日凌晨,Google公司突然放出了自己“迄今为止最强大、最通用的模型”Gemini。
Gemini是一款多模态模型,可以归纳并流畅地理解、操作以及组合不同类型的信息,包括文本、代码、音频、图像和视频。第一个版本 Gemini 1.0 推出3款不同尺寸模型:Ultra、Pro 和 Nano。
Gemini能理解“文本、代码、音频、图像和视频”五种信息
其中,Gemini Ultra是规模最大且功能最强大的模型,适用于高度复杂的任务;Gemini Pro是适用于各种任务的最佳模型;Gemini Nano是端侧设备上最高效的模型。
三种尺寸
目前,Gemini 1.0 现已在多种Google产品和平台上推出,包括接入聊天机器人Bard和智能手机Pixel 8 Pro 上。未来几个月,Gemini 将应用于Google更多的产品和服务,如Search、Ads、Chrome 和 Duet AI。
从12月13日开始,开发者和企业客户可以通过 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 获取 Gemini Pro。
谷歌CEO桑达尔•皮查伊(Sundar Pichai)表示:“我们正与 Gemini 一起迈入下一段旅程。Gemini 是我们迄今为止最强大、最通用的模型,它在许多领先的基准测试中都展现出了最先进的性能。”
Gemini Ultra性能超越GPT4
DeepMind CEO戴密斯•哈萨比斯(Demis Hassabis)对Gemini进行了详细介绍。
据介绍,从自然图像、音频和视频理解到数学推理,在被大型语言模型(LLM)研究和开发中广泛使用的 32 项学术基准中,Gemini Ultra 的性能有 30 项都超过了目前最先进的水平。