編者按:OpenAI確實帶來了人工智能的“iPhone時刻”,而如今谷歌在AI時代,仍是“iPhone時刻”之后跟隨的Android……
在前一天晚上被OpenAI狠狠“截胡”的谷歌,在2024 I/O大會上,終于給出了有力的“回?fù)?rdquo;。
美國當(dāng)?shù)貢r間5月14日上午10點(北京時間5月15日凌晨1點),2024 Google I/O大會正式召開,本次大會的主題演講將圍繞人工智能展開,谷歌公布了Gemini AI的最新進(jìn)展,并圍繞谷歌核心業(yè)務(wù)和生成式人工智能的融合展開分享。不僅帶來了“進(jìn)階版”的Gemini Pro 1.5,還帶來了全面對標(biāo)Sora文生視頻大模型的Veo。
谷歌CEO桑達(dá)爾·皮查伊(Sundar Pichai)在活動現(xiàn)場表示,目前有超過1500萬開發(fā)者在使用Gemini做開發(fā)。而Gemini最近三個月時間達(dá)到了100萬訂閱用戶。
全新的Gemini大模型產(chǎn)品矩陣
首先,在本屆I/O大會上,谷歌宣布了多項技術(shù)能力的升級。
“進(jìn)階版”Gemini 1.5 Pro
I/O大會上,Gemini 1.5 Pro進(jìn)階版開放給開發(fā)者,進(jìn)階后,最大支持上下文窗口從100萬Tokens升級到200萬,同時支持35種語言。現(xiàn)在可以分析比以前更長的文檔、代碼庫、視頻和音頻錄音。此外,Gemini 1.5 Pro還能夠?qū)崿F(xiàn)處理更加復(fù)雜和細(xì)微的指示,包括指定產(chǎn)品級行為的指示,如角色、格式和風(fēng)格等。
更高效率、更低時延Gemini 1.5 Flash
于此同時,為了滿足用戶對低延遲和低成本的需求,谷歌首先帶來輕量化模型Gemini 1.5 Flash。它基于“蒸餾”技術(shù),專為大規(guī)模服務(wù)設(shè)計,速度更快、成本低至0.35美元/百萬Tokens。
Gemini 1.5 Flash依舊支持100萬和200萬Tokens兩個版本,適用于摘要、聊天應(yīng)用、圖像和視頻字幕、長文檔和表格的數(shù)據(jù)提取等需要快速處理的任務(wù)。
為了反擊OpenAI,谷歌也在今日發(fā)布了多款多模態(tài)大模型,包括圖像大模型Image 3、視頻大模型Veo等。
Gemma大模型升級,開源大模型陣營再迎猛將
谷歌旗下開源大模型Gemma也在活動中迎來了重大升級。谷歌表示,即將于6月上線的Gemma 2中引入一個全新的、擁有270億參數(shù)的模型。這是Gemma模型的下一代升級,這個龐大的模型尺寸已經(jīng)由Nvidia進(jìn)行了優(yōu)化,確保它能夠在最新的GPU上順暢運(yùn)行,并且同樣在單個TPU主機(jī)和vertex AI平臺上表現(xiàn)出色。除了這一巨大的270億參數(shù)模型外,谷歌還計劃推出PaliGemma視覺語言開放模型,這將進(jìn)一步擴(kuò)展Gemma 2的功能和應(yīng)用范圍。
文生圖大模型Imagen 3
Imagen 3作為谷歌最新推出的文生圖大模型,進(jìn)一步增強(qiáng)了文本生成圖片的技術(shù)能力,與其前身Imagen 2相比,Imagen 3能夠更準(zhǔn)確地理解了它翻譯成圖像的文本提示,使得模型產(chǎn)生的“干擾性工件”和錯誤更少,并且在生成方面更“富有創(chuàng)造性和細(xì)致”。谷歌還計劃很快將Imagen 3模型提供給使用谷歌企業(yè)生成式人工智能開發(fā)平臺Vertex AI的開發(fā)人員和企業(yè)客戶,以滿足更廣泛的用戶需求。
文生視頻大模型Veo
Veo是谷歌最新的視頻生成模型,正式對標(biāo)Sora。Veo集成了谷歌旗下大量視覺模型的特性,具備高級的自然語言和視覺語義理解能力,可以生成長度超過1分鐘,分辨率最高1080P的“高質(zhì)量”視頻,并具有多種視覺和電影風(fēng)格。
教育模型LearnLM
針對于學(xué)習(xí)領(lǐng)域,谷歌還推出了LearnLM,這是一系列全新的用于學(xué)習(xí)領(lǐng)域的生成式AI模型。此舉不僅標(biāo)志著Google在AI教育領(lǐng)域的重大突破,同時也是對OpenAI近日針對教學(xué)輔導(dǎo)場景所展示能力的有力“回應(yīng)”。
LearnLM的誕生是Google DeepMind AI研究部門與谷歌研究部門深入合作的結(jié)晶。谷歌表示,LearnLM模型旨在通過“對話式”的方式,為學(xué)生提供個性化的學(xué)習(xí)指導(dǎo),幫助他們深入理解并掌握各種主題。這不僅將提升學(xué)生的學(xué)習(xí)效率,也將為他們帶來更加豐富和有趣的學(xué)習(xí)體驗。
大模型賦能的產(chǎn)品與場景
大模型對話產(chǎn)品Gemini Live
在I/O大會上,谷歌發(fā)布了基于Gemini的對話式體驗產(chǎn)品——Gemini Live,它允許用戶在智能手機(jī)上與Gemini進(jìn)行“深入”的語音聊天,用來反擊OpenAI日前的大模型對話演示。用戶可以在聊天機(jī)器人說話時打斷Gemini提出澄清問題,它將實時適應(yīng)用戶的語音模式。此外,Gemini還可以通過智能手機(jī)攝像頭捕捉的照片或視頻看到并回應(yīng)用戶的周圍環(huán)境。
在某種程度上,Gemini Live 是 Google Lens 和 Google Assistant 的演變,前者是谷歌長期以來的計算機(jī)視覺平臺,用于分析圖像和視頻,而后者是谷歌的人工智能驅(qū)動的語音生成和識別虛擬助手,可在手機(jī)、智能音箱和電視上使用。
值得一題的是,Live 將專屬于 Gemini Advanced,其背后是谷歌One AI進(jìn)階計劃,價格為20美元/月。
首個AI Agent產(chǎn)品——Project Astra
作為谷歌首個AI Agent產(chǎn)品,也是推動Gemini Live技術(shù)的創(chuàng)新部分,Project Astra旨在創(chuàng)建用于實時、多模態(tài)理解的人工智能應(yīng)用程序和智能體。