隨著OpenAI和谷歌相繼推出新一代大模型,生成式人工智能(AI)的競賽又達到新的高潮。當(dāng)?shù)貢r間14日上午,谷歌在I/O開發(fā)者大會上推出最新多模態(tài)AI產(chǎn)品,包括由升級后Gemini模型驅(qū)動的萬能AI助手Project Astra和對標(biāo)Sora的文生視頻模型Veo。
在演示視頻中,Project Astra能夠通過攝像頭看到的內(nèi)容來分析、響應(yīng)語音指令,同時與人類進行實時語音對話。隨著視覺和推理能力的提高,Project Astra還可以成功地識別出代碼序列、為電路圖提出改進建議等。
Veo則具備生成1080p高清視頻的能力,用戶可以通過文本、圖像、視頻等各種格式提供提示。點擊“擴展”按鈕,Veo生成視頻的時長持續(xù)增加,最終達到了1分10秒,超過了Sora的時長。目前,Veo已經(jīng)開始在谷歌官網(wǎng)開放試用,此外,團隊還開發(fā)了實驗性工具VideoFX搭載Veo模型,為用戶提供更多的創(chuàng)作工具和可能性。
谷歌首席執(zhí)行官桑達爾·皮查伊表示,谷歌所有工作都在圍繞生成式AI模型Gemini展開。根據(jù)此次發(fā)布會最后的官方統(tǒng)計,完全聚焦于AI的這場主題演講總共提到了121次AI。
美國《商業(yè)內(nèi)幕》報道稱,大型科技公司之間的激烈競爭更加凸顯。就在谷歌I/O大會前一天,OpenAI發(fā)布了最新一代AI模型GPT-4o。GPT-4o是OpenAI聊天機器人的最新版本,它能像人類一樣對音頻提示做出幾乎即時的反應(yīng),實時翻譯語言,甚至能作為導(dǎo)師幫助學(xué)生。據(jù)彭博社報道,蘋果即將與OpenAI達成協(xié)議,在iOS 18中加入基于ChatGPT的人工智能功能。這項技術(shù)可能會被整合到定于今年9月發(fā)布的iPhone 16上。
谷歌也不甘示弱。在發(fā)布會上,谷歌表示,從今年晚些時候谷歌將發(fā)布的Pixel手機開始,谷歌將把其最新的Gemini人工智能模型整合到安卓設(shè)備中。
“在文本大模型上,谷歌和OpenAI最領(lǐng)先的技術(shù)咬得很緊。從使用體驗來看,目前谷歌的Gemini大模型比GPT-4o處理能力弱一些。”清華大學(xué)新聞學(xué)院新媒體研究中心主任、跨學(xué)科知名學(xué)者沈陽教授15日對《環(huán)球時報》記者表示,經(jīng)過去年一年的醞釀,ChatGPT已經(jīng)獲得了億級的用戶量。今年,幾大科技巨頭主要是在擴大產(chǎn)業(yè)規(guī)模上發(fā)力,希望把平臺用戶量推向10億以上。因此,GPT-4o主要設(shè)計目標(biāo)是解決遷移到蘋果Siri平臺的工程問題,為Siri全面適配做重要的工程性優(yōu)化,包括提升反應(yīng)速度、減少出錯率等。而谷歌的優(yōu)勢在于用戶基數(shù)大,且能夠直接觸達用戶。目前來看,大模型之爭“鹿死誰手”,還需要進一步觀察。