寧 9月24日下午,字節(jié)跳動旗下火山引擎發(fā)布了兩款AI視頻模型,這意味著字節(jié)跳動正式加入了AI視頻大戰(zhàn)。
AI視頻是當下互聯(lián)網(wǎng)大廠和創(chuàng)業(yè)公司集體發(fā)力的領域。8月底,AI創(chuàng)業(yè)公司MiniMax推出視頻模型。9月19日,阿里巴巴也發(fā)布了通義萬相視頻模型。據(jù)經(jīng)濟觀察網(wǎng)不完全統(tǒng)計,僅在國內,過去4個月時間便有超過10家公司推出了AI視頻產(chǎn)品。
相較其他公司,字節(jié)跳動的視頻模型發(fā)布時間較晚。火山引擎總裁譚待接受經(jīng)濟觀察網(wǎng)在內媒體采訪時說,字節(jié)跳動不一定非要搶第一,他們對模型的認知是,這是一個能影響未來10年、20年的長遠技術,所以希望推出的模型質量是經(jīng)過考驗的。
字節(jié)為何入局
時至9月,AI視頻模型已經(jīng)不再罕見,甚至成了AI創(chuàng)業(yè)公司必選的賽道。為什么這些公司如此重視AI視頻?譚待說,視頻的消費在當下已經(jīng)成為主流,無論是娛樂、電商還是本地生活,各行各業(yè)都離不開視頻,這意味著視頻是用戶的核心需求。
此前MiniMax創(chuàng)始人閆俊杰接受經(jīng)濟觀察網(wǎng)采訪時也有類似觀點。他說,為了讓產(chǎn)品能有非常高的用戶覆蓋度和非常深的用戶使用度,唯一的辦法就是輸出動態(tài)的視頻內容,而不是僅輸出基于文字的文本內容。
相比其他公司,擁有抖音和剪映的字節(jié)跳動在視頻領域具有優(yōu)勢,其主要優(yōu)勢在于視頻內容積累。一位AI視頻創(chuàng)業(yè)公司創(chuàng)始人告訴經(jīng)濟觀察網(wǎng),他們訓練視頻的數(shù)據(jù)主要是海外開源數(shù)據(jù)、AI合成數(shù)據(jù),以及向版權方購買的數(shù)據(jù)。
譚待提到,抖音和剪映在視頻領域的業(yè)務理解和技術積累,對于豆包視頻模型是一個很大的加分項。同時,由于豆包是全體系的模型,目前包括文本、音樂、視頻、圖片等多個模態(tài),因此能更好地理解用戶的指令。
他認為,豆包視頻模型與其他視頻模型的不同之處在于,它可以生成多個主體運動的復雜交互畫面,也可以保證多鏡頭切換的內容一致性,這兩項能力能讓AI視頻看起來不那么像PPT版視頻。
AI視頻仍不盡如人意
雖然入局者眾多,但從AI視頻的效果和AI視頻制作簡易度來看,這個行業(yè)目前發(fā)展并不算快。
北京國際電影節(jié)上有一個獲獎的2分鐘AI視頻,主創(chuàng)團隊提到,他們3個人花了十幾天時間做這個視頻。當前創(chuàng)作者制作AI視頻,都要經(jīng)過一個較為復雜的流程,先寫文字腳本,再把腳本拆分為多個場景,為每個場景寫像咒語一樣的提示詞,讓每個場景生成多張圖,一般每張圖需要生成幾十次,才能得到自己想要的結果。
一位創(chuàng)作者說:“做AI視頻就像玩抽卡游戲,嘗試幾百次才能試出好結果。”
主流的AI視頻工具,一次能生成4—10秒左右的視頻片段。生成一段2分鐘的完整故事,需要使用多段視頻拼接。但在當前算力條件下,創(chuàng)作者往往需要排隊超過10分鐘,才能使用AI視頻工具。除了專業(yè)創(chuàng)作者,沒有人有耐心制作AI視頻。
AI視頻當下并不是一個大市場。頭豹研究院的數(shù)據(jù)顯示,預計到2026年,中國AI視頻市場規(guī)模將增長至92.79億元。
上述AI視頻創(chuàng)業(yè)公司創(chuàng)始人說,目前AI視頻行業(yè)處于極早期,現(xiàn)在仍在新手保護期的階段,用戶對產(chǎn)品性能有很高的容忍度。最終哪家公司能跑到最后,還要看它的產(chǎn)品能力能不能獲得用戶認可。在這個維度上,互聯(lián)網(wǎng)大廠和AI創(chuàng)業(yè)公司都處于同一起跑線。