人工智能發(fā)展迅速,但不少模型在理解長視頻時(shí)仍面對(duì)不少挑戰(zhàn)。香港理工大學(xué)研究團(tuán)隊(duì)開發(fā)多模態(tài)智能體VideoMind,令人工智能模型能通過模仿人類思考過程,理解長視頻及回答內(nèi)容提問,並結(jié)合創(chuàng)新的鏈?zhǔn)降椭冗m應(yīng)(Low-Rank Adaptation,LoRA)策略,大大減低消耗資源和所需算力,推動(dòng)生成式人工智能於視頻分析的商業(yè)化應(yīng)用。研究成果已投稿至人工智能頂級(jí)會(huì)議。
視頻,尤其是長視頻(15分鐘以上),不單純是疊加的靜態(tài)畫面,其內(nèi)容包含隨時(shí)間推移產(chǎn)生的資訊,例如事件的發(fā)生時(shí)序、前因後果、連貫性及場景轉(zhuǎn)換等。人工智能模型要理解視頻,不但要識(shí)別當(dāng)中的事物,還要兼顧時(shí)間維度的訊息,即事物如何隨時(shí)間變化。由於畫面佔(zhàn)用了大量標(biāo)記(token),導(dǎo)致視頻推理需要消耗龐大算力和記憶體,令一般大模型難以應(yīng)付太長的視頻。
理大計(jì)算機(jī)及數(shù)學(xué)科學(xué)學(xué)院暫任院長及視覺計(jì)算講座教授陳長汶教授帶領(lǐng)的研究團(tuán)隊(duì)在長視頻推理研究取得突破,團(tuán)隊(duì)參考了人類理解視頻的過程,在其開發(fā)的VideoMind框架內(nèi)設(shè)計(jì)角色化流程,以漸進(jìn)式推理的方式,解決模型在理解時(shí)序上的困難??蚣軆?nèi)的四個(gè)角色分別為負(fù)責(zé)決定如何調(diào)用其他角色的規(guī)劃者(Planner)、搜尋及定位與問題相關(guān)片段的定位者(Grounder)、透過裁剪片段及放大畫面等方法驗(yàn)證片段的驗(yàn)證者(Verifier),以及分析選定片段並生成答案的回答者(Answerer)。
VideoMind的另一核心創(chuàng)新在於採用了鏈?zhǔn)絃oRA(Chain-of-LoRA)的策略。LoRA是最近兩年新興的大型語言模型微調(diào)技術(shù),透過在既有模型內(nèi)進(jìn)行低階調(diào)整,令模型不需要重新接受全量(full-parameter)訓(xùn)練,亦能執(zhí)行特定功能。團(tuán)隊(duì)提出的創(chuàng)新鏈?zhǔn)絃oRA策略,只需要在同一基礎(chǔ)模型上,載入四個(gè)輕量級(jí)的LoRA適應(yīng)器,對(duì)應(yīng)不同角色,即可令模型按需要自行啟動(dòng)不同的適應(yīng)器,動(dòng)態(tài)切換角色,減省了需要?jiǎng)佑玫哪P土考跋嚓P(guān)成本,同時(shí)提高單一模型的效能及靈活度。

VideoMind框架參考人類理解視頻的過程,並拆分為規(guī)劃者(Planner)、定位者(Grounder)、驗(yàn)證者(Verifier)及回答者(Answerer)四個(gè)角色,再以鏈?zhǔn)絃oRA的策略實(shí)現(xiàn)動(dòng)態(tài)角色切換。
研究團(tuán)隊(duì)已在GitHub和HuggingFace平臺(tái)開源VideoMind項(xiàng)目,以公開測試的長視頻任務(wù),涉及14個(gè)人工智能模型基準(zhǔn)測試集。團(tuán)隊(duì)將VideoMind與多個(gè)先進(jìn)大語言模型及多模態(tài)模型作比較,發(fā)現(xiàn)VideoMind在處理平均時(shí)長達(dá)27分鐘的長視頻時(shí),定位準(zhǔn)確度較GTP-4o、Gemini 1.5等尖端大模型更優(yōu)勝。值得注意的是,團(tuán)隊(duì)同時(shí)測試了較小的20億(2B)參數(shù)量及較大的70億(7B)參數(shù)量的VideoMind,發(fā)現(xiàn)2B模型的VideoMind性能已足以媲美其他7B或以上的大模型。
陳長汶教授表示:「人類觀看視頻時(shí)會(huì)切換思維方式,先拆解問題,再找出相關(guān)片段,然後反覆重溫及核對(duì),才對(duì)內(nèi)容下結(jié)論。此過程效率極高;大腦總功耗僅25瓦左右,比相同算力的超級(jí)電腦要低100萬倍。我們從這種人類的思考模式中獲得啟發(fā),設(shè)計(jì)角色化流程,真正讓人工智能像人類一樣理解視頻,並成功透過鏈?zhǔn)絃oRA策略降低算力和記憶體需求?!?/p>
人工智能浪潮席捲全球,但算力不足和耗能過高的情況日益嚴(yán)重。VideoMind以開源、參數(shù)量少的多模態(tài)模型Qwen2-VL為骨幹,配置優(yōu)化工具,降低了技術(shù)成本和部署門檻,為人工智能模型功耗過高的問題提出可行解決途徑。陳教授補(bǔ)充:「VideoMind框架不但突破了人工智能在視頻處理的限制,更可作為一個(gè)模組化、可擴(kuò)展、具解釋能力的多模態(tài)推理框架,拓展生成式人工智能的應(yīng)用範(fàn)圍,如智能保安監(jiān)控、體育競技及娛樂視頻分析、視頻搜尋功能等領(lǐng)域。」
頂圖:理大計(jì)算機(jī)及數(shù)學(xué)科學(xué)學(xué)院暫任院長及視覺計(jì)算講座教授陳長汶教授帶領(lǐng)的研究團(tuán)隊(duì)開發(fā)多模態(tài)智能體VideoMind,令人工智能模型能通過模仿人類思考過程,理解長視頻及回答內(nèi)容提問,並結(jié)合創(chuàng)新的鏈?zhǔn)降椭冗m應(yīng)策略,減低消耗資源和所需算力,推動(dòng)生成式人工智能視頻分析的商業(yè)化應(yīng)用。