你的位置:开云官网kaiyun切尔西赞助商 (中国)官方网站 登录入口 > 新闻资讯 > 体育游戏app平台还能准确知说念每个事件发生的具体时刻-开云官网kaiyun切尔西赞助商 (中国)官方网站 登录入口

体育游戏app平台还能准确知说念每个事件发生的具体时刻-开云官网kaiyun切尔西赞助商 (中国)官方网站 登录入口

时间:2025-08-31 07:13 点击:157 次

体育游戏app平台还能准确知说念每个事件发生的具体时刻-开云官网kaiyun切尔西赞助商 (中国)官方网站 登录入口

体育游戏app平台

在这个短视频横行的时间,AI看懂几秒钟的视频片断还是不算什么簇新事了。然而,让AI准确明白一段长达几分钟以至几十分钟的视频,何况能够精准回复"在第30秒的时候,那只红色的狗作念了什么"这么的问题,这可便是个时期难题了。华南理工大学的商量团队最近在这个鸿沟取得了蹙迫冲突,他们开荒出一个名为"Grounded-VideoDiT"的AI系统,让机器具备了像东说念主类一样追究明白长视频的能力。

这项由华南理工大学的方鹏程、陈雨霞和郭瑞等商量东说念主员指挥的商量后果,发表在2025年8月的《IEEE筹议机视觉与模式识别会论说文集》上。对于想要深入了解时期细节的读者,不错通过论文编号arXiv:2508.15641v1看望完整的商量阐述。这项商量之是以引东说念主夺目,是因为它处分了刻下AI视频明白中的一个关节问题:怎样让机器不仅能看懂视频在说什么,还能准确知说念每个事件发生的具体时刻,何况能够络续追踪视频中的特定物体。

目下的AI视频明白系统就像一个看电影时时时跑神的不雅众。它们可能知说念电影的或者情节,但淌若你问它们"主角在电影驱动后第15分钟作念了什么",或者"那辆红色汽车终末去了何处",它们通常给不出准确谜底。这是因为现存的AI系统在处理长视频时存在三个中枢问题:最初,它们对时刻的感知比较吞吐,就像一个莫得腕表的东说念主很难准确说出具体时刻;其次,它们很难络续追踪视频中的特定物体,时时会把不同的物体搞混;终末,它们在明白视频内容与翰墨态状之间的精准对应关系方面还不够准确。

华南理工大学的商量团队意志到,要处分这些问题,就需要再行设计AI明白视频的式样。他们的处分有策划不错比看成AI配备了一副高精度的"时刻眼镜"、一个专门的"物体追踪雷达",以及一套精密的"话语-视觉对照表"。通过这三样"装备",AI就能像一个专科的电影批驳家一样,不仅能明白电影的内容,还能准确记取每个细节发生的时刻,何况耐久通晓地知说念画面中每个扮装和物体的动向。

一、像预测天气一样明白视频时刻变化

要让AI精准明白视频中的时刻变化,商量团队鉴戒了一个出东说念主意料的灵感起头:天气预告系统中的扩散模子。这听起来可能有些奇怪,但实质上颠倒秘要。天气预告需要分析大气中无数微小变化怎样随时刻演进,而视频明白雷同需要捕捉画面中狭窄变化如安在时刻轴上张开。

扩散模子的工作旨趣就像一个反向的"画面吞吐过程"。正如你在有雾的清晨看兴隆,雾气会让通晓的画面变得吞吐,而扩散模子则是从吞吐的画面驱动,渐渐"去雾"直到看清确凿场景。在视频明白中,商量团队让AI先对视频帧添加"东说念主工噪声"(相称于东说念主为制造雾气),然后锤真金不怕火AI学会去除这些噪声。这个过程让AI学会了识别视频中哪些变化是简直挑升念念的时刻变化,哪些只是不足轻重的就地波动。

这种门径的秘要之处在于,当AI学会了从吞吐画面中收复通晓图像的过程,它实质上也学会了明白画面变化的内在限定。就像一个请示丰富的兴隆学家能够从云彩的狭窄变化预测昔日天气一样,经过锤真金不怕火的AI不错从视频的微小变化中准确把抓事件发生的时刻节点。商量团队将这个翻新的模块称为"扩散时刻潜在编码器"(DTL),它能够生成一系列专门态状时刻变化的特征信号,这些信号就像视频的"时刻指纹",能够匡助AI精坚信位每个事件的发生时刻。

传统的AI视频明白系统时时只是浅显地为每一帧画面打上时刻戳,这就像给每张像片写上拍摄时刻一样直率。而新的扩散时刻编码器能够明白帧与帧之间的链接变化关系,它能够感知到"这一帧比较上一帧发生了什么样的变化",从而构建出愈加追究的时刻明白能力。这种各异就像传统门径只可告诉你"这是第10秒",而新门径能够明白"从第9秒到第10秒之间发生了什么具体的变化过程"。

二、给AI装上专门的物体追踪雷达

明白长视频的另一个关节挑战是络续追踪视频中的特定物体。这就像在拥堵的东说念主群中耐久随着你的一又友一样辛苦,颠倒是当视频场景复杂、物体时时被消除或者视角发生变化时。商量团队为此开荒了一套翻新的"实体感知分割"系统,不错把它设想成给AI配备了一个专科的物体追踪雷达。

这个追踪系统的工作经过颠倒敬爱。当用户提倡一个对于视频的问题时,比如"那只红色的狗什么时候遇到了飞盘?",AI最初会像一个话语巨匠一样分析这个问题,索要出关节的名词——在这个例子中便是"狗"和"飞盘"。这个过程就像给AI提供了一个"寻找清单",明确告诉它需要在视频中寻找什么物体。

接下来,AI会使用一个叫作念"Grounded-SAM2"的高档视觉识别用具,这个用具就像一个请示丰富的野机动物不雅察员,能够在复杂的画面中准确识别和定位特定物体。但只是识别还不够,更蹙迫的是要能够络续追踪。为了确保追踪的准确性,商量团队设计了一个秘要的"AND门"机制。这个机制要求通盘关连物体都必须同期出目下画面中,何况这种景色必须络续一定时刻,AI才驱动进展的追踪过程。这就像拍摄野机动物时,影相师会恭候通盘主见动物都参预镜头并保持沉着景色后才驱动记载。

一朝驱动追踪,AI就会为每个物体创建一个独有的"身份档案",包含该物体的视觉特征、体式轮廓、神气信息等。这些档案会随着视频的播放握住更新,就像惊奇一份动态的个东说念主档案一样。即使物体暂时被消除或者改变了角度,AI也能够根据这些档案再行识别和定位它们。这种追踪能力让AI能够回复诸如"红色的车在通盘这个词视频中的行驶道路"这么复杂的问题。

三、创造AI专属的搀杂话语系统

为了让AI能够同期处理视频图像、时刻信息和翰墨态状,商量团队开荒了一套翻新的"搀杂标记计策"。这个计策的中枢念念想是创造一种AI专属的搀杂话语,让AI能够在统一个念念维过程中同期明白翰墨、图像和时刻意见。

这种搀杂话语系统就像一个多功能的翻译器。在传统的AI系统中,翰墨、图像和时刻信息通常被分别处理,就像三个不同的东说念主在用不同的话语沟通,相互明白起来颠倒辛苦。而新的搀杂标记系统将这三种信息蜕变成调处的"AI话语",让它们能够在统一个对话中无缝沟通。

具体来说,这个系统会将普通的翰墨蜕变成圭臬的翰墨标记,将视频画面蜕变成视觉标记,将时刻信息蜕变成时刻标记,将物体追踪信息蜕变成物体标记。更秘要的是,它还引入了一些特殊的标记美艳,比如用"<24>"这么的美艳来精准暗意第24秒的时刻点,用"<dog>"这么的美艳来标记狗这个物体。这么,AI在处理一个问题时,就能够同期"看到"关连的画面内容、明白对应的时刻节点、识别波及的物体,何况将这些信息与问题中的翰墨态状进行精准匹配。

这种搀杂话语的上风在于它能够相沿颠倒追究的时刻推理。传统的AI可能只可给出"狗在视频中追赶飞盘"这么的吞吐回复,而使用搀杂标记系统的AI能够给出"狗在第24秒初度遇到飞盘,然后在第48秒到第72秒之间一直叼着飞盘跑动"这么精准的回复。这种精准性对于需要详备分析视频内容的应用场景颠倒蹙迫,比如体育比赛分析、安防监控、医疗会诊等鸿沟。

四、锤真金不怕火一个视频明白巨匠

要让AI掌抓这些复杂的妙技,商量团队聘用了一种雷同培养专科大夫的锤真金不怕火门径。就像医学院学生需要先学习基础表面,再通过无数临床推行渐渐成为巨匠一样,AI也需要经过系统的锤真金不怕火过程。

锤真金不怕火过程的第一阶段是"基础学问学习"。商量团队使用了一个还是具备强谣言语明白能力的AI模子看成基础,这个模子叫作念Phi-3.5-Vision-Instruct,相称于一个还是掌抓了话语和基础视觉明白能力的"AI大学生"。在这个基础上,团队驱动解释它专门的视频明白妙技。

锤真金不怕火的核神思策是使用"低秩相宜"(LoRA)时期,这种时期的秘要之处在于它不会皆备改变AI原有的学问结构,而是在保持原有能力的基础上增多新的专科妙技。这就像给一个还是掌抓多种话语的翻译官解释一种新的专科术语,而不需要让他再行学习通盘这个词话语系统。这种门径不仅遵守更高,而且能够幸免新妙技与原有能力之间的冲突。

为了确保锤真金不怕火效果,商量团队还开荒了一套特殊的"特征对皆"机制。这个机制使用了一种叫作念KL散度的数学用具,它的作用是确保AI在学习新的视频明白能力时,新妙技与已有的视觉明白能力保持一致性。这就像确保一个学习新乐器的音乐家不会健忘蓝本掌抓的音乐表面一样。通过这种对皆机制,AI能够更沉着地整合各式妙技,幸免出现妙技之间相互插手的问题。

通盘这个词锤真金不怕火过程使用了先进的AdamW优化算法,聘用余弦学习率调度计策,在8块H800 GPU上进行了3个完整周期的锤真金不怕火。锤真金不怕火数据包括了无数的长视频样本,每个视频都被采样成96帧,并分红12个时刻段进行处理。这种经心设计的锤真金不怕火过程确保了AI能够在保持原有话语明白能力的基础上,获取普遍的视频时刻推理和物体追踪能力。

五、在确凿宇宙中锤真金不怕火AI的视频明白能力

为了考证这套AI系统的实质效果,商量团队进行了一系列严格的测试,这些测试不错比作给AI进行"驾照考试",涵盖了各式复杂的视频明白场景。

第一类测试被称为"时刻视频定位",就像考验AI能否准确回复"某个特定事件在视频中的什么时候发生"。商量团队使用了两个有名的测试数据集:Charades-STA和DiDeMo。在Charades-STA测试中,AI需要不雅看日常生涯场景的视频,然后回复诸如"东说念主物提起杯子的具体时刻段"这么的问题。测试适度涌现,新的AI系统在精坚信位方面知道优异,平均定位准确度(mIoU)达到了39.5分,比较之前的最好系统擢升了约3分。更蹙迫的是,在最严格的测试条款下(要求定位精度达到70%以上),新系统的得手率达到了21.0%,比之前的最好系统高出约6个百分点。

第二类测试是"有根据的视频问答",这类测试不仅要求AI回复问题,还要求它能够指出谜底的具体依据在视频的哪个位置。这就像要肆业生不仅要给出谜底,还要证明推理过程和左证起头。在NExT-GQA数据集上的测试适度涌现,新系统在这类任务上的抽象得分达到了28.4分,卓著了之前的最好系统。颠倒值得崇拜的是,在左证定位准确性方面,新系统知道尤为杰出,能够准确指出谜底依据地方的时刻段。

第三类测试是"怒放式视频问答",这是最具挑战性的测试类型,因为问题和谜底都莫得固定形式,皆备模拟确凿宇宙中东说念主们对视频内容的各式疑问。在NExT-QA等多个数据集上的测试适度涌现,新系统在各样问题上都知道优秀,总体准确率达到了56.9%,在时刻推理、因果关系明白、计数和实体关系等各个方面都超越了现存的最好系统。

为了更直不雅地展示系统能力,商量团队还进行了一些实质应用场景的演示。比如,给AI播放一段小孩骑红色自行车的视频,然后问"小孩什么时候经过那棵树并出目下开朗路面上?"传统AI系统的回复通常比较吞吐或者不准确,而新系统能够给出精准的回复:"小孩从32.0秒到58.0秒骑车经过那棵树。"这种精准度对于需要详备视频分析的应用场景,如体育赛事分析、安防监控、教养视频制作等,具有蹙迫的实用价值。

六、深入剖析:AI系统的关节翻新点

为了更好地明白这套AI系统的翻新之处,商量团队进行了详备的"剖解分析",逐个考证每个组件的作用效果。这个过程就像汽车工程师逐个测试发动机、刹车系统、导航系统的性能一样,确保每个部件都阐发最好效果。

最初是扩散时刻潜在编码器(DTL)的效果考证。商量团队通过对比实验发现,加入这个组件后,AI在精准时刻定位方面的能力权贵擢升。具体知道为在最严格的定位精度要求下(R@0.7主见),性能从19.7%擢升到21.0%,这个擢逝世然看似微小,但在AI鸿沟代表着相称权贵的朝上。这证明扩散模子照实能够匡助AI更好地明白视频中的时刻变化限定。

其次是物体分割追踪系统的孝顺分析。当商量团队在基础系统上加入物体级分割和追踪功能后,AI在处理多物体场景时的准确率显着擢升。颠倒是在需要分离不同物体并回复关连问题时,新系统的作假率大幅缩短。这证明了专门的物体追踪机制对于复杂视频明白的蹙迫性。

搀杂标记计策的效果也得到了考证。商量团队发现,当AI能够同期处理翰墨、视觉、时刻和物体信息时,它在复杂推理任务上的知道最好。但敬爱的是,标记数目的均衡颠倒蹙迫:使用4个物体标记和8个时刻标记能够达到最好的性能均衡,既保证了明白精度,又保管了合理的筹议遵守。标记过多会导致信息冗余和筹议工作,标记过少则无法提供实足的细节信息。

商量团队还颠倒测试了扩散模子的参数缔造。他们发现,使用4步去噪过程、余弦调度计策和1.0的蛊卦强度能够达到最好效果。这些看似时期性的细节实质上对系统性能有着蹙迫影响,就像调音师需要精准调治每个音符的音高和时长才能创造出竣工的和声一样。

七、预测昔日:AI视频明白的更广袤六合

这项商量的得手不仅处分了刻下AI视频明白中的关节问题,更蹙迫的是为昔日的发展指明了标的。不错预感,这种精准的视频时刻明白能力将在多个鸿沟产生深切影响。

在训诫鸿沟,这项时期不错匡助开荒更智能的在线学习平台。遐想一下,学生在不雅看教养视频时不错随时发问"本分在第几分钟解释了这个公式?"或者"实验的关节才气出目下什么时候?"AI助手能够立即给出精准的时刻定位和详备解答,让学习变得愈加高效和个性化。

在安防监控鸿沟,这项时期的应用远景愈加广袤。传统的监控系统只可记载视频,需要东说念主工破耗无数时刻查找关节信息。而具备精准时刻明白能力的AI不错自动分析监控摄像,快速定位特定事件发生的时刻,识别可疑行径的详备过程,以至预测潜在风险。这将大大擢升安防系统的遵守和可靠性。

在医疗会诊鸿沟,这项时期也有着蹙迫应用价值。大夫在分析手术摄像或医疗影像时,AI不错匡助精坚信位关节会诊信息出现的时刻点,分析病变发展的时刻进度,为医疗决策提供更准确的依据。

体育分析是另一个充满后劲的应用标的。老师和分析师不错哄骗这项时期详备分析比赛摄像,精准找到每个战术扩展的时刻点,分析畅通员在不同期间段的知道变化,为锤真金不怕火和比赛计策制定提供科学依据。

文娱产业雷同不错从这项时期中受益。视频制作家不错使用AI助手快速定位素材中的特定内容,自动生成视频节录和精彩片断,大大擢升内容创作的遵守。不雅众也不错通过天然话语查询快速找到感兴味的视频片断,享受愈加个性化的不雅看体验。

天然,这项时期的发展还濒临一些挑战。怎样处理愈加复杂的多东说念主多物体场景,如安在保持精准度的同期擢升处理速率,怎样相宜不同类型和立场的视频内容,这些都是需要进一步商量和修订的标的。

另外,随着时期的握住完善,咱们也需要辩论关连的伦理和秘籍问题。普遍的视频明白能力可能被用于过度监控或扰乱秘籍的场景,因此在时期发展的同期,建造相应的使用范例和伦理准则雷同蹙迫。

总体而言,华南理工大学团队的这项商量为AI视频明白鸿沟开启了一个新的章节。它证明了通过秘要隘连合扩散模子、物体追踪和多模态交融时期,AI不错获取前所未有的视频明白能力。这不仅是时期上的冲突,更是向着简直智能的视频明白系统迈出的蹙迫一步。随着这项时期的进一步发展和完善,咱们有事理信赖,AI将能够像东说念主类一样自如地明白和分析各式复杂的视频内容,为咱们的生涯和工作带来更多便利和可能性。

对于普通东说念主来说,这项时期的发展意味着咱们很快就能领有一个简直明白视频内容的AI助手。非论是查找家庭摄像中的特殊时刻,分析在线课程的要点内容,照旧快速浏览万古刻的会议摄像,AI都能够提供精准、高效的匡助。这将让咱们与视频内容的互动式样发生根人道改变,从被迫的不雅看者酿成主动的内容探索者。

这项冲突性商量的详备时期内容还是公开荒表,感兴味的读者不错通过arXiv:2508.15641v1获取完整的商量论文,深入了解其中的时期细节和翻新念念路。随着更多商量者在这个基础上络续探索和修订,咱们不错期待AI视频明白时期在不久的将来终端更大的冲突,为数字化时间的视频应用始创愈加广袤的远景。

Q&A

Q1:Grounded-VideoDiT是什么?它有什么颠倒之处?

A:Grounded-VideoDiT是华南理工大学开荒的AI视频明白系统,它的颠倒之处在于能够像东说念主类一样精准明白长视频内容,不仅能回复视频讲了什么,还能准确告诉你每个事件发生在第几秒,何况不错络续追踪视频中的特定物体,这是目下其他AI系统很难作念到的。

Q2:扩散时刻潜在编码器是怎样匡助AI明白视频时刻的?

A:这个编码器鉴戒了天气预告中的扩散模子旨趣,通过先给视频画面添加"东说念主工噪声"然后学会去除噪声的过程,让AI学会识别视频中简直挑升念念的时刻变化。就像从吞吐的画面中渐渐看清细节一样,AI因此获取了精准把抓事件发生时刻的能力。

Q3:这项时期在日常生涯中有什么实质用途?

A:这项时期的应用远景很正常。在训诫方面,不错匡助学生快速找到教养视频中的关节学问点;在安防监控中,能自动分析摄像并精坚信位可疑事件发生时刻;在文娱鸿沟,不雅众不错通过天然话语快速搜索视频中的精彩片断;在医疗会诊中,不错匡助大夫精准分析手术摄像和医疗影像。

www.openhousebk.com
官方网站
8056d902@outlook.com
联系邮箱
新闻资讯科技园5380号
联系地址

Powered by 开云官网kaiyun切尔西赞助商 (中国)官方网站 登录入口 RSS地图 HTML地图


开云官网kaiyun切尔西赞助商 (中国)官方网站 登录入口-体育游戏app平台还能准确知说念每个事件发生的具体时刻-开云官网kaiyun切尔西赞助商 (中国)官方网站 登录入口