各位老师好,我们在做一个视频周期动作计数问题。具体场景是:根据游泳视频,统计每个泳者在每一段里的划水次数。
我们有大量“手部出水”检测框、身体框、泳者方向、泳道、泳者身份等原始数据,并且有次数、每次划手开始结束时间的 Ground Truth ,我们的目标是:
从大量有噪声的检测框里,筛出真正对应划水动作的证据,并稳定得到正确的划水次数。
2. 挑战目标和奖金
我们提供原始数据。如果您能提供可复现的方法,在 leave-one-video-out 评估中达到明显提升,我们愿意提供奖金。
当前最好的 offline Baseline 大约是:
目标 A:奖金 1500 元
目标 B:奖金 3000 元
3. 数据说明
原始数据:
[ol]
[/ol]
Ground Truth:
[ol]
[/ol]
目前数据集中有 5 个视频、15 次运行、101 行有效评估数据。原始手部检测框约 13.8 万条,其中约 5.8 万条落在真实划水时间窗口里,约 8.0 万条在窗口外。数据、测试代码和说明文件:https://github.com/cbccbcc/external_clean_challenge_20260605
4. 我们目前的算法尝试:L1 / L2
L1 可以理解为对检测框的初步判断:
[ol]
[/ol]
L2 可以理解为在 L1 基础上,引入了序列维度,作为划手的依据:
[ol]
[/ol]
我们并不需要局限于这种思路,可以直接从 L1/L2 甚至原始检测框中恢复/预测划手次数。
5. 我们所做的尝试
[ol]
[/ol]
6. 评估规则
使用 leave-one-video-out:
[ol]
[/ol]
要求同一套算法和参数选择流程必须能泛化到所有视频,不能针对单个视频人工调参。
7. 禁止使用的信息
人工标注可以用于训练、分析和调试,但最终算法不能把以下信息作为输入:
[ol]
[/ol]
换句话说,temporal ground truth 可以帮助你设计方法,但不能直接喂给最终预测算法。
8. 关于时间对齐
我们发现算法证据整体加上一个小时间偏移后(+0.15s ),会和人工标注窗口更对齐。这个发现说明时间校准可能很重要。
但是最终奖励指标仍然以划水次数为主。我们不会单独因为时间对齐好就认定成功,但我们强烈建议关注时间对齐,因为稳定的时间证据通常更容易得到稳定的计数。
9. 关于交付
您只需要提供算法,初步远程确认没问题后可以咸鱼下单,支付后将算法细节发给我们进行验证,验证达到要求后确认收货。

