您当前的位置：首页 > Manus

动作识别大模型

时间：2025-04-13 11:00:47 来源：互联网作者：

M2-CLIP：用于视频动作识别的多模态、多任务适应 2024年1月24日 · 该论文要解决的问题是利用大型视觉语言预训练模型，如CLIP，解决视频动作识别中的任务转移问题。具体来说，该论文提出了一个名为M2-CLIP的新的多模态、多任务适应框架，旨在将大型视觉语言模型转移到视更多内容请查看https://zhuanlan.zhihu.com/p/679485395

https://blog.csdn.net › article › details › 斯坦福提出首个开源视觉语言动作大模型OpenVLA2024年7月4日 · 整个模型基于Prismatic-7B VLM，仅修改了输出部分，针对机械臂action使用归一化分为了256bin，动作token来自语言token后身下的token和使用频率很低的token（类似RT2）。构建OpenVLA 训练集的目标是捕捉各种机器更多内容请查看https://blog.csdn.net/weixin_43827285/article/details/140188383

dongaigc.comMotionLLM: 理解人类行为的多模态大语言模型 MotionLLM是一个创新的多模态大语言模型框架，能同时理解视频和人体动作序列，实现人类行为的全面理解、描述和推理。该模型采用统一的视频-动作训练策略，结合了粗粒度视频文本数据和细粒度动作文本数据的优势，从更多内容请查看https://www.dongaigc.com/a/motionllm-understanding-human-behavior

视频动作识别、行为识别、时空动作检测数据集整 2021年2月22日 · 本文介绍了计算机视觉领域的动作识别和行为识别任务，以及相关数据集，如Kinetics、Something-Something、Charades、Moments in Time等。这些数据集在规模、标注信息上各有特点，提供了丰富的视频理解资源。更多内容请查看https://blog.csdn.net/Bit_Coders/article/details/113932840

IDEA 研究院推出的多模态目标检测 DINO-XSeek 是 IDEA 研究院推出的多模态目标检测模型，结合视觉感知和自然语言理解能力。DINO-XSeek基于复杂的语言描述精准定位图像中的目标，识别目标的属性（如颜色、形状、动作等）、位置关系及交互情况。模型基于 DINO-X 更多内容请查看https://ai-bot.cn/dino-xseek/

推荐资讯

栏目更新

栏目热门