1.ACT
2.RT-1
-
图像输入(6帧历史图像)通过EfficientNet-B3提取视觉特征。
-
语言输入通过通用句子编码器生成嵌入向量。
-
FiLM层结合语言信息调整视觉特征。
-
TokenLearner提取重要的视觉特征标记。
-
Transformer接收筛选后的视觉特征标记和语言信息,生成动作标记。
-
动作标记被解码为具体的机器人动作。
缩放( 1 + γ ):
类似于调节特征的“亮度”或“权重”,强调重要特征或抑制无关特征。
偏移( β ):
类似于“移动特征值基线”,帮助特征适应任务需求。
3.HPT
![image-20250113154641391](/Users/zhoujunl/Library/Application Support/typora-user-images/image-20250113154641391.png)
4.RT-2
5.OpenVLA
DinoV2 是一种视觉编码器,擅长提取 低级细节和空间信息
SigLIP 是一种视觉-语言预训练模型,专注于提取图像的 高级语义特征