Skip to content

zhoujunlingla/embodied-ai-paper

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 

Repository files navigation

embodied-ai-paper

1.ACT

image-20250113135610693

image-20250113151528072

image-20250113151544174

image-20250113152257557

  1. 图像输入(6帧历史图像)通过EfficientNet-B3提取视觉特征。

  2. 语言输入通过通用句子编码器生成嵌入向量。

  3. FiLM层结合语言信息调整视觉特征。

  4. TokenLearner提取重要的视觉特征标记。

  5. Transformer接收筛选后的视觉特征标记和语言信息,生成动作标记。

  6. 动作标记被解码为具体的机器人动作。

缩放( 1 + γ ):

​ 类似于调节特征的“亮度”或“权重”,强调重要特征或抑制无关特征。

偏移( β ):

​ 类似于“移动特征值基线”,帮助特征适应任务需求。

3.HPT

image-20250113154317716

![image-20250113154641391](/Users/zhoujunl/Library/Application Support/typora-user-images/image-20250113154641391.png)

image-20250113160933481

image-20250113161546765

​ DinoV2 是一种视觉编码器,擅长提取 低级细节和空间信息

​ SigLIP 是一种视觉-语言预训练模型,专注于提取图像的 高级语义特征

image-20250113190420976

image-20250113192226987

image-20250113195637912

9.π0

image-20250113202131691

10. ROSIE

image-20250114105305521

image-20250114113514670

12. RT-H

image-20250114143502671

13. EQA

image-20250114160119743

About

embodied paper study and summary

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published