Training video size #661

cdfan0627 · 2025-01-13T03:55:05Z

請問training video 長寬一定要是480×720 或 768×1360嗎，還是其實只要符合某個倍數就可以了

The text was updated successfully, but these errors were encountered:

OleehyO · 2025-01-13T10:08:49Z

480x720是1.0模型的分辨率，必须固定。

768x1360是1.5模型的分辨率，只有i2v的分辨率可以自己定义（t2v也必须固定），但还是建议使用768x1360来微调，否则效果可能会不太好。

cdfan0627 · 2025-01-13T10:48:44Z

想請問為什麼t2v都必須固定呢

OleehyO · 2025-01-14T04:45:23Z

因为是固定分辨率训练的

eightmusic · 2025-01-17T09:55:02Z

因为是固定分辨率训练的
训练需要多少显存

cdfan0627 · 2025-01-17T16:32:53Z

請問如果我在CogVideoX 5B I2V 使用下面的code的話，是不是就可以train 跟 inference 720 * 480以外的resolution，以及是否resolution還需要是8的倍數，或還有什麼其他限制呢?

del transformer.patch_embed.pos_embedding
transformer.patch_embed.use_learned_positional_embeddings = False
transformer.config.use_learned_positional_embeddings = False

OleehyO self-assigned this Jan 13, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Training video size #661

Training video size #661

cdfan0627 commented Jan 13, 2025 •

edited

Loading

OleehyO commented Jan 13, 2025 •

edited

Loading

cdfan0627 commented Jan 13, 2025 •

edited

Loading

OleehyO commented Jan 14, 2025

eightmusic commented Jan 17, 2025

cdfan0627 commented Jan 17, 2025

Training video size #661

Training video size #661

Comments

cdfan0627 commented Jan 13, 2025 • edited Loading

OleehyO commented Jan 13, 2025 • edited Loading

cdfan0627 commented Jan 13, 2025 • edited Loading

OleehyO commented Jan 14, 2025

eightmusic commented Jan 17, 2025

cdfan0627 commented Jan 17, 2025

cdfan0627 commented Jan 13, 2025 •

edited

Loading

OleehyO commented Jan 13, 2025 •

edited

Loading

cdfan0627 commented Jan 13, 2025 •

edited

Loading