meta-pytorch · RdoubleA · Oct 2, 2024 · Oct 2, 2024 · Oct 2, 2024 · Oct 2, 2024
diff --git a/torchtune/models/clip/_position_embeddings.py b/torchtune/models/clip/_position_embeddings.py
@@ -10,6 +10,7 @@
 import torch
 import torch.nn.functional as F
 from torch import nn
+from torch.distributed._tensor import distribute_tensor, DTensor
 
 
 class TokenPositionalEmbedding(nn.Module):
@@ -137,6 +138,10 @@ def _load_state_dict_hook(
         inpt_local_pos_embed = state_dict.get(
             prefix + "local_token_positional_embedding"
         )
+        local_device = inpt_local_pos_embed.device
+        if isinstance(inpt_local_pos_embed, DTensor):
+            inpt_local_pos_embed = inpt_local_pos_embed.full_tensor()
+
         if inpt_local_pos_embed is not None:
 
             # sanity check
@@ -159,6 +164,13 @@ def _load_state_dict_hook(
                 tgt_patch_grid_size=int(math.sqrt(tgt_n_tokens_per_tile - 1)),
             )
 
+            if isinstance(inpt_local_pos_embed, DTensor):
+                inpt_local_pos_embed = distribute_tensor(
+                    inpt_local_pos_embed,
+                    device_mesh=self.local_token_positional_embedding.device_mesh,
+                    placements=self.local_token_positional_embedding.placements,
+                )
+
             # update state dict
             state_dict[
                 prefix + "local_token_positional_embedding"
@@ -176,6 +188,10 @@ def _load_state_dict_hook(
         inpt_global_pos_embed = state_dict.get(
             prefix + "global_token_positional_embedding"
         )
+        global_device = inpt_global_pos_embed.device
+        if isinstance(inpt_global_pos_embed, DTensor):
+            inpt_global_pos_embed = inpt_global_pos_embed.full_tensor()
+
         if inpt_global_pos_embed is not None:
 
             _, _, inpt_n_tokens_per_tile, _ = inpt_global_pos_embed.shape
@@ -202,6 +218,13 @@ def _load_state_dict_hook(
                 tgt_patch_grid_size=int(math.sqrt(tgt_n_tokens_per_tile - 1)),
             )
 
+            if isinstance(inpt_global_pos_embed, DTensor):
+                inpt_global_pos_embed = distribute_tensor(
+                    inpt_global_pos_embed,
+                    device_mesh=self.global_token_positional_embedding.device_mesh,
+                    placements=self.global_token_positional_embedding.placements,
+                )
+
             # update state dict
             state_dict[
                 prefix + "global_token_positional_embedding"
@@ -497,7 +520,9 @@ def _load_state_dict_hook(
         """
 
         embedding = state_dict.get(prefix + "embedding")
-
+        device = embedding.device
+        if isinstance(embedding, DTensor):
+            embedding = embedding.full_tensor()
         if embedding is not None:
 
             # ckpt pos emb
@@ -534,6 +559,13 @@ def _load_state_dict_hook(
                 embedding, tgt_max_num_tiles=tgt_max_num_tiles_x
             )
 
+            if isinstance(embedding_new, DTensor):
+                embedding_new = distribute_tensor(
+                    embedding_new,
+                    device_mesh=self.embedding.device_mesh,
+                    placements=self.embedding.placements,
+                )
+
             # update state dict
             state_dict[prefix + "embedding"] = embedding_new
             if embedding_new.shape != self.embedding.shape: