pyannote · asr-pub · Nov 2, 2023 · grazder · Nov 7, 2023 · grazder
diff --git a/pyannote/audio/pipelines/speaker_diarization.py b/pyannote/audio/pipelines/speaker_diarization.py
@@ -338,6 +338,10 @@ def iter_waveform_and_mask():
         for i, batch in enumerate(batches, 1):
             waveforms, masks = zip(*filter(lambda b: b[0] is not None, batch))
 
+            if torch.cuda.is_available():
+                waveforms = tuple([x.cuda() for x in waveforms])
+                masks = tuple([x.cuda() for x in masks])
+
             waveform_batch = torch.vstack(waveforms)
             # (batch_size, 1, num_samples) torch.Tensor
 

diff --git a/pyannote/audio/pipelines/speaker_verification.py b/pyannote/audio/pipelines/speaker_verification.py
@@ -481,7 +481,7 @@ def dimension(self) -> int:
         dummy_waveforms = torch.rand(1, 1, 16000)
         features = self.compute_fbank(dummy_waveforms)
         embeddings = self.session_.run(
-            output_names=["embs"], input_feed={"feats": features.numpy()}
+            output_names=["embs"], input_feed={"feats": features.cpu().numpy()}
         )[0]
         _, dimension = embeddings.shape
         return dimension
@@ -504,7 +504,7 @@ def min_num_samples(self) -> int:
                 continue
 
             embeddings = self.session_.run(
-                output_names=["embs"], input_feed={"feats": features.numpy()}
+                output_names=["embs"], input_feed={"feats": features.cpu().numpy()}
             )[0]
 
             if np.any(np.isnan(embeddings)):
@@ -583,7 +583,7 @@ def __call__(
 
         if masks is None:
             embeddings = self.session_.run(
-                output_names=["embs"], input_feed={"feats": features.numpy()}
+                output_names=["embs"], input_feed={"feats": features.cpu().numpy()}
             )[0]
 
             return embeddings
@@ -606,7 +606,7 @@ def __call__(
 
             embeddings[f] = self.session_.run(
                 output_names=["embs"],
-                input_feed={"feats": masked_feature.numpy()[None]},
+                input_feed={"feats": masked_feature.cpu().numpy()[None]},
             )[0][0]
 
         return embeddings