huggingface · lhoestq · Jun 7, 2021 · Jun 1, 2021
diff --git a/src/datasets/dataset_dict.py b/src/datasets/dataset_dict.py
@@ -9,6 +9,7 @@
 import fsspec
 import numpy as np
 
+from datasets.splits import NamedSplit, Split
 from datasets.utils.doc_utils import is_documented_by
 
 from .arrow_dataset import Dataset
@@ -30,6 +31,20 @@ def _check_values_type(self):
                     "Values in `DatasetDict` should of type `Dataset` but got type '{}'".format(type(dataset))
                 )
 
+    def __getitem__(self, k) -> Dataset:
+        if isinstance(k, (str, NamedSplit)) or len(self) == 0:
+            return super().__getitem__(k)
+        else:
+            available_suggested_splits = [
+                str(split) for split in (Split.TRAIN, Split.TEST, Split.VALIDATION) if split in self
+            ]
+            suggested_split = available_suggested_splits[0] if available_suggested_splits else list(self)[0]
+            raise KeyError(
+                f"Invalid key: {k}. Please first select a split. For example: "
+                f"`my_dataset_dictionary['{suggested_split}'][{k}]`. "
+                f"Available splits: {sorted(self)}"
+            )
+
     @property
     def data(self) -> Dict[str, Table]:
         """The Apache Arrow tables backing each split."""