Pacific-AI-Corp · ArshaanNazir · Jun 5, 2023 · Jun 4, 2023 · Jun 4, 2023 · Jun 4, 2023
diff --git a/demo/tutorials/AI21_QA_Summarization_Testing_Notebook.ipynb b/demo/tutorials/AI21_QA_Summarization_Testing_Notebook.ipynb
@@ -185,15 +185,42 @@
       "source": [
         "We have specified task as QA, hub as AI21 and model as `j2-jumbo-instruct`.\n",
         "\n",
-        "For dataset we used BoolQ-test-tiny which includes 50 lines from BoolQ-test. Other available datasets are:\n",
+        "For dataset we used `BoolQ-test-tiny` which includes 50 lines from BoolQ-test. Other available datasets are:\n",
         "\n",
+        "#### BoolQ\n",
         "* `BoolQ-test-tiny`\n",
         "* `BoolQ-test`\n",
         "* `BoolQ-combined`\n",
+        "#### NQ-open\n",
         "* `NQ-open-test`\n",
         "* `NQ-open-combined`\n",
         "* `NQ-open-test-tiny`\n",
-        "\n"
+        "#### TruthfulQA\n",
+        "* `TruthfulQA-combined`\n",
+        "* `TruthfulQA-test`\n",
+        "* `TruthfulQA-tiny`\n",
+        "* `TruthfulQA-train`\n",
+        "#### MMLU\n",
+        "* `MMLU-dev-tiny`\n",
+        "* `MMLU-test-tiny`\n",
+        "* `MMLU-val-tinyt`\n",
+        "#### OpenBookQA\n",
+        "* `OpenBookQA-test`\n",
+        "* `OpenBookQA-train`\n",
+        "* `OpenBookQA-dev`\n",
+        "* `OpenBookQA-test-tiny`\n",
+        "* `OpenBookQA-train-tiny`\n",
+        "* `OpenBookQA-dev-tiny`\n",
+        "#### QUAC\n",
+        "* `Quac-val`\n",
+        "* `Quac-val-tiny`\n",
+        "* `Quac-train`\n",
+        "* `Quac-train-tiny`\n",
+        "#### NarrativeQA\n",
+        "* `NarrativeQA-test`\n",
+        "* `NarrativeQA-test-tiny`\n",
+        "* `HellaSwag-test`\n",
+        "* `HellaSwag-test-tiny`"
       ]
     },
     {
@@ -213,7 +240,11 @@
         "* `strip_punctuation`\n",
         "* `titlecase`\n",
         "* `uppercase`\n",
-        "* `number_to_word`"
+        "* `number_to_word`\n",
+        "* `add_abbreviation`\n",
+        "* `add_speech_to_text_typo`\n",
+        "* `add_slangs`\n",
+        "* `dyslexia_word_swap`"
       ]
     },
     {
@@ -1801,6 +1832,10 @@
         "* `titlecase`\n",
         "* `uppercase`\n",
         "* `number_to_word`\n",
+        "* `add_abbreviation`\n",
+        "* `add_speech_to_text_typo`\n",
+        "* `add_slangs`\n",
+        "* `dyslexia_word_swap`\n",
         "\n",
         "Available Bias tests for summarization task are:\n",
         "\n",

diff --git a/demo/tutorials/Azure_OpenAI_QA_Summarization_Testing_Notebook.ipynb b/demo/tutorials/Azure_OpenAI_QA_Summarization_Testing_Notebook.ipynb
@@ -191,14 +191,42 @@
       "source": [
         "We have specified task as QA, hub as OpenAI and model as text-davinci-003, text-davinci-002 whatever model available from azure openai services.\n",
         "\n",
-        "For dataset we used BoolQ-test-tiny which includes 50 lines from BoolQ-test. Other available datasets are:\n",
+        "For dataset we used `BoolQ-test-tiny` which includes 50 lines from BoolQ-test. Other available datasets are:\n",
         "\n",
+        "#### BoolQ\n",
         "* `BoolQ-test-tiny`\n",
         "* `BoolQ-test`\n",
         "* `BoolQ-combined`\n",
+        "#### NQ-open\n",
         "* `NQ-open-test`\n",
         "* `NQ-open-combined`\n",
         "* `NQ-open-test-tiny`\n",
+        "#### TruthfulQA\n",
+        "* `TruthfulQA-combined`\n",
+        "* `TruthfulQA-test`\n",
+        "* `TruthfulQA-tiny`\n",
+        "* `TruthfulQA-train`\n",
+        "#### MMLU\n",
+        "* `MMLU-dev-tiny`\n",
+        "* `MMLU-test-tiny`\n",
+        "* `MMLU-val-tinyt`\n",
+        "#### OpenBookQA\n",
+        "* `OpenBookQA-test`\n",
+        "* `OpenBookQA-train`\n",
+        "* `OpenBookQA-dev`\n",
+        "* `OpenBookQA-test-tiny`\n",
+        "* `OpenBookQA-train-tiny`\n",
+        "* `OpenBookQA-dev-tiny`\n",
+        "#### QUAC\n",
+        "* `Quac-val`\n",
+        "* `Quac-val-tiny`\n",
+        "* `Quac-train`\n",
+        "* `Quac-train-tiny`\n",
+        "#### NarrativeQA\n",
+        "* `NarrativeQA-test`\n",
+        "* `NarrativeQA-test-tiny`\n",
+        "* `HellaSwag-test`\n",
+        "* `HellaSwag-test-tiny`\n",
         "\n"
       ]
     },
@@ -219,7 +247,11 @@
         "* `strip_punctuation`\n",
         "* `titlecase`\n",
         "* `uppercase`\n",
-        "* `number_to_word`"
+        "* `number_to_word`\n",
+        "* `add_abbreviation`\n",
+        "* `add_speech_to_text_typo`\n",
+        "* `add_slangs`\n",
+        "* `dyslexia_word_swap`"
       ]
     },
     {
@@ -1793,6 +1825,10 @@
         "* `titlecase`\n",
         "* `uppercase`\n",
         "* `number_to_word`\n",
+        "* `add_abbreviation`\n",
+        "* `add_speech_to_text_typo`\n",
+        "* `add_slang_typo`\n",
+        "* `dyslexia_word_swap`\n",
         "\n",
         "Available Bias tests for summarization task are:\n",
         "\n",

diff --git a/demo/tutorials/Cohere_QA_Summarization_Testing_Notebook.ipynb b/demo/tutorials/Cohere_QA_Summarization_Testing_Notebook.ipynb
@@ -194,14 +194,42 @@
       "source": [
         "We have specified task as QA, hub as Cohere and model as `command-xlarge-nightly`.\n",
         "\n",
-        "For dataset we used BoolQ-test-tiny which includes 50 lines from BoolQ-test. Other available datasets are:\n",
+        "For dataset we used `BoolQ-test-tiny` which includes 50 lines from BoolQ-test. Other available datasets are:\n",
         "\n",
+        "#### BoolQ\n",
         "* `BoolQ-test-tiny`\n",
         "* `BoolQ-test`\n",
         "* `BoolQ-combined`\n",
+        "#### NQ-open\n",
         "* `NQ-open-test`\n",
         "* `NQ-open-combined`\n",
         "* `NQ-open-test-tiny`\n",
+        "#### TruthfulQA\n",
+        "* `TruthfulQA-combined`\n",
+        "* `TruthfulQA-test`\n",
+        "* `TruthfulQA-tiny`\n",
+        "* `TruthfulQA-train`\n",
+        "#### MMLU\n",
+        "* `MMLU-dev-tiny`\n",
+        "* `MMLU-test-tiny`\n",
+        "* `MMLU-val-tinyt`\n",
+        "#### OpenBookQA\n",
+        "* `OpenBookQA-test`\n",
+        "* `OpenBookQA-train`\n",
+        "* `OpenBookQA-dev`\n",
+        "* `OpenBookQA-test-tiny`\n",
+        "* `OpenBookQA-train-tiny`\n",
+        "* `OpenBookQA-dev-tiny`\n",
+        "#### QUAC\n",
+        "* `Quac-val`\n",
+        "* `Quac-val-tiny`\n",
+        "* `Quac-train`\n",
+        "* `Quac-train-tiny`\n",
+        "#### NarrativeQA\n",
+        "* `NarrativeQA-test`\n",
+        "* `NarrativeQA-test-tiny`\n",
+        "* `HellaSwag-test`\n",
+        "* `HellaSwag-test-tiny`\n",
         "\n"
       ]
     },
@@ -222,7 +250,11 @@
         "* `strip_punctuation`\n",
         "* `titlecase`\n",
         "* `uppercase`\n",
-        "* `number_to_word`"
+        "* `number_to_word`\n",
+        "* `add_abbreviation`\n",
+        "* `add_speech_to_text_typo`\n",
+        "* `add_slangs`\n",
+        "* `dyslexia_word_swap`"
       ]
     },
     {
@@ -703,6 +735,10 @@
         "* `titlecase`\n",
         "* `uppercase`\n",
         "* `number_to_word`\n",
+        "* `add_abbreviation`\n",
+        "* `add_speech_to_text_typo`\n",
+        "* `add_slangs`\n",
+        "* `dyslexia_word_swap`\n",
         "\n",
         "Available Bias tests for summarization task are:\n",
         "\n",