Merge pull request #1664 from Giskard-AI/GSK-2152-scanner-mulitlanguage-input

mattbit · web-flow · commit 12f1285f47f1 · 2023-12-08T13:26:14.000+01:00
Add language support in LLM generators [GSK-2152]
diff --git a/giskard/datasets/base/__init__.py b/giskard/datasets/base/__init__.py
@@ -507,6 +507,26 @@ def upload(self, client: GiskardClient, project_key: str):
             )
         return dataset_id
 
+    def extract_languages(self, columns=None):
+        """
+        Extracts all languages present in the dataset 'text' column.
+
+        Args:
+            list[str]: a list of columns from which languages should be extracted.
+
+        Returns:
+            list[str]: a list of language codes (according to  ISO 639-1) containing all languages in the dataset.
+        """
+        columns = columns if columns is not None else self.columns
+
+        langs_per_feature = [
+            self.column_meta[col, "text"]["language"].dropna().unique()
+            for col, col_type in self.column_types.items()
+            if (col_type == "text" and col in columns)
+        ]
+
+        return list(set().union(*langs_per_feature))
+
     @property
     def meta(self):
         return DatasetMeta(
diff --git a/giskard/llm/generators/adversarial.py b/giskard/llm/generators/adversarial.py
@@ -46,11 +46,14 @@ def _make_dataset_name(self, model: BaseModel, num_samples):
         return truncate(f"Adversarial Examples for requirement “{self.requirement}”")
 
     def _make_generate_input_prompt(self, model: BaseModel, num_inputs: int):
-        return self.prompt.format(
+        input_prompt = self.prompt.format(
             issue_description=self.issue_description,
             model_name=model.meta.name,
             model_description=model.meta.description,
             feature_names=", ".join(model.meta.feature_names),
             num_samples=num_inputs,
             requirement=self.requirement,
         )
+        if self.languages:
+            input_prompt = input_prompt + self._default_language_requirement.format(languages=self.languages)
+        return input_prompt
diff --git a/giskard/llm/generators/base.py b/giskard/llm/generators/base.py
@@ -1,4 +1,4 @@
-from typing import Optional
+from typing import Optional, Sequence
 
 from abc import ABC, abstractmethod
 
@@ -20,20 +20,25 @@
 Think step by step and then call the `generate_inputs` function with the generated inputs. You must generate {num_samples} inputs.
 """
 
+LANGUAGE_REQUIREMENT_PROMPT = "You must generate input using different languages among the following list: {languages}."
+
 
 class LLMGenerator(ABC):
     _default_temperature = 0.5
     _default_model = "gpt-4"
     _default_prompt = DEFAULT_GENERATE_INPUTS_PROMPT
+    _default_language_requirement = LANGUAGE_REQUIREMENT_PROMPT
 
     def __init__(
         self,
         llm_temperature: Optional[float] = None,
         llm_client: LLMClient = None,
         prompt: Optional[str] = None,
+        languages: Optional[Sequence[str]] = None,
     ):
         self.llm_temperature = llm_temperature if llm_temperature is not None else self._default_temperature
         self.llm_client = llm_client or get_default_client()
+        self.languages = languages
         self.prompt = prompt if prompt is not None else self._default_prompt
 
     @abstractmethod
@@ -43,12 +48,15 @@ def generate_dataset(self, model, num_samples=10, column_types=None) -> Dataset:
 
 class BaseDataGenerator(LLMGenerator):
     def _make_generate_input_prompt(self, model: BaseModel, num_samples: int):
-        return self.prompt.format(
+        input_prompt = self.prompt.format(
             model_name=model.meta.name,
             model_description=model.meta.description,
             feature_names=", ".join(model.meta.feature_names),
             num_samples=num_samples,
         )
+        if self.languages:
+            input_prompt = input_prompt + self._default_language_requirement.format(languages=self.languages)
+        return input_prompt
 
     def _make_generate_input_functions(self, model: BaseModel, num_samples: int):
         return [
diff --git a/giskard/llm/generators/sycophancy.py b/giskard/llm/generators/sycophancy.py
@@ -39,12 +39,15 @@ class SycophancyDataGenerator(LLMGenerator):
     _default_prompt = GENERATE_INPUTS_PROMPT
 
     def _make_generate_input_prompt(self, model: BaseModel, num_samples):
-        return self.prompt.format(
+        input_prompt = self.prompt.format(
             model_name=model.meta.name,
             model_description=model.meta.description,
             feature_names=", ".join(model.meta.feature_names),
             num_samples=num_samples,
         )
+        if self.languages:
+            input_prompt = input_prompt + self._default_language_requirement.format(languages=self.languages)
+        return input_prompt
 
     def _make_generate_input_functions(self, model: BaseModel):
         return [
diff --git a/giskard/scanner/llm/base.py b/giskard/scanner/llm/base.py
@@ -65,7 +65,12 @@ def run(self, model: BaseModel, dataset: Dataset, features=None) -> Sequence[Iss
         issues = []
         for requirement in requirements:
             logger.info(f"{self.__class__.__name__}: Evaluating requirement: {requirement}")
-            dg = AdversarialDataGenerator(issue_description=issue_description, requirement=requirement)
+
+            languages = dataset.extract_languages(columns=model.meta.feature_names)
+
+            dg = AdversarialDataGenerator(
+                issue_description=issue_description, requirement=requirement, languages=languages
+            )
             eval_dataset = dg.generate_dataset(model, self.num_samples)
 
             evaluator = RequirementEvaluator([requirement])
diff --git a/giskard/scanner/llm/llm_basic_sycophancy_detector.py b/giskard/scanner/llm/llm_basic_sycophancy_detector.py
@@ -78,7 +78,9 @@ def get_cost_estimate(self, model: BaseModel, dataset: Dataset) -> dict:
 
     def run(self, model: BaseModel, dataset: Dataset, features=None) -> Sequence[Issue]:
         # Prepare datasets
-        generator = SycophancyDataGenerator()
+        languages = dataset.extract_languages(columns=model.meta.feature_names)
+
+        generator = SycophancyDataGenerator(languages=languages)
         dataset1, dataset2 = generator.generate_dataset(
             model, num_samples=self.num_samples, column_types=dataset.column_types
         )
diff --git a/giskard/scanner/llm/llm_implausible_output_detector.py b/giskard/scanner/llm/llm_implausible_output_detector.py
@@ -59,7 +59,9 @@ def get_cost_estimate(self, model: BaseModel, dataset: Dataset) -> dict:
 
     def run(self, model: BaseModel, dataset: Dataset, features=None) -> Sequence[Issue]:
         # Generate inputs
-        generator = ImplausibleDataGenerator(llm_temperature=0.1)
+        languages = dataset.extract_languages(columns=model.meta.feature_names)
+
+        generator = ImplausibleDataGenerator(llm_temperature=0.1, languages=languages)
         eval_dataset = generator.generate_dataset(
             model, num_samples=self.num_samples, column_types=dataset.column_types
         )
diff --git a/tests/datasets/test_dataset_languages_extraction.py b/tests/datasets/test_dataset_languages_extraction.py
@@ -0,0 +1,108 @@
+import pandas as pd
+
+from giskard.datasets import Dataset
+
+
+def test_dataset_language_exhaustive_text_column_extraction():
+    df = pd.DataFrame(
+        {
+            "col1": [
+                "How does deforestation contribute to climate change according to IPCC reports?",
+                "Quel est le rôle des gaz à effet de serre dans le réchauffement climatique?",
+                "¿Cuál es el papel de los gases de efecto invernadero en el calentamiento global?",
+            ],
+            "col2": [
+                "Proč zpráva IPCC naznačuje, že lidské aktivity nejsou hlavní příčinou klimatických změn?",
+                "CAT1",
+                "CAT2",
+            ],
+            "col3": [0, 1, 2],
+        }
+    )
+
+    dataset = Dataset(df, column_types={"col1": "text", "col2": "category"}, target="col3")
+    languages = dataset.extract_languages()
+    languages.sort()
+    assert languages == ["en", "es", "fr"]
+
+    dataset = Dataset(df, column_types={"col1": "text", "col2": "text"}, target="col3")
+    languages = dataset.extract_languages()
+    languages.sort()
+    assert languages == ["cs", "en", "es", "fr"]
+
+
+def test_dataset_language_when_empty():
+    df = pd.DataFrame(
+        {
+            "col1": [
+                "How does deforestation contribute to climate change according to IPCC reports?",
+                "Quel est le rôle des gaz à effet de serre dans le réchauffement climatique?",
+                "¿Cuál es el papel de los gases de efecto invernadero en el calentamiento global?",
+            ],
+            "col2": ["CAT0", "CAT1", "CAT2"],
+            "col3": [0, 1, 2],
+            "col4": [3, 4, 5],
+        }
+    )
+
+    dataset = Dataset(df, column_types={"col1": "category", "col2": "text", "col3": "text"}, target="col4")
+    languages = dataset.extract_languages()
+    languages.sort()
+    assert languages == []
+
+    df = pd.DataFrame(
+        {
+            "col1": [
+                "How does deforestation contribute to climate change according to IPCC reports?",
+                "Quel est le rôle des gaz à effet de serre dans le réchauffement climatique?",
+                "¿Cuál es el papel de los gases de efecto invernadero en el calentamiento global?",
+            ],
+            "col2": [None, "CAT1", "CAT2"],
+            "col3": ["Bonjour", None, None],
+            "col4": [3, 4, 5],
+        }
+    )
+
+    dataset = Dataset(df, column_types={"col1": "category", "col2": "text", "col3": "text"}, target="col4")
+    languages = dataset.extract_languages()
+    languages.sort()
+    assert languages == []
+
+
+def test_dataset_language_column_filtering():
+    df = pd.DataFrame(
+        {
+            "col1": [
+                "How does deforestation contribute to climate change according to IPCC reports?",
+                "Quel est le rôle des gaz à effet de serre dans le réchauffement climatique?",
+                "¿Cuál es el papel de los gases de efecto invernadero en el calentamiento global?",
+            ],
+            "col2": [
+                "Proč zpráva IPCC naznačuje, že lidské aktivity nejsou hlavní příčinou klimatických změn?",
+                "CAT1",
+                "CAT2",
+            ],
+            "col3": [0, 1, 2],
+            "col4": [3, 4, 5],
+        }
+    )
+
+    dataset = Dataset(df, column_types={"col1": "text", "col2": "text", "col3": "numeric"}, target="col4")
+    languages = dataset.extract_languages(columns=["col2"])
+    languages.sort()
+    assert languages == ["cs"]
+
+    dataset = Dataset(df, column_types={"col1": "text", "col2": "text", "col3": "numeric"}, target="col4")
+    languages = dataset.extract_languages(columns=["col1", "col2"])
+    languages.sort()
+    assert languages == ["cs", "en", "es", "fr"]
+
+    dataset = Dataset(df, column_types={"col1": "text", "col2": "text", "col3": "numeric"}, target="col4")
+    languages = dataset.extract_languages(columns=["col3"])
+    languages.sort()
+    assert languages == []
+
+    dataset = Dataset(df, column_types={"col1": "text", "col2": "text", "col3": "numeric"}, target="col4")
+    languages = dataset.extract_languages(columns=["col4"])
+    languages.sort()
+    assert languages == []
diff --git a/tests/llm/generators/test_base_llm_generators.py b/tests/llm/generators/test_base_llm_generators.py
@@ -159,3 +159,111 @@ def test_generator_casts_based_on_column_types(Generator, args, kwargs):
 
     assert dataset.column_types["question"] == "text"
     assert dataset.column_types["other_feature"] == "numeric"
+
+
+@pytest.mark.parametrize(
+    "Generator,args,kwargs",
+    [
+        (BaseDataGenerator, [], {}),
+        (ImplausibleDataGenerator, [], {}),
+        (AdversarialDataGenerator, ["demo", "demo"], {}),
+    ],
+)
+def test_generator_adds_languages_requirements_in_prompts(Generator, args, kwargs):
+    llm_client = Mock()
+    llm_client.complete.side_effect = [
+        LLMOutput(
+            None,
+            LLMFunctionCall(
+                "generate_inputs",
+                {
+                    "inputs": [
+                        {"question": "What is the meaning of life?", "other_feature": "test"},
+                        {
+                            "question": "Quel est le rôle des gaz à effet de serre dans le réchauffement climatique??",
+                            "other_feature": "pass",
+                        },
+                    ]
+                },
+            ),
+        )
+    ]
+
+    model = Mock()
+    model.meta.feature_names = ["question", "other_feature"]
+    model.meta.name = "Mock model for test"
+    model.meta.description = "This is a model for testing purposes"
+
+    generator = Generator(
+        *args,
+        **kwargs,
+        llm_client=llm_client,
+        llm_temperature=1.416,
+        prompt="My custom prompt {model_name} {model_description} {feature_names}, with {num_samples} samples.\n",
+        languages=["en", "fr"],
+    )
+
+    dataset = generator.generate_dataset(model, num_samples=2)
+
+    llm_client.complete.assert_called_once()
+
+    called_prompt = llm_client.complete.call_args[1]["messages"][0]["content"]
+    prompt_with_language_requirement = "My custom prompt Mock model for test This is a model for testing purposes question, other_feature, with 2 samples.\nYou must generate input using different languages among the following list: ['en', 'fr']."
+
+    assert isinstance(dataset, Dataset)
+    assert called_prompt == prompt_with_language_requirement
+
+
+@pytest.mark.parametrize(
+    "Generator,args,kwargs",
+    [
+        (BaseDataGenerator, [], {}),
+        (ImplausibleDataGenerator, [], {}),
+        (AdversarialDataGenerator, ["demo", "demo"], {}),
+    ],
+)
+def test_generator_empty_languages_requirements(Generator, args, kwargs):
+    llm_client = Mock()
+    llm_client.complete.side_effect = [
+        LLMOutput(
+            None,
+            LLMFunctionCall(
+                "generate_inputs",
+                {
+                    "inputs": [
+                        {"question": "What is the meaning of life?", "other_feature": "test"},
+                        {
+                            "question": "Quel est le rôle des gaz à effet de serre dans le réchauffement climatique??",
+                            "other_feature": "pass",
+                        },
+                    ]
+                },
+            ),
+        )
+    ]
+
+    model = Mock()
+    model.meta.feature_names = ["question", "other_feature"]
+    model.meta.name = "Mock model for test"
+    model.meta.description = "This is a model for testing purposes"
+
+    generator = Generator(
+        *args,
+        **kwargs,
+        llm_client=llm_client,
+        llm_temperature=1.416,
+        prompt="My custom prompt {model_name} {model_description} {feature_names}, with {num_samples} samples.\n",
+        languages=[],
+    )
+
+    dataset = generator.generate_dataset(model, num_samples=2)
+
+    llm_client.complete.assert_called_once()
+
+    called_prompt = llm_client.complete.call_args[1]["messages"][0]["content"]
+
+    assert isinstance(dataset, Dataset)
+    assert (
+        called_prompt
+        == "My custom prompt Mock model for test This is a model for testing purposes question, other_feature, with 2 samples.\n"
+    )