diff --git a/tests/evaluation/__init__.py b/tests/experimental/evaluation/__init__.py
similarity index 100%
rename from tests/evaluation/__init__.py
rename to tests/experimental/evaluation/__init__.py
diff --git a/tests/evaluation/metrics/__init__.py b/tests/experimental/evaluation/metrics/__init__.py
similarity index 100%
rename from tests/evaluation/metrics/__init__.py
rename to tests/experimental/evaluation/metrics/__init__.py
diff --git a/tests/evaluation/metrics/base_evaluation_metrics_test.py b/tests/experimental/evaluation/metrics/base_evaluation_metrics_test.py
similarity index 100%
rename from tests/evaluation/metrics/base_evaluation_metrics_test.py
rename to tests/experimental/evaluation/metrics/base_evaluation_metrics_test.py
diff --git a/tests/evaluation/metrics/test_goal_metrics.py b/tests/experimental/evaluation/metrics/test_goal_metrics.py
similarity index 95%
rename from tests/evaluation/metrics/test_goal_metrics.py
rename to tests/experimental/evaluation/metrics/test_goal_metrics.py
index be44ecd7a..5c10f4301 100644
--- a/tests/evaluation/metrics/test_goal_metrics.py
+++ b/tests/experimental/evaluation/metrics/test_goal_metrics.py
@@ -1,5 +1,5 @@
 from unittest.mock import patch, MagicMock
-from tests.evaluation.metrics.base_evaluation_metrics_test import BaseEvaluationMetricsTest
+from tests.experimental.evaluation.metrics.base_evaluation_metrics_test import BaseEvaluationMetricsTest
 
 from crewai.experimental.evaluation.base_evaluator import EvaluationScore
 from crewai.experimental.evaluation.metrics.goal_metrics import GoalAlignmentEvaluator
diff --git a/tests/evaluation/metrics/test_reasoning_metrics.py b/tests/experimental/evaluation/metrics/test_reasoning_metrics.py
similarity index 98%
rename from tests/evaluation/metrics/test_reasoning_metrics.py
rename to tests/experimental/evaluation/metrics/test_reasoning_metrics.py
index d5f2cf1f5..547046965 100644
--- a/tests/evaluation/metrics/test_reasoning_metrics.py
+++ b/tests/experimental/evaluation/metrics/test_reasoning_metrics.py
@@ -6,7 +6,7 @@ from crewai.tasks.task_output import TaskOutput
 from crewai.experimental.evaluation.metrics.reasoning_metrics import (
     ReasoningEfficiencyEvaluator,
 )
-from tests.evaluation.metrics.base_evaluation_metrics_test import BaseEvaluationMetricsTest
+from tests.experimental.evaluation.metrics.base_evaluation_metrics_test import BaseEvaluationMetricsTest
 from crewai.utilities.llm_utils import LLM
 from crewai.experimental.evaluation.base_evaluator import EvaluationScore
 
diff --git a/tests/evaluation/metrics/test_semantic_quality_metrics.py b/tests/experimental/evaluation/metrics/test_semantic_quality_metrics.py
similarity index 96%
rename from tests/evaluation/metrics/test_semantic_quality_metrics.py
rename to tests/experimental/evaluation/metrics/test_semantic_quality_metrics.py
index 0d4dd386d..4050b9562 100644
--- a/tests/evaluation/metrics/test_semantic_quality_metrics.py
+++ b/tests/experimental/evaluation/metrics/test_semantic_quality_metrics.py
@@ -2,7 +2,7 @@ from unittest.mock import patch, MagicMock
 
 from crewai.experimental.evaluation.base_evaluator import EvaluationScore
 from crewai.experimental.evaluation.metrics.semantic_quality_metrics import SemanticQualityEvaluator
-from tests.evaluation.metrics.base_evaluation_metrics_test import BaseEvaluationMetricsTest
+from tests.experimental.evaluation.metrics.base_evaluation_metrics_test import BaseEvaluationMetricsTest
 from crewai.utilities.llm_utils import LLM
 
 class TestSemanticQualityEvaluator(BaseEvaluationMetricsTest):
diff --git a/tests/evaluation/metrics/test_tools_metrics.py b/tests/experimental/evaluation/metrics/test_tools_metrics.py
similarity index 98%
rename from tests/evaluation/metrics/test_tools_metrics.py
rename to tests/experimental/evaluation/metrics/test_tools_metrics.py
index 16b907ca8..dab3eeee1 100644
--- a/tests/evaluation/metrics/test_tools_metrics.py
+++ b/tests/experimental/evaluation/metrics/test_tools_metrics.py
@@ -6,7 +6,7 @@ from crewai.experimental.evaluation.metrics.tools_metrics import (
     ToolInvocationEvaluator
 )
 from crewai.utilities.llm_utils import LLM
-from tests.evaluation.metrics.base_evaluation_metrics_test import BaseEvaluationMetricsTest
+from tests.experimental.evaluation.metrics.base_evaluation_metrics_test import BaseEvaluationMetricsTest
 
 class TestToolSelectionEvaluator(BaseEvaluationMetricsTest):
     def test_no_tools_available(self, mock_task, mock_agent):
diff --git a/tests/evaluation/test_agent_evaluator.py b/tests/experimental/evaluation/test_agent_evaluator.py
similarity index 100%
rename from tests/evaluation/test_agent_evaluator.py
rename to tests/experimental/evaluation/test_agent_evaluator.py
diff --git a/tests/evaluation/test_experiment_result.py b/tests/experimental/evaluation/test_experiment_result.py
similarity index 100%
rename from tests/evaluation/test_experiment_result.py
rename to tests/experimental/evaluation/test_experiment_result.py
diff --git a/tests/evaluation/test_experiment_runner.py b/tests/experimental/evaluation/test_experiment_runner.py
similarity index 100%
rename from tests/evaluation/test_experiment_runner.py
rename to tests/experimental/evaluation/test_experiment_runner.py