Knowledge (#1567)

* initial knowledge * WIP * Adding core knowledge sources * Improve types and better support for file paths * added additional sources * fix linting * update yaml to include optional deps * adding in lorenze feedback * ensure embeddings are persisted * improvements all around Knowledge class * return this * properly reset memory * properly reset memory+knowledge * consolodation and improvements * linted * cleanup rm unused embedder * fix test * fix duplicate * generating cassettes for knowledge test * updated default embedder * None embedder to use default on pipeline cloning * improvements * fixed text_file_knowledge * mypysrc fixes * type check fixes * added extra cassette * just mocks * linted * mock knowledge query to not spin up db * linted * verbose run * put a flag * fix * adding docs * better docs * improvements from review * more docs * linted * rm print * more fixes * clearer docs * added docstrings and type hints for cli --------- Co-authored-by: João Moura <joaomdmoura@gmail.com> Co-authored-by: Lorenze Jay <lorenzejaytech@gmail.com>
2026-01-10 16:48:30 +00:00 · 2024-11-20 18:40:08 -05:00
parent fde1ee45f9
commit 14a36d3f5e
37 changed files with 2302 additions and 266 deletions
--- a/src/crewai/knowledge/knowledge.py
+++ b/src/crewai/knowledge/knowledge.py
@@ -0,0 +1,54 @@
+import os
+
+from typing import List, Optional, Dict, Any
+from pydantic import BaseModel, ConfigDict, Field
+
+from crewai.knowledge.source.base_knowledge_source import BaseKnowledgeSource
+from crewai.knowledge.storage.knowledge_storage import KnowledgeStorage
+from crewai.utilities.logger import Logger
+from crewai.utilities.constants import DEFAULT_SCORE_THRESHOLD
+os.environ["TOKENIZERS_PARALLELISM"] = "false"  # removes logging from fastembed
+
+
+class Knowledge(BaseModel):
+    """
+    Knowledge is a collection of sources and setup for the vector store to save and query relevant context.
+    Args:
+        sources: List[BaseKnowledgeSource] = Field(default_factory=list)
+        storage: KnowledgeStorage = Field(default_factory=KnowledgeStorage)
+        embedder_config: Optional[Dict[str, Any]] = None
+    """
+    sources: List[BaseKnowledgeSource] = Field(default_factory=list)
+    model_config = ConfigDict(arbitrary_types_allowed=True)
+    storage: KnowledgeStorage = Field(default_factory=KnowledgeStorage)
+    embedder_config: Optional[Dict[str, Any]] = None
+
+    def __init__(self, embedder_config: Optional[Dict[str, Any]] = None, **data):
+        super().__init__(**data)
+        self.storage = KnowledgeStorage(embedder_config=embedder_config or None)
+
+        try:
+            for source in self.sources:
+                source.add()
+        except Exception as e:
+            Logger(verbose=True).log(
+                "warning",
+                f"Failed to init knowledge: {e}",
+                color="yellow",
+            )
+
+    def query(
+        self, query: List[str], limit: int = 3, preference: Optional[str] = None
+    ) -> List[Dict[str, Any]]:
+        """
+        Query across all knowledge sources to find the most relevant information.
+        Returns the top_k most relevant chunks.
+        """
+
+        results = self.storage.search(
+            query,
+            limit,
+            filter={"preference": preference} if preference else None,
+            score_threshold=DEFAULT_SCORE_THRESHOLD,
+        )
+        return results