Adding new description generator

2026-05-02 07:42:40 +00:00 · 2024-02-29 03:09:48 -03:00
parent 640b5a9461
commit ec97e15a3a
19 changed files with 53 additions and 10 deletions
--- a/src/crewai_tools/tools/scrape_website_tool/scrape_website_tool.py
+++ b/src/crewai_tools/tools/scrape_website_tool/scrape_website_tool.py
@@ -1,3 +1,4 @@
+import os
 import requests
 from bs4 import BeautifulSoup
 from typing import Optional, Type, Any
@@ -17,25 +18,33 @@ class ScrapeWebsiteTool(BaseTool):
 	description: str = "A tool that can be used to read a website content."
 	args_schema: Type[BaseModel] = ScrapeWebsiteToolSchema
 	website_url: Optional[str] = None
+	cookies: Optional[dict] = None
 	headers: Optional[dict] = {
-		'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
-		'Accept-Language': 'en-US,en;q=0.5',
-		'Referer': 'https://www.google.com/'
+		'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36',
+		'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
+		'Accept-Language': 'en-US,en;q=0.9',
+		'Referer': 'https://www.google.com/',
+		'Connection': 'keep-alive',
+		'Upgrade-Insecure-Requests': '1',
+		'Accept-Encoding': 'gzip, deflate, br'
 	}

-	def __init__(self, website_url: Optional[str] = None, **kwargs):
+	def __init__(self, website_url: Optional[str] = None, cookies: Optional[dict] = None, **kwargs):
 		super().__init__(**kwargs)
 		if website_url is not None:
 			self.website_url = website_url
 			self.description = f"A tool that can be used to read {website_url}'s content."
 			self.args_schema = FixedScrapeWebsiteToolSchema
+			self._generate_description()
+			if cookies is not None:
+				self.cookies = {cookies["name"]: os.getenv(cookies["value"])}

 	def _run(
 		self,
 		**kwargs: Any,
 	) -> Any:
 		website_url = kwargs.get('website_url', self.website_url)
-		page = requests.get(website_url, headers=self.headers)
+		page = requests.get(website_url, headers=self.headers, cookies=self.cookies if self.cookies else {})
 		parsed = BeautifulSoup(page.content, "html.parser")
 		return parsed.get_text()