mirror of
https://github.com/crewAIInc/crewAI.git
synced 2026-04-30 23:02:50 +00:00
140 lines
5.9 KiB
Plaintext
140 lines
5.9 KiB
Plaintext
---
|
|
title: "أداة استخراج Tavily"
|
|
description: "استخراج محتوى منظم من صفحات الويب باستخدام Tavily API"
|
|
icon: square-poll-horizontal
|
|
mode: "wide"
|
|
---
|
|
|
|
تتيح أداة `TavilyExtractorTool` لوكلاء CrewAI استخراج محتوى منظم من صفحات الويب باستخدام Tavily API. يمكنها معالجة عناوين URL مفردة أو قوائم من عناوين URL وتوفر خيارات للتحكم في عمق الاستخراج وتضمين الصور.
|
|
|
|
## التثبيت
|
|
|
|
لاستخدام `TavilyExtractorTool`، تحتاج إلى تثبيت مكتبة `tavily-python`:
|
|
|
|
```shell
|
|
pip install 'crewai[tools]' tavily-python
|
|
```
|
|
|
|
تحتاج أيضاً إلى تعيين مفتاح Tavily API كمتغير بيئة:
|
|
|
|
```bash
|
|
export TAVILY_API_KEY='your-tavily-api-key'
|
|
```
|
|
|
|
## مثال على الاستخدام
|
|
|
|
إليك كيفية تهيئة واستخدام `TavilyExtractorTool` مع وكيل CrewAI:
|
|
|
|
```python
|
|
import os
|
|
from crewai import Agent, Task, Crew
|
|
from crewai_tools import TavilyExtractorTool
|
|
|
|
# Ensure TAVILY_API_KEY is set in your environment
|
|
# os.environ["TAVILY_API_KEY"] = "YOUR_API_KEY"
|
|
|
|
# Initialize the tool
|
|
tavily_tool = TavilyExtractorTool()
|
|
|
|
# Create an agent that uses the tool
|
|
extractor_agent = Agent(
|
|
role='Web Content Extractor',
|
|
goal='Extract key information from specified web pages',
|
|
backstory='You are an expert at extracting relevant content from websites using the Tavily API.',
|
|
tools=[tavily_tool],
|
|
verbose=True
|
|
)
|
|
|
|
# Define a task for the agent
|
|
extract_task = Task(
|
|
description='Extract the main content from the URL https://example.com using basic extraction depth.',
|
|
expected_output='A JSON string containing the extracted content from the URL.',
|
|
agent=extractor_agent
|
|
)
|
|
|
|
# Create and run the crew
|
|
crew = Crew(
|
|
agents=[extractor_agent],
|
|
tasks=[extract_task],
|
|
verbose=2
|
|
)
|
|
|
|
result = crew.kickoff()
|
|
print(result)
|
|
```
|
|
|
|
## خيارات التكوين
|
|
|
|
تقبل أداة `TavilyExtractorTool` المعاملات التالية:
|
|
|
|
- `urls` (Union[List[str], str]): **مطلوب**. سلسلة URL واحدة أو قائمة من سلاسل URL لاستخراج البيانات منها.
|
|
- `include_images` (Optional[bool]): ما إذا كان يجب تضمين الصور في نتائج الاستخراج. الافتراضي هو `False`.
|
|
- `extract_depth` (Literal["basic", "advanced"]): عمق الاستخراج. استخدم `"basic"` للاستخراج السريع السطحي أو `"advanced"` للاستخراج الأكثر شمولاً. الافتراضي هو `"basic"`.
|
|
- `timeout` (int): الحد الأقصى للوقت بالثواني لانتظار إكمال طلب الاستخراج. الافتراضي هو `60`.
|
|
|
|
## الاستخدام المتقدم
|
|
|
|
### عناوين URL متعددة مع استخراج متقدم
|
|
|
|
```python
|
|
# Example with multiple URLs and advanced extraction
|
|
multi_extract_task = Task(
|
|
description='Extract content from https://example.com and https://anotherexample.org using advanced extraction.',
|
|
expected_output='A JSON string containing the extracted content from both URLs.',
|
|
agent=extractor_agent
|
|
)
|
|
|
|
# Configure the tool with custom parameters
|
|
custom_extractor = TavilyExtractorTool(
|
|
extract_depth='advanced',
|
|
include_images=True,
|
|
timeout=120
|
|
)
|
|
|
|
agent_with_custom_tool = Agent(
|
|
role="Advanced Content Extractor",
|
|
goal="Extract comprehensive content with images",
|
|
tools=[custom_extractor]
|
|
)
|
|
```
|
|
|
|
### معاملات الأداة
|
|
|
|
يمكنك تخصيص سلوك الأداة عن طريق تعيين المعاملات أثناء التهيئة:
|
|
|
|
```python
|
|
# Initialize with custom configuration
|
|
extractor_tool = TavilyExtractorTool(
|
|
extract_depth='advanced', # More comprehensive extraction
|
|
include_images=True, # Include image results
|
|
timeout=90 # Custom timeout
|
|
)
|
|
```
|
|
|
|
## الميزات
|
|
|
|
- **عنوان URL واحد أو متعدد**: استخراج المحتوى من عنوان URL واحد أو معالجة عناوين URL متعددة في طلب واحد
|
|
- **عمق قابل للتكوين**: الاختيار بين أوضاع الاستخراج الأساسي (السريع) والمتقدم (الشامل)
|
|
- **دعم الصور**: تضمين الصور اختيارياً في نتائج الاستخراج
|
|
- **مخرجات منظمة**: إرجاع JSON منسّق يحتوي على المحتوى المستخرج
|
|
- **معالجة الأخطاء**: معالجة قوية لمهلات الشبكة وأخطاء الاستخراج
|
|
|
|
## تنسيق الاستجابة
|
|
|
|
تُرجع الأداة سلسلة JSON تمثل البيانات المنظمة المستخرجة من عنوان (عناوين) URL المقدمة. يعتمد الهيكل الدقيق على محتوى الصفحات و `extract_depth` المستخدم.
|
|
|
|
تشمل عناصر الاستجابة الشائعة:
|
|
- **Title**: عنوان الصفحة
|
|
- **Content**: المحتوى النصي الرئيسي للصفحة
|
|
- **Images**: عناوين URL للصور والبيانات الوصفية (عند `include_images=True`)
|
|
- **Metadata**: معلومات إضافية عن الصفحة مثل المؤلف والوصف وغيرها
|
|
|
|
## حالات الاستخدام
|
|
|
|
- **تحليل المحتوى**: استخراج وتحليل المحتوى من مواقع المنافسين
|
|
- **البحث**: جمع بيانات منظمة من مصادر متعددة للتحليل
|
|
- **ترحيل المحتوى**: استخراج المحتوى من المواقع الحالية للترحيل
|
|
- **المراقبة**: الاستخراج المنتظم للمحتوى لاكتشاف التغييرات
|
|
- **جمع البيانات**: الاستخراج المنهجي للمعلومات من مصادر الويب
|
|
|
|
راجع [توثيق Tavily API](https://docs.tavily.com/docs/tavily-api/python-sdk#extract) للحصول على معلومات مفصلة حول هيكل الاستجابة والخيارات المتاحة. |