mirror of
https://github.com/crewAIInc/crewAI.git
synced 2026-01-26 16:48:13 +00:00
adjust aop to amp docs lang (#4179)
Some checks failed
CodeQL Advanced / Analyze (actions) (push) Has been cancelled
CodeQL Advanced / Analyze (python) (push) Has been cancelled
Check Documentation Broken Links / Check broken links (push) Has been cancelled
Notify Downstream / notify-downstream (push) Has been cancelled
Mark stale issues and pull requests / stale (push) Has been cancelled
Some checks failed
CodeQL Advanced / Analyze (actions) (push) Has been cancelled
CodeQL Advanced / Analyze (python) (push) Has been cancelled
Check Documentation Broken Links / Check broken links (push) Has been cancelled
Notify Downstream / notify-downstream (push) Has been cancelled
Mark stale issues and pull requests / stale (push) Has been cancelled
* adjust aop to amp docs lang * whoop no print
This commit is contained in:
@@ -1,7 +1,7 @@
|
||||
---
|
||||
title: '전략적 LLM 선택 가이드'
|
||||
description: 'CrewAI AI 에이전트를 위한 적합한 LLM 선택 및 효과적인 작업과 에이전트 정의 작성에 대한 전략적 프레임워크'
|
||||
icon: 'brain-circuit'
|
||||
title: "전략적 LLM 선택 가이드"
|
||||
description: "CrewAI AI 에이전트를 위한 적합한 LLM 선택 및 효과적인 작업과 에이전트 정의 작성에 대한 전략적 프레임워크"
|
||||
icon: "brain-circuit"
|
||||
mode: "wide"
|
||||
---
|
||||
|
||||
@@ -10,23 +10,33 @@ mode: "wide"
|
||||
처방적인 모델 추천보다는, **사고 프레임워크**를 제안하여 특정 사용 사례, 제약 조건, 요구 사항에 따라 정보에 입각한 결정을 내릴 수 있도록 돕고자 합니다. LLM 환경은 빠르게 변화하고 있으며, 새로운 모델이 정기적으로 등장하고 기존 모델도 자주 업데이트되고 있습니다. 가장 중요한 것은 어떤 특정 모델이 제공되는지와 상관없이 평가를 위한 체계적인 접근법을 개발하는 것입니다.
|
||||
|
||||
<Note>
|
||||
이 가이드는 LLM 환경이 빠르게 변화하고 있기 때문에 특정 모델 추천보다는 전략적 사고에 초점을 맞추고 있습니다.
|
||||
이 가이드는 LLM 환경이 빠르게 변화하고 있기 때문에 특정 모델 추천보다는 전략적
|
||||
사고에 초점을 맞추고 있습니다.
|
||||
</Note>
|
||||
|
||||
## 빠른 결정 프레임워크
|
||||
|
||||
<Steps>
|
||||
<Step title="작업 분석">
|
||||
먼저, 작업이 실제로 무엇을 요구하는지 깊이 이해하세요. 필요한 인지 복잡성, 요구되는 추론의 깊이, 기대되는 출력 형식, 모델이 처리해야 할 맥락의 양을 고려합니다. 이러한 기본 분석이 이후의 모든 결정을 안내할 것입니다.
|
||||
먼저, 작업이 실제로 무엇을 요구하는지 깊이 이해하세요. 필요한 인지 복잡성,
|
||||
요구되는 추론의 깊이, 기대되는 출력 형식, 모델이 처리해야 할 맥락의 양을
|
||||
고려합니다. 이러한 기본 분석이 이후의 모든 결정을 안내할 것입니다.
|
||||
</Step>
|
||||
<Step title="모델 역량 매핑">
|
||||
요구 사항을 이해한 후, 이를 모델의 강점에 매핑하세요. 서로 다른 모델 계열은 작업 유형에 따라 특화되어 있습니다. 일부는 추론 및 분석에 최적화되어 있고, 일부는 창의성이나 콘텐츠 생성, 또 다른 일부는 속도와 효율성에 최적화되어 있습니다.
|
||||
요구 사항을 이해한 후, 이를 모델의 강점에 매핑하세요. 서로 다른 모델 계열은
|
||||
작업 유형에 따라 특화되어 있습니다. 일부는 추론 및 분석에 최적화되어 있고,
|
||||
일부는 창의성이나 콘텐츠 생성, 또 다른 일부는 속도와 효율성에 최적화되어
|
||||
있습니다.
|
||||
</Step>
|
||||
<Step title="제약 조건 고려">
|
||||
예산 제한, 지연 시간 요구사항, 데이터 프라이버시 필요성, 인프라 역량 등 실제 운영상의 제약 조건을 반영하세요. 이론적으로 가장 좋은 모델이 실제로는 최선의 선택이 아닐 수 있습니다.
|
||||
예산 제한, 지연 시간 요구사항, 데이터 프라이버시 필요성, 인프라 역량 등 실제
|
||||
운영상의 제약 조건을 반영하세요. 이론적으로 가장 좋은 모델이 실제로는 최선의
|
||||
선택이 아닐 수 있습니다.
|
||||
</Step>
|
||||
<Step title="테스트 및 반복">
|
||||
신뢰할 수 있고 잘 이해된 모델로 시작하여, 특정 사용 사례에서 실제 성능을 바탕으로 최적화하세요. 실제 결과는 이론적 벤치마크와 다를 수 있으므로, 경험적 테스트가 매우 중요합니다.
|
||||
신뢰할 수 있고 잘 이해된 모델로 시작하여, 특정 사용 사례에서 실제 성능을
|
||||
바탕으로 최적화하세요. 실제 결과는 이론적 벤치마크와 다를 수 있으므로,
|
||||
경험적 테스트가 매우 중요합니다.
|
||||
</Step>
|
||||
</Steps>
|
||||
|
||||
@@ -43,6 +53,7 @@ LLM을 선택할 때 가장 중요한 단계는 실제로 여러분의 작업이
|
||||
- **Complex Tasks**는 다단계 추론, 전략적 사고, 모호하거나 불완전한 정보를 처리하는 능력을 필요로 합니다. 여러 데이터 소스를 분석하거나, 포괄적 전략을 개발하거나, 더 작은 구성 요소로 분해해야 하는 문제 해결 작업 등이 이에 해당합니다. 모델은 여러 추론 단계를 거치는 동안 맥락을 유지해야 하며, 명시적으로 언급되지 않은 내용을 추론해야 할 때가 많습니다.
|
||||
|
||||
- **Creative Tasks**는 새롭고, 흥미로우며, 맥락에 적합한 콘텐츠를 생성하는 데 중점을 둔 새로운 인지적 능력을 요구합니다. 여기에는 스토리텔링, 마케팅 카피 작성, 창의적 문제 해결이 포함됩니다. 모델은 뉘앙스, 톤, 대상 청중을 이해하고, 공식적이지 않고 진정성 있고 흥미로운 콘텐츠를 제작해야 합니다.
|
||||
|
||||
</Tab>
|
||||
|
||||
<Tab title="Output Requirements">
|
||||
@@ -51,6 +62,7 @@ LLM을 선택할 때 가장 중요한 단계는 실제로 여러분의 작업이
|
||||
- **Creative Content** 출력은 기술적 역량과 창의적 감각의 균형을 필요로 합니다. 모델은 대상 청중, 톤, 브랜드 보이스를 이해하고, 독자의 관심을 끌며 특정 커뮤니케이션 목표를 달성하는 콘텐츠를 제작할 수 있어야 합니다. 이 영역의 품질은 주관적인 경우가 많으며, 다양한 맥락과 목적에 맞게 글쓰기 스타일을 조정할 수 있는 모델이 필요합니다.
|
||||
|
||||
- **Technical Content**는 구조화된 데이터와 창의적 콘텐츠의 중간에 위치하며, 정확성과 명확성을 모두 필요로 합니다. 문서화, 코드 생성, 기술 분석 등은 정밀하면서도 포괄적으로 작성되어야 하며, 대상이 되는 청중에게 효과적으로 전달되어야 합니다. 모델은 복잡한 기술 개념을 이해하고 이를 명확하게 설명할 수 있어야 합니다.
|
||||
|
||||
</Tab>
|
||||
|
||||
<Tab title="Context Needs">
|
||||
@@ -59,6 +71,7 @@ LLM을 선택할 때 가장 중요한 단계는 실제로 여러분의 작업이
|
||||
- **Long Context** 요구 사항은 방대한 문서 작업, 장기간 대화, 복잡한 다중 파트 작업을 처리할 때 발생합니다. 모델은 수천 토큰에 걸쳐 일관성을 유지해야 하며, 앞선 정보를 정확히 참조할 수 있어야 합니다. 이는 문서 분석, 포괄적 연구, 정교한 대화 시스템에 매우 중요한 기능입니다.
|
||||
|
||||
- **Very Long Context** 시나리오는 현재 가능한 한계를 뛰어넘는 경우로, 대규모 문서 처리, 광범위한 연구 종합, 복잡한 다중 세션 상호작용 등이 있습니다. 이러한 활용 사례는 확장된 컨텍스트 처리를 위해 특별히 설계된 모델이 필요하며, 종종 컨텍스트 길이와 처리 속도 간의 절충이 발생합니다.
|
||||
|
||||
</Tab>
|
||||
</Tabs>
|
||||
|
||||
@@ -73,6 +86,7 @@ LLM을 선택할 때 가장 중요한 단계는 실제로 여러분의 작업이
|
||||
Reasoning 모델의 강점은 확장된 reasoning 체인에서 논리적 일관성을 유지하고, 복잡한 문제를 관리 가능한 구성 요소로 나눌 수 있다는 점에 있습니다. 전략적 계획, 복잡한 분석, 그리고 응답 속도보다 reasoning의 질이 더 중요한 상황에서 특히 가치가 있습니다.
|
||||
|
||||
하지만 reasoning 모델은 속도와 비용 면에서 트레이드오프가 따르는 경우가 많습니다. 또한 그들의 고도화된 reasoning 역량이 필요 없는 창의적인 작업이나 간단한 작업에는 덜 적합할 수 있습니다. 체계적이고 단계적인 분석이 요구되는 진정한 복잡성이 관련된 작업에서 이러한 모델을 고려하십시오.
|
||||
|
||||
</Accordion>
|
||||
|
||||
<Accordion title="General Purpose Models" icon="microchip">
|
||||
@@ -81,6 +95,7 @@ LLM을 선택할 때 가장 중요한 단계는 실제로 여러분의 작업이
|
||||
General purpose 모델의 주요 장점은 다양한 유형의 작업에서 예측 가능한 신뢰성과 일관성입니다. 조사, 분석, 콘텐츠 제작, 데이터 처리 등 대부분의 표준 비즈니스 작업을 충분히 처리할 수 있습니다. 이로 인해 다양한 워크플로우 전반에서 일관된 성능이 필요한 팀에 매우 적합한 선택이 됩니다.
|
||||
|
||||
General purpose 모델은 특정 도메인에서 특화된 대안들이 보여주는 최고 성능에는 미치지 않을 수 있지만, 운영의 단순성과 모델 관리의 복잡성 감소라는 이점이 있습니다. 신규 프로젝트의 시작점으로 가장 좋은 선택인 경우가 많으며, 팀이 구체적인 필요를 이해하고 나서 특화 모델로 최적화할 수 있습니다.
|
||||
|
||||
</Accordion>
|
||||
|
||||
<Accordion title="Fast & Efficient Models" icon="bolt">
|
||||
@@ -89,6 +104,7 @@ LLM을 선택할 때 가장 중요한 단계는 실제로 여러분의 작업이
|
||||
이러한 모델은 일상적인 운영, 간단한 데이터 처리, 함수 호출, 대용량 작업 등 인지적 요구가 비교적 단순한 시나리오에서 뛰어납니다. 많은 요청을 신속하게 처리해야 하거나 예산 제약 내에서 운영되어야 하는 애플리케이션에 특히 유용합니다.
|
||||
|
||||
효율적인 모델에서 가장 중요한 고려사항은 그들의 역량이 귀하의 작업 요구와 일치하는지 확인하는 것입니다. 많은 일상적 작업은 효과적으로 처리할 수 있지만, Nuanced한 이해, 복잡한 reasoning, 혹은 고도화된 콘텐츠 생성이 필요한 작업에는 어려움을 겪을 수 있습니다. 정교함보다 속도와 비용이 더 중요한 명확하고 일상적인 작업에 가장 적합합니다.
|
||||
|
||||
</Accordion>
|
||||
|
||||
<Accordion title="Creative Models" icon="pen">
|
||||
@@ -97,6 +113,7 @@ LLM을 선택할 때 가장 중요한 단계는 실제로 여러분의 작업이
|
||||
Creative 모델의 강점은 다양한 대상에 맞춰 글쓰기 스타일을 조정하고, 일관된 목소리와 톤을 유지하며, 독자를 효과적으로 사로잡는 콘텐츠를 생성할 수 있다는 점입니다. 스토리텔링, 마케팅 카피, 브랜드 커뮤니케이션 등 창의성과 몰입이 주요 목적이 되는 콘텐츠 작업에서 더 우수한 성과를 보입니다.
|
||||
|
||||
Creative 모델을 선택할 때는 단순한 텍스트 생성 능력뿐 아니라, 대상, 맥락, 목적에 대한 이해력도 함께 고려해야 합니다. 최상의 creative 모델은 특정 브랜드 목소리에 맞게 출력 내용을 조정하고, 다양한 대상 그룹을 타깃팅하며, 긴 콘텐츠에서도 일관성을 유지할 수 있습니다.
|
||||
|
||||
</Accordion>
|
||||
|
||||
<Accordion title="Open Source Models" icon="code">
|
||||
@@ -105,6 +122,7 @@ LLM을 선택할 때 가장 중요한 단계는 실제로 여러분의 작업이
|
||||
Open source 모델의 주요 이점으로는 토큰당 비용의 제거, 특정 용도에 맞춘 파인튜닝 가능성, 완전한 데이터 프라이버시, 외부 API 제공자에 대한 의존성 해소가 있습니다. 특히 엄격한 데이터 프라이버시 요구사항, 예산 제약, 특정 맞춤화 필요가 있는 조직에 매우 유용합니다.
|
||||
|
||||
그러나 open source 모델은 효과적으로 배포 및 유지관리하기 위해 더 많은 기술 전문성이 필요합니다. 팀에서는 인프라 비용, 모델 관리 복잡성, 지속적인 모델 업데이트 및 최적화를 위한 지속적인 노력을 고려해야 합니다. 기술적 오버헤드를 감안하면 전체 소유 비용이 클라우드 기반 대안보다 높을 수 있습니다.
|
||||
|
||||
</Accordion>
|
||||
</AccordionGroup>
|
||||
|
||||
@@ -113,7 +131,8 @@ LLM을 선택할 때 가장 중요한 단계는 실제로 여러분의 작업이
|
||||
### a. 멀티-모델 접근 방식
|
||||
|
||||
<Tip>
|
||||
동일 crew 내에서 다양한 목적에 맞는 서로 다른 모델을 사용해 성능과 비용을 모두 최적화할 수 있습니다.
|
||||
동일 crew 내에서 다양한 목적에 맞는 서로 다른 모델을 사용해 성능과 비용을 모두
|
||||
최적화할 수 있습니다.
|
||||
</Tip>
|
||||
|
||||
가장 정교하게 구현된 CrewAI의 경우, 여러 개의 모델을 전략적으로 활용하여 각 agent의 역할과 요구 사항에 맞는 모델을 지정합니다. 이 접근 방식은 각 작업 유형에 가장 적합한 모델을 사용함으로써 성능과 비용을 모두 최적화할 수 있게 해줍니다.
|
||||
@@ -177,6 +196,7 @@ crew = Crew(
|
||||
효과적인 Manager LLM은 올바른 위임 결정을 내리기 위한 강력한 추론 능력, 예측 가능한 조정을 보장하는 일관된 성능, 여러 에이전트의 상태를 동시에 추적하기 위한 탁월한 컨텍스트 관리가 필요합니다. 이 모델은 다양한 에이전트의 역량과 한계를 이해하고, 효율성과 품질을 최적화하기 위해 작업 할당을 최적화해야 합니다.
|
||||
|
||||
Manager LLM은 모든 작업에 관여하기 때문에 비용 고려가 특히 중요합니다. 모델은 효과적인 조정을 위한 충분한 역량을 제공하면서도, 잦은 사용에도 비용 효율적이어야 합니다. 이는 종종 가장 정교한 모델의 높은 가격 없이도 충분한 추론 능력을 제공하는 모델을 찾는 것을 의미합니다.
|
||||
|
||||
</Tab>
|
||||
|
||||
<Tab title="Function Calling LLM">
|
||||
@@ -185,6 +205,7 @@ crew = Crew(
|
||||
Function calling LLM에서 가장 중요한 특성은 창의성이나 정교한 추론력보다는 정확성과 신뢰성입니다. 모델은 자연어 요청에서 올바른 파라미터를 일관되게 추출하고, 도구 응답을 적절히 처리해야 합니다. 도구 사용은 여러 번의 왕복 작업이 수반될 수 있으므로 속도도 중요합니다.
|
||||
|
||||
많은 팀들은, 창의적이거나 추론에 특화된 모델보다는, 특화된 function calling 모델이나 도구 지원이 강력한 범용 모델이 이 역할에 더 적합하다는 것을 발견합니다. 핵심은 모델이 자연어 지침과 구조화된 도구 호출 간의 간극을 신뢰성 있게 연결할 수 있도록 하는 것입니다.
|
||||
|
||||
</Tab>
|
||||
|
||||
<Tab title="Agent-Specific Overrides">
|
||||
@@ -193,6 +214,7 @@ crew = Crew(
|
||||
에이전트별 재정의를 고려해야 하는 경우는 에이전트의 역할이 다른 crew 구성원과 본질적으로 다른 역량을 요구할 때입니다. 예를 들어, 창의적 글쓰기에 특화된 에이전트는 콘텐츠 생성에 최적화된 모델이 도움이 될 수 있고, 데이터 분석 에이전트는 추론에 중점을 둔 모델로 더 나은 성과를 거둘 수 있습니다.
|
||||
|
||||
에이전트별 재정의를 적용할 때의 과제는 최적화와 운영 복잡도 간의 균형을 유지하는 것입니다. 모델이 하나 추가될 때마다 배포, 모니터링, 비용 관리의 복잡성이 늘어납니다. 따라서 팀은 성능 향상 효과가 추가 복잡성을 정당화할 수 있는 에이전트에만 재정의를 집중해야 합니다.
|
||||
|
||||
</Tab>
|
||||
</Tabs>
|
||||
|
||||
@@ -209,6 +231,7 @@ CrewAI 출력의 품질을 결정하는 데 있어 모델 선택보다 효과적
|
||||
효과적인 작업 설명은 에이전트가 더 넓은 목적과 그들이 반드시 지켜야 할 제한사항을 이해할 수 있도록 관련 맥락 및 제약 조건을 포함합니다. 복잡한 작업을 체계적으로 실행할 수 있는 집중된 단계로 분할하여, 여러 측면이 뒤섞이고 접근하기 어려운 압도적인 목표로 제시하지 않습니다.
|
||||
|
||||
일반적인 실수로는 목표가 너무 모호하다거나, 필요한 맥락을 제공하지 않는다거나, 성공 기준이 불분명하다거나, 관련 없는 여러 작업을 하나의 설명으로 결합하는 경우가 있습니다. 목표는 단일의 명확한 목적에 집중하며, 에이전트가 성공할 수 있을 정도로 충분한 정보를 제공하는 것입니다.
|
||||
|
||||
</Accordion>
|
||||
|
||||
<Accordion title="예상 산출물 가이드라인" icon="bullseye">
|
||||
@@ -217,6 +240,7 @@ CrewAI 출력의 품질을 결정하는 데 있어 모델 선택보다 효과적
|
||||
최고의 산출물 가이드라인은 품질 지표에 대한 구체적인 예시를 제공하고, 완료 기준을 에이전트와 인간 평가자 모두가 작업의 성공적 완료 여부를 평가할 수 있을 만큼 명확하게 정의합니다. 이는 모호함을 줄이고 여러 작업 실행 간 일관된 결과를 보장하는 데 도움이 됩니다.
|
||||
|
||||
어떤 작업에나 적용할 수 있을 정도로 일반적인 산출물 설명, 에이전트가 구조를 추측해야 하는 형식 명세 누락, 평가가 어려운 불분명한 품질 기준, 에이전트가 기대치를 이해하도록 도와주는 예시 또는 템플릿 미제공 등은 피해야 합니다.
|
||||
|
||||
</Accordion>
|
||||
</AccordionGroup>
|
||||
|
||||
@@ -229,6 +253,7 @@ CrewAI 출력의 품질을 결정하는 데 있어 모델 선택보다 효과적
|
||||
순차적 의존성을 효과적으로 구현하기 위해서는 context 파라미터를 사용하여 관련 작업을 연쇄시키고, 작업의 진행을 통해 점진적으로 복잡성을 구축하며, 각 작업이 다음 작업에 의미 있는 입력값이 될 수 있는 산출물을 생성하도록 해야 합니다. 목표는 의존된 작업 간의 논리적 흐름을 유지하면서 불필요한 병목을 피하는 것입니다.
|
||||
|
||||
순차적 의존성은 한 작업에서 다른 작업으로 명확한 논리적 진행이 있고, 한 작업의 산출물이 다음 작업의 품질이나 실행 가능성을 실제로 향상시킬 때 가장 효과적입니다. 그러나 적절히 관리되지 않을 경우 병목 현상이 발생할 수 있으니, 반드시 진정으로 필요한 의존성과 단순히 편의상 설정된 의존성을 구분해야 합니다.
|
||||
|
||||
</Tab>
|
||||
|
||||
<Tab title="병렬 실행">
|
||||
@@ -237,6 +262,7 @@ CrewAI 출력의 품질을 결정하는 데 있어 모델 선택보다 효과적
|
||||
성공적인 병렬 실행을 위해서는 실제로 독립적으로 수행이 가능한 작업을 식별하고, 관련되지만 분리된 작업 스트림을 효과적으로 그룹화하며, 병렬로 진행된 작업을 최종 결과물로 통합해야 할 때 결과 통합을 계획해야 합니다. 핵심은 병렬 작업이 전체 품질을 저하하는 충돌이나 중복을 만들지 않도록 하는 것입니다.
|
||||
|
||||
여러 개의 독립적인 연구 스트림이나 서로 의존하지 않는 다양한 분석, 동시에 개발이 가능한 콘텐츠 생성 작업이 있을 때 병렬 실행을 고려하십시오. 다만, 자원 할당에 주의하고, 병렬 실행이 모델의 가용 용량이나 예산을 초과하지 않도록 해야 합니다.
|
||||
|
||||
</Tab>
|
||||
</Tabs>
|
||||
|
||||
@@ -245,7 +271,8 @@ CrewAI 출력의 품질을 결정하는 데 있어 모델 선택보다 효과적
|
||||
### a. 역할 기반 LLM 선택
|
||||
|
||||
<Warning>
|
||||
일반적인 에이전트 역할은 올바른 LLM을 선택할 수 없게 만듭니다. 구체적인 역할은 목표에 맞춘 모델 최적화를 가능하게 합니다.
|
||||
일반적인 에이전트 역할은 올바른 LLM을 선택할 수 없게 만듭니다. 구체적인 역할은
|
||||
목표에 맞춘 모델 최적화를 가능하게 합니다.
|
||||
</Warning>
|
||||
|
||||
에이전트 역할의 구체성은 최적의 성능을 위해 어떤 LLM의 능력이 가장 중요한지를 직접적으로 결정합니다. 이는 에이전트의 책임에 정확히 맞는 모델 강점을 연결할 수 있는 전략적 기회를 만듭니다.
|
||||
@@ -253,6 +280,7 @@ CrewAI 출력의 품질을 결정하는 데 있어 모델 선택보다 효과적
|
||||
**일반 역할 vs. 구체적 역할이 LLM 선택에 미치는 영향:**
|
||||
|
||||
역할을 정의할 때 에이전트가 다룰 작업에 가장 가치 있는 특정 도메인 지식, 작업 방식, 의사결정 프레임워크를 고려하세요. 역할 정의가 더 구체적이고 상황에 맞을수록 모델이 그 역할을 효과적으로 구현할 수 있습니다.
|
||||
|
||||
```python
|
||||
# ✅ 특정 역할 - 명확한 LLM 요구
|
||||
specific_agent = Agent(
|
||||
@@ -273,7 +301,9 @@ specific_agent = Agent(
|
||||
### b. 모델 컨텍스트 증폭기로서의 백스토리
|
||||
|
||||
<Info>
|
||||
전략적으로 구성된 백스토리는 도메인 특화 컨텍스트를 제공하여 일반적인 프롬프트로는 달성할 수 없는 수준으로 선택한 LLM의 효율성을 획기적으로 높여줍니다.
|
||||
전략적으로 구성된 백스토리는 도메인 특화 컨텍스트를 제공하여 일반적인
|
||||
프롬프트로는 달성할 수 없는 수준으로 선택한 LLM의 효율성을 획기적으로
|
||||
높여줍니다.
|
||||
</Info>
|
||||
|
||||
잘 설계된 백스토리는 LLM을 단순한 범용 모델에서 전문적인 전문가로 탈바꿈시켜 줍니다. 이는 비용 최적화 관점에서 특히 중요합니다. 효율적인 모델이라도 컨텍스트가 잘 구축되면, 적절한 컨텍스트 없이 고가의 모델보다 더 뛰어난 성능을 발휘할 수 있습니다.
|
||||
@@ -300,6 +330,7 @@ domain_expert = Agent(
|
||||
```
|
||||
|
||||
**LLM 성능을 높여주는 백스토리 요소:**
|
||||
|
||||
- **도메인 경험**: "10년 이상의 엔터프라이즈 SaaS 영업 경력"
|
||||
- **특정 전문성**: "시리즈 B+ 라운드의 기술 실사 전문"
|
||||
- **업무 스타일**: "명확한 문서화와 데이터 기반 의사결정을 선호"
|
||||
@@ -332,6 +363,7 @@ tech_writer = Agent(
|
||||
```
|
||||
|
||||
**정렬 체크리스트:**
|
||||
|
||||
- ✅ **역할 특이성**: 명확한 도메인과 책임
|
||||
- ✅ **LLM 적합도**: 모델의 강점이 역할 요구사항과 일치
|
||||
- ✅ **백스토리 깊이**: LLM이 활용할 수 있는 도메인 맥락 제공
|
||||
@@ -353,6 +385,7 @@ tech_writer = Agent(
|
||||
- 도구에 크게 의존하는 agent가 있습니까?
|
||||
|
||||
**Action**: 현재 agent 역할을 문서화하고 최적화 기회를 식별하세요.
|
||||
|
||||
</Step>
|
||||
|
||||
<Step title="Crew 수준 전략 구현" icon="users-gear">
|
||||
@@ -369,6 +402,7 @@ tech_writer = Agent(
|
||||
```
|
||||
|
||||
**Action**: 개별 agent 최적화 전에 crew의 기본 LLM을 설정하세요.
|
||||
|
||||
</Step>
|
||||
|
||||
<Step title="고임팩트 agent 최적화" icon="star">
|
||||
@@ -390,16 +424,18 @@ tech_writer = Agent(
|
||||
```
|
||||
|
||||
**Action**: 복잡도의 80%를 처리하는 agent 20%를 업그레이드하세요.
|
||||
|
||||
</Step>
|
||||
|
||||
<Step title="엔터프라이즈 테스트로 검증" icon="test-tube">
|
||||
**agent를 프로덕션에 배포한 후:**
|
||||
- [CrewAI AOP platform](https://app.crewai.com)을 활용하여 모델 선택을 A/B 테스트하세요
|
||||
- [CrewAI AMP platform](https://app.crewai.com)을 활용하여 모델 선택을 A/B 테스트하세요
|
||||
- 실제 입력으로 여러 번 반복 테스트하여 일관성과 성능을 측정하세요
|
||||
- 최적화된 셋업 전반의 비용과 성능을 비교하세요
|
||||
- 팀과 결과를 공유하여 협업 의사결정을 지원하세요
|
||||
|
||||
**Action**: 테스트 플랫폼을 활용해 추측이 아닌 데이터 기반 검증을 실행하세요.
|
||||
|
||||
</Step>
|
||||
</Steps>
|
||||
|
||||
@@ -412,6 +448,7 @@ tech_writer = Agent(
|
||||
예를 들어, 비즈니스 전략 개발, 여러 출처에서 인사이트를 도출해야 하는 복잡한 데이터 분석, 각 단계가 이전 분석을 기반으로 해야 하는 다단계 문제 해결, 다양한 변수 및 이들의 상호작용을 고려해야 하는 전략적 계획 수립 업무에 reasoning 모델을 고려해 보세요.
|
||||
|
||||
그러나 reasoning 모델은 일반적으로 더 높은 비용과 느린 응답 시간을 수반하므로, 복잡한 사고가 필요한 작업에서 실질적인 가치를 제공할 때에만 사용하는 것이 좋으며, 복잡한 reasoning이 필요하지 않은 단순한 작업에는 권장되지 않습니다.
|
||||
|
||||
</Tab>
|
||||
|
||||
<Tab title="Creative Models">
|
||||
@@ -420,6 +457,7 @@ tech_writer = Agent(
|
||||
creative 모델은 블로그 포스트 작성 및 기사 생성, 독자를 끌어들이고 설득해야 하는 마케팅 카피, 창의적인 스토리텔링 및 내러티브 개발, 목소리와 톤이 중요한 브랜드 커뮤니케이션 등에 적합합니다. 이 모델은 일반 목적 모델보다 뉘앙스와 맥락을 더 잘 이해할 수 있습니다.
|
||||
|
||||
creative 모델은 정밀성과 사실적 정확성이 스타일이나 참여도보다 더 중요한 기술적 또는 분석적 작업에는 덜 적합할 수 있습니다. 결과물의 창의적·의사소통적 측면이 성공의 주요 요인일 때 사용하는 것이 가장 좋습니다.
|
||||
|
||||
</Tab>
|
||||
|
||||
<Tab title="Efficient Models">
|
||||
@@ -428,6 +466,7 @@ tech_writer = Agent(
|
||||
efficient 모델은 데이터 처리 및 변환 작업, 단순한 서식 지정 및 정리 작업, 정밀성이 중요하고 복잡함보다는 정확성이 필요한 함수 호출 및 도구 사용, 1회 작업당 비용이 중대한 고볼륨 작업에 적합합니다.
|
||||
|
||||
efficient 모델에서는 해당 모델의 역량이 작업 요구 사항과 일치하는지 확인하는 것이 핵심입니다. 다양한 반복 작업을 효과적으로 처리할 수 있지만, 뉘앙스 이해, 복잡한 reasoning, 고도화된 콘텐츠 생성이 필요한 작업에서는 한계가 있을 수 있습니다.
|
||||
|
||||
</Tab>
|
||||
|
||||
<Tab title="Open Source Models">
|
||||
@@ -436,6 +475,7 @@ tech_writer = Agent(
|
||||
예를 들어, 데이터 프라이버시가 최우선인 사내 도구, 외부 API를 사용할 수 없는 프라이버시 민감형 애플리케이션, 토큰 단위 가격이 부담스러운 비용 최적화 배포, 모델 수정 또는 파인튜닝이 필요한 상황에서 open source 모델을 고려해 보세요.
|
||||
|
||||
단, open source 모델은 효과적으로 배포하고 유지하기 위해 더 많은 기술 전문성이 요구됩니다. 인프라, 기술적 오버헤드, 지속적인 유지보수를 포함한 전체 소유 비용을 종합적으로 평가해야 합니다.
|
||||
|
||||
</Tab>
|
||||
</Tabs>
|
||||
|
||||
@@ -455,6 +495,7 @@ tech_writer = Agent(
|
||||
# 처리 agent는 효율적인 모델 사용
|
||||
processor = Agent(role="Data Processor", llm=LLM(model="gpt-4o-mini"))
|
||||
```
|
||||
|
||||
</Accordion>
|
||||
|
||||
<Accordion title="Crew 수준과 Agent 수준 LLM 계층 혼동" icon="shuffle">
|
||||
@@ -474,6 +515,7 @@ tech_writer = Agent(
|
||||
# agent는 특별히 지정하지 않으면 crew LLM을 상속받음
|
||||
agent1 = Agent(llm=LLM(model="claude-3-5-sonnet")) # 특정 요구에 따라 오버라이드
|
||||
```
|
||||
|
||||
</Accordion>
|
||||
|
||||
<Accordion title="함수 호출 모델 미스매치" icon="screwdriver-wrench">
|
||||
@@ -492,6 +534,7 @@ tech_writer = Agent(
|
||||
llm=LLM(model="claude-3-5-sonnet") # 도구 사용에 강점
|
||||
)
|
||||
```
|
||||
|
||||
</Accordion>
|
||||
|
||||
<Accordion title="테스트 없는 조기 최적화" icon="gear">
|
||||
@@ -507,6 +550,7 @@ tech_writer = Agent(
|
||||
# 성능을 테스트하고, 필요에 따라 특정 agent만 최적화
|
||||
# Enterprise 플랫폼 테스트를 통해 개선 사항 검증
|
||||
```
|
||||
|
||||
</Accordion>
|
||||
|
||||
<Accordion title="컨텍스트·메모리 한계 간과" icon="brain">
|
||||
@@ -515,6 +559,7 @@ tech_writer = Agent(
|
||||
**실제 예시**: 여러 차례 반복되는 업무나 agent 간 활발한 소통이 필요한 crew에 대화 내역을 오래 유지해야 하는데, 짧은 컨텍스트 모델을 사용한 경우.
|
||||
|
||||
**CrewAI 솔루션**: crew의 소통 패턴에 맞춰 컨텍스트 처리 능력을 갖춘 모델을 선택.
|
||||
|
||||
</Accordion>
|
||||
</AccordionGroup>
|
||||
|
||||
@@ -522,26 +567,36 @@ tech_writer = Agent(
|
||||
|
||||
<Steps>
|
||||
<Step title="간단하게 시작하기" icon="play">
|
||||
신뢰할 수 있고, 잘 알려져 있으며, 널리 지원되는 범용 모델로 시작하세요. 이것은 최적화된 특수한 필요에 집중하기 전에 귀하의 특정 요구사항과 성능 기대치를 이해할 수 있는 안정적인 기초를 제공합니다.
|
||||
신뢰할 수 있고, 잘 알려져 있으며, 널리 지원되는 범용 모델로 시작하세요.
|
||||
이것은 최적화된 특수한 필요에 집중하기 전에 귀하의 특정 요구사항과 성능
|
||||
기대치를 이해할 수 있는 안정적인 기초를 제공합니다.
|
||||
</Step>
|
||||
<Step title="중요한 것 측정하기" icon="chart-line">
|
||||
일반적인 벤치마크에만 의존하지 말고, 귀하의 특정 사용 사례와 비즈니스 요구에 부합하는 지표를 개발하세요. 이론적 성능 지표가 아니라 성공에 직접적으로 영향을 미치는 결과 측정에 집중하세요.
|
||||
일반적인 벤치마크에만 의존하지 말고, 귀하의 특정 사용 사례와 비즈니스 요구에
|
||||
부합하는 지표를 개발하세요. 이론적 성능 지표가 아니라 성공에 직접적으로
|
||||
영향을 미치는 결과 측정에 집중하세요.
|
||||
</Step>
|
||||
<Step title="결과에 기반한 반복" icon="arrows-rotate">
|
||||
이론적 고려사항이나 일반적인 권장사항이 아니라, 귀하의 특정 상황에서 관찰된 성능에 따라 모델을 변경하세요. 실제 성능은 벤치마크 결과나 일반적인 평판과는 크게 다를 수 있습니다.
|
||||
이론적 고려사항이나 일반적인 권장사항이 아니라, 귀하의 특정 상황에서 관찰된
|
||||
성능에 따라 모델을 변경하세요. 실제 성능은 벤치마크 결과나 일반적인 평판과는
|
||||
크게 다를 수 있습니다.
|
||||
</Step>
|
||||
<Step title="총 비용 고려하기" icon="calculator">
|
||||
모델 비용, 개발 시간, 유지 보수 오버헤드, 운영 복잡성 등 소유에 드는 전체 비용을 평가하세요. 토큰당 가장 저렴한 모델이 모든 요소를 고려했을 때 반드시 가장 비용 효율적이지는 않을 수 있습니다.
|
||||
모델 비용, 개발 시간, 유지 보수 오버헤드, 운영 복잡성 등 소유에 드는 전체
|
||||
비용을 평가하세요. 토큰당 가장 저렴한 모델이 모든 요소를 고려했을 때 반드시
|
||||
가장 비용 효율적이지는 않을 수 있습니다.
|
||||
</Step>
|
||||
</Steps>
|
||||
|
||||
<Tip>
|
||||
먼저 귀하의 요구사항을 이해하는 데 집중한 후, 그 요구와 가장 잘 맞는 모델을 선택하세요. 최상의 LLM 선택은 운영상의 제약 조건 내에서 꾸준히 원하는 결과를 제공하는 것입니다.
|
||||
먼저 귀하의 요구사항을 이해하는 데 집중한 후, 그 요구와 가장 잘 맞는 모델을
|
||||
선택하세요. 최상의 LLM 선택은 운영상의 제약 조건 내에서 꾸준히 원하는 결과를
|
||||
제공하는 것입니다.
|
||||
</Tip>
|
||||
|
||||
### 엔터프라이즈급 모델 검증
|
||||
|
||||
LLM 선택을 최적화하고자 하는 팀을 위해 **CrewAI AOP 플랫폼**은 기본적인 CLI 테스트를 훨씬 능가하는 정교한 테스트 기능을 제공합니다. 이 플랫폼은 데이터 기반의 LLM 전략 의사결정을 지원하는 종합적인 모델 평가를 가능하게 합니다.
|
||||
LLM 선택을 최적화하고자 하는 팀을 위해 **CrewAI AMP 플랫폼**은 기본적인 CLI 테스트를 훨씬 능가하는 정교한 테스트 기능을 제공합니다. 이 플랫폼은 데이터 기반의 LLM 전략 의사결정을 지원하는 종합적인 모델 평가를 가능하게 합니다.
|
||||
|
||||
<Frame>
|
||||

|
||||
@@ -562,7 +617,9 @@ LLM 선택을 최적화하고자 하는 팀을 위해 **CrewAI AOP 플랫폼**
|
||||
지금 [app.crewai.com](https://app.crewai.com)에서 시작하세요!
|
||||
|
||||
<Info>
|
||||
Enterprise 플랫폼은 모델 선택을 단순한 추측이 아닌 데이터 기반 프로세스로 혁신하여, 본 가이드의 원칙을 실제 사용 사례와 요구 사항에 맞게 검증할 수 있도록 해줍니다.
|
||||
Enterprise 플랫폼은 모델 선택을 단순한 추측이 아닌 데이터 기반 프로세스로
|
||||
혁신하여, 본 가이드의 원칙을 실제 사용 사례와 요구 사항에 맞게 검증할 수
|
||||
있도록 해줍니다.
|
||||
</Info>
|
||||
|
||||
## 주요 원칙 요약
|
||||
@@ -572,21 +629,25 @@ Enterprise 플랫폼은 모델 선택을 단순한 추측이 아닌 데이터
|
||||
이론적 능력이나 일반적인 평판이 아니라, 작업에 실제로 필요한 것에 따라 모델을 선택하세요.
|
||||
</Card>
|
||||
|
||||
<Card title="능력 일치" icon="puzzle-piece">
|
||||
최적의 성능을 위해 모델의 강점을 agent의 역할 및 책임과 일치시키세요.
|
||||
</Card>
|
||||
{" "}
|
||||
<Card title="능력 일치" icon="puzzle-piece">
|
||||
최적의 성능을 위해 모델의 강점을 agent의 역할 및 책임과 일치시키세요.
|
||||
</Card>
|
||||
|
||||
<Card title="전략적 일관성" icon="link">
|
||||
관련 구성 요소와 워크플로 전반에 걸쳐 일관된 모델 선택 전략을 유지하세요.
|
||||
</Card>
|
||||
{" "}
|
||||
<Card title="전략적 일관성" icon="link">
|
||||
관련 구성 요소와 워크플로 전반에 걸쳐 일관된 모델 선택 전략을 유지하세요.
|
||||
</Card>
|
||||
|
||||
<Card title="실용적 테스트" icon="flask">
|
||||
벤치마크에만 의존하지 말고 실제 사용을 통해 선택을 검증하세요.
|
||||
</Card>
|
||||
{" "}
|
||||
<Card title="실용적 테스트" icon="flask">
|
||||
벤치마크에만 의존하지 말고 실제 사용을 통해 선택을 검증하세요.
|
||||
</Card>
|
||||
|
||||
<Card title="반복적 개선" icon="arrow-up">
|
||||
단순하게 시작하고 실제 성능과 필요에 따라 최적화하세요.
|
||||
</Card>
|
||||
{" "}
|
||||
<Card title="반복적 개선" icon="arrow-up">
|
||||
단순하게 시작하고 실제 성능과 필요에 따라 최적화하세요.
|
||||
</Card>
|
||||
|
||||
<Card title="운영적 균형" icon="scale-balanced">
|
||||
성능 요구사항과 비용 및 복잡성 제약을 균형 있게 맞추세요.
|
||||
@@ -594,13 +655,19 @@ Enterprise 플랫폼은 모델 선택을 단순한 추측이 아닌 데이터
|
||||
</CardGroup>
|
||||
|
||||
<Check>
|
||||
기억하세요: 최고의 LLM 선택이란 운영상의 제약 내에서 일관되게 필요한 결과를 제공하는 모델입니다. 먼저 요구사항을 정확히 이해하는 데 집중한 후, 그에 가장 잘 맞는 모델을 선택하세요.
|
||||
기억하세요: 최고의 LLM 선택이란 운영상의 제약 내에서 일관되게 필요한 결과를
|
||||
제공하는 모델입니다. 먼저 요구사항을 정확히 이해하는 데 집중한 후, 그에 가장
|
||||
잘 맞는 모델을 선택하세요.
|
||||
</Check>
|
||||
|
||||
## 현재 모델 현황 (2025년 6월)
|
||||
|
||||
<Warning>
|
||||
**특정 시점의 스냅샷**: 아래 모델 순위는 2025년 6월 기준으로, [LMSys Arena](https://arena.lmsys.org/), [Artificial Analysis](https://artificialanalysis.ai/) 및 기타 주요 벤치마크에서 집계된 최신 리더보드 결과입니다. LLM의 성능, 가용성, 가격은 빠르게 변동됩니다. 항상 귀하의 특정 사용 사례와 데이터로 직접 평가를 진행하시기 바랍니다.
|
||||
**특정 시점의 스냅샷**: 아래 모델 순위는 2025년 6월 기준으로, [LMSys
|
||||
Arena](https://arena.lmsys.org/), [Artificial
|
||||
Analysis](https://artificialanalysis.ai/) 및 기타 주요 벤치마크에서 집계된
|
||||
최신 리더보드 결과입니다. LLM의 성능, 가용성, 가격은 빠르게 변동됩니다. 항상
|
||||
귀하의 특정 사용 사례와 데이터로 직접 평가를 진행하시기 바랍니다.
|
||||
</Warning>
|
||||
|
||||
### 카테고리별 주요 모델
|
||||
@@ -608,7 +675,10 @@ Enterprise 플랫폼은 모델 선택을 단순한 추측이 아닌 데이터
|
||||
아래 표는 다양한 카테고리에서 현재 최고의 성능을 보이는 대표적인 모델들을 보여주며, CrewAI 에이전트에 적합한 모델 선택에 대한 가이드를 제공합니다:
|
||||
|
||||
<Note>
|
||||
이 표와 지표는 각 카테고리에서 선별된 주요 모델을 보여주기 위한 것으로, 전체를 포괄하지 않습니다. 여기 소개되지 않은 훌륭한 모델들도 많이 존재합니다. 이 표의 목적은 완전한 목록을 제공하는 것이 아니라, 어떤 능력을 갖춘 모델을 찾아야 하는지 예시를 제시하는 것입니다.
|
||||
이 표와 지표는 각 카테고리에서 선별된 주요 모델을 보여주기 위한 것으로, 전체를
|
||||
포괄하지 않습니다. 여기 소개되지 않은 훌륭한 모델들도 많이 존재합니다. 이 표의
|
||||
목적은 완전한 목록을 제공하는 것이 아니라, 어떤 능력을 갖춘 모델을 찾아야
|
||||
하는지 예시를 제시하는 것입니다.
|
||||
</Note>
|
||||
|
||||
<Tabs>
|
||||
@@ -624,6 +694,7 @@ Enterprise 플랫폼은 모델 선택을 단순한 추측이 아닌 데이터
|
||||
| **Qwen3 235B (Reasoning)** | 62 | $2.63 | 보통 | reasoning 작업을 위한 오픈소스 대안 |
|
||||
|
||||
이 모델들은 다단계 reasoning에 뛰어나며, 전략을 개발하거나 다른 에이전트를 조정하거나 복잡한 정보를 분석해야 하는 에이전트에 이상적입니다.
|
||||
|
||||
</Tab>
|
||||
|
||||
<Tab title="Coding & Technical">
|
||||
@@ -638,6 +709,7 @@ Enterprise 플랫폼은 모델 선택을 단순한 추측이 아닌 데이터
|
||||
| **Llama 3.1 405B** | 좋음 | 81.1% | $3.50 | 도구 사용이 많은 워크플로우를 위한 function calling LLM |
|
||||
|
||||
이 모델들은 코드 생성, 디버깅, 기술 문제 해결에 최적화되어 있어, 개발 중심 팀에 적합합니다.
|
||||
|
||||
</Tab>
|
||||
|
||||
<Tab title="Speed & Efficiency">
|
||||
@@ -652,6 +724,7 @@ Enterprise 플랫폼은 모델 선택을 단순한 추측이 아닌 데이터
|
||||
| **Nova Micro** | 높음 | 0.30s | $0.04 | 단순·빠른 작업 처리 |
|
||||
|
||||
이 모델들은 속도와 효율을 우선시하며, 일상적 운영 또는 신속한 응답이 필요한 에이전트에게 최적입니다. **팁**: 이러한 모델을 Groq와 같은 빠른 추론 제공자와 함께 사용하면 더욱 우수한 성능을 낼 수 있습니다. 특히 Llama와 같은 오픈소스 모델에 적합합니다.
|
||||
|
||||
</Tab>
|
||||
|
||||
<Tab title="Balanced Performance">
|
||||
@@ -666,6 +739,7 @@ Enterprise 플랫폼은 모델 선택을 단순한 추측이 아닌 데이터
|
||||
| **Qwen3 32B** | 44 | 좋음 | $1.23 | 예산 친화적 다재다능성 |
|
||||
|
||||
이 모델들은 다양한 측면에서 우수한 성능을 제공하며, 여러 작업이 혼합된 팀에 적합합니다.
|
||||
|
||||
</Tab>
|
||||
</Tabs>
|
||||
|
||||
@@ -676,24 +750,28 @@ Enterprise 플랫폼은 모델 선택을 단순한 추측이 아닌 데이터
|
||||
**퍼포먼스가 우선 순위일 때**: 매니저 LLM 또는 중요한 에이전트 역할에는 **o3**, **Gemini 2.5 Pro**, **Claude 4 Sonnet**과 같은 최상위 모델을 사용하세요. 이 모델들은 복잡한 reasoning 및 coordination에 탁월하지만 비용이 더 높습니다.
|
||||
|
||||
**전략**: 프리미엄 모델이 전략적 사고를 담당하고, 효율적인 모델이 일상적 operation을 처리하는 멀티 모델 접근법을 구현하세요.
|
||||
|
||||
</Accordion>
|
||||
|
||||
<Accordion title="Cost-Conscious Crews" icon="dollar-sign">
|
||||
**예산이 주요 제약일 때**: **DeepSeek R1**, **Llama 4 Scout**, **Gemini 2.0 Flash**와 같은 모델에 집중하세요. 이 모델들은 훨씬 낮은 비용으로 강력한 퍼포먼스를 제공합니다.
|
||||
|
||||
**전략**: 대부분의 에이전트에는 비용 효율이 높은 모델을 사용하고, 가장 중요한 decision-making 역할에만 프리미엄 모델을 남겨두세요.
|
||||
|
||||
</Accordion>
|
||||
|
||||
<Accordion title="Specialized Workflows" icon="screwdriver-wrench">
|
||||
**특정 도메인 전문성이 필요할 때**: 주된 사용 사례에 최적화된 모델을 선택하세요. 코딩에는 **Claude 4** 시리즈, 리서치에는 **Gemini 2.5 Pro**, function calling에는 **Llama 405B**를 사용하세요.
|
||||
|
||||
**전략**: crew의 주요 기능에 따라 모델을 선택해, 핵심 역량이 모델의 강점과 일치하도록 하세요.
|
||||
|
||||
</Accordion>
|
||||
|
||||
<Accordion title="Enterprise & Privacy" icon="shield">
|
||||
**데이터 민감한 operation의 경우**: 로컬에서 배포 가능하면서 경쟁력 있는 퍼포먼스를 유지하는 오픈 소스 모델인 **Llama 4** 시리즈, **DeepSeek V3**, **Qwen3** 등을 고려하세요.
|
||||
|
||||
**전략**: 사설 인프라에 오픈 소스 모델을 배포하여, 데이터 제어를 위해 필요한 퍼포먼스 손실을 감수하세요.
|
||||
|
||||
</Accordion>
|
||||
</AccordionGroup>
|
||||
|
||||
@@ -706,7 +784,10 @@ Enterprise 플랫폼은 모델 선택을 단순한 추측이 아닌 데이터
|
||||
- **오픈 소스의 실효성**: 오픈 소스와 독점 모델 간의 격차가 계속 좁혀지고 있으며, Llama 4 Maverick 및 DeepSeek V3와 같은 모델이 매력적인 가격대에서 경쟁력 있는 성능을 제공합니다. 특히 빠른 추론을 제공하는 업체들은 오픈 소스 모델과 함께 탁월한 속도-비용 비율을 제공하는 경우가 많아 독점 모델보다 우위에 서기도 합니다.
|
||||
|
||||
<Info>
|
||||
**테스트는 필수입니다**: 리더보드 순위는 일반적인 가이드라인을 제공하지만, 귀하의 특정 사용 사례, 프롬프트 스타일, 평가 기준에 따라 결과가 달라질 수 있습니다. 최종 결정을 내리기 전에 반드시 실제 작업과 데이터로 후보 모델을 테스트해 보세요.
|
||||
**테스트는 필수입니다**: 리더보드 순위는 일반적인 가이드라인을 제공하지만,
|
||||
귀하의 특정 사용 사례, 프롬프트 스타일, 평가 기준에 따라 결과가 달라질 수
|
||||
있습니다. 최종 결정을 내리기 전에 반드시 실제 작업과 데이터로 후보 모델을
|
||||
테스트해 보세요.
|
||||
</Info>
|
||||
|
||||
### 실질적인 구현 전략
|
||||
@@ -716,13 +797,19 @@ Enterprise 플랫폼은 모델 선택을 단순한 추측이 아닌 데이터
|
||||
여러 차원에서 우수한 성능을 제공하며 실제 환경에서 광범위하게 검증된 **GPT-4.1**, **Claude 3.7 Sonnet**, **Gemini 2.0 Flash**와 같은 잘 알려진 모델부터 시작하십시오.
|
||||
</Step>
|
||||
|
||||
<Step title="특화된 요구 사항 식별">
|
||||
crew에 코드 작성, reasoning, 속도 등 특정 요구가 있는지 확인하고, 이러한 요구에 부합하는 **Claude 4 Sonnet**(개발용) 또는 **o3**(복잡한 분석용)과 같은 특화 모델을 고려하십시오. 속도가 중요한 애플리케이션의 경우, 모델 선택과 더불어 **Groq**와 같은 빠른 추론 제공자를 고려할 수 있습니다.
|
||||
</Step>
|
||||
{" "}
|
||||
<Step title="특화된 요구 사항 식별">
|
||||
crew에 코드 작성, reasoning, 속도 등 특정 요구가 있는지 확인하고, 이러한
|
||||
요구에 부합하는 **Claude 4 Sonnet**(개발용) 또는 **o3**(복잡한 분석용)과 같은
|
||||
특화 모델을 고려하십시오. 속도가 중요한 애플리케이션의 경우, 모델 선택과
|
||||
더불어 **Groq**와 같은 빠른 추론 제공자를 고려할 수 있습니다.
|
||||
</Step>
|
||||
|
||||
<Step title="다중 모델 전략 구현">
|
||||
각 에이전트의 역할에 따라 다양한 모델을 사용하세요. 관리자와 복잡한 작업에는 고성능 모델을, 일상적 운영에는 효율적인 모델을 적용합니다.
|
||||
</Step>
|
||||
{" "}
|
||||
<Step title="다중 모델 전략 구현">
|
||||
각 에이전트의 역할에 따라 다양한 모델을 사용하세요. 관리자와 복잡한 작업에는
|
||||
고성능 모델을, 일상적 운영에는 효율적인 모델을 적용합니다.
|
||||
</Step>
|
||||
|
||||
<Step title="모니터링 및 최적화">
|
||||
사용 사례와 관련된 성능 지표를 추적하고, 새로운 모델이 출시되거나 가격이 변동될 때 모델 선택을 조정할 준비를 하십시오.
|
||||
|
||||
Reference in New Issue
Block a user