llm-evaluation

11 results for tag "llm-evaluation"

🎯

Skills

A production-ready plugin system with 112 AI agents, 146 skills, 16 workflow orchestrators, and 79 development tools organized into 73 focused plugins for Claude Code.

llm-evaluation

llm-evaluationsickn33/antigravity-awesome-skills2100

Evaluates LLM applications systematically using automated metrics, human feedback, and comparative techniques to measure performance and quality.

llm-evaluation

llm-evaluationovachiever/droid-tings370

Evaluates LLM performance systematically using automated metrics, human feedback, and benchmarking techniques across various dimensions.

llm-evaluation

llm-evaluationphrazzld/claude-config230

A skill for LLM prompt testing, evaluation, and CI/CD quality gates using Promptfoo. Covers prompt regression testing, security testing (red teaming, jailbreaks), model performance comparison, and building evaluation suites for RAG, factuality, or safety.

llm-evaluation

llm-evaluationhermeticormus/libreuiux-claude-code★ 21 llm-evaluationrmyndharis/antigravity-skills★ 17 llm-evaluationckorhonen/claude-skills★ 11 llm-evaluationyonatangross/orchestkit★ 10 llm-evaluationmicrock/ordinary-claude-skills★ 5 llm-evaluation

🎯

Skills

llm-evaluationwshobson/agents6.1K0

A production-ready plugin system with 112 AI agents, 146 skills, 16 workflow orchestrators, and 79 development tools organized into 73 focused plugins for Claude Code.

llm-evaluation

llm-evaluationsickn33/antigravity-awesome-skills2100

Evaluates LLM applications systematically using automated metrics, human feedback, and comparative techniques to measure performance and quality.

llm-evaluation

llm-evaluationovachiever/droid-tings370

Evaluates LLM performance systematically using automated metrics, human feedback, and benchmarking techniques across various dimensions.

llm-evaluation

llm-evaluationphrazzld/claude-config230

llm-evaluation