<< All versions
PDF
Skill v1.0.0
currentAutomated scan100/100majiayu000/claude-skill-registry-data/unknown-majiayu000-claude-skill-registr-109
──Details
PublishedApril 29, 2026 at 10:03 AM
Content Hashsha256:d4d5d7f829d7f6f8...
Git SHA6a0fb393b694
──Files
Files (1 file, 4.5 KB)
SKILL.md4.5 KBactive
SKILL.md · 248 lines · 4.5 KB
version: "1.0.0" name: reference-indexer description: | Indexa documentos de referencia para uso no RAG. Extrai texto de PDFs, processa e adiciona ao corpus. Use quando: adicionar documento, buscar referencia, listar docs. allowed-tools:
- Read
- Write
- Bash
- Glob
user-invocable: true
Reference Indexer Skill
Proposito
Esta skill gerencia documentos de referencia externa, indexando-os para uso no RAG.
Comandos
/ref-add {path}
Adiciona documento ao indice de referencias:
bash
/ref-add .agentic_sdlc/references/legal/lei-13775-2018.pdf
Acoes:
- Valida o arquivo
- Extrai texto (se PDF/Word)
- Cria resumo automatico
- Adiciona ao corpus RAG
- Atualiza indice
/ref-search {query}
Busca nos documentos de referencia:
bash
/ref-search "prazo de aceite duplicata"
Retorna:
- Documentos relevantes
- Trechos com contexto
- Score de relevancia
/ref-list
Lista todos os documentos indexados:
bash
/ref-list
Mostra:
- Documentos por categoria
- Status de indexacao
- Data de adicao
/ref-remove {path}
Remove documento do indice:
bash
/ref-remove .agentic_sdlc/references/legal/documento-antigo.pdf
Formatos Suportados
| Formato | Extensao | Metodo de Extracao | |
|---|---|---|---|
| pdftotext / PyPDF2 | |||
| Word | .docx | python-docx | |
| Markdown | .md | Direto | |
| Texto | .txt | Direto | |
| HTML | .html | BeautifulSoup |
Estrutura de Referencias
.agentic_sdlc/references/├── legal/ # Leis, regulamentos, normas├── technical/ # RFCs, especificacoes tecnicas├── business/ # Regras de negocio, manuais├── internal/ # Documentos internos└── _index.yml # Indice de documentos
Indice de Documentos
Arquivo _index.yml:
yaml
index:version: 1updated_at: "2026-01-12T..."documents:- id: "ref-001"path: "legal/lei-13775-2018.pdf"title: "Lei 13.775/2018 - Duplicatas Eletrônicas"category: legaladded_at: "2026-01-12T..."indexed: truesummary: "Lei que regulamenta as duplicatas escriturais..."keywords:- duplicata- escritural- eletronicapage_count: 5- id: "ref-002"path: "technical/icp-brasil.pdf"title: "Padrões ICP-Brasil"category: technicaladded_at: "2026-01-12T..."indexed: true
Extracao de Texto
bash
# Usando pdftotext (poppler-utils)pdftotext -layout input.pdf output.txt# Usando Pythonpython3 << 'EOF'import PyPDF2with open('input.pdf', 'rb') as f:reader = PyPDF2.PdfReader(f)text = ''for page in reader.pages:text += page.extract_text() + '\n'print(text)EOF
Word (docx)
python
from docx import Documentdoc = Document('input.docx')text = '\n'.join([p.text for p in doc.paragraphs])print(text)
Integracao com RAG
Documentos indexados sao adicionados ao corpus RAG:
yaml
corpus_entry:id: "ref-001"source: "references/legal/lei-13775-2018.pdf"type: "reference"category: "legal"content: "{texto extraido}"embeddings: [...] # Gerado pelo RAGmetadata:title: "Lei 13.775/2018"page: 1section: "Art. 1"
Workflow de Indexacao
yaml
indexing_workflow:1_validate:- Verificar formato suportado- Verificar tamanho (max 50MB)- Verificar permissoes2_extract:- Extrair texto do documento- Limpar formatacao- Dividir em chunks3_analyze:- Gerar resumo automatico- Extrair keywords- Classificar categoria4_index:- Adicionar ao corpus RAG- Gerar embeddings- Atualizar indice5_verify:- Testar busca- Verificar qualidade
Configuracao
No settings.json:
json
{"memory": {"rag_corpus": ".agentic_sdlc/corpus","max_document_size_mb": 50,"chunk_size": 1000,"chunk_overlap": 200}}
Boas Praticas
- Nomeie arquivos descritivamente:
lei-13775-2018-duplicatas.pdf - Organize por categoria: legal, technical, business
- Mantenha versoes: Nao sobrescreva, versione
- Documente a fonte: Adicione de onde veio
- Resuma docs longos: Crie resumos para PDFs grandes
Troubleshooting
PDF nao extrai texto
Alguns PDFs sao imagens escaneadas. Use OCR:
bash
ocrmypdf input.pdf output.pdfpdftotext output.pdf -
Documento muito grande
Divida em partes menores ou aumente max_document_size_mb.
Encoding incorreto
Force UTF-8 na extracao:
bash
pdftotext -enc UTF-8 input.pdf output.txt