Corpus Snapshot — Disclosure Bureau v0.2.0

Generated: 2026-05-17 · Após batch rebuild completo

Totais

Métrica	Valor
Documentos arquivados	116/115 (100% — extra: doc-342 test)
Chunks totais	20.935
Páginas processadas	3.359
Imagens cropadas	752 (bilíngue desc + UAP check)
UFO anomaly flagged	3.020 chunks (14.4%)
Cryptid anomaly flagged	21 chunks (0.1%)
Disk usage	634 MB (`raw/*--subagent`)
Custo cumulativo	~$409 USD
Validação harness	93 ok · 23 com warnings YAML (body OK)

Cobertura por coleção

DOW-UAP D1-D75 (75 docs Mission Reports DoD 2020-2025): completos
65 HS1 FBI Vault (12 sections + 16 serials + sub-a): completos
NASA Apollo (transcripts 11/12/17/Skylab — 5 docs): completos
DOS-UAP (cables diplomáticos 3 docs): completos
FBI photos b2-b24 (10 docs): completos
059UAP (FOIA — 3 docs): completos
doc-18, doc-255, doc-331, doc-341, doc-342: completos
serials redacted (3-5): completos
western-us-event-slides + usper-statement: completos

Estrutura por documento

Cada raw/<doc-id>--subagent/ contém:

├── document.md           assembled bilingual master (EN+PT-BR inline)
├── _index.json           ordered chunk index (harness reassembly)
├── chunks/
│   ├── c0001.md          1 file per chunk, frontmatter rico (bbox+type+anomaly)
│   ├── c0002.md
│   └── ...
├── images/               cropped bbox regions PNG (with bilingual descriptions)
└── tables/               stitched multi-page tables CSV

Próximos passos pré-deploy

Toda infra do retrieval layer está construída (scripts/30,31,32,33 + embed-service/ + migration 0002_chunks_retrieval.sql). Para ativar:

# Sobe stack na VPS (embed-service + pgvector migration aplicada)
cd infra/disclosure-stack && ./scripts/deploy.sh

# Index chunks → Postgres + BGE-M3 embeddings
python3 scripts/30-index-chunks-to-db.py

# Materialize entity_mentions (chunk ↔ entity, ~30min)
python3 scripts/31-populate-entity-mentions.py

# Sync mentioned_in[] → markdown (fecha loop wiki ↔ DB)
python3 scripts/32-sync-mentioned-in-yaml.py

# (Manutenção) Compact progress.jsonl
python3 scripts/33-compact-progress-log.py

Detalhes em infra/DEPLOY-CHECKLIST.md.

Frontend já operacional

13 rotas + Cmd+K + chat agente:

/ lista de docs com summaries + filtros
/d/<doc>/v2 chunks rebuilt rico
/d/<doc>/v2/<page> single page side-by-side
/search?q=… URL-shareable hybrid search
/timeline cronologia decade-grouped
/graph force-directed entity network
/e/<class> entity list por classe
/e/<class>/<id> entity detail + co-mentions live
/admin/stats corpus analytics
/admin/batch rebuild monitor
/admin/indexer retrieval health
Chat: 12 tools (hybrid_search / read_chunk / entity_neighbors / etc)

Warnings conhecidos

Os 23 docs com YAML warnings (todos body OK graças ao parser resiliente):

doc-38-143685, doc-59-64634, doc-65-hs1-101634279
doc-65-hs1-834228961 sections 1, 2, 4, 5, 6, 7, 8, 10
doc-65-hs1-834228961 serials 130, 403, 438, 449
doc-65-hs1-834228961 sub-a
fbi-photo-b4, b5, b8, b11, b17, b23
nasa-uap-d7-skylab

Causa: Sonnet 4.6 escreveu aspas duplas mal-escapadas em campos ocr_source_lines ou outros. Fix preventivo já aplicado no page-rebuilder.md para próximos rebuilds. Os atuais funcionam 100% para retrieval (texto OK), só perdem alguns metadados estruturados em ~140 chunks.

3.6 KiB Raw Permalink Blame History