Analizar Archivos Markdown

Q: ¿Cómo valido links de Markdown en CI?

Usa remark-lint con el plugin remark-validate-links en JavaScript, o markdown-link-check vía CLI. En Python, usa mkdocs con el plugin htmlproofer. Estas herramientas analizan el AST Markdown, resuelven links relativos y reportan 404s antes del deployment.

Visión General

Markdown es la lingua franca de documentación de desarrolladores, READMEs y generadores de sitios estáticos. Analizar Markdown programáticamente habilita pipelines automatizados de documentación, migración de contenido, builds de sitios estáticos y linting. Esta recipe cubre conversión de Markdown a HTML, extracción de metadata frontmatter y traversing del AST del documento en Python, JavaScript y Java.

Cuándo Usar

Usa este recurso cuando:

Construyas generadores de sitios estáticos o plataformas de documentación
Migres contenido entre CMSs basados en Markdown
Hagas linting y validación de documentación en pipelines CI/CD
Extraigas metadata estructurada (frontmatter) de archivos Markdown

Solución

Python

# markdown convierte MD a HTML
# pip install markdown
import markdown

md = markdown.Markdown(extensions=['meta'])
html = md.convert("# Hola\n\nEsto es **negrita**.")
print(html)
print(md.Meta)  # frontmatter si está presente

# Python-Markdown con fenced code blocks
import markdown

md = markdown.Markdown(extensions=['fenced_code', 'tables'])
html = md.convert("""
| Nombre | Edad |
|--------|------|
| Alice | 30 |
""")
print(html)

JavaScript

// marked es el parser Markdown más popular para JS
// npm install marked
import { marked } from 'marked';

const html = marked.parse('# Hola\n\nEsto es **negrita**.');
console.log(html);

// gray-matter extrae frontmatter; marked convierte el body
// npm install gray-matter marked
import matter from 'gray-matter';
import { marked } from 'marked';

const file = matter.read('post.md');
console.log(file.data);   // objeto frontmatter
console.log(marked.parse(file.content));  // body HTML

Java

// CommonMark (java-commonmark) es el parser spec-compliant
// Maven: org.commonmark:commonmark
import org.commonmark.node.*;
import org.commonmark.parser.Parser;
import org.commonmark.renderer.html.HtmlRenderer;

public class MarkdownParser {
    public static void main(String[] args) {
        Parser parser = Parser.builder().build();
        Node document = parser.parse("# Hola\n\nEsto es **negrita**.");
        HtmlRenderer renderer = HtmlRenderer.builder().build();
        System.out.println(renderer.render(document));
    }
}

Explicación

Los parsers Markdown típicamente operan en dos fases: parsing a nivel de bloque (headings, listas, code fences) y parsing inline (énfasis, links, code spans). CommonMark define la especificación canónica que los parsers modernos siguen, asegurando comportamiento consistente entre lenguajes.

Frontmatter (metadata YAML al tope de archivos Markdown) no es parte de la especificación CommonMark. Debe separarse del body antes de parsear. gray-matter (JS) y python-markdown con la extensión meta manejan esto nativamente. En Java, usa una regex simple o un parser YAML como SnakeYAML para separar el delimitador de frontmatter (---) antes de pasar el body a CommonMark.

El traversing del AST habilita transformaciones custom: validación de links, inyección de anchors en headings e inserción de hooks para syntax highlighting. Python-Markdown usa una API de extensiones treeprocessor; marked (JS) expone un pipeline de lexer y renderer; CommonMark (Java) construye un árbol tipado de Node.

Variantes

Tecnología	Librería	Enfoque	Notas
Python	`markdown`	`Markdown.convert()`	Alternativa de librería estándar, extensible vía extensiones
Python	`mistune`	`mistune.create_markdown()`	Más rápido, CommonMark compliant, plugin-based
JavaScript	`marked`	`marked.parse()`	Rápido, soporta GFM, renderer altamente customizable
JavaScript	`remark`	Ecosistema unified	AST-based, soporta plugins para linting y transformación
Java	`commonmark-java`	`Parser` + `HtmlRenderer`	Spec-compliant, dependencias mínimas
Java	`flexmark-java`	`Parser` + `HtmlRenderer`	Extensible, soporta GFM, tablas y YAML frontmatter

Mejores Prácticas

Sanitiza HTML de salida: Markdown puede contener HTML raw; usa DOMPurify (JS), Bleach (Python) o OWASP Java HTML Sanitizer antes de renderizar contenido generado por usuarios
Usa parsers CommonMark-compliant para consistencia cross-platform; evita parsers deprecados como markdown-js
Extrae frontmatter antes de parsear: Pasar frontmatter al parser Markdown produce salida de heading inesperada
Habilita rel="nofollow" en links externos al renderizar Markdown no confiable para prevenir SEO spam
Cachea ASTs parseados en pipelines de build para evitar re-parsear archivos sin cambios durante builds incrementales

Errores Comunes

No escapar HTML en input de usuarios: HTML raw en Markdown evade sanitización y abre vectores XSS
Asumir que todos los parsers soportan tablas: Las tablas son una extensión GFM, no core CommonMark; habilita extensiones explícitamente
Olvidar delimitadores de frontmatter: Faltantes --- o espacios extra causan que los parsers de frontmatter fallen silenciosamente
Mezclar tabs y espacios para indentación: Los parsers Markdown tratan tabs diferentemente; usa 2 o 4 espacios consistentemente
No manejar referencias de links: Los links estilo referencia ([text][id]) requieren una sección de definiciones; referencias rotas renderizan como texto plano

Preguntas Frecuentes

¿Cómo agrego syntax highlighting custom a bloques de código?

Usa un syntax highlighter que opere sobre el HTML renderizado. highlight.js (browser/Node), Pygments (Python) o Rouge (Ruby) pueden targetear bloques <code> después de la conversión Markdown a HTML. En marked, sobrescribe la función renderer.code para inyectar clases específicas de lenguaje.

¿Puedo analizar Markdown sin convertir a HTML?

Sí. La mayoría de parsers exponen un AST o stream de tokens. remark (JS) construye un Markdown AST (mdast) que puedes recorrer y transformar sin renderizar HTML. Python-Markdown tiene una API de extensiones treeprocessor. CommonMark-java produce un árbol de Node que puedes visitar con AbstractVisitor.

¿Cómo valido links de Markdown en CI?

Usa remark-lint con el plugin remark-validate-links en JavaScript, o markdown-link-check vía CLI. En Python, usa mkdocs con el plugin htmlproofer. Estas herramientas analizan el AST Markdown, resuelven links relativos y reportan 404s antes del deployment.