Escribir Archivos Grandes

Q: ¿Debo usar modo append o reescribir?

Usa append ('a' en Python, flag 'a' en Node, StandardOpenOption.APPEND en Java) para logs. Usa renombrado atómico para archivos de datos que deben mantenerse consistentes.

Q: ¿Cómo manejo errores de disco lleno?

Captura IOException (Java), evento error en streams (JS) o OSError (Python). Pre-verificar espacio disponible con shutil.disk_usage (Python) o fs.statvfs (Node) puede ayudar.

Q: ¿Es BufferedWriter más rápido que FileWriter?

Sí. BufferedWriter agrupa escrituras, reduciendo syscalls. La diferencia es dramática para muchas escrituras pequeñas y negligible para escrituras de bloques grandes.

Visión General

Escribir datasets o logs masivos en disco requiere técnicas bufferizadas y de streaming para evitar picos de memoria y cuellos de botella de I/O. Esta receta cubre patrones eficientes de escritura de archivos en Python, JavaScript y Java.

Cuándo Usar

Usa este recurso cuando:

Generas archivos de exportación grandes (CSV, JSONL, XML) desde consultas a base de datos
Añades registros a archivos de log en servicios de larga duración
Transmites datos transformados a disco sin mantener todo el payload en memoria

Solución

Python

# Escritura bufferizada de texto
with open('output.log', 'w', encoding='utf-8') as f:
    for record in data_source:
        f.write(f"{record}\n")

# Escritura binaria por chunks
with open('output.bin', 'wb') as f:
    for chunk in byte_generator():
        f.write(chunk)

JavaScript

const fs = require('fs');

// Stream writer
const stream = fs.createWriteStream('output.log');
for (const record of dataSource) {
    stream.write(`${record}\n`);
}
stream.end();

// Finalización basada en Promise
await new Promise((resolve, reject) => {
    stream.on('finish', resolve);
    stream.on('error', reject);
});

Java

import java.io.BufferedWriter;
import java.io.FileWriter;
import java.io.IOException;
import java.nio.ByteBuffer;
import java.nio.channels.FileChannel;
import java.nio.file.Paths;
import java.nio.file.StandardOpenOption;

public class LargeFileWriter {
    // Escritor de texto bufferizado
    public void writeLines(String path, Iterable<String> lines) throws IOException {
        try (BufferedWriter writer = new BufferedWriter(new FileWriter(path))) {
            for (String line : lines) {
                writer.write(line);
                writer.newLine();
            }
        }
    }

    // Escritor binario por chunks
    public void writeChunks(String path, Iterable<byte[]> chunks) throws IOException {
        try (FileChannel channel = FileChannel.open(Paths.get(path),
                StandardOpenOption.CREATE, StandardOpenOption.WRITE)) {
            for (byte[] chunk : chunks) {
                channel.write(ByteBuffer.wrap(chunk));
            }
        }
    }
}

Explicación

Los escritores bufferizados reducen la cantidad de system calls acumulando datos en memoria antes de volcarlos a disco. Las escrituras con streaming procesan y emiten datos incrementalmente, manteniendo el uso de memoria constante sin importar el tamaño total de salida. FileChannel en Java provee transferencias directas buffer-a-canal, minimizando copias entre espacio de usuario y kernel.

Variantes

Tecnología	Enfoque	Notas
Python	`tempfile` + renombrado atómico	Escribe en temp, luego mueve para seguridad ante fallos
JavaScript	`pipeline()`	Piping consciente de backpressure entre streams
Java	`FileOutputStream` con `BufferedOutputStream`	IO clásica, más simple pero ligeramente más lenta que NIO

Mejores Prácticas

Siempre cierra o finaliza streams para volcar buffers internos y liberar descriptores
Usa patrones de renombrado atómico (escribir en archivo temporal, luego renombrar) para prevenir archivos parciales ante un crash
Ajusta tamaños de buffer basados en el tamaño de bloque del disco (típicamente 4 KB u 8 KB)
Maneja errores de stream para evitar pérdida silenciosa de datos
Para escritores concurrentes, usa bloqueo de archivos o modos append-only

Errores Comunes

Construir un string gigante en memoria antes de escribir en lugar de hacer streaming
Ignorar errores del stream de escritura, que pueden dejar archivos truncados
Usar llamadas de escritura síncronas en bucles críticos de rendimiento
No hacer flush antes de salir del proceso, perdiendo datos bufferizados
Sobrescribir archivos originales in-place sin una estrategia de backup

Preguntas Frecuentes

¿Debo usar modo append o reescribir?

Usa append ('a' en Python, flag 'a' en Node, StandardOpenOption.APPEND en Java) para logs. Usa renombrado atómico para archivos de datos que deben mantenerse consistentes.

¿Cómo manejo errores de disco lleno?

Captura IOException (Java), evento error en streams (JS) o OSError (Python). Pre-verificar espacio disponible con shutil.disk_usage (Python) o fs.statvfs (Node) puede ayudar.

¿Es `BufferedWriter` más rápido que `FileWriter`?

Sí. BufferedWriter agrupa escrituras, reduciendo syscalls. La diferencia es dramática para muchas escrituras pequeñas y negligible para escrituras de bloques grandes.

Visión General

Cuándo Usar

Solución

Python

JavaScript

Java

Explicación

Variantes

Mejores Prácticas

Errores Comunes

Preguntas Frecuentes

¿Debo usar modo append o reescribir?

¿Cómo manejo errores de disco lleno?

¿Es `BufferedWriter` más rápido que `FileWriter`?

Read Large Files

File Upload Validation

Generate PDFs

Process Large Files with Streams

Abstract Factory Pattern

Visión General

Cuándo Usar

Solución

Python

JavaScript

Java

Explicación

Variantes

Mejores Prácticas

Errores Comunes

Preguntas Frecuentes

¿Debo usar modo append o reescribir?

¿Cómo manejo errores de disco lleno?

¿Es BufferedWriter más rápido que FileWriter?

Recursos Relacionados

Read Large Files

File Upload Validation

Generate PDFs

Process Large Files with Streams

Abstract Factory Pattern

¿Es `BufferedWriter` más rápido que `FileWriter`?