Paperless-ngx mit Tika und Gotenberg um Office-Dokumente zu verarbeiten

Für mein papierloses Büro nutze ich Paperless-ngx in einem Container unter Proxmox. Die Installation von Paperless-ngx habe ich damals mit diesem Proxmox VE Helper-Script gemacht.

Von Haus aus kann Paperless-ngx nur PDFs verarbeiten. Mit zwei Erweiterungen (Gotenberg und Tika) kann man den Funktionsumfang von Paperless-ngx erweitern um folgendes importieren zu können:

  • Emails als *.eml
  • Word-Dokumente
  • Excel-Tabellen 
  • PowerPoint-Präsentationen 


Als ersten muss Docker für Debian 12 nachinstalliert werden:

Grundlage vorbereiten

apt-get update
apt-get install ca-certificates curl
install -m 0755 -d /etc/apt/keyrings
curl -fsSL https://download.docker.com/linux/debian/gpg -o /etc/apt/keyrings/docker.asc
chmod a+r /etc/apt/keyrings/docker.asc

Repository hinzufügen

echo \
"deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.asc] https://download.docker.com/linux/debian \
$(. /etc/os-release && echo "$VERSION_CODENAME") stable" | \
sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
apt-get update

GPG Key downloaden und abspeichern

curl -fsSL https://download.docker.com/linux/debian/gpg | gpg --dearmor -o /usr/share/keyrings/docker.gpg
echo "deb [arch=$(dpkg --print-architecture) signed-by=/usr/share/keyrings/docker.gpg] https://download.docker.com/linux/debian bookworm stable" |tee /etc/apt/sources.list.d/docker.list > /dev/null
apt update

Docker Pakete installieren

apt-get install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin

Überprüfen ob die Installation erfolgreich war< code>systemctl is-active docker

Docker Gruppe erweitern

usermod -aG docker paperless

Docker Images und Container starten

docker run -p 3000:3000 --name plngx-gotenberg --restart unless-stopped -d gotenberg/gotenberg:latest gotenberg --chromium-disable-javascript=true --chromium-allow-list="file:///tmp/.*"
docker run -p 9998:9998 --name plngx-tika --restart unless-stopped -d docker.io/apache/tika:latest

Nun muss die Konfiguration von Paperless-ngx erweitert werden, damit Tika und Gotenberg verwendet wird:

/opt/paperless/paperless.conf
PAPERLESS_TIKA_ENABLED=true
PAPERLESS_TIKA_ENDPOINT=http://0.0.0.0:9998
PAPERLESS_TIKA_GOTENBERG_ENDPOINT=http://0.0.0.0:3000

Ob nun alles funktioniert und vor allem ob die beiden Docker Container nach einen Neustart auch gestartet werden, empfehle ich einen Reboot des Paperless-Container.

Was macht Paperless-ngx nun mit den Office-Dokumenten?

Paperless-ngx erkennt, dass das Dokument kein PDF ist und lässt Gotenberg und Tika jetzt die Konvertierungsarbeit übernehmen. Es wird aus dem Office-Dokument ein PDF erstellt und automatisiert in Paperless-ngx importiert.

Neben dem PDF kann man auch das Original wieder herunterladen, indem man in der Detailansicht auf „Herunterladen“ > „Original“ klickt.

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

* Die DSGVO-Checkbox ist ein Pflichtfeld

*

Zustimmung zur Datenspeicherung lt. DSGVO