
Paperless-ngx 是一款强大的开源文档管理系统,它能将你的物理文件(如收据、合同、说明书)转变为一个可搜索、可分类的数字图书馆。
- 核心功能:
- OCR 文字识别:自动读取文档内容,即使是图片也能搜到里面的字。
- 自动分类:基于机器学习,它能学习你的习惯,自动为文档打标签(例如:保险、工资单)。
- 消费文件夹:只要把文件丢进指定文件夹,它就会自动“吸”进系统处理。
- 全平台访问:通过浏览器随时随地查看。
—
1. 安装过程总结(实战精简版)
针对你在 D 盘的安装经历,我们将过程复盘为以下步骤:
第一步:准备目录结构
在 D:\Docker\App\paperless 下创建以下文件夹,用于持久化存储数据:
consume:放置待处理文件的文件夹。
data:系统配置及 OCR 数据。
dbdata:数据库文件。
media:存储已处理的文档。
export:备份文件夹。
第二步:编写配置文件
创建 docker-compose.yml。为了确保启动成功,我们采用了**“稳健启动”**策略(先确保容器能跑,再补中文包)。
YAML
services:
broker:
image: docker.io/library/redis:7
restart: unless-stopped
db:
image: docker.io/library/postgres:16
restart: unless-stopped
volumes:
- ./dbdata:/var/lib/postgresql/data
environment:
POSTGRES_DB: paperless
POSTGRES_USER: paperless
POSTGRES_PASSWORD: paperless@1234
webserver:
image: ghcr.io/paperless-ngx/paperless-ngx:latest
restart: unless-stopped
depends_on: [db, broker]
ports:
- "8010:8000"
volumes:
- ./data:/usr/src/paperless/data
- ./media:/usr/src/paperless/media
- ./consume:/usr/src/paperless/consume
- ./export:/usr/src/paperless/export
environment:
PAPERLESS_REDIS: redis://broker:6379
PAPERLESS_DBHOST: db
PAPERLESS_DBUSER: paperless
PAPERLESS_DBPASS: paperless@1234
PAPERLESS_OCR_LANGUAGE: eng
PAPERLESS_TIME_ZONE: Asia/Shanghai
第三步:启动容器
打开 PowerShell,进入该目录并运行:
PowerShell
docker compose up -d
第四步:创建管理员账号(关键)
待容器状态显示为 Up (healthy) 后,运行:
PowerShell
docker compose exec -it webserver python3 manage.py createsuperuser
提示:如果密码太简单被系统拦截,输入 y 强制通过。
—
💡 4. 日常使用小技巧
导入文档:直接将 PDF 拷入 D 盘的 consume 文件夹即可。
停止系统:docker compose stop。
启动系统:docker compose up -d。
浏览器访问:输入 http://localhost:8010 即可开始你的无纸化之旅。
查看报错日志docker compose logs -f webserver
备份数据直接拷贝 D 盘下的 media 和 dbdata 文件夹即可
界面汉化
无需手动安装。正如你发现的,Paperless-ngx 具有智能语言检测功能。
自动导入(Consume 文件夹)
这是 Paperless 的精髓。
关于 OCR 的进阶提醒
虽然界面是中文的,但如果你上传了一张全是中文的图片却发现搜不到文字,那就需要再手动往 data/tessdata 文件夹里塞一个 chi_sim.traineddata 识别包了。