0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

破解“竖排文本”魔咒:在 RTX 3060 上微调 PaddleOCR-VL 以识别日本漫画

jf_23871869 来源:刘力 作者:刘力 2025-12-11 17:54 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者:飞桨开发者技术专家 刘力

| 仅需一张消费级显卡,教你利用多模态大模型打造专属的日本漫画翻译神器。

一,引言:当AI遇上二次元

如果你曾尝试使用传统的 OCR 工具直接翻译一本未汉化的日本漫画(Manga),你可能会遇到令人抓狂的体验:文字识别乱码、气泡顺序错乱,尤其是那些 竖排(Vertical) 且字体夸张的拟声词,AI 往往视而不见。

wKgZO2k6lO6ARgqFAAB71gCbpBY220.jpg

通用的 OCR 模型大多是针对文档、路牌或水平文本训练的。面对漫画中复杂的背景、垂直的阅读顺序以及手写体,标准模型往往显得力不从心。今天,我们将解决这个问题。我们不再使用传统的检测+识别架构,而是使用更前沿的 Vision-Language (VL) 模型——PaddleOCR-VL。我们将展示如何在仅有 12GB 显存的 NVIDIA RTX 3060 上,利用 BF16 精度和梯度累积技术,对这个强大的多模态模型进行监督微调(SFT)。

项目源码参考:https://github.com/openvino-book/PaddleOCR-VL-SFT-for-Japanese-Manga-on-RTX-3060

二,为什么选择 PaddleOCR-VL?

1,多模态理解能力:传统的 OCR 将图片切分为小块进行识别,容易丢失上下文。PaddleOCR-VL 是一种视觉-语言模型,它能“看”懂整张图的语义,这对于理解漫画中气泡的阅读顺序(从右向左、从上向下)至关重要。

2,惊人的效果提升:根据我们的实测,在 RTX 3060 上微调后,精确匹配率 (Exact Match) 从基础模型的 9.0% 飙升至 64.4%,字符错误率 (CER) 降低了 80%。

指标 原始模型 微调后 变化
完全匹配率 9.0% 64.4% +55.4%⬆️
字符错误率(CER) 55.41% 10.88% -80%⬇️

三,核心挑战:如何在 12GB 显存上训练大模型?

微调 VL 模型通常需要昂贵的 A100 显卡,但本教程的目标是让每个拥有 RTX 3060 (12GB) 的开发者都能跑通。

我们采用了一下技术组合来降低显存占用:

BF16 混合精度:使用 BF16Trainer 配合 torch.amp.autocast,在保持精度的同时大幅减少显存占用。

梯度累积 (Gradient Accumulation):将 Batch Size 设为 1,但设置梯度累积步数为 16,从而模拟 Batch Size = 16 的训练效果。

梯度检查点 (Gradient Checkpointing):以计算换显存,进一步压缩内存需求。

四,实战指南:从零开始微调

第一步:环境搭建

1,克隆项目

git clone https://github.com/openvino-book/PaddleOCR-VL-SFT-for-Japanese-Manga-on-RTX-3060.git

2,创建 conda 环境 (Python 3.11)

conda create -n manga-ocr python=3.11 -y
conda activate manga-ocr

3,安装项目依赖

# 注意:我们需要安装支持 CUDA 的 PyTorch 版本

pip install torch torchvision --index-url [https://download.pytorch.org/whl/cu118](https://download.pytorch.org/whl/cu118)
pip install -r requirements.txt

第二步:数据准备 (Manga109s)

我们需要高质量的漫画数据集。Manga109s 是学术界公认的日本漫画数据集,包含精确的文本框标注。

1,下载数据集:访问https://huggingface.co/datasets/hal-utokyo/Manga109-s 申请并下载 Manga109s_released_2023_12_07.zip。

2,解压与配置:

# 解压到项目根目录
unzip Manga109s_released_2023_12_07.zip -d .
# 配置环境变量
cp .env.example .env
# 确保 .env 文件中的 MANGA109_ROOT 指向解压后的文件夹

3,运行数据处理脚本: 该脚本会自动解析 XML 标注,裁剪出文本区域,生成适合 VL 模型训练的格式。

python prepare_manga109_data.py

第三步:开启训练 (SFT)

一切准备就绪。我们提供了一个一键启动脚本 train.sh,其中已经预设了适合 RTX 3060 的参数。

bash train.sh
wKgZO2k6lO6AIgKNAABtZC7Ese012.webp

第四步:模型评估

训练完成后,我们需要验证模型是否真的学会了读漫画。

# 评估微调后的模型 (SFT Output)
python evaluate_model.py --model_path ./sft_output --num_samples 500
# (可选) 对比原始模型
python evaluate_model.py --model_path PaddlePaddle/PaddleOCR-VL --num_samples 500

你将看到类似这样的巨大提升:

Base Model:经常输出乱码,无法理解竖排。

Fine-tuned Model:准确识别 "あとは『メルニィ宇宙鉄道』とか..." 等复杂句式。

视频链接:https://live.csdn.net/v/505182

五,结语

通过这个项目,我们证明了即使是在消费级显卡 RTX 3060 上,通过合理的技术优化(BF16、梯度累积),我们也完全有能力微调先进的 Vision-Language 模型。

PaddleOCR-VL 的微调版本不仅解决了竖排文本识别的难题,更为构建自动化的漫画翻译/汉化工具铺平了道路。

如果你对这个项目感兴趣,或者想获取详细的代码,请访问我们的 GitHub 仓库:

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41059

    浏览量

    302563
  • OCR
    OCR
    +关注

    关注

    0

    文章

    176

    浏览量

    17277
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI大模型微调企业项目实战课

    从零开始预训练。事实微调技术的成熟,彻底打破了这一门槛。 微调的本质,是“举一反三”的迁移学习。就好比一个已经大学毕业的通用人才(基础大模型),只需企业内部经过几个月的岗前培训(
    发表于 04-16 18:48

    沐曦股份与百度飞桨黑客松硬核赛题来袭

    沐曦股份作为飞桨黑客松第十期文心合作伙伴赛道核心出题方之一,携专属赛题「优化 PaddleOCR-VL-1.5+MetaX GPU」重磅来袭,邀全球开发者共探深度学习框架与国产GPU的软硬协同优化之道,用代码解锁智能文字识别的性能极限!
    的头像 发表于 04-02 09:20 404次阅读
    沐曦股份与百度飞桨黑客松硬核赛题来袭

    百度文心衍生模型PaddleOCR登顶GitHub Star OCR全球第一

    3月30日,百度文心衍生模型PaddleOCRGitHub的Star数突破73.3K,超越谷歌Tesseract OCR,成为全球Star数最高的OCR项目。
    的头像 发表于 03-31 11:40 435次阅读

    沐曦曦云C500/C550 GPU产品适配PaddleOCR-VL-1.5模型

    PaddleOCR-VL 系列的全新迭代版本PaddleOCR-VL-1.5今天正式上线,沐曦曦云C500/C550 Day 0 适配PaddleOCR-VL-1.5模型,助力PaddleOC
    的头像 发表于 01-30 10:19 1300次阅读
    沐曦曦云C500/C550 GPU产品适配<b class='flag-5'>PaddleOCR-VL</b>-1.5模型

    百度正式发布并开源新一代文档解析模型PaddleOCR-VL-1.5

    1 月 29 日,百度正式发布并开源新一代文档解析模型 PaddleOCR-VL-1.5。该模型仅 0.9B 参数的轻量架构,全球权威文档解析评测榜单 OmniDocBench V1.5 中取得
    的头像 发表于 01-30 10:03 802次阅读
    百度正式发布并开源新一代文档解析模型<b class='flag-5'>PaddleOCR-VL</b>-1.5

    使用 Docker 一键部署 PaddleOCR-VL: 新手保姆级教程

    PaddleOCR-VL 是基于轻量级视觉语言模型(VLM)的文档解析解决方案,核心模型为 PaddleOCR-VL-0.9B,支持多语言文本、表格、公式、图表等元素级识别,并能以
    的头像 发表于 12-18 18:26 6771次阅读
    使用 Docker 一键部署 <b class='flag-5'>PaddleOCR-VL</b>: 新手保姆级教程

    解密 IXE 离子捕捉剂:日本东亚合成如何破解电子行业的 “离子魔咒”?

    电子技术向高密度、高可靠性升级的过程中,“离子魔咒” 始终如影随形 —— 银离子迁移导致 PCB 短路、氯离子腐蚀芯片布线、钠离子影响材料稳定性,这些隐形故障让无数电子工程师头疼不已。而日本东亚
    的头像 发表于 11-12 16:12 701次阅读
    解密 IXE 离子捕捉剂:<b class='flag-5'>日本</b>东亚合成如何<b class='flag-5'>破解</b>电子行业的 “离子<b class='flag-5'>魔咒</b>”?

    VL53L4CD小板开发(2)----修改测量频率

    VL53L4CD是一款高度集成的飞行时间(ToF)传感器,广泛应用于距离测量和接近检测。为了满足不同应用场景的需求,合理调整传感器的测量频率至关重要。本文旨在介绍如何在VL53L4CD传感器修改
    的头像 发表于 11-05 10:19 5116次阅读
    <b class='flag-5'>VL</b>53L4CD小板开发(2)----修改测量频率

    PP-OCRv5 MCP服务器海光主板的部署与实战

    在当今数字化快速发展的时代,OCR(光学字符识别)技术已经成为从图像中提取文本信息的重要工具。无论是自动化办公、智能文档处理还是在内容创作领域,OCR 技术的应用都极大地提高了工作效率和准确性
    的头像 发表于 10-15 17:04 953次阅读
    PP-OCRv5 MCP服务器<b class='flag-5'>在</b>海光主板的部署与实战

    VL53L7系列ToF传感器分线板技术解析与应用指南

    STMicroelectronics SATEL-VL53L7分线板板载了VL53L7系列飞行时间传感器模块。该套装包含两块分线板,每块分线板均配备了带有穿孔设计的
    的头像 发表于 10-15 11:55 866次阅读
    ‌<b class='flag-5'>VL</b>53L7系列ToF传感器分线板技术解析与应用指南

    精准定位性能瓶颈:深入解析 PaddleOCR v3.2 全新 Benchmark 功能

    飞桨技术生态伙伴 算力魔方 | 摘要:实际落地OCR和文档解析项目时,大家常常会遇到一个棘手问题:模型跑得不够快,但到底是检测太慢、识别耗时,还是模块之间的数据流转不高效?PaddleOCR
    的头像 发表于 09-05 16:02 1426次阅读
    精准定位性能瓶颈:深入解析 <b class='flag-5'>PaddleOCR</b> v3.2 全新 Benchmark 功能

    小语种OCR标注效率提升10+倍:PaddleOCR+ERNIE 4.5自动标注实战解析

    摘要 :小语种OCR研发的核心瓶颈在于高质量标注数据的稀缺与高昂成本。本文介绍一种创新的自动化标注方案,利用 PaddleOCR 进行文本检测与裁剪,并调用 ERNIE 4.5 大模型进行双重预测
    的头像 发表于 08-29 11:26 3876次阅读
    小语种OCR标注效率提升10+倍:<b class='flag-5'>PaddleOCR</b>+ERNIE 4.5自动标注实战解析

    【EASY EAI Orin Nano开发板试用体验】PP-OCRV5文字识别实例搭建与移植

    文字类型方面,PP-OCRv5支持简体中文、中文拼音、繁体中文、英文、日文5大主流文字类型,在场景方面, PP-OCRv5升级了中英复杂手写体、竖排文本、生僻字等多种挑战性场景的识别能力。 在内部多场景
    发表于 08-18 16:57

    无法使用OpenVINO™ GPU 设备运行稳定扩散文本到图像的原因?

    OpenVINO™ GPU 设备使用图像大小 (1024X576) 运行稳定扩散文本到图像,并收到错误消息: RuntimeError: Exception from
    发表于 06-25 06:36

    阿里云PAI快速部署NVIDIA Cosmos Reason-1模型

    NVIDIA 近期发布了 Cosmos Reason-1 的 7B 和 56B 两款多模态大语言模型 (MLLM),它们经过了“物理 AI 监督微调”和“物理 AI 强化学习”两个阶段的训练。其中
    的头像 发表于 06-04 13:43 1174次阅读