0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一款工具,借助深度学习模型可以一键抠去漫画中的文字

m3Fp_almosthuma 来源:机器之心 2020-01-27 11:12 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

漫画抠图是汉化组翻译中必不可少而又工作量很大的一项工作,主要内容是将漫画中的文字抠去,以便替换成另一种语言。现在,这项工作可以自动化地完成了,一位韩国的开发者开源了一款工具,借助深度学习模型可以一键抠去漫画中的文字,连背景图中的文字都可以被抠去,效果十分惊人。

很多人都喜欢看日本漫画,不少作品已经成为很多人心中的童年回忆。但是对于漫画的翻译人员来说,他们需要去除原有漫画的对话框和背景文字,并将其替换为读者使用的语言。由于一本漫画可能有数万个对话框和对话,因此工作量是很大的。

现在,抠图的工作人员可以基本上解放他们的双手了。只要你有 TensorFlow,就可以快速实现一键抠图,将漫画图像中的所有文字一键去除。

SickZil-Machine,一键抠图

SickZil 是韩文中的作者提供了一个视频,用于展示这一工具的效果。

作者同时提供了自动工具抠图的案例。

对话框中的文字可以被完全消除。

有时候会有些文字消除不干净的情况,但基本不影响画面(漫画右上角标题符号)。同时,背景中被去掉文字后,背景画面可以被自动补全,基本不改变画面效果(画面右上角背景文字)。

从视频中可以看出,这一工具非常的方便。只需要选择待处理的漫画,然后运行工具即可。如果有一些画面被误去除,或者有一些去除不干净的情况下,用户可以手动修改需要被去除的文字。

那么,这一工具背后是什么技术呢?

技术

模型架构

据项目作者介绍,这一工具背后使用了两个模型,第一个是 Seg Net,用于检测漫画中的问题。另一个则是 Compl Net,用于处理漫画图像,去除文字并补全缺失的图像部分。

Seg Net 使用的是 U-NET。这是一种编码器-解码器架构。编码器逐渐减少池化层的空间维度,解码器逐步修复物体的细节和空间维度。

U-Net 的架构,将输入图像逐步池化后进行上采样,从而还原图像细节。

而 Compl Net 使用的是 deepfill v2,这是一个用于对任意被 mask 的图像进行修复的模型,可以适应各种 mask 的方式(块状遮盖或线条遮盖都可以)。deepfill 是 Adobe 等机构提出一系列图像修复工具,机器之心也曾用过 deepfill v1,但是效果似乎没有论文展示的那么好。

目前 deepfill v2 并没有官方开源,但 GitHub 上有其他开发者复现。

deepfill v2 的模型架构,可以进行图像修复。

有了这两大神器,基本上可以实现漫画文字的检测识别和去除文本后的图像补全。

数据集和训练

有了模型还不够,很多读者想知道,整个系统是怎样训练的。

在 Seg Net 上,作者使用了原始的漫画图像和文本内容遮盖数据,用于覆盖原始漫画中所有的文字部分。在 Compl Net 上,模型的输入为被移除了文字的漫画图像。模型使用了 285 个图像-遮盖对和 31500 张漫画图像,其中有将近 12000 张漫画是有文字的,因此训练的数据比较平衡。

安装和使用

作者没有透露训练模型的相关参数,但是提供了开发者需要准备的硬件配置。 对于开发者而言,运行代码需要准备 NVIDIA 驱动 410.x,CUDA 10.0,CUDNN >= 7.4.1,TensorFlow 需要大于 1.13 版本。

配置代码步骤如下:

首先克隆相关代码:git clone https://github.com/KUR-creative/SickZil-Machine.git; cd SickZil-Machine

下载 zip 文件,地址:https://github.com/KUR-creative/SickZil-Machine/releases。

解压并复制文件:SickZil-Machine-0.1.1-pre0-win64-cpu-eng/resource/cnet 和 SickZil-Machine-0.1.1-pre0-win64-cpu-eng/resource/snet 到文件目录:SickZil-Machine/resource.

进入目录并安装:pip install -r requirements.txt

运行主程序:cd src; python main.py

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3818

    浏览量

    52265
  • 代码
    +关注

    关注

    30

    文章

    4976

    浏览量

    74376
  • 深度学习
    +关注

    关注

    73

    文章

    5607

    浏览量

    124625

原文标题:漫画汉化组福音:深度学习工具一键抠图

文章出处:【微信号:almosthuman2014,微信公众号:机器之心】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AIBOX + JishuShell:一键部署端侧 AI,把本地龙虾“装”进小盒子

    JishuShell:一款能够将龙虾一键部署到本地的工具,让AIAgent更方便实现本地运行。目前,FireflyAIBOX-3576和AIBOX-3588已成功跑通Ji
    的头像 发表于 04-15 16:35 386次阅读
    AIBOX + JishuShell:<b class='flag-5'>一键</b>部署端侧 AI,把本地龙虾“装”进小盒子

    一键上货工具与API接口的深度集成:技术实现详解

    ​ 在电商运营中,高效的商品上架流程至关重要。传统手动上货耗时耗力,而 一键上货工具 结合 API接口 的自动化方案,可大幅提升效率。本文将深入解析其技术实现逻辑,并提供核心代码示例。 、API
    的头像 发表于 04-01 17:14 622次阅读
    <b class='flag-5'>一键</b>上货<b class='flag-5'>工具</b>与API接口的<b class='flag-5'>深度</b>集成:技术实现详解

    请问CW32系列MCU的调试工具是哪一款

    CW32系列MCU的调试工具是哪一款
    发表于 01-07 07:11

    碳足迹算不清?全链路能源系统,一键生成碳排报告

    在 “双碳” 目标推进下,碳足迹核算已成为企业高质量发展必经之路。全链路能源系统凭借 “数据自动采集、核算精准智能、报告一键生成” 的核心优势,让碳核算从 “耗时费力的难题” 变为 “高效便捷的工具”,既为合规经营护航,也为节能降碳提供数据支撑。
    的头像 发表于 11-19 09:45 496次阅读
    碳足迹算不清?全链路能源系统,<b class='flag-5'>一键</b>生成碳排报告

    灵动微电子最新最火热的一款芯片推荐

    希望找一款灵动微电子最新最火热的一款芯片,我们想做个图形化的界面配置,供大家以后直接创建工程,用国产工具McuStudio做,McuStudio支持任何内核任何厂家的芯片,希望大家有
    发表于 10-29 17:15

    自动驾驶中Transformer大模型会取代深度学习吗?

    [首发于智驾最前沿微信公众号]近年来,随着ChatGPT、Claude、文心言等大语言模型在生成文本、对话交互等领域的惊艳表现,“Transformer架构是否正在取代传统深度学习
    的头像 发表于 08-13 09:15 4365次阅读
    自动驾驶中Transformer大<b class='flag-5'>模型</b>会取代<b class='flag-5'>深度</b><b class='flag-5'>学习</b>吗?

    借助电商 API,多平台客户评价一键抓取

    出错。借助电商平台的 API(Application Programming Interface),我们可以实现一键抓取多平台客户评价,高效自动化这过程。本文将
    的头像 发表于 08-11 14:49 855次阅读

    告别多设备!揭秘QM系列闪测仪如何一键搞定多元检测

    QM 系列一键闪测仪作为方案核心,搭载双视野双远心镜头与 2000 万像素 CMOS 传感器,测量精度可达 ±1μm。其内置的 AI 深度学习系统经过海量工业样本训练,能一键识别 50
    的头像 发表于 08-11 13:43 1170次阅读
    告别多设备!揭秘QM系列闪测仪如何<b class='flag-5'>一键</b>搞定多元检测

    把Gerber变成电磁波:推荐一款基于Gerber的openEMS仿真工具 - gerber2ems

    :把“Gerber + 钻孔+ 叠层”一键翻译成 openEMS 能吃的 3D 模型,跑完还能跟 VNA 实测对波。
    的头像 发表于 08-03 11:21 4410次阅读
    把Gerber变成电磁波:推荐<b class='flag-5'>一款</b>基于Gerber的openEMS仿真<b class='flag-5'>工具</b> - gerber2ems

    宁畅与与百度文心大模型展开深度技术合作

    与部署。 凭借覆盖训练、推理、微调全流程的AI 服务器产品矩阵,宁畅帮助企业在大模型时代一键打通算力与应用“任督二脉”,显著缩短模型落地周期。 在已启动的深度技术合作中,双方将基于文心
    的头像 发表于 07-07 16:26 1008次阅读

    HarmonyOS应用一键置灰指南

    一键置灰通常应用于如下场景 1. 重大悼念活动: 在国家发生重大灾难、事故或举行悼念日等特殊时期,为了表达对逝者的尊重和哀悼,许多 APP 会将界面置灰。例如,在些地震、空难等灾难事件发生后,以及
    的头像 发表于 06-27 00:08 701次阅读

    一键尺寸测量仪在医疗领域的应用具体是什么?

    一键尺寸测量仪作为种先进的测量工具,凭借其高精度、快速批量测量以及自动化与智能化的特点,正逐渐成为五金行业不可或缺的精密测量新利器。
    的头像 发表于 05-27 15:12 859次阅读
    <b class='flag-5'>一键</b>尺寸测量仪在医疗领域的应用具体是什么?

    ESP8266烧录与机智云一键配网教程

    ESP8266模块因其低成本和高性能,广泛应用于智能家居和工业自动化等领域。机智云平台提供了一键配网功能,简化了设备的联网过程。本教程将详细介绍如何使用ESP8266进行烧录,并通过机智云实现一键
    的头像 发表于 05-24 11:04 2405次阅读
    ESP8266烧录与机智云<b class='flag-5'>一键</b>配网教程

    电源一键多用:POWER_ON从开机到场景指挥官!

    按键,即开关机,在结构设计上可以实现 一键多用 ——既可以有效减少结构的按键设计,也可以使整机更加简洁。 本文以Air8000核心板为例,
    的头像 发表于 05-15 14:10 4386次阅读
    电源<b class='flag-5'>键</b>的<b class='flag-5'>一键</b>多用:POWER_ON从开机到场景指挥官!

    U盘一键制作

    在电脑维修中启动盘很重要,靠谱的u盘一键启动制作方法
    发表于 05-06 16:10 44次下载