0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一个在GitHub上一个开源的鉴黄图像数据集

电子工程师 来源:lq 2019-02-18 09:53 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

前方高能预警,非战斗人士请火速撤离……

今天给大家介绍一个在 GitHub 上一个开源的鉴黄图像数据集,它拥有 158万的数据量,叫做 NSFW data source URLs,目前该项目已收获 918 star 了。

项目地址:

https://github.com/EBazarov/nsfw_data_source_urls

在 raw_data 文件夹里,可以找到不同的 .txt 格式的文档,每个文档都含有一组 URL,以下是关于该数据集的一些统计信息:

159个 不同的类别

158.9331 万个 URL

下载并清洗后大约有 500GB,或者说有 130 万张 NSFW 图像

以下为项目中图片截图示例:

注意事项:

1. 建议下载后清洗下数据集,例如:

删除重复图片

移动被禁止/删除掉的图片(它们有一个特殊的图像占位符)

找出损坏的数据并将其删除

2. 注意噪声,一些资源提供了 NSFW 和中性图像的高度混合数据。

3. 该库还可以帮助检索 NSFW 图像,针对中性图像没有专用的 URL。

值得一提的是,在该项目之前还有一个类似的开源项目 nsfw_data_scrapper,里面有 22 万张图像,同样也可以用来检测或训练鉴黄系统。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据集
    +关注

    关注

    4

    文章

    1230

    浏览量

    26044
  • GitHub
    +关注

    关注

    3

    文章

    484

    浏览量

    18423

原文标题:上班时间请勿打开,158万张鉴黄图片数据集来喽~

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    开放原子开源基金会发布2025中国高校开源育人案例

    11月21日,2025开放原子开发者大会开幕式上,开放原子开源基金会正式发布《2025中国高校开源育人案例》(简称“《案例》”),涵盖
    的头像 发表于 11-25 17:30 523次阅读

    创建Library工程

    创建Library工程 首先选中 File -> New -> C/C++ Project,弹出的框中,选择Static Library
    发表于 10-20 09:30

    Made with KiCad(138):AnyShake Explorer开源、专业级的地震监测系统

    “  AnyShake Explorer 是开源、专业级的地震监测系统。“黑箱”、价格高昂的系统已成常态的领域,Explorer
    的头像 发表于 08-11 11:19 1725次阅读
    Made with KiCad(138):AnyShake Explorer<b class='flag-5'>一</b>款<b class='flag-5'>开源</b>、专业级的地震监测系统

    开源项目!FourThirdsEye 开源 M4/3 相机模块

    FourThirdsEye 是开源相机板,专为树莓派5 (Raspberry Pi 5) 和树莓派计算模块4 (Raspberry Pi Compute Module 4) 设计,采用微型
    发表于 07-30 13:43

    Amazing Hand:开源的3D打印仿真机械手项目

    “  本文介绍了款名为 Amazing Hand 的开源仿人机械手项目。该项目旨在解决市面上机器人手普遍昂贵且表现力不足的问题,提供低成本(低于200欧元)、轻量化(400克)且
    的头像 发表于 07-21 11:22 5272次阅读
    Amazing Hand:<b class='flag-5'>一</b><b class='flag-5'>个</b><b class='flag-5'>开源</b>的3D打印仿真机械手项目

    微软开源GitHub Copilot Chat,AI编程迎来新突破

    GitHub Copilot + vscode的组合我已经用了很久,我的代码开发效率完全提升了level。帮我代码提示,代码不全,注释理解生成代码等等,这些我是我经常用到的功能。
    的头像 发表于 07-02 09:34 807次阅读
    微软<b class='flag-5'>开源</b><b class='flag-5'>GitHub</b> Copilot Chat,AI编程迎来新突破

    启用了同一个摄像头的3vicap通道和3venc通道遇到的疑问求解

    填充新数据。以下是两种优化的解决方案: 启动独立线程,实时读取编码后的数据,提取所需内容并丢弃无用数据,以确保缓冲区始终保持最新状态。
    发表于 04-28 06:16

    NVIDIA推出开源物理AI数据

    标准化合成数据的初始版本预计将成为世界上最大的此类数据,目前已作为开源版本提供给机器人开发人员。
    的头像 发表于 03-24 17:52 894次阅读

    开源项目!Open Echo:开源的声纳项目

    连接器。 我水中测试了几次 KOGGER BASIC 侧扫仪,分辨率和范围都非常不错。(不过,我还需要做更多的测试,并编写使用陀螺仪数据的软件,使其成为扫描侧扫声纳。 最
    发表于 03-20 13:37

    Open Echo:开源的声纳项目

    “  这是还在迭代中的项目。开源的回声测深仪/水深测量仪/声呐系统,适用于水文测绘及科研用途。基于Arduino平台开发并具备良好兼容性  ”   Open Echo 概览 作为持续迭代
    的头像 发表于 03-20 11:14 2014次阅读
    Open Echo:<b class='flag-5'>一</b><b class='flag-5'>个</b><b class='flag-5'>开源</b>的声纳项目

    开源啦!!!基于鸿蒙ArkTS封装的图表组件《McCharts》,大家快来起共创

    下,后续有更新我也会同步给大家。这是我第一个开源的项目,做的不好的地方也希望多多指点,我是比较愿意多学习的,也希望大家多学习。大家想交流的可以通过GitHub上的群二维码加群,也可以私信我,我看到都会回复。
    发表于 03-15 15:21

    开源项目!教你如何制作开源教育机械臂

    和适应性强的机器人平台。 作为开源项目,构建Pedro所需的所有文件都可以Pedro Github页面上找到: 用于3D打印和定制的
    发表于 03-10 11:22

    DAC8728多通道输出数据,不能保持上一个数据吗?

    比如我给0通道写数据的时候,此时其他通道是置零的吗?不能保持上一个数据吗? 现在多通道输出的正弦波都是这个样子的,请问是不是我分析的这个原因呢?
    发表于 01-13 07:07

    gitee 与 GitHub 的比较

    全球范围内拥有庞大的用户基础。 Gitee(码云) Gitee,原名为OSChina,是一个中国的代码托管平台,由开源中国(OSChina)运营。它提供了类似于GitHub的服务,包括代码托管、代码审查、项目管理等。 特点 本地
    的头像 发表于 01-06 09:47 2248次阅读

    华为云 Flexus X 实例部署安装 HivisionIDPhoto 轻量级的 AI 证件照制作算法

    背景 最近有开源项目非常火,就是 HivisionIDPhotos 轻量级的 AI 证件照制作算法
    的头像 发表于 12-25 17:08 1743次阅读
    华为云 Flexus X 实例部署安装 HivisionIDPhoto <b class='flag-5'>一</b><b class='flag-5'>个</b>轻量级的 AI 证件照制作算法