前方高能预警,非战斗人士请火速撤离……
今天给大家介绍一个在 GitHub 上一个开源的鉴黄图像数据集,它拥有 158万的数据量,叫做 NSFW data source URLs,目前该项目已收获 918 star 了。
项目地址:
https://github.com/EBazarov/nsfw_data_source_urls

在 raw_data 文件夹里,可以找到不同的 .txt 格式的文档,每个文档都含有一组 URL,以下是关于该数据集的一些统计信息:
159个 不同的类别
158.9331 万个 URL
下载并清洗后大约有 500GB,或者说有 130 万张 NSFW 图像
以下为项目中图片截图示例:
注意事项:
1. 建议下载后清洗下数据集,例如:
删除重复图片
移动被禁止/删除掉的图片(它们有一个特殊的图像占位符)
找出损坏的数据并将其删除
2. 注意噪声,一些资源提供了 NSFW 和中性图像的高度混合数据。
3. 该库还可以帮助检索 NSFW 图像,针对中性图像没有专用的 URL。
值得一提的是,在该项目之前还有一个类似的开源项目 nsfw_data_scrapper,里面有 22 万张图像,同样也可以用来检测或训练鉴黄系统。
-
数据集
+关注
关注
4文章
1230浏览量
26044 -
GitHub
+关注
关注
3文章
484浏览量
18423
原文标题:上班时间请勿打开,158万张鉴黄图片数据集来喽~
文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
开放原子开源基金会发布2025中国高校开源育人案例集
创建一个Library工程
Made with KiCad(138):AnyShake Explorer一款开源、专业级的地震监测系统
开源项目!FourThirdsEye 开源 M4/3 相机模块
Amazing Hand:一个开源的3D打印仿真机械手项目
微软开源GitHub Copilot Chat,AI编程迎来新突破
启用了同一个摄像头的3个vicap通道和3个venc通道遇到的疑问求解
开源项目!Open Echo:一个开源的声纳项目
Open Echo:一个开源的声纳项目
开源啦!!!基于鸿蒙ArkTS封装的图表组件《McCharts》,大家快来一起共创
开源项目!教你如何制作一个开源教育机械臂
DAC8728多通道输出数据,不能保持上一个数据吗?
gitee 与 GitHub 的比较
华为云 Flexus X 实例部署安装 HivisionIDPhoto 一个轻量级的 AI 证件照制作算法

一个在GitHub上一个开源的鉴黄图像数据集
评论