0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NLP大模型必备-FudanNLP开源中文图书集合CBook-150K

深度学习自然语言处理 来源:FudanNLP 2023-04-25 11:41 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

为了助力大模型研究,复旦大学自然语言处理实验室开源了中文图书数据集合CBook-150K,包含15万本中文图书的下载和抽取方法,涵盖人文、教育、科技、军事、政治等众多领域。

当前很多研究表明,高质量数据对于训练大规模语言模型具有至关重要的作用。图书中的内容在质量、专业水准、可靠性等方面远高于互联网数据。OpenAI在训练GPT 3时,也使用了大量图书资源。但是目前还缺乏大规模的中文图书开放集合。此外,由于绝大多数电子书籍的保存方式为PDF格式,从其中抽取文本内容也需要分析工具支持。复旦大学自然语言处理实验室结合此前自主开发的相关PDF分析工具,开源了中文语料图书集合CBook-150K。

复旦大学自然语言处理实验室,自2019年起,自研了PDF处理工具DocAI,针对非扫描件PDF,具有能够处理复杂格式、高效、高准确率、可私有化部署等特点。DocAI在全CPU解决方案下,单核CPU处理100页文档仅需10秒。提取字符准确率100%,结构分析准确率95%。DocAI智能文档解析系统支持对DOC、PDF等常见电子文档进行智能解析,对文档中的标题、段落、表格等半结构化数据进行结构化分析还原。该应用场景具有文件类型多,格式复杂,兼容性要求高等特点,特别是对于跨页表格,多栏排版等复杂场景的支持。是目前支持段落、表格融合识别的为数不多的智能文档解析工具之一。DodAI不依赖第三方资源,支持离线环境下的私有化部署和使用,确保文档隐私与安全。

b3e29316-dce4-11ed-bfe3-dac502259ad0.png

b3fa4fe2-dce4-11ed-bfe3-dac502259ad0.png

结合DocAI工具以及搜索引擎,复旦大学自然语言处理实验室从互联网中筛选了大量中文图书资源链接,并构造了内容抽取算法,助力广大学者NLP大模型研究,同时也在实践与操作中不断迭代更新,完善大型语料库的部署。

下载链接:

https://github.com/FudanNLPLAB/CBook-150K

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    4426

    浏览量

    46588
  • 自然语言处理

    关注

    1

    文章

    630

    浏览量

    14758
  • nlp
    nlp
    +关注

    关注

    1

    文章

    491

    浏览量

    23375

原文标题:NLP大模型必备-FudanNLP开源中文图书集合CBook-150K

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    腾讯Hy3 preview开源:重构AI大模型技术范式,开启智能计算新纪元

    2026年4月23日,腾讯混元正式开源其最新语言模型Hy3 preview,这款被官方定义为“混元迄今最智能的模型”的产品,以2950亿总参数、210亿激活参数的混合专家架构,配合256K
    的头像 发表于 04-24 09:07 1014次阅读

    登临科技KS系列GPU产品Day 0适配Kimi-K2.6模型

    2026年4月,随着Kimi-K2.6这一开源原生多模态智能体模型的正式发布,AI领域迎来了又一次重要的技术演进。该模型在长周期编程、编程驱动设计、智能体集群任务编排及主动自主执行等核
    的头像 发表于 04-23 16:59 3179次阅读
    登临科技KS系列GPU产品Day 0适配Kimi-<b class='flag-5'>K</b>2.6<b class='flag-5'>模型</b>

    壁仞科技壁砺166系列GPU产品率先支持Kimi K2.6模型

    4月20日晚,月之暗面正式发布并开源Kimi K2.6模型,带来行业领先(state-of-the-art)的代码、长程任务执行和Agent集群能力。壁仞科技(06082.HK)旗舰通用GPU产品壁
    的头像 发表于 04-23 16:30 2560次阅读
    壁仞科技壁砺166系列GPU产品率先支持Kimi <b class='flag-5'>K</b>2.6<b class='flag-5'>模型</b>

    Kimi K2.6模型发布当天上线华为云

    4月20日, Kimi K2.6模型正式发布并开源,带来行业领先的代码、长程任务执行和Agent集群能力。当前,华为云完成适配并实现针对性优化。华为云MaaS模型即服务平台已为开发者提
    的头像 发表于 04-23 15:10 618次阅读
    Kimi <b class='flag-5'>K</b>2.6<b class='flag-5'>模型</b>发布当天上线华为云

    大晓机器人开源实时生成世界模型Kairos 3.0-4B

    近日,大晓机器人重磅开源开悟世界模型3.0(Kairos 3.0)-4B 系列具身原生世界模型。作为业内首个实现 “多模态理解 — 生成 — 预测” 一体化的开源具身原生世界
    的头像 发表于 03-14 16:54 2092次阅读
    大晓机器人<b class='flag-5'>开源</b>实时生成世界<b class='flag-5'>模型</b>Kairos 3.0-4B

    月之暗面全新开源旗舰模型Kimi K2.5上线模力方舟

    模力方舟平台现已上线来自月之暗面(Moonshot AI)发布的全新开源旗舰模型Kimi K2.5。
    的头像 发表于 01-29 10:20 1379次阅读
    月之暗面全新<b class='flag-5'>开源</b>旗舰<b class='flag-5'>模型</b>Kimi <b class='flag-5'>K</b>2.5上线模力方舟

    “明牌”对局,自变量开源模型超越pi0

    “明牌”对局,自变量开源模型超越pi0
    的头像 发表于 01-10 12:00 5846次阅读
    “明牌”对局,自变量<b class='flag-5'>开源</b><b class='flag-5'>模型</b>超越pi0

    融智兴科技:RFID图书管理标签技术解析与智慧图书馆应用

    融智兴科技推出高频RFID图书管理标签系列产品。该标签专为图书和档案管理设计,支持高效识别和数据处理。
    的头像 发表于 12-18 17:23 1229次阅读
    融智兴科技:RFID<b class='flag-5'>图书</b>管理标签技术解析与智慧<b class='flag-5'>图书</b>馆应用

    人工智能AI必备的5款开源软件推荐!

    在技术浪潮汹涌的当下,越来越多的企业与开发者开始意识到:“开源”已经不只是一个口号,而是创新的源泉。 从算法研究到智能应用落地,无数项目的起点,都是一个个免费的开源工具。今天,我们就来盘点五款在智能
    的头像 发表于 11-19 15:35 940次阅读
    人工智能AI<b class='flag-5'>必备</b>的5款<b class='flag-5'>开源</b>软件推荐!

    NVIDIA开源Audio2Face模型及SDK

    NVIDIA 现已开源 Audio2Face 模型与 SDK,让所有游戏和 3D 应用开发者都可以构建并部署带有先进动画的高精度角色。NVIDIA 开源 Audio2Face 的训练框架,任何人都可以针对特定用例对现有
    的头像 发表于 10-21 11:11 1088次阅读
    NVIDIA<b class='flag-5'>开源</b>Audio2Face<b class='flag-5'>模型</b>及SDK

    使用OpenVINO将PP-OCRv5模型部署在Intel显卡上

    是一个用于优化和部署人工智能(AI)模型,提升AI推理性能的开源工具集合,不仅支持以卷积神经网络(CNN)为核心组件的预测式AI模型(Predictive AI),还支持以Transf
    的头像 发表于 09-20 11:17 1532次阅读
    使用OpenVINO将PP-OCRv5<b class='flag-5'>模型</b>部署在Intel显卡上

    开放原子开源基金会发布150余个开源项目应用案例

    近日,在2025开放原子开源生态大会开幕式上,开放原子开源基金会发布了150余个开源项目应用案例,涵盖中国南方电网、中国移动、京东集团、安贞医院、南京邮电大学、蚂蚁密算等100余家单位
    的头像 发表于 07-28 17:10 1355次阅读

    万亿参数!元脑企智一体机率先支持Kimi K2大模型

    应用大模型提供高处理性能和完善的软件工具平台支持。   Kimi K2是月之暗面推出的开源万亿参数大模型,创新使用了MuonClip优化器进行训练,大幅提升了
    的头像 发表于 07-22 09:27 763次阅读
    万亿参数!元脑企智一体机率先支持Kimi <b class='flag-5'>K</b>2大<b class='flag-5'>模型</b>

    瑞金医院携手华为开源RuiPath病理模型

    近日,由上海交通大学医学院附属瑞金医院(以下简称“瑞金医院”)主办、华为技术有限公司协办的“瑞金医院RuiPath病理模型开源及成果发布会”在上海举行。瑞金医院联合华为开源RuiPath病理
    的头像 发表于 07-02 14:57 1156次阅读

    华为正式开源盘古7B稠密和72B混合专家模型

    [中国,深圳,2025年6月30日] 今日,华为正式宣布开源盘古70亿参数的稠密模型、盘古Pro MoE 720亿参数的混合专家模型和基于昇腾的模型推理技术。 此举是华为践行昇腾生态战
    的头像 发表于 06-30 11:19 1509次阅读