0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NLP大模型必备-FudanNLP开源中文图书集合CBook-150K

深度学习自然语言处理 来源:FudanNLP 2023-04-25 11:41 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

为了助力大模型研究,复旦大学自然语言处理实验室开源了中文图书数据集合CBook-150K,包含15万本中文图书的下载和抽取方法,涵盖人文、教育、科技、军事、政治等众多领域。

当前很多研究表明,高质量数据对于训练大规模语言模型具有至关重要的作用。图书中的内容在质量、专业水准、可靠性等方面远高于互联网数据。OpenAI在训练GPT 3时,也使用了大量图书资源。但是目前还缺乏大规模的中文图书开放集合。此外,由于绝大多数电子书籍的保存方式为PDF格式,从其中抽取文本内容也需要分析工具支持。复旦大学自然语言处理实验室结合此前自主开发的相关PDF分析工具,开源了中文语料图书集合CBook-150K。

复旦大学自然语言处理实验室,自2019年起,自研了PDF处理工具DocAI,针对非扫描件PDF,具有能够处理复杂格式、高效、高准确率、可私有化部署等特点。DocAI在全CPU解决方案下,单核CPU处理100页文档仅需10秒。提取字符准确率100%,结构分析准确率95%。DocAI智能文档解析系统支持对DOC、PDF等常见电子文档进行智能解析,对文档中的标题、段落、表格等半结构化数据进行结构化分析还原。该应用场景具有文件类型多,格式复杂,兼容性要求高等特点,特别是对于跨页表格,多栏排版等复杂场景的支持。是目前支持段落、表格融合识别的为数不多的智能文档解析工具之一。DodAI不依赖第三方资源,支持离线环境下的私有化部署和使用,确保文档隐私与安全。

b3e29316-dce4-11ed-bfe3-dac502259ad0.png

b3fa4fe2-dce4-11ed-bfe3-dac502259ad0.png

结合DocAI工具以及搜索引擎,复旦大学自然语言处理实验室从互联网中筛选了大量中文图书资源链接,并构造了内容抽取算法,助力广大学者NLP大模型研究,同时也在实践与操作中不断迭代更新,完善大型语料库的部署。

下载链接:

https://github.com/FudanNLPLAB/CBook-150K

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    4033

    浏览量

    45569
  • 自然语言处理

    关注

    1

    文章

    629

    浏览量

    14563
  • nlp
    nlp
    +关注

    关注

    1

    文章

    491

    浏览量

    23192

原文标题:NLP大模型必备-FudanNLP开源中文图书集合CBook-150K

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    人工智能AI必备的5款开源软件推荐!

    在技术浪潮汹涌的当下,越来越多的企业与开发者开始意识到:“开源”已经不只是一个口号,而是创新的源泉。 从算法研究到智能应用落地,无数项目的起点,都是一个个免费的开源工具。今天,我们就来盘点五款在智能
    的头像 发表于 11-19 15:35 145次阅读
    人工智能AI<b class='flag-5'>必备</b>的5款<b class='flag-5'>开源</b>软件推荐!

    NVIDIA开源Audio2Face模型及SDK

    NVIDIA 现已开源 Audio2Face 模型与 SDK,让所有游戏和 3D 应用开发者都可以构建并部署带有先进动画的高精度角色。NVIDIA 开源 Audio2Face 的训练框架,任何人都可以针对特定用例对现有
    的头像 发表于 10-21 11:11 543次阅读
    NVIDIA<b class='flag-5'>开源</b>Audio2Face<b class='flag-5'>模型</b>及SDK

    开放原子开源基金会发布150余个开源项目应用案例

    近日,在2025开放原子开源生态大会开幕式上,开放原子开源基金会发布了150余个开源项目应用案例,涵盖中国南方电网、中国移动、京东集团、安贞医院、南京邮电大学、蚂蚁密算等100余家单位
    的头像 发表于 07-28 17:10 981次阅读

    瑞金医院携手华为开源RuiPath病理模型

    近日,由上海交通大学医学院附属瑞金医院(以下简称“瑞金医院”)主办、华为技术有限公司协办的“瑞金医院RuiPath病理模型开源及成果发布会”在上海举行。瑞金医院联合华为开源RuiPath病理
    的头像 发表于 07-02 14:57 792次阅读

    华为正式开源盘古7B稠密和72B混合专家模型

    [中国,深圳,2025年6月30日] 今日,华为正式宣布开源盘古70亿参数的稠密模型、盘古Pro MoE 720亿参数的混合专家模型和基于昇腾的模型推理技术。 此举是华为践行昇腾生态战
    的头像 发表于 06-30 11:19 1114次阅读

    构建开源OpenVINO™工具套件后,模型优化器位于何处呢?

    构建开源OpenVINO™工具套件后,模型优化器位于何处?
    发表于 03-06 08:18

    超过150万个大模型,DeepSeek全球最受欢迎

    ,中国开源模型 DeepSeek-R1 在 huggingface 平台上超过 150 万个模型中脱颖而出,成为该平台最受欢迎的开源
    的头像 发表于 02-25 00:13 3911次阅读
    超过<b class='flag-5'>150</b>万个大<b class='flag-5'>模型</b>,DeepSeek全球最受欢迎

    AI开源模型库有什么用

    AI开源模型库作为推动AI技术发展的重要力量,正深刻改变着我们的生产生活方式。接下来,AI部落小编带您了解AI开源模型库有什么用。
    的头像 发表于 02-24 11:50 884次阅读

    模型训练:开源数据与算法的机遇与挑战分析

    最近,开源中国 OSCHINA、Gitee 与 Gitee AI 联合发布了《2024 中国开源开发者报告》。 报告聚焦 AI 大模型领域,对过去一年的技术演进动态、技术趋势、以及开源
    的头像 发表于 02-20 10:40 996次阅读
    大<b class='flag-5'>模型</b>训练:<b class='flag-5'>开源</b>数据与算法的机遇与挑战分析

    阶跃星辰开源多模态模型,天数智芯迅速适配

    近日,头部大模型创业公司阶跃星辰在行业内引起了轩然大波,宣布正式开源两款Step系列多模态模型——Step-Video-T2V视频生成模型和Step-Audio语音交互
    的头像 发表于 02-19 14:30 820次阅读

    开源模型DeepSeek的开放内容详析

    当大家讨论为什么 DeepSeek 能够形成全球刷屏之势,让所有厂商、平台都集成之时,「开源」成为了最大的关键词之一,图灵奖得主 Yann LeCun 称其是「开源的胜利」。模型开源
    的头像 发表于 02-19 09:48 2422次阅读
    <b class='flag-5'>开源</b>大<b class='flag-5'>模型</b>DeepSeek的开放内容详析

    C#集成OpenVINO™:简化AI模型部署

    什么是OpenVINO 工具套件? OpenVINO 工具套件是一个用于优化和部署人工智能(AI)模型,提升AI推理性能的开源工具集合,不仅支持以卷积神经网
    的头像 发表于 02-17 10:03 2522次阅读
    C#集成OpenVINO™:简化AI<b class='flag-5'>模型</b>部署

    开源模型在多个业务场景的应用案例

    在人工智能发展浪潮中,大模型开源与闭源之争一直是业内的热点话题。随着技术的不断进步和应用场景的日益丰富,如何降低大模型的使用门槛,让更多人能够便捷地应用于实际业务场景,成为了推动行业发展的关键所在。而
    的头像 发表于 12-30 10:16 1668次阅读

    开源AI模型库是干嘛的

    开源AI模型库是指那些公开源代码、允许自由访问和使用的AI模型集合。这些模型通常经过训练,能够执
    的头像 发表于 12-14 10:33 1294次阅读

    开源模型落地实践分论坛亮点前瞻

    随着数据驱动时代的到来,开源模型已成为技术领域的热点话题。开源模型凭借强大的数据处理和分析能力,正逐步渗透到各个行业,为产业升级和经济发展注入新的活力。
    的头像 发表于 12-13 15:30 799次阅读