NLP大模型必备-FudanNLP开源中文图书集合CBook-150K-电子发烧友网

为了助力大模型研究，复旦大学自然语言处理实验室开源了中文图书数据集合CBook-150K，包含15万本中文图书的下载和抽取方法，涵盖人文、教育、科技、军事、政治等众多领域。

当前很多研究表明，高质量数据对于训练大规模语言模型具有至关重要的作用。图书中的内容在质量、专业水准、可靠性等方面远高于互联网数据。OpenAI在训练GPT 3时，也使用了大量图书资源。但是目前还缺乏大规模的中文图书开放集合。此外，由于绝大多数电子书籍的保存方式为PDF格式，从其中抽取文本内容也需要分析工具支持。复旦大学自然语言处理实验室结合此前自主开发的相关PDF分析工具，开源了中文语料图书集合CBook-150K。

复旦大学自然语言处理实验室，自2019年起，自研了PDF处理工具DocAI，针对非扫描件PDF，具有能够处理复杂格式、高效、高准确率、可私有化部署等特点。DocAI在全CPU解决方案下，单核CPU处理100页文档仅需10秒。提取字符准确率100%，结构分析准确率95%。DocAI智能文档解析系统支持对DOC、PDF等常见电子文档进行智能解析，对文档中的标题、段落、表格等半结构化数据进行结构化分析还原。该应用场景具有文件类型多，格式复杂，兼容性要求高等特点，特别是对于跨页表格，多栏排版等复杂场景的支持。是目前支持段落、表格融合识别的为数不多的智能文档解析工具之一。DodAI不依赖第三方资源，支持离线环境下的私有化部署和使用，确保文档隐私与安全。

结合DocAI工具以及搜索引擎，复旦大学自然语言处理实验室从互联网中筛选了大量中文图书资源链接，并构造了内容抽取算法，助力广大学者NLP大模型研究，同时也在实践与操作中不断迭代更新，完善大型语料库的部署。

下载链接：

https://github.com/FudanNLPLAB/CBook-150K

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

开源

开源

+关注

关注
3

文章
2991

浏览量
41722
自然语言处理

自然语言处理

+关注

关注
1

文章
509

浏览量
13103
nlp

nlp

+关注

关注
1

文章
464

浏览量
21826

原文标题：NLP大模型必备-FudanNLP开源中文图书集合CBook-150K

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

李彦宏：开源模型将逐渐滞后，文心大模型提升训练与推理效率

李彦宏解释道，百度自研的基础模型——文心 4.0，能够根据需求塑造出适应各类场景的微型版模型，并支持精细调整以及后预训练。相较于直接使用开源模型，这种经过降维处理的

发表于 04-16 14:37 •108次阅读

大模型开源开放评测体系司南正式发布

近日，大模型开源开放评测体系司南（OpenCompass2.0）正式发布，旨在为大语言模型、多模态模型等各类模型提供一站式评测服务。Open

发表于 02-05 11:28 •600次阅读

Meta发布CodeLlama70B开源大模型

Meta发布CodeLlama70B开源大模型 Meta发布了开源大模型CodeLlama70B，号称是CodeLlama系列体量最大、性能最强的大

发表于 01-31 10:30 •967次阅读

机器人基于开源的多模态语言视觉大模型

ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型，只用单机就可以训练。

发表于 01-19 11:43 •127次阅读

阿里云通义千问720亿参数模型宣布开源

12月1日，阿里云通义千问720亿参数模型Qwen-72B宣布开源。与此同时，他们还开源了18亿参数模型Qwen-1.8B和音频大模型Qwe

发表于 12-01 17:08 •858次阅读

FoolNLTK：简单好用的中文NLP工具包

FoolNLTK — 作者号称“可能不是最快的开源中文分词，但很可能是最准的开源中文分词”。这个开源工具包基于 BiLSTM

发表于 11-01 10:41 •258次阅读

FoolNLTK：简单好用的中文NLP工具包

FoolNLTK — 作者号称“可能不是最快的开源中文分词，但很可能是最准的开源中文分词”。这个开源工具包基于 BiLSTM

发表于 10-30 09:40 •678次阅读

性能超越开源模型标杆Llama2-70B，书生·浦语大模型InternLM-20B开源发布

今日，商汤科技与上海人工智能实验室联合香港中文大学和复旦大学正式推出书生·浦语大模型（InternLM） 200亿参数版本InternLM-20B ，并在阿里云魔搭社区（ModelScope

发表于 09-20 16:45 •697次阅读

AI大模型的开源算法介绍

AI大模型的开源算法介绍什么是开源？简单来说就是不收取任何费用，免费提供给用户的软件或应用程序。开源是主要用于软件的术语，除了免费用户还可以对开源

发表于 08-08 17:25 •1387次阅读

模型当道开源聚力｜2023开放原子全球开源峰会开源大模型分论坛圆满收官

6 月 13 日，2023 开放原子全球开源峰会开源大模型分论坛圆满举行。本场论坛汇聚了中国大模型领域的专家，包括工业界和学术界的主流玩家，共同探讨大

发表于 06-19 11:32 •447次阅读

模型当道开源聚力｜2023开放原子全球开源峰会开源大模型分论坛圆满收官

6月13日，2023开放原子全球开源峰会开源大模型分论坛圆满举行。本场论坛汇聚了中国大模型领域的专家，包括工业界和学术界的主流玩家，共同探讨大模型

发表于 06-16 21:15 •1105次阅读

NLP中的迁移学习：利用预训练模型进行文本分类

迁移学习彻底改变了自然语言处理（NLP）领域，允许从业者利用预先训练的模型来完成自己的任务，从而大大减少了训练时间和计算资源。在本文中，我们将讨论迁移学习的概念，探索一些流行的预训练模型，并通过实际示例演示如何使用这些

发表于 06-14 09:30 •312次阅读

做实大模型的产业价值，度小满深耕“NLP+金融”

从度小满NLP开始，去看看AI走向产业的应用落地如何实现

发表于 05-18 20:43 •440次阅读

直播预告 | CSDN《开谈》—开源大模型崛起

当今，开源大模型已经成为人工智能领域的重要趋势。其发展离不开深度学习技术的不断发展和优化，同时也离不开社区的协作和创新。未来，开源大模型将在哪些领域和应用场景中得到更广泛的应用？具有哪

发表于 05-17 01:25 •263次阅读

“伶荔”(Linly) 开源大规模中文语言模型

Linly-Chinese-LLaMA：中文基础模型，基于 LLaMA 在高质量中文语料上增量训练强化中文语言能力，现已开放 7B、13B 和 33B 量级，65B 正在训练中。

发表于 05-04 10:29 •759次阅读