«

将领域文献转换为可供大模型微调的数据集, 字节大神的开源项目easy-dataset

时间:2025-3-19 14:00     作者:Anglei     分类: 大数据AI


背景介绍

目前各行各业都在积极探索微调自己行业的大模型,其实微调的过程不是难事,目前市面上也有比较多成熟的工具,比较难的是前期的数据集准备的环节,数据集的质量直接决定了模型微调后的效果,高质量领域数据集的构建始终面临多重挑战,大家在构建数据集的过程中可能会普遍遇到以下问题:

为了解决这些问题,Easy DataSet 应运而生,通过系统性解决方案实现从文献解析到数据集导出的全流程闭环。

一、设计思路

Easy DataSet 以 项目制 为核心单元,贯穿「文献处理-问题生成-答案构建-标签管理-格式导出」全链路:

1.1 核心模块


1.2 数据生成引擎


1.3 格式生态适配


二、工具使用

目前 Easy Dataset 支持客户端、NPM、Docker 三种启动方式,完全在本地处理数据,无需担心数据隐私问题。
2.1 客户端启动(适合新手)
为了解决各种本地部署的环境问题,可以直接用客户端启动,支持以下平台:

可以直接到 https://github.com/ConardLi/easy-dataset/releases/latest 下载适合自己系统的安装包:


2.2 NPM 启动(适合开发者)
本项目基于 Next 构建,所以本地只要有 Node 环境就可以通过 NPM 直接启动,适合开发者,需要调试项目的同学:

  1. 克隆仓库:
    git clone https://github.com/ConardLi/easy-dataset.git
    cd easy-dataset
  2. 安装依赖:
    npm install
  3. 启动服务器:
    npm run build
    npm run start

    2.3 Docker启动(适合私有部署)
    如果你想自行构建镜像,在云服务或者内网环境私有部署,可以使用项目根目录中的 Dockerfile:

  4. 克隆仓库:
    git clone https://github.com/ConardLi/easy-dataset.git
    cd easy-dataset
  5. 构建 Docker 镜像:
    docker build -t easy-dataset .
  6. 运行容器:
    docker run -d -p 1717:1717 -v {YOUR_LOCAL_DB_PATH}:/app/local-db --name easy-dataset easy-dataset

    注意: 请将 {YOUR_LOCAL_DB_PATH} 替换为你希望存储本地数据库的实际路径。


三、功能介绍

3.1 项目设置
多模型统一管理:支持 OpenAI 标准协议 的模型接入,兼容 Ollama,用户仅需配置 模型名称、API地址、密钥 即可完成适配。内置模型库预填主流厂商端点,支持删除/新增自定义模型,所有配置 本地加密存储,保障数据安全。


任务参数精细化配置:


3.2 文献处理
智能分块引擎:


领域标签树构建:


3.3 问题生成

  1. 单块生成:点击文本块「+问题」,基于块内容生成多个问题(密度可调)
  2. 批量生成:勾选多块→一键生成,支持中断/恢复任务
  3. 质量过滤:自动过滤低相关问题(如作者信息、格式说明),人工可批量删除

3.4 问题管理
列表视图,可查看和管理已经生成好的所有问题:


领域树视图(基于领域树视图查看和管理问题,可以更方便的掌握全貌,便捷管理问题):


3.5 数据集生成


3.6 数据集管理
数据集列表:

可以查看已经生成好的所有数据集,包括创建时间、使用模型、领域标签、是否有思维链等,可对不满意的数据集进行调整和删除。


数据集质检与标注:


多格式导出:


3.7 数据集广场
多平台搜索:

聚合 HuggingFace、Kaggle、Opendatalab 等多个平台,输入关键词即可一站式检索,支持跳转原平台下载。


四、视频教程

详细操作流程请参考 B 站视频教程:https://www.bilibili.com/video/BV1y8QpYGE57/


五、未来规划

当前 Easy Dataset 还处于比较早期的阶段,刚实现了最基本的构想,后续还会陆续支持以下功能,致力于打造成最完善和专业的大模型数据集构造平台:

作者的GIT:
https://github.com/ConardLi/easy-dataset

本文完结,相关标签: 大模型 训练 数据集

 版权所有:Anglei
 文章标题:将领域文献转换为可供大模型微调的数据集, 字节大神的开源项目easy-dataset
 除非注明,本站文章如未特殊说明均为 MAXADA社区知识库 原创,且版权所有,请勿用于任何商业用途。

推荐阅读:

看完后感想如何?

路过(0)

雷人(0)

握手(1)

鲜花(0)

鸡蛋(0)
分享到: