0%

大模型可用数据集

  1. huggfaceing数据集仓库: https://huggingface.co/datasets
  • 包含了自然语言处理、计算机视觉、语音、多模态等数据集,内置100多个多语言公共数据集下载
  1. ModelScope数据集仓库:https://modelscope.cn/datasets
  • 提供了覆盖自然语言处理、计算机视觉、语音、多模态等数据集,更有阿里巴巴集团贡献的专业领域数据集,
  1. flagopen数据集仓库: https://data.baai.ac.cn/data
  • 内置公共数据集下载,可下200G大规模预训练语料WuDaoCorpora
  1. cluebenchmarks数据集仓库:https://www.cluebenchmarks.com/dataSet_search.html
  • 多个中英文NLP数据集,并可申请下载100GB的高质量中文预训练语料CLUECorpus2020
  1. MNBVC: Massive Never-ending BT Vast Chinese corpus
  • 超大规模中文语料集
  1. OpenDataLab数据集仓库: https://opendatalab.com/
  • OpenDataLab 是有影响力的数据开源开放平台,公开数据集触手可及。
  1. OSCAR: Open Super-large Crawled Aggregated coRpus, 多语言数据集
  • 最新版本包含1.4T的中文语言数据集
  1. Gutenberg:免费的英文电子书
  • Project Gutenberg is a library of over 70,000 free eBooks

垂直领域可用数据

  1. 军迷窝
  2. 星河搜索
  3. 占知文库
  4. 军事网站汇总
  5. 简氏防务周刊
  6. 水墨芋
  7. 武器装备数据库
  8. 百度网盘
  9. 军队指挥学科知识大数据平台
  10. 国防军事门户网站

中文微调指令数据集

名称 大小 语言 下载 作者 项目地址 时间 备注
Bactrian-X 67K 多语言 dataset MBZUAI bactrian-x 2023-05
CrimeKgAssitant 52k 中文 dataset hongchengliu LAW-GPT 2023-05 中文法律
moss-002-sft-data 1.1M 中英文 dataset 复旦大学 MOSS 2023-04
moss-003-sft-data 1.1M 中英文 dataset 复旦大学 MOSS 2023-04
moss-003-sft-plugin-data 300K 中英文 dataset 复旦大学 MOSS 2023-04
Safety-Prompts 100K 中文 dataset 清华大学 Safety-Prompts 2023-04 评测平台
OASST1 / 多语言 dataset OpenAssistant Open-Assistant 2023-04
ShareChat 90K 中英文 dataset czhko 2023-04
GPT-4-LLM 52K 中文 dataset Instruction-Tuning-with-GPT-4 GPT-4-LLM 2023-04 paper
COIG 200K 中文 dataset BAAI FlagInstruct 2023-04 paper
RedGPT 50k 中文 dataset MiniGPT RedGPT 2023-04
shareGPT_cn 20k 中文 dataset shareAI shareGPT_cn 2023-04
generated_chat_0.4M 0.4M 中文 dataset Ke Technologies BELLE 2023-04 个性化角色对话数据
multiturn_chat_0.8M 0.8M 中文 dataset Ke Technologies BELLE 2023-04 多轮任务对话
school_math_0.25M 0.25M 中文 dataset Ke Technologies BELLE 2023-04 中文数学题数据
Zhihu-KOL / 中文 dataset Rui Wang Zhihu-KOL 2023-03
InstructionWild 104k 中英文 dataset Xue Fuzhao InstructionWild 2023-03
Alpaca-CoT /. 中英文 dataset Qingyi Si Alpaca-CoT 2023-03 内置多个数据集(推荐)
GuanacoDataset / 中/多语言 dataset Guanaco guanaco-model 2023-03
Traditional-Chinese-alpaca 52K 中文 dataset NTU NLP Lab Traditional-Chinese Alpaca 2023-03 gpt翻译
alpaca_chinese_dataset / 中文 dataset akou alpaca_chinese_dataset 2023-03 人工校验
alpaca-chinese-dataset / 中文 dataset carbonz alpaca-chinese-dataset 2023-03 机器翻译
train_2M_CN 2M 中文 dataset Ke Technologies BELLE 2023-03
train_1M_CN 1M 中文 dataset Ke Technologies BELLE 2023-03
train_0.5M_CN 0.5M 中文 dataset Ke Technologies BELLE 2023-03
HC3 人类-ChatGPT 问答 / 中文 dataset SimpleAI chatgpt-comparison-detection 2023-03
firefly-train-1.1M 1.1M 中文 dataset Jianxin Yang Firefly 2023-03

Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond(paper)

perspectives of models, data, and downstream tasks

  1. introduction and brief summary of current GPT- and BERT-style LLMs

    differ in training strategies, model architectures, and use cases. image(Summary of Large Language Models)

    Transformer-based models, encoder-decoder models, encoder-only language models and decoder-only language models image (evolutionary tree of modern LLMs)

    from above two image, four ideas:

    a) decoder-only model became dominating of LLM;

    b) openai maintains its leadership of LLM;

    c) Meta open-source their LLM;

    d) closed-source tendency of LLM and so API-based rsearch will become the predominant method;

    e) encoder-decoder based-model remain promising.

    1.1 BERT-style Language Models: Encoder-Decoder or Encoder-only

    need big data -> unsupervised training -> masked train method and surrounding context -> MLMs advantages: deeper understanding of the relationships between words and the context -> BERT, RoBERTa, T5.

    1.2 GPT-style Language Models: Decoder-only

    bigger model better performance -> autoregressive language model (given a word generate latter words) -> these model use data about downstream tasks, examples:GPT3, OPT, PaLM, BLOOM -> GPT3 with prompting and in-context learning( prompt with little labeled data) -> examples: CodeX for code generation, BloombergGPT for financial domain, chatgpt for conversational tasks.

  2. influence of pre-training data ,training data, and test data

  3. discussion about the use and non-use cases of LLM for various NLP tasks

  4. examples of the successful use cases and the limitations of LLMs in practice.

理解大语言模型——10篇论文的简明清单

attention mechanism -> transformer(from paper Attention Is All You Need) -> BERT(encoder only) -> GPT (decoder only) -> BART(encoder-decoder) -> Linear Scaling Law for under-training problem( better data with smaller model is better than less data with bigger model) -> Reinforcement Learning with Human Feedback ,RLHF

some LLM for downstream task( all about biology):

  1. ProtTrans : LLM for Life’s Code
  2. AlphaFold: Protein Structure Prediction
  3. Large Language Models Generate Functional Protein Sequences Across Diverse Families

A Survey of Large Language Models

  1. background

    pre-trained model -> LLM(complicated engineering issues)

  2. key findings

  3. mainstream techniques

大模型相关技术综述

  1. LLM history

    word2vec -> elmo(word embedding) -> transformer

  2. mainstream architecture

    bert style, bert and gpt style, gpt style

大语言模型调研汇总

  1. Basic Language Model

GPT-style 表示 decoder-only 的自回归语言模型,T5-style 表示 encoder-decoder 的语言模型,GLM-style 表示 GLM 特殊的模型结构,Multi-task 是指 ERNIE 3.0 的模型结构

当前绝大部分的大语言模型都是 Decoder-only 的模型结构, 大部分大语言模型都不开源

  1. Instruction-Finetuned Language Model

Instruction(指令)是指通过自然语言形式对任务进行描述

探索大语言模型垂直化训练技术和应用

  1. 参数规模和数据规模的探索

    缩放法则 (Scaling Laws): more parameters, more data, more loops, less loss

    Compute-Optimal: 语言模型训练数据大小,应该和模型参数量大小等比放大

    Open and Efficient: 百亿模型的潜力仍有待深入挖掘

    数据规模存在瓶颈 :开放数据即将耗尽

    选择最合适的训练数据: 正确的训练数据对提升某些能力有重要效果,“对症下药”很关键,未来在垂直领域任务中可能存在优化空间。

  2. 垂直领域适应预训练

    • 先用大规模通用语料预训练,再用小规模领域语料二次训练

    • 直接进行大规模领域语料预训练

      一个医学领域的代表模型 PubMedGPT 2.7 B。一个是金融领域 BBT-FinT5 模型。它们的参数规模都不大,但是这些用垂直领域的数据做的专用训练,它的效果比参数规模更小一点的小模型来说有非常明显的提升。另外,和相同规模通用大规模的 Finetune 相比,垂直领域大模型的效果仍然是领先的。

      因此,路线二是一个性价比非常高的方案,它用到的参数规模并不大,但在垂直领域的效果不错。同时,垂直领域大模型所用资源会比通用大模型少很多,并且和超大规模模型在垂直领域的效果是接近的,这种方式也给我们开启了一些尝试的空间。

      应用了知识增强技术的领域大模型在领域任务上的效果, 好于领域小模型和通用大模型。所以这可能是一条值得去探索的中间道路,是一种垂直领域比大模型要略小一点,但比小模型要大的中间态的模型。

    • 通用语料比例混合领域语料同时训练

  3. 提示 Prompt 垂直优化

    1. 一种是产品化思路。产品化的是请垂直领域的专家,针对每项垂直任务,来设计用于生成 prompt 的产品,由专家编写大量不同的 prompt,评估或输出好的 prompt 后,进行片段切分,形成相应的产品,这对未来 AIGC 任务会起到很好的作用。
    2. 另一种是自动化的思路,通过借过外部工具,或通过自动化的流程方法和训练方式,对 Prompt 进行自动优化。
  4. 模型功能的垂直效能增强

    • CoT 增强
    • use other models
    • 使用垂直知识库
    • 使用搜索引擎
    • 内容转换
    1. 多语言模型
    2. 参数小不代表模型效果就差
    3. chat base model or base model
    4. 专注垂直领域的话 也不一定追求大
    1. ==LLaMA OPT==:用的人很多,模型的参数和数据量对应,模型很扎实 Meta

    2. BLOOM:参数量大 BigScience (非盈利兴趣组织)

    3. GPT-NEO:EleutherAI发布的,名头很响亮

    4. GLM: 清华推出的 对中文支持较好(网传效果很差

垂类大模型技术落地

  1. Character.AI

    Character.AI 专注于 UGC 的个性化聊天机器人,从模型的开发,训练,到数据的收集,终端应用整条价值链。值得关注的是,Character.AI 开发了自己的类似于 GPT 的 Pre-trained 模型,这种 Pre-trained 模型拥有高效的 LLM 推理算法,推理成本远远低于 ChatGPT

  2. 毫末智行

    毫末智行专注于自动驾驶认知大模型,旗下的 DriveGPT 模型参数达到了 1200 亿,通过引入量产驾驶数据,训练初始模型,再通过引入驾驶接管 Clips 数据完成反馈模型 (Reward Model) 的训练,然后再通过强化学习的方式,使用反馈模型去不断优化迭代初始模型,形成对自动驾驶认知决策模型的持续优化

  3. Bloomberg

    大名鼎鼎的 Bloomberg 也加入了垂类大模型的战局,推出了 Bloomgberg GPT. 和 to C 场景不同,金融领域需要更高的准确性和可靠性,所以 Bloomberg GPT 在模型层数和参数量上会有明显增加,并采用混合精度的训练策略。

  4. ZMO.AI

    ZMO 自有的 6000 万高清营销照片数据集

诚然,Character.AI, 毫末智行,BloombergGPT 和 ZMO 都在验证一件事情,大模型终究是需要细分场景的数据和规则的,在特定场景中需要大量专门优化通用大模型来提升生成质量,并且符合这个专业场景的可控输入和输出才能真正的落地使用。

千“垂”百炼:垂直领域与语言模型

  1. 我不缺钱,我就是想把这种AI语言模型想尽办法和我的业务结合。我不管这种结合是真的契合还是勉强的。这样可以吗?

    可以,因为不缺钱,可以尽情的试错

    原因大概有2个:

    • 它很可能已经具备垂直领域的知识.这种AI模型是学习过海量资料的,无论你是在哪个垂直领域,它可能都有所涉及。它对于垂直领域的互动不见得会效果不好
    • 重的是它的某项技能。你可能也不需要这个AI模型学习过垂直领域相关的资料(换句话说,它即使不懂这个领域,同样可以帮助到你)。在这种情况下,取决于你看上了语言模型的哪些语言技能。比如,AI语言模型具有不错的文字总结能力,随便扔给它一篇业内的文章,虽然它可能看不太懂,但是它仍然可以总结出质量不错的简报。
  2. 我的垂直领域能接受语言模型的不完美吗?

    会犯错, 不确定性, 不方便“教训”, 不灵活, 带来额外支出(api bill) or 如果自己部署语言模型,需要购置能够运行语言模型的软硬件资源;拥有语言模型并不是全部,还是需要投入人力、财力、时间去打磨如何让模型与自己的业务相结合

  3. 我想把这种语言模型融入到自己的垂直领域,这到底是我无意识陷入了盲目跟随潮流,还是真的会对我的业务有帮助?

    对业务有无帮助看实际验证的效果,不凭空想象。如果找不到和自己业务类似的先例,这个问题的答案只有自己才能找到。

  4. 我不懂技术原理,如果我提出来一些天马行空、甚至不切实际、超出模型能力范围的想法,技术/研发人员会笑话我、反感我吗?

    垂直领域的落地正需要非技术和技术想法之间的碰撞, 从非技术人员的角度来看,我们需要他/她进行大胆、创新的业务规划。同时也需要技术人员对能够实现的功能进行评估(比如需要多少资源),对无法实现的业务功能及时提醒对方。

    从技术人员的角度看,我们同样可以为业务规划贡献想法。AI技术是不断发展的,以前很难实现、遥不可及的功能,在今天可能很容易就可以实现,但非技术人员可能没有及时的意识到这一点。这需要我们去提醒非技术人员,耐心的向他们科普目前技术能够做到哪些事情。

  5. 我听说做这个很烧钱,但是我没有那么多钱,我还有机会试一试吗?

    主要是借助现有经验或使用现有模型,不是从头创造。即使使用很小的模型(小模型的学习效率和知识储备能力不如大模型),经过恰当的训练(尤其根据人类的反馈),小模型是有机会与大模型的表现相媲美的(在垂直领域表现如何需要自行验证)

  6. 现有的可用语言模型很好,但是在我的领域表现还不够出色,我还是想要针对自己的领域研发一个模型。最应该注意什么?

    • 业务刚需还是为了华而不实的功能
    • 巧妇难为无米之炊,有无语言模型可用的学习数据
    • 在现有模型基础上继续研发是否合规

归根到底是可用的垂直领域数据

example:ChatDoctor:基于医学领域知识的LLaMA模型微调医学聊天模型