大模型可用数据集
- huggfaceing数据集仓库: https://huggingface.co/datasets
- 包含了自然语言处理、计算机视觉、语音、多模态等数据集,内置100多个多语言公共数据集下载
- ModelScope数据集仓库:https://modelscope.cn/datasets
- 提供了覆盖自然语言处理、计算机视觉、语音、多模态等数据集,更有阿里巴巴集团贡献的专业领域数据集,
- flagopen数据集仓库: https://data.baai.ac.cn/data
- 内置公共数据集下载,可下200G大规模预训练语料WuDaoCorpora
- cluebenchmarks数据集仓库:https://www.cluebenchmarks.com/dataSet_search.html
- 多个中英文NLP数据集,并可申请下载100GB的高质量中文预训练语料CLUECorpus2020
- MNBVC: Massive Never-ending BT Vast Chinese corpus
- 超大规模中文语料集
- OpenDataLab数据集仓库: https://opendatalab.com/
- OpenDataLab 是有影响力的数据开源开放平台,公开数据集触手可及。
- OSCAR: Open Super-large Crawled Aggregated coRpus, 多语言数据集
- 最新版本包含1.4T的中文语言数据集
- Gutenberg:免费的英文电子书
- Project Gutenberg is a library of over 70,000 free eBooks
垂直领域可用数据
中文微调指令数据集
名称 | 大小 | 语言 | 下载 | 作者 | 项目地址 | 时间 | 备注 |
---|---|---|---|---|---|---|---|
Bactrian-X | 67K | 多语言 | dataset | MBZUAI | bactrian-x | 2023-05 | |
CrimeKgAssitant | 52k | 中文 | dataset | hongchengliu | LAW-GPT | 2023-05 | 中文法律 |
moss-002-sft-data | 1.1M | 中英文 | dataset | 复旦大学 | MOSS | 2023-04 | |
moss-003-sft-data | 1.1M | 中英文 | dataset | 复旦大学 | MOSS | 2023-04 | |
moss-003-sft-plugin-data | 300K | 中英文 | dataset | 复旦大学 | MOSS | 2023-04 | |
Safety-Prompts | 100K | 中文 | dataset | 清华大学 | Safety-Prompts | 2023-04 | 评测平台 |
OASST1 | / | 多语言 | dataset | OpenAssistant | Open-Assistant | 2023-04 | |
ShareChat | 90K | 中英文 | dataset | czhko | 2023-04 | ||
GPT-4-LLM | 52K | 中文 | dataset | Instruction-Tuning-with-GPT-4 | GPT-4-LLM | 2023-04 | paper |
COIG | 200K | 中文 | dataset | BAAI | FlagInstruct | 2023-04 | paper |
RedGPT | 50k | 中文 | dataset | MiniGPT | RedGPT | 2023-04 | |
shareGPT_cn | 20k | 中文 | dataset | shareAI | shareGPT_cn | 2023-04 | |
generated_chat_0.4M | 0.4M | 中文 | dataset | Ke Technologies | BELLE | 2023-04 | 个性化角色对话数据 |
multiturn_chat_0.8M | 0.8M | 中文 | dataset | Ke Technologies | BELLE | 2023-04 | 多轮任务对话 |
school_math_0.25M | 0.25M | 中文 | dataset | Ke Technologies | BELLE | 2023-04 | 中文数学题数据 |
Zhihu-KOL | / | 中文 | dataset | Rui Wang | Zhihu-KOL | 2023-03 | |
InstructionWild | 104k | 中英文 | dataset | Xue Fuzhao | InstructionWild | 2023-03 | |
Alpaca-CoT | /. | 中英文 | dataset | Qingyi Si | Alpaca-CoT | 2023-03 | 内置多个数据集(推荐) |
GuanacoDataset | / | 中/多语言 | dataset | Guanaco | guanaco-model | 2023-03 | |
Traditional-Chinese-alpaca | 52K | 中文 | dataset | NTU NLP Lab | Traditional-Chinese Alpaca | 2023-03 | gpt翻译 |
alpaca_chinese_dataset | / | 中文 | dataset | akou | alpaca_chinese_dataset | 2023-03 | 人工校验 |
alpaca-chinese-dataset | / | 中文 | dataset | carbonz | alpaca-chinese-dataset | 2023-03 | 机器翻译 |
train_2M_CN | 2M | 中文 | dataset | Ke Technologies | BELLE | 2023-03 | |
train_1M_CN | 1M | 中文 | dataset | Ke Technologies | BELLE | 2023-03 | |
train_0.5M_CN | 0.5M | 中文 | dataset | Ke Technologies | BELLE | 2023-03 | |
HC3 人类-ChatGPT 问答 | / | 中文 | dataset | SimpleAI | chatgpt-comparison-detection | 2023-03 | |
firefly-train-1.1M | 1.1M | 中文 | dataset | Jianxin Yang | Firefly | 2023-03 |
Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond(paper)
perspectives of models, data, and downstream tasks
introduction and brief summary of current GPT- and BERT-style LLMs
differ in training strategies, model architectures, and use cases. image(Summary of Large Language Models)
Transformer-based models, encoder-decoder models, encoder-only language models and decoder-only language models image (evolutionary tree of modern LLMs)
from above two image, four ideas:
a) decoder-only model became dominating of LLM;
b) openai maintains its leadership of LLM;
c) Meta open-source their LLM;
d) closed-source tendency of LLM and so API-based rsearch will become the predominant method;
e) encoder-decoder based-model remain promising.
1.1 BERT-style Language Models: Encoder-Decoder or Encoder-only
need big data -> unsupervised training -> masked train method and surrounding context -> MLMs advantages: deeper understanding of the relationships between words and the context -> BERT, RoBERTa, T5.
1.2 GPT-style Language Models: Decoder-only
bigger model better performance -> autoregressive language model (given a word generate latter words) -> these model use data about downstream tasks, examples:GPT3, OPT, PaLM, BLOOM -> GPT3 with prompting and in-context learning( prompt with little labeled data) -> examples: CodeX for code generation, BloombergGPT for financial domain, chatgpt for conversational tasks.
influence of pre-training data ,training data, and test data
discussion about the use and non-use cases of LLM for various NLP tasks
examples of the successful use cases and the limitations of LLMs in practice.
理解大语言模型——10篇论文的简明清单
attention mechanism -> transformer(from paper Attention Is All You Need) -> BERT(encoder only) -> GPT (decoder only) -> BART(encoder-decoder) -> Linear Scaling Law for under-training problem( better data with smaller model is better than less data with bigger model) -> Reinforcement Learning with Human Feedback ,RLHF
some LLM for downstream task( all about biology):
- ProtTrans : LLM for Life’s Code
- AlphaFold: Protein Structure Prediction
- Large Language Models Generate Functional Protein Sequences Across Diverse Families
A Survey of Large Language Models
background
pre-trained model -> LLM(complicated engineering issues)
key findings
mainstream techniques
大模型相关技术综述
LLM history
word2vec -> elmo(word embedding) -> transformer
mainstream architecture
bert style, bert and gpt style, gpt style
大语言模型调研汇总
- Basic Language Model
GPT-style 表示 decoder-only 的自回归语言模型,T5-style 表示 encoder-decoder 的语言模型,GLM-style 表示 GLM 特殊的模型结构,Multi-task 是指 ERNIE 3.0 的模型结构
当前绝大部分的大语言模型都是 Decoder-only 的模型结构, 大部分大语言模型都不开源
- Instruction-Finetuned Language Model
Instruction(指令)是指通过自然语言形式对任务进行描述
探索大语言模型垂直化训练技术和应用
参数规模和数据规模的探索
缩放法则 (Scaling Laws): more parameters, more data, more loops, less loss
Compute-Optimal: 语言模型训练数据大小,应该和模型参数量大小等比放大
Open and Efficient: 百亿模型的潜力仍有待深入挖掘
数据规模存在瓶颈 :开放数据即将耗尽
选择最合适的训练数据: 正确的训练数据对提升某些能力有重要效果,“对症下药”很关键,未来在垂直领域任务中可能存在优化空间。
垂直领域适应预训练
先用大规模通用语料预训练,再用小规模领域语料二次训练
直接进行大规模领域语料预训练
一个医学领域的代表模型 PubMedGPT 2.7 B。一个是金融领域 BBT-FinT5 模型。它们的参数规模都不大,但是这些用垂直领域的数据做的专用训练,它的效果比参数规模更小一点的小模型来说有非常明显的提升。另外,和相同规模通用大规模的 Finetune 相比,垂直领域大模型的效果仍然是领先的。
因此,路线二是一个性价比非常高的方案,它用到的参数规模并不大,但在垂直领域的效果不错。同时,垂直领域大模型所用资源会比通用大模型少很多,并且和超大规模模型在垂直领域的效果是接近的,这种方式也给我们开启了一些尝试的空间。
应用了知识增强技术的领域大模型在领域任务上的效果, 好于领域小模型和通用大模型。所以这可能是一条值得去探索的中间道路,是一种垂直领域比大模型要略小一点,但比小模型要大的中间态的模型。
通用语料比例混合领域语料同时训练
提示 Prompt 垂直优化
- 一种是产品化思路。产品化的是请垂直领域的专家,针对每项垂直任务,来设计用于生成 prompt 的产品,由专家编写大量不同的 prompt,评估或输出好的 prompt 后,进行片段切分,形成相应的产品,这对未来 AIGC 任务会起到很好的作用。
- 另一种是自动化的思路,通过借过外部工具,或通过自动化的流程方法和训练方式,对 Prompt 进行自动优化。
模型功能的垂直效能增强
- CoT 增强
- use other models
- 使用垂直知识库
- 使用搜索引擎
- 内容转换
- 多语言模型
- 参数小不代表模型效果就差
- chat base model or base model
- 专注垂直领域的话 也不一定追求大
==LLaMA OPT==:用的人很多,模型的参数和数据量对应,模型很扎实 Meta
BLOOM:参数量大 BigScience (非盈利兴趣组织)
GPT-NEO:EleutherAI发布的,名头很响亮
GLM: 清华推出的 对中文支持较好(网传效果很差)
垂类大模型技术落地
Character.AI
Character.AI 专注于 UGC 的个性化聊天机器人,从模型的开发,训练,到数据的收集,终端应用整条价值链。值得关注的是,Character.AI 开发了自己的类似于 GPT 的 Pre-trained 模型,这种 Pre-trained 模型拥有高效的 LLM 推理算法,推理成本远远低于 ChatGPT
毫末智行
毫末智行专注于自动驾驶认知大模型,旗下的 DriveGPT 模型参数达到了 1200 亿,通过引入量产驾驶数据,训练初始模型,再通过引入驾驶接管 Clips 数据完成反馈模型 (Reward Model) 的训练,然后再通过强化学习的方式,使用反馈模型去不断优化迭代初始模型,形成对自动驾驶认知决策模型的持续优化
Bloomberg
大名鼎鼎的 Bloomberg 也加入了垂类大模型的战局,推出了 Bloomgberg GPT. 和 to C 场景不同,金融领域需要更高的准确性和可靠性,所以 Bloomberg GPT 在模型层数和参数量上会有明显增加,并采用混合精度的训练策略。
ZMO.AI
ZMO 自有的 6000 万高清营销照片数据集
诚然,Character.AI, 毫末智行,BloombergGPT 和 ZMO 都在验证一件事情,大模型终究是需要细分场景的数据和规则的,在特定场景中需要大量专门优化通用大模型来提升生成质量,并且符合这个专业场景的可控输入和输出才能真正的落地使用。
千“垂”百炼:垂直领域与语言模型
我不缺钱,我就是想把这种AI语言模型想尽办法和我的业务结合。我不管这种结合是真的契合还是勉强的。这样可以吗?
可以,因为不缺钱,可以尽情的试错
原因大概有2个:
- 它很可能已经具备垂直领域的知识.这种AI模型是学习过海量资料的,无论你是在哪个垂直领域,它可能都有所涉及。它对于垂直领域的互动不见得会效果不好
- 重的是它的某项技能。你可能也不需要这个AI模型学习过垂直领域相关的资料(换句话说,它即使不懂这个领域,同样可以帮助到你)。在这种情况下,取决于你看上了语言模型的哪些语言技能。比如,AI语言模型具有不错的文字总结能力,随便扔给它一篇业内的文章,虽然它可能看不太懂,但是它仍然可以总结出质量不错的简报。
我的垂直领域能接受语言模型的不完美吗?
会犯错, 不确定性, 不方便“教训”, 不灵活, 带来额外支出(api bill) or 如果自己部署语言模型,需要购置能够运行语言模型的软硬件资源;拥有语言模型并不是全部,还是需要投入人力、财力、时间去打磨如何让模型与自己的业务相结合
我想把这种语言模型融入到自己的垂直领域,这到底是我无意识陷入了盲目跟随潮流,还是真的会对我的业务有帮助?
对业务有无帮助看实际验证的效果,不凭空想象。如果找不到和自己业务类似的先例,这个问题的答案只有自己才能找到。
我不懂技术原理,如果我提出来一些天马行空、甚至不切实际、超出模型能力范围的想法,技术/研发人员会笑话我、反感我吗?
垂直领域的落地正需要非技术和技术想法之间的碰撞, 从非技术人员的角度来看,我们需要他/她进行大胆、创新的业务规划。同时也需要技术人员对能够实现的功能进行评估(比如需要多少资源),对无法实现的业务功能及时提醒对方。
从技术人员的角度看,我们同样可以为业务规划贡献想法。AI技术是不断发展的,以前很难实现、遥不可及的功能,在今天可能很容易就可以实现,但非技术人员可能没有及时的意识到这一点。这需要我们去提醒非技术人员,耐心的向他们科普目前技术能够做到哪些事情。
我听说做这个很烧钱,但是我没有那么多钱,我还有机会试一试吗?
主要是借助现有经验或使用现有模型,不是从头创造。即使使用很小的模型(小模型的学习效率和知识储备能力不如大模型),经过恰当的训练(尤其根据人类的反馈),小模型是有机会与大模型的表现相媲美的(在垂直领域表现如何需要自行验证)
现有的可用语言模型很好,但是在我的领域表现还不够出色,我还是想要针对自己的领域研发一个模型。最应该注意什么?
- 业务刚需还是为了华而不实的功能
- 巧妇难为无米之炊,有无语言模型可用的学习数据
- 在现有模型基础上继续研发是否合规
归根到底是可用的垂直领域数据
example:ChatDoctor:基于医学领域知识的LLaMA模型微调医学聊天模型