title:好文收集
本文主要讲述增强大模型推理思考的技术手段
开源大模型部署及推理所需显卡成本必读:也看大模型参数与显卡大小的大致映射策略开源大模型部署及推理所需显卡成本必读:也看大模型参数与显卡大小的大致映射策略
主要讲述关于大模型显卡内存的一些常识
人工神经网络实验的新理论:大脑可能通过评估记忆的有效性来指导其存储位置
大脑中不同的记忆处于不同的大脑位置中,大脑在进行记忆的储存时会根据记忆对未来的重要性而储存在不同的大脑位置中
每次回忆一次经历时,网络的连接权重都会发生变化,导致记忆元素更加平均。
神经网络是否也需要具备这样的特性,在每次单纯的输入也会造成网络参数的变化
大脑有两个相互关联、互补的学习系统:快速编码新信息的海马体和逐渐整合新信息以进行长期存储的新皮质。
对神经网络的启示?
ETH等提出思维图(GoT)超越思维链(CoT): 用LLMs解决复杂问题
GoT的关键思想和主要优势是能够将LLM生成的信息建模为任意图,其中信息单元(“LLM思维”)是顶点,边对应于这些顶点之间的依赖关系
本文探讨了 LLMs 在军事规划革命中的潜力,并强调了它们带来的挑战和机遇。
一篇来自宾夕法尼亚大学、加州大学河滨分校的论文试图研究大模型基础 Transformer 结构的原理,其在注意力层的优化几何与将最优输入 token 与非最优 token 分开的硬边界 SVM 问题之间建立了形式等价。
- 忽略函数
- 简化重复代码
GPT 是如何工作的:200 行 Python 代码实现一个极简 GPT
本文实际上是基于 PyTorch,并不是完全只用基础 Python 包实现一个 GPT。 主要目的是为了能让大家对 GPT 这样一个复杂系统的(不那么底层的)内部工作机制有个直观理解。
对Transformer讲的很详细,很好的文章
介绍了低显存允许大模型和微调大模型的两种方法