| 随笔

title:好文收集

本文主要讲述增强大模型推理思考的技术手段

主要讲述关于大模型显卡内存的一些常识

大脑中不同的记忆处于不同的大脑位置中，大脑在进行记忆的储存时会根据记忆对未来的重要性而储存在不同的大脑位置中

每次回忆一次经历时，网络的连接权重都会发生变化，导致记忆元素更加平均。

神经网络是否也需要具备这样的特性，在每次单纯的输入也会造成网络参数的变化

大脑有两个相互关联、互补的学习系统：快速编码新信息的海马体和逐渐整合新信息以进行长期存储的新皮质。

对神经网络的启示？

GoT的关键思想和主要优势是能够将LLM生成的信息建模为任意图，其中信息单元（“LLM思维”）是顶点，边对应于这些顶点之间的依赖关系

本文探讨了 LLMs 在军事规划革命中的潜力，并强调了它们带来的挑战和机遇。

一篇来自宾夕法尼亚大学、加州大学河滨分校的论文试图研究大模型基础 Transformer 结构的原理，其在注意力层的优化几何与将最优输入 token 与非最优 token 分开的硬边界 SVM 问题之间建立了形式等价。

本文实际上是基于 PyTorch，并不是完全只用基础 Python 包实现一个 GPT。主要目的是为了能让大家对 GPT 这样一个复杂系统的（不那么底层的）内部工作机制有个直观理解。

对Transformer讲的很详细，很好的文章

介绍了低显存允许大模型和微调大模型的两种方法