0%


title:好文收集

AI 新时代,大模型该如何“绞尽脑汁”?

本文主要讲述增强大模型推理思考的技术手段


开源大模型部署及推理所需显卡成本必读:也看大模型参数与显卡大小的大致映射策略开源大模型部署及推理所需显卡成本必读:也看大模型参数与显卡大小的大致映射策略

主要讲述关于大模型显卡内存的一些常识


人工神经网络实验的新理论:大脑可能通过评估记忆的有效性来指导其存储位置

大脑中不同的记忆处于不同的大脑位置中,大脑在进行记忆的储存时会根据记忆对未来的重要性而储存在不同的大脑位置中

每次回忆一次经历时,网络的连接权重都会发生变化,导致记忆元素更加平均。

神经网络是否也需要具备这样的特性,在每次单纯的输入也会造成网络参数的变化

大脑有两个相互关联、互补的学习系统:快速编码新信息的海马体和逐渐整合新信息以进行长期存储的新皮质。

对神经网络的启示?


ETH等提出思维图(GoT)超越思维链(CoT): 用LLMs解决复杂问题

GoT的关键思想和主要优势是能够将LLM生成的信息建模为任意图,其中信息单元(“LLM思维”)是顶点,边对应于这些顶点之间的依赖关系


通过大语言模型和人工智能的力量改变军事规划

本文探讨了 LLMs 在军事规划革命中的潜力,并强调了它们带来的挑战和机遇。


听我说,Transformer他就是个向量机

一篇来自宾夕法尼亚大学、加州大学河滨分校的论文试图研究大模型基础 Transformer 结构的原理,其在注意力层的优化几何与将最优输入 token 与非最优 token 分开的硬边界 SVM 问题之间建立了形式等价。


How to read code

  1. 忽略函数
  2. 简化重复代码

从零开始,大模型训练教程


transformers 总结和解释


GPT 是如何工作的:200 行 Python 代码实现一个极简 GPT

本文实际上是基于 PyTorch,并不是完全只用基础 Python 包实现一个 GPT。 主要目的是为了能让大家对 GPT 这样一个复杂系统的(不那么底层的)内部工作机制有个直观理解。


Transformer 是如何工作的

对Transformer讲的很详细,很好的文章


GPU架构和入门介绍


Transformers入门


4GB 显存单卡居然能跑 70B 大模型了

介绍了低显存允许大模型和微调大模型的两种方法