这样的一个AI大模型, 需要的资源会不会少很多? 比如能很轻松地跑在本地? 作为个人编程助手用?
你好,不可能
为什么? 基础通用部分占比太大?
no free lunch theorem for optimization 指出,因为本质上都是最优化问题,不会有某个 machine learning 算法在特定问题上比别的好,能理解编程语言就说明能把其它问题转化成它能理解的问题。
看来成熟的本地化AI短期内难以实现, 希望几年后可以实现
我感觉已经很成熟了,还是 4090 一卡难求的问题
这两天了解和试用了一下, 确实挺厉害, 跑了下llama3.1:8b, 感觉比去年体验的gpt4all效果好很多, 包括速度和输出结果. 我这才8G显存, 16G显存能跑更高的模型, 效果应该会更好.
看到llama3.2系列推出了更小的模型, 针对手机的. 有了市场, 小模型也有发展空间.
我觉得有可能的。比如,我只需要写Scheme代码,那么我的训练数据里面不需要有一堆C++代码和Python代码。lisp系的代码语料都是需要的。
我觉得不可能,原因与技术没多少关系, 就像当年乔布斯还在的时候, 苹果的siri一个在线语音助手只能在最新款苹果手机用,老款都不能用;同样的道理, 你需要最新最强的硬件才能跑最新最强的AI
事实上我都还没弄明白为什么文本生成会依赖显卡, 显卡在我印象里是做图形计算相关的事, 图形计算以外的事并没有比cpu强太多. 除非是在算法上专门针对显卡进行优化.
我感觉你的回复不在点上,然后你对机器学习、深度学习等等背后的计算原理貌似并不理解。
我对显卡的理解也不多,有一个点是这样的,数据规模比较大的话,显卡可以有效的按批计算。比如100组数据,显卡可以十组数据一起计算,只需要计算十次,而CPU需要算100次。我这个例子只是对显卡的大概的介绍。你说的显卡适用于图像处理,也是类似的,因为图像就是2x2的矩阵。如果你会 numpy 的话,应该就能理解为什么机器学习系统需要显卡了。
因为计算机图形相关的计算是矩阵运算,CPU 不擅长做这个,所以发明了显卡这个专门用来做矩阵运算的硬件。AI 相关的计算“碰巧”也是矩阵运算,所以就拿来用了。
如果在某个平行时空,AI 比图形界面更早发明,那可能这个负责矩阵运算的硬件就叫 AI 卡了
抱歉, 这个回复确实不在点上。 我看现在cpu的卖点都是16核32线程这些, 而显卡却都在说显存,没有强调核心数。 这是不是两种发展方向, 显卡就是单核心单线程, 所以一次能计算的数据规模更大。
你理解的就是错的,RTX 3060 有 3584 个 CUDA 核心,RTX 3090 Ti 有 10572 个核心。这么多核心要利用起来不闲置,需要能给核心分配不同计算任务,当然也得支持多线程。
只是因为高核心数对游戏性能不构成大影响,8K 120Hz 也用不到多少核心,只有科学计算/特效制作行业会关注这项指标,跑 AI 对核心数也没太高要求,而且和 CPU 一样道理时钟频率提高了即使核心数少了性能也会更高。而显存不够体现就是玩不动游戏,跑不动大模型。
哪怕 Convolutional Neural Network 都是 1980 就实现的,那时个人电脑还在用 VGA,显卡真的只用来显示图形,加速一下在显存里绘制 2D 图像的速度,CPU 发出指令屏幕上什么位址要画一个多大的矩形,显卡把渲染出的点阵图发给显示器。之前 AI 相关的研究都是在并行超算上做的。而概念上的并行计算,reduce 和 scan 操作都是由 60 年代的 APL 产生的。有 3D 渲染的需求以后发展出 shader (在单个 GPU 核心上运行的程序),PC 显卡才开始有用于通用并行计算的能力,通过 OpenCL 或 CUDA 这样的编程界面向并行超算上的向量计算靠拢,正好因为游戏图形对浮点精度要求不高,和人工神经网络对上了。而类似 Shader 概念的 MIMD 并行计算指令集在 80 年代的 Connection Machine 2 也就有了 (Paris)
显存不够, 模型加载和传输就会成问题, 一旦爆显存, AI模型就会卡住, 而不仅仅是掉性能的问题。
显卡的显存(或者现在流行高速内存和显存一体化)的大小和显卡性能一样重要。
「仅有一个功能」和「大模型」本身就是矛盾的,所谓大模型除了大,还有一个称呼叫「基础模型」,也就是面向通用任务设计,然后针对具体用途再做tuning。专门针对某个语言做一个模型,意味着要有专门的语料集合和专门的训练过程,要满足这个要求可能也不会小多少,反而一点不经济。
但编程本身是一个复杂的开放问题,并不只是语法。理论上所的有知识,所有的代码,都对生成一段代码有帮助。
Github 的Copilot 一开始是用专门的代码大模型(主要用代码在基座模型上训练)跑的,后面GPT3.5Turbo和GPT4 出来后,通用模型的编程能力就超过了专用的代码模型。Copilot也切换到了通用模型。
大模型本身的神奇之处就是在于,几乎所有的任务(文本类),都比原本为这个任务专门训练的模型效果好。这也证明了知识之间的关联和可迁移,也是上面LdBeth引用的那篇1997年的论文的伟大之处。
我认为这个论断是错误的。只要证明存在两种知识(知识A和知识B)是完全正交的,没有关联的,那就可以证明你说的这个论断是错误的。
大模型本身的神奇之处就是在于,几乎所有的任务(文本类),都比原本为这个任务专门训练的模型效果好。这也证明了知识之间的关联和可迁移,也是上面LdBeth引用的那篇1997年的论文的伟大之处。
这只能证明这些任务相关的知识是存在关联,以及可以迁移。
只要证明存在两种知识(知识A和知识B)是完全正交的,没有关联的
这段话 ill-defined 的地方太多了……如果我理解得没错,你想要的证明并不存在。原子命题相互独立并不成立,而且任何实在的事实本质上都是复合的,没有完全“正交”的"知识矢量"。
你仔细看一下这个论断,用的是全称量词 ∀ (forall)
原子命题相互独立并不成立,而且任何实在的事实本质上都是复合的,没有完全“正交”的"知识矢量"。
我认为你这里说的是一个假设(Assumption)。而不是不言自明的公理(Axiom)。
理论上 找到两个整数,使得他们的立方和能写成一个整数的立方,费马大定律就证否了
整数有无穷个,想必总能找到反例八
实际嘛……
只是关于两个整数的简单性质,就已经不能想当然觉得有反例了
更何况是关于自然语言元性质的道理