不能想当然觉得有反例,也不能想当然觉得没有反例。
只要证明存在两种知识(知识A和知识B)是完全正交的,没有关联的
这句话当然是对的,在向量空间上找到两个完全正交的太容易了,然后你只要想,也可以人为的构造一组语言的 embedding 是正交的。
但是这完全没有任何意义。理论上猴子乱敲打字机也能打出莎士比亚全集,但是这不是一个在现实世界 practical 的东西。
回到你说的,人类目前在 NLP 中进行的实践得到的结论就是通用领域的知识非常重要。只训练一个非常狭小的领域的内容,很难得到很好的效果。
最后再讨论一下你最一开始的议题,其实专有领域的模型是存在的,也确实在某些特定的领域可以和比他尺寸大的模型打一打。只是它没办法做到你所说的那么小,比如 8b 模型在某些场景确实可以和 70b 的模型打一打,但是 8b 模型并没有小到可以在端侧运行,实际上 8b 模型依然需要 40x0 这种桌面级的 gpu 才能够有比较理想的推理速度和长上下文。此外 70b 的模型效果也就一般般吧,效果和千亿级别的 claude,gpt-4o 也还是有一定距离。目前的端侧模型大概都是 2-3b 左右,主要的用途就是做 summary,把用户的需求整理后,简单的(近似于 rule-based 的) 任务自己去处理,复杂的任务发送给更大的模型去做处理。
最后建议你去读一下 scaling law 的文章,都不需要自己读, 让 chatgpt 给你总结就可以了。你大概就知道一个大模型训练工程的“配比” (模型的参数大小,数据的大小)是如何决定的。
我并没有否认这一点,我的观点是数据是可以做裁剪的,并不是越多越好。
我认为端侧推理在不久的将来就可以满足个人使用的专用场景的需求。
关于这个话题, 我能想象到的一种情况是现实中的一些神童, 比如陈景润, 还有北大那个数学天才韦东奕, 还有一些其他领域成功人士, 他们的知识面好像没那么广, 但是对专业领域了解很深入. 他们肯定也有一些通用知识, 但是这部分好像跟普通人差很多, 比如可能生活都不能自理
有啥不可以的?
我理解并非生活不能自理, 而是为了专注不能不付出的代价, 比如某件事情吸引了你的全部精力, 你想花更多时间去深入研究它, 而时间精力都不够用时, 你就会觉得 洗衣服、做饭、洗澡、扫地、拖地…这些事情是没有意义的, 就是浪费生命
有的是像你说的那样, 比如爱因斯坦, 华罗庚, 基本生活能力健全, 有的是基础生活能力有缺失的, 比如可能连洗衣机都不会用, 需要花精力学习而且不容易学会
不会出现。因为这个问题不是需要LLM来解决的。 如果没有理解错的话,题主的需求不是只想生成特定语言的代码,而是需要LLM仅生成正确无误的特定语言代码。 不会出现的原因有两点:
- 特定语言这个定义很模糊,即使不考虑各种dsl和编程语言的特性变迁,也有经典的ts/js问题,这个从需求端就不成立。没有哪个前端工程师会只需要一个能生成js代码,而生成不了ts代码的LLM。
- 即使确实有需求,基于足够强大的基底模型做微调,或干脆工程上准备一套代码执行环境做生成代码的反思才是正解。