LLMs 最被低估的用途
reddit上的一个讨论,什么是LLMs一些最被低估的用途?
来源:https://weibo.com/2194035935/ODa6MhSSn?pagetype=profilefeed
—— 蚁工厂,互联网科技博主

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
关于算法的理论和实践的gap
关于算法的理论和实践的gap,一直是算法研究中常被提及的话题。大部分人,包括不少本身研究算法理论的研究人员,认为算法理论确实没有很好的发挥其本应该有的功能。我自己理解主要应该有解释功能(解释问题难度和算法行为)和引导功能(引导实践算法设计)。 从解释功能讲,NP复杂性理论指出很多问题是难的(假设P!=NP),而且有许多悲观结论,典型的一个就是SAT(布尔可满足性问题,第一个被证明的NP完全问题)的强指数时间假设,而且目前SAT问题依然没有突破最平凡的界2^n. 再比如,最大团问题不存在有意义的近似算法。。。 但现实中,SAT求解器可以解决许多工业几十万甚至百万变量级别的SAT实例,最大团问题也没见过难到无法找到一定质量近似解的程度。(NP复杂性理论说明理论上存在很难的实例,但是没法构造出实例。现实中可能不会遇到“那么难”的实例。) 再从引导功能或说使用功能讲,算法理论中一个最出名的范式就是近似算法。不过那么多年过去,真的有什么近似算法在实践中发挥重要作用吗?应该说如果有,也是极其罕见的。随机算法,实践中的随机算法似乎也很少经典的理论算法那些idea。非要说,random walk算一个...
- 下一篇
怎样在 10k 个 H100 GPU 上训练模型?
编者按: 怎样在 10,000 个 H100 GPU 上训练大模型?如何充分利用每一块 GPU 的算力?如何在这个复杂的 GPU 网络中高效传递数据?当不可避免的硬件故障发生时,又该如何快速恢复训练进度?我们今天为大家带来的文章中,作者为我们揭示了应对这些挑战的关键策略。 作者 | Soumith Chintala 编译 | 岳扬 我的好友 Francois Fleuret 提出了上述问题。我迅速总结了一些在大规模训练领域中相当普遍的知识,内容分为三部分。 首先,是如何将尽可能大的神经网络和 batch-size 适配到那 10000 张 H100s 上,这个步骤涉及到并行处理和使用节省内存的各种技巧。 其次,是如何在这些 GPU 之间尽可能高效地传递模型状态信息(state)。 最后,是如何在遇到硬件或软件故障时,尽可能迅速地恢复系统。 01 如何将尽可能大的神经网络和 batch-size 适配到那 10000 张 H100s 上 1.1 并行策略 在数据批次(batches)上进行并行处理(数据并行(data parallel)) 在神经网络层上进行并行处理(比如,将一层神经网络...
相关文章
文章评论
共有0条评论来说两句吧...