万字长文细说端侧大模型进展(综述)
1.简介 =======
- 基础与准备工作 ============
- Meta的 LLaMA 系列
- 微软的 Phi 系列
- 智谱的 ChatGLM 系列
- 阿里巴巴的 Qwen 系列
- 01万物的 Yi 系列
- Mistral 系列
- 上海AI lab的InternLM 系列
- Nexa AI 的 Octopus 系列
- 面壁智能的 MiniCPM 系列
- Google的 Gemma 系列
- Apple的 OpenELM 和 DataComp-LM
- AI2的OLMo
- 传统文本大型语言模型:从Transformer架构发展而来,最初由编码器和解码器组成。如今,流行的模型如GPT和LLaMA主要使用仅解码器架构。GPT模型在自注意力机制后应用层归一化,而LLaMA在每个子层前应用归一化以提高训练稳定性。在注意力机制方面,GPT模型使用标准自注意力机制,允许模型在生成序列时考虑输入序列中所有位置的信息,而LLaMA使用分组查询注意力(GQA),优化计算和内存效率。混合专家(MoE)概念最早于1991年提出,在现代语言模型预训练中关键。MoE使用稀疏层减少计算资源,包含多个独立的“专家”网络和一个门控网络,以确定token的路由。
- 多模态大型语言模型:依托Transformer强大的学习能力,这些模型可以同时处理文本、图像、声音等多种模态。。其内部运作机制如下: A) 使用标准交叉注意力层在模型内部层对多模态输入进行深度融合(如MultiModal-GPT) B) 使用定制设计的层在模型内部层对多模态输入进行深度融合(LLaMA-Adapter,MoE-LLaVa) C) 在模型输入阶段对多模态输入进行早期融合,使用特定模态的编码器(LLaVa,Qwen-VL) D) 在输入阶段进行早期融合,但使用tokenization技术(如分词器)处理不同模态。
- 量化感知缩放:通过自动缩放不同位精度张量的梯度来稳定训练过程,解决量化图中不同位宽张量梯度尺度不一致的问题,使量化模型的训练精度与浮点模型相当。
- 稀疏更新:选择性地更新网络中部分层的权重,跳过不太重要的层和子张量的梯度计算,从而减少内存使用和计算成本。
- 微型训练引擎(TTE):包括反向图中的冗余节点,如冻结权重的梯度节点,并重新排序操作以实现原位更新 。
- 贡献分析:自动确定稀疏更新方案,即确定哪些参数(权重/偏置)对下游精度贡献最大,以便在有限内存预算下选择应更新哪些层或张量部分。
- 延迟:是指从用户输入请求到系统开始响应所需的时间。通常使用TTFT(首次生成token时间)来衡量。延迟越低,用户体验越流畅。
- 推理速度:指模型基于已生成的所有token来预测下一个token的速度。由于每个新token都依赖于先前生成的token,因此推理速度对于用户对话的流畅性至关重要。
- 内存使用:使用的RAM/VRAM大小也是语言模型运行的性能指标之一。由于语言模型的运行机制,它们在推理过程中会根据模型参数的大小消耗相应的RAM。例如,在个人办公笔记本电脑上部署70B参数的模型是不切实际的。对于内存有限的设备,工程师需采用模型压缩技术来减少内存占用。
- 存储和能耗:模型占用的存储空间和推理过程中能耗对边缘设备尤为重要。在大多数情况下,大型语言模型推理会使处理器处于满负荷工作状态。如果运行时间过长,将严重消耗移动设备的电池。推理过程中的高能耗可能影响设备的电池寿命。 例如,一个7B参数模型推理每个token将消耗约0.7J。对于电池容量约为50kJ的iPhone来说,这意味着与模型的对话最多只能持续两个小时。 此外,模型推理引起的设备发热也是需要解决的问题。
- 高效的端侧大模型架构
- 参数共享:在模型不同部分复用权重,减少总参数数量。
- 模块化架构:将大语言模型拆分成可独立或并行处理的较小组件。
- 紧凑表示:通过量化和权重剪枝等技术减少内存占用。
- Aquabolt-XL和LPDDR-PIM: 这些PIM设备在内存核心中嵌入逻辑,提高内部内存带宽并支持高性能计算任务,包括大语言模型加速。
- AXDIMM和CXL-PNM: 这些PNM解决方案将计算逻辑放置在内存核心附近,增强内存带宽和容量。CXL-PNM将计算逻辑集成到CXL内存控制器中,显著提高内存容量和性能。
- 端侧大模型压缩和优化 ==============
- 训练后量化(PTQ): PTQ在模型训练后应用,无需重新训练,因此比量化感知训练 (QAT) 更快,资源消耗更少。有几种值得注意的PTQ方法。
- (a) 仅权重量化 :在仅权重量化中,只对神经网络的权重进行量化。这种方法简化了量化过程,当激活值范围变化不大或计算资源严重受限时特别有效。
- (b) 权重-激活联合量化 :权重和激活值都进行量化,进一步降低计算复杂度。由于高效的矩阵乘法,这种方法在硬件实现中具有优势,对神经计算至关重要。BitNet b1.58对每个参数使用三元量化(-1、0、1),显著改善了延迟、内存、吞吐量和能耗指标。
-
- GPTQ:GPTQ利用二阶信息进行误差补偿,有效地将每个权重的位宽降至3或4位。该方法保持了高准确性,困惑度仅略微增加,使OPT-175B等语言模型能够在单个高端GPU上运行。
- 激活感知权重量化 (AWQ):AWQ基于观察到一小部分(0.1%-1%)权重对大语言模型的性能至关重要。通过有选择地跳过对这些关键权重的量化,AWQ显著减少了量化损失。
- 量化感知训练(QAT) :QAT将量化直接纳入训练过程,使模型能够本质上适应降低精度的约束。这种集成通常会在量化后产生更高的准确性,因为模型在训练阶段主动学习补偿潜在的量化误差。
- 结构化剪枝 :移除整个参数子集,如层、通道或滤波器,由于更规则的内存访问模式和简化的计算,有利于硬件优化。"LLM-Pruner"采用结构化剪枝,基于梯度数据消除非必要groups,从而保持关键功能。它还通过LoRA等技术促进性能恢复,允许以最少的数据进行高效恢复。
- 非结构化剪枝 :移除模型中的单个权重,提供更细粒度的控制和更高压缩率。然而,这种方法通常会导致稀疏矩阵 ,可能与传统硬件架构不太兼容,影响计算效率。它最适合需要最大压缩而不受结构保留约束的情况。
- 上下文剪枝 :根据模型的操作上下文进行剪枝,仅保留特定条件下或特定任务中相关的权重或神经元。上下文剪枝确保减少与模型操作需求动态一致,从而在最重要的地方保持性能。
- 黑盒知识蒸馏 :学生模型仅从教师模型的输出中学习 ,而不访问其内部机制或参数。当教师模型的细节是专有的或当教师和学生模型的架构显著不同时,此方法尤为有用。例如,Gu等人(2023)证明,黑盒KD可以有效地仅使用ChatGPT等LLM API的输出数据来训练模型。学生模型训练以模仿教师的输出分布,基于输入-输出对,这个过程虽然有效,但将学习限制在外部行为上,而不能深入教师的内部状态。
- 白盒知识蒸馏 :相比之下,白盒知识蒸馏允许学生模型访问教师的内部状态和工作原理,促进更深入、更精确的学习过程。这种方法使学生不仅能够模仿输出,还包括教师的内部状态分布,提高学习效果和深度。对教师详细工作的增加访问有助于指导学生的学习,产生更准确和健壮的模型。然而,这种技术需要谨慎地对齐模型架构以确保有效的知识转移,实现通常更为复杂。
- 硬件加速和部署策略 =============
- 仅边缘(a) Llama.cpp(b) MNN(c) PowerInfer(d) ExecuTorch(e) MediaPipe
- 描述:由Google开发的MediaPipe是一个用于构建和部署涉及视频、音频和其他时间序列数据的多模态机器学习管道的框架。
- 训练:没有内置的训练功能。
- 推理:支持包括Android、iOS、macOS、Windows和Linux在内的多个平台,利用CPU和GPU资源。
- 描述:ExecuTorch是PyTorch Edge生态系统的一部分,适用于在移动设备和可穿戴设备上高效部署PyTorch模型。
- 训练:没有内置的训练功能。
- 推理:利用包括CPU、NPU和DSP在内的全部硬件功能,适用于各种计算平台。
- 描述:PowerInfer和PowerInfer2是一个高速推理引擎,针对在配备消费级GPU的PC上部署大语言模型进行了优化,采用以局部性为中心的设计。
- 训练:没有内置的训练功能。
- 推理:支持包括x86-64 CPU和Apple M芯片在内的各种计算平台,针对Windows和Linux进行了优化。
- 描述:MNN利用移动神经网络技术进行高效推理,优化了具有动态输入和多模态交互的移动设备。
- 训练:支持设备上的全尺寸微调和LORA微调。
- 推理:支持ONNX和MNN格式的模型部署,适用于CPU、CUDA和OpenCL等多种后端。
- 描述:这是一个C/C++库,专为在多种硬件平台上高效推理大语言模型而设计,支持整数量化、GPU加速和CPU+GPU混合推理。
- 训练:支持设备上的LORA适配器微调。
- 推理:支持跨ARM和x86架构的CPU和CPU+GPU混合推理。
-
- 边缘-云(a) MLC-LLM(b) VLLM(c) OpenLLM by BentoML
- 描述:OpenLLM使各种开源大语言模型能够部署为与OpenAI兼容的API端点,针对高吞吐量和精简云部署进行了优化。
- 训练:没有内置的训练功能。
- 推理:兼容各种模型架构和后端实现,适用于生产环境中的高效部署。
- 描述:针对边缘-云环境进行了优化,支持高级量化方法,以在推理过程中高效管理key和value。
- 训练:没有内置的训练功能。
- 推理:支持多个GPU平台,并集成Vulkan、CUDA、Metal和WebGPU技术。
- 描述:是一个机器学习编译器和高性能部署引擎,支持在边缘设备和云环境中部署大语言模型。
- 训练:没有内置的训练功能。
- 推理:支持ARM和x86架构的CPU和GPU上的推理。
-
- GPU :凭借其大规模并行能力和高内存带宽,GPU已成为训练和加速大型语言模型的标准。NVIDIA的Tensor Cores在Volta架构中引入,并在后续几代中改进,为混合精度矩阵乘加运算提供了专门的硬件支持,这对基于Transformer的模型至关重要。最近的进展,如NVIDIA的A100 GPU,配备80GB HBM2e内存,使得在单个设备上训练具有数十亿参数的模型成为可能。框架如Megatron-LM中实现的张量并行和流水线并行等技术,允许大语言模型在多个GPU上高效扩展。使用混合精度训练,特别是FP16和BF16格式,显著减少了内存占用,并增加了现代GPU上的计算吞吐量。
- NPU :神经处理单元(NPU),也称为AI加速器,是专为机器学习工作负载设计的专用芯片。Google的张量处理单元(TPU)是一个突出的例子,最新的v4版本每个芯片提供275 TFLOPS的BF16性能。TPU利用脉动阵列架构进行高效的矩阵乘法,特别适合大语言模型中的Transformer层。TPU Pod配置允许扩展到数千个芯片,使得训练如GPT-3和PaLM等大规模模型成为可能。其他NPU,如华为的昇腾AI处理器和Apple的Neural Engine,也通过量化和剪枝等技术为较小的大语言模型的设备端推理提供加速。
- FPGA :现场可编程门阵列(FPGA)为加速大语言模型提供了灵活的硬件平台,尤其是在推理方面。最近的研究展示了在FPGA上高效实现Transformer层,利用稀疏矩阵乘法和量化等技术。例如,微软的Project Brainwave使用Intel Stratix 10 FPGA加速BERT推理, 实现了低延迟和高吞吐量。FPGA在能效方面表现出色,可以针对特定模型架构进行优化,使其适合较小大语言模型的边缘部署。然而,与GPU和ASIC相比,FPGA的计算密度较低,限制了其在训练大规模模型方面的应用。
- 应用实例 ========
- Gemini Nano : 该模型由Google提供,作为移动操作系统的系统功能开放给应用程序,类似于位置或通知服务。用户可通过Google AI Edge SDK访问AI核心,内部提供Gemini Nano模型。相比在云端运行的其他Gemini模型,该模型更小但速度更快,推理延迟更低。AI核心负责模型分发以优化内存管理,并利用设备硬件加速推理。Gemini Nano通过从更大的Gemini模型蒸馏而来,采用4位量化,提供最佳性能。
- Nexa AI Octopus系列模型: 这是一个在边缘设备上运行的20亿参数模型,在精度和延迟上超越了GPT-4,并将上下文长度减少了95%。通过标记化核心函数名并使用函数token微调,该模型可理解软件应用程序功能,并将函数描述映射到特定token。Octopus模型在移动设备上展示了快速响应时间,即使在标准Android手机上,对于典型的20到30个token的查询,也能在1.1到1.7秒内完成函数调用。
- 苹果OpenELM和Ferret-v2 : 苹果开发的OpenELM是集成在iOS系统中的大型语言模型,用于增强应用功能,类似于位置跟踪等系统服务。OpenELM采用分层缩放架构,拥有11亿参数,与先前模型相比,其准确率提高了2.36%,只需一半的预训练标记。它与MLX库兼容,便于在苹果设备上直接微调。Ferret-v2显著升级,整合任意分辨率定位、多粒度视觉编码和复杂三阶段训练方案等功能,提升了高分辨率图像处理和视觉理解能力,从而为iOS用户确保了强大的设备端功能。
- 微软Phi系列 : 微软的Phi-3-mini是一个紧凑而强大的38亿参数模型,训练于3.3万亿标记数据集。尽管规模小,Phi-3-mini在性能上可与Mixtral 8x7B和GPT-3.5相媲美,在MMLU上达到69%,在MT-bench上得分8.38。Phi-3-small和Phi-3-medium规模更大,在4.8万亿标记上训练,分别拥有70亿和140亿参数,表现更优(MMLU分别为75%和78%,MT-bench得分分别为8.7和8.9)。Phi-3-vision基于Phi-3-mini衍生,拥有42亿参数,专为增强图像和文本提示的推理能力设计。
- MiniCPM : MiniCPM-Llama3-V 2.5是开源MiniCPM-V系列的最新成员,由清华大学和ModelBest合作开发,拥有85亿参数。在Open-Compass评估平台上,该模型在11个多模态基准测试中平均得分65.1,超过了GPT-4V-1106(63.5分)、Gemini Pro(62.9分)、Claude 3和Qwen-VL-Max等领先模型。在OCR和场景文本理解的特定评估中,MiniCPM-Llama3-V 2.5表现优异,OCRBench得分超过700,超越了GPT-4和Gemini Pro。在TextVQA和DocVQA基准测试中,分别达到76.6%和84.8%的准确率。
- Gemma2-9B : Google的Gemma系列是轻量级、先进的开放模型。Gemma2版本有9B和27B两种规格,9B版本使用8TB的网络数据、代码和数学数据训练。其创新的注意力机制包括滑动窗口和全局注意力层,并使用知识蒸馏和模型合并技术。Gemma2-9B在推理、数学和编码等领域表现优异,超越了同类规模的Llama 3-8B等开放模型,并与HuggingFace、Keras 3.0、vLLM、Gemma.cpp和Llama.cpp等主要AI框架兼容。
- Qwen2-0.5B : 阿里云推出了Qwen2系列,其中Qwen2-0.5B为参数量最小的版本,具有32K的上下文长度。在多项测试中,该模型表现与Gemma-2B和Phi-2相当,但参数量更小,未来有望在智能家居中发挥重要作用。针对短上下文长度的问题,Qwen-Agent框架采用Agentic RAG思想,可将处理上下文扩展到1M,实现长文本理解。
- 消息文本生成 :过去,基于云端LLM的快速回复功能受限于生成速度和网络延迟 。借助设备端LLM,Google的键盘应用Gboard可以使用Google的设备端LLM Gemini Nano。当检测到用户正在在线聊天时,Gemini Nano可以根据聊天内容快速生成符合对话语境的快速回复供用户选择,从而提升即时聊天效率。
- 翻译 :LLM在语言翻译领域得到广泛应用。这种方法可以使用特定领域适用的术语和风格进行翻译,这是传统机器翻译方法无法实现的。然而,云端LLM仍面临响应速度慢和需要上传信息等问题。设备端LLM更好地解决了这些问题,参数更小、响应更快,还可以在离线环境中运行。这也为许多场景提供了数据安全保障。在翻译质量方面,使用小型模型并不会显著降低翻译准确性。T5-small模型的token生成精度仅比T5语言模型低4%。此外,更快的响应速度意味着设备端模型将更适合同声传译等需要即时翻译的场景。
- 会议总结 :亚马逊发布的基于云的解决方案Distill-CLI使用Anthropic的Claude 3 Sonnet模型和亚马逊Transcribe技术生成实时会议摘要。类似的应用还有使用GPT-4o模型的Plaud Note、Zoom-IQ等。然而,使用云端模型的缺点是会产生订阅服务费用,以及网络连接导致的延迟问题。采用设备端模型可以使数据保持本地化,无需上传到云端服务器。
- 医疗应用 :当前的医疗模型,如Med-Palm Multimodal可以结合并分析患者陈述、电子病历信息、X光和其他医学图像,生成高准确度的回复。边缘部署可以帮助患者离线回答问题,从而确保模型在紧急情况下的可用性,并保持患者病情的本地化。令人兴奋的是,基于预训练模型在专业医疗领域微调的模型已经出现,如BioMistral-7B、HuatuoGPT-7B-II等。这些低参数模型有望部署在终端设备上。
- 科研支持 :传统的研究支持LLM如GatorTronGPT使用大量特定专业数据进行训练。这使它们能够生成高质量的专业文本,从而加速科学研究的进展,尤其是在数据稀缺或敏感的研究领域。改用设备端LLM后,可以降低使用语言模型辅助科研任务的硬件成本,获得更快的响应,并保护科研信息的机密性。
- 陪伴机器人 :已经有一些研究案例使用语言模型增强机器人或物联网(IoT)设备的能力。LLM强大的规划和推理能力可以将人类指令分解为一系列子任务,使机器人更好地理解自然语言指令。例如,基于OpenAI多模态语言模型的Figure 01机器人 可以与人深入交流,并根据对话内容独立决策和行动。随着小型模型的兴起,部署设备端语言模型的机器人在响应生成速度方面可以超越传统的基于云端模型的机器人。同时,客户端模型可以确保机器人在离线状态下仍能保持智能能力。
- 残障支持 :对于视障用户来说,将图像转换为文本是一项非常基本和重要的功能。目前,许多设备端大型多模态模型,如Octopus v3、MiniCPM-Llama3-V 2.5等, 可以通过多模态能力实现这一功能。借助这些模型,盲人也可以轻松了解对话中的图片和视频信息。Google即将推出基于Gemini Nano的Talkback功能,帮助盲人或视力低下的人更丰富、清晰地介绍图像中的内容。由于Gemini Nano是部署在边缘的模型,这些图像的描述结果将快速出现,即使在没有网络连接的情况下也能工作。类似的能力也可用于手语识别 ,已有项目使用ChatGPT模型进行手语翻译。相比之下,设备端模型可以以更低的延迟生成对应手语的文本翻译,并确保其离线可用性。
- 车辆自动驾驶 :使用语言模型驱动汽车自动驾驶可能是一个理想的未来,且现在已经有了范例。DriveVLM Dual是一个将自动驾驶技术与大规模视觉语言模型(VLM)相结合的系统,旨在提高对城市环境中复杂和长尾场景的理解。该系统使用语言描述驾驶环境并识别场景中的关键对象。它从元动作和决策描述逐步发展到路径点,制定计划。DriveVLM在公共基准测试和研究人员自己的基准测试上都超越了现有的最先进方法,特别是在处理复杂和动态场景方面。更令人兴奋的是,DriveVLM可以在车辆本地部署,这也为其即时响应提供了便利。
- 未来方向和挑战
- 开发高效的隐私技术,包括查询混淆、提示调优和高级随机化技术,在数据安全保证与模型效用和计算约束之间取得平衡。
- 加强风险评估和监控,通过创建复杂的基准测试系统,实施实时监控,以及设计系统来检测和缓解推理过程中潜在的个人身份信息泄露。
- 优化模型架构和通信策略,重点关注高效的模型分片、增强安全性的架构,以及最小化数据传输。
- 解决协作和分布式学习场景中的安全挑战,通过安全多方计算、长对话的数据保护,以及扩展PFID等框架以支持更广泛的LLM架构和任务。
- 发明先进的缓存和请求分析技术,包括复杂的向量数据库缓存策略、多样化LLM请求的特征提取模型,以及不确定性引导的token采样方法,以优化边缘设备和云服务器之间的数据传输。
- 设计智能调度和资源分配算法,包括个性化推理调度、异构基础设施的自适应资源分配,以及批量大小感知的优化技术,以有效地在边缘-云环境中分配LLM组件和工作负载。
- 创建高效的知识转移和模型压缩方法,如多模态LLM的基于适配器的知识蒸馏、各种LLM架构的动态量化技术,以及自适应权重更新压缩策略,以实现在资源受限设备上有效部署语言模型。
- 通过开发token级协作的自适应控制机制、实时决策的高效约束满足算法,以及创新技术来减少延迟并提高混合边缘-云系统中的pipeline执行效率,从而改进协作系统的性能优化。
- 开发高效的多模态处理和压缩技术,包括先进的不确定性引导的token采样方法、用于云到设备模型更新的动态权重更新压缩策略,以及创新方法来高效结合音频、文本和视频等多种模态用于设备上的模型。
- 增强知识迁移和适应能力,如探索adapter-based的高级知识蒸馏方法,将知识从较大的云端模型转移到较小的设备上模型,提高跨模态的少样本和零样本能力,并研究结合生成和检索方法的混合方法用于多模态内容生成。
- 扩展模态支持并改进多模态理解,通过开发非图像模态的大规模数据集,设计新的编码器用于高分辨率图像、长视频序列和复杂音频输入的细粒度多模态理解,并纳入对网页、3D视觉、热图和表格/图形等额外模态和任务的支持。
- 提升时间和上下文处理能力,通过研究更长的上下文窗口来纳入先前交互的特征,开发复杂的技术来处理和理解跨模态的时间和序列信息,并探索在与虚拟助手交互时有用的任务,如音频字幕和声学场景分类。
- 创建高效的模型压缩和执行算法: 为LLM开发先进的剪枝、量化和知识蒸馏技术。探索优化大于内存模型执行的方法。研究动态和自适应推理技术,根据输入和可用资源调整模型复杂度。
- 利用模型稀疏性: 研究利用语言模型运行时激活稀疏性的技术,其中只有模型的一小部分为给定任务激活。这可能会显著减少推理时间和内存占用,从而实现更高效的模型规模扩展。
- 开发能源感知的训练和部署策略,包括节能算法和运行时优化。探索自适应的参数高效微调方法,在边缘设备上平衡安全性、能源效率和性能。
- 推进各种内存类型的PIM/PNM架构,包括基于CXL系统的优化和边缘设备的低功耗解决方案。
- 开发硬件感知优化技术,如剪枝感知量化、上下文稀疏性利用和动态稀疏注意力优化。
- 增强AI专用编译器和运行时系统,以自动识别和优化PIM/PNM硬件的操作,同时考虑图级和硬件特定优化。
- 设计高效的边缘计算和多设备系统策略,包括动态稀疏树优化、自适应位宽技术和能源感知的协同设计方法。
- 研究检测和缓解设备上LLM输出中潜在偏见和幻觉的方法,特别是在安全关键应用中。
- 探索用于评估设备上语言模型在真实场景中可靠性的形式化验证和验证框架。
- 利用集成方法减少方差和偏差。探索概率推理方法来量化和传播LLM管道中的不确定性。
- 开发动态资源分配和负载平衡技术,用于异构边缘设备上的分布式LLM推理。
- 研究优化策略,以减少协作边缘计算场景中的延迟并提高吞吐量,可能利用模型分片和流水线推理等技术。
- 探索高效管理和更新不同边缘设备上多个LLM版本的方法,考虑网络限制和设备能力等因素。构建网络基础设施以提高模型和数据集的可重用性和可重复性。
- 实施可控的知识保留和遗忘,例如在模型遇到新数据流时有选择地保留或遗忘信息。这对管理错误信息和确保持续准确性至关重要。增强模型基于用户交互和本地数据自主学习新技能和改进现有能力的能力。开发有效的历史跟踪机制,以了解LLM通过各种学习阶段的演变。
- 推进理论基础和实际优化,为理解和预测设备上持续学习LLM的行为开发稳健的理论基础。这还包括进行大规模用户研究以完善个性化框架,并确定跨不同用户群体和场景的有效服务交付,以及改进关键生成和检索过程,以更好地表示向量空间中的任务分布。
- 开发高效的持续学习机制,包括复杂的数据混合策略和高效的重放样本选择。这包括探索可控的内存系统和设计自适应微调机制以实现持续模型适应。
- 总结 ======

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
InnerSource 在中国的过去、现在和未来:直播回顾
InnerSource 在中国的过去、现在和未来:直播回顾 在数字化转型浪潮席卷全球的今天,软件研发模式正经历深刻变革。3 月 24 日晚,开源中国 OSCHINA【数智漫谈】直播栏目邀请到了 COPU 常务副秘书长、中国内源布道者谭中意,与开源中国主编肖滢一起,为我们深入解读了 InnerSource(内源)在中国的发展历程、现状以及未来展望,为企业技术组织提供了从理念启蒙到落地实践的完整认知地图。 一、活动主题与背景 本次直播以 “InnerSource 在中国的过去、现在和未来” 为主题,旨在探讨如何通过内源实践重构技术组织的生产力关系,提升研发效能,助力企业构建符合数字经济时代特征的研发协作新范式。 二、活动时间与平台 活动于 3 月 24 日 19:00-20:30 在 “OSC 开源社区” 视频号、“开源老 DJ” 视频号同步直播。 三、嘉宾介绍 谭中意,COPU 常务副秘书长,被誉为 “中国内源布道者”,在开源领域有着二十多年的丰富经验,曾一手推动百度内源的发展,并在国内外内源社区中极为活跃,是国际内源基金会(InnerSource Commons Foundation)...
- 下一篇
为什么 Apache Doris 是比 Elasticsearch 更好的实时分析替代方案?
Elasticsearch 是一款开源的分布式检索引擎,广泛应用于日志分析、全文搜索和数据监控等领域。凭借其强大的实时搜索能力和灵活的查询语言,在市场上获得了广泛认可。然而,在过去两年,我们注意到一个趋势,很多 Elasticsearch 用户倾向于采用 Apache Doris 替代 Elasticsearch。 尽管 Apache Doris 和 Elasticsearch 在表面上看似不同,但它们的应用场景却有很大的重叠。例如,Apache Doris 适用于在线高并发报表、用户画像、湖仓一体、日志与可观测性、安全分析等领域;Elasticsearch 作为一个搜索引擎在日志与可观测性等分析场景也被广泛使用。 本文将从技术选型的视角,全方位深度解析 Apache Doris 与 Elasticsearch 的差异,包括以下几点: 开源开放:开源和开放的程度决定了用户是否会被供应商锁定。 系统架构:系统架构决定了系统的部署模式和依赖的软硬要求。 实时写入:系统部署好之后,用户首要关注的是数据写入的方式及其效率。 实时存储:数据写入后采用何种数据模型存储,以及存储成本的考量至关重要。...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Mario游戏-低调大师作品
- CentOS8编译安装MySQL8.0.19
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS6,7,8上安装Nginx,支持https2.0的开启