FauxPilot —— GitHub Copilot 的替代品
这是一个本地托管版本的 GitHub Copilot。它在英伟达的 Triton 推理服务器中使用了 SalesForce CodeGen 模型和 FasterTransformer 后端。
前提条件
- Docker
- docker-compose >= 1.28
- 一台计算能力大于 7.0 的英伟达 GPU,以及足够的 VRAM 来运行你想要的模型
- nvidia-docker
- curl 和 zstd,用于下载和解包模型
Copilot 插件
你可以配置官方 VSCode Copilot 插件来使用你的本地服务器。只要编辑你的 settings.json 来添加。
"github.copilot.advanced": { "debug.overrideEngine": "codegen", "debug.testOverrideProxyUrl": "http://localhost:5000", "debug.overrideProxyUrl": "http://localhost:5000" }
设置
运行设置脚本以选择要使用的模型。 这将从 Huggingface 下载模型,然后将其转换为与 FasterTransformer 一起使用。
$ ./setup.sh Models available: [1] codegen-350M-mono (2GB total VRAM required; Python-only) [2] codegen-350M-multi (2GB total VRAM required; multi-language) [3] codegen-2B-mono (7GB total VRAM required; Python-only) [4] codegen-2B-multi (7GB total VRAM required; multi-language) [5] codegen-6B-mono (13GB total VRAM required; Python-only) [6] codegen-6B-multi (13GB total VRAM required; multi-language) [7] codegen-16B-mono (32GB total VRAM required; Python-only) [8] codegen-16B-multi (32GB total VRAM required; multi-language) Enter your choice [6]: 2 Enter number of GPUs [1]: 1 Where do you want to save the model [/home/moyix/git/fauxpilot/models]? /fastdata/mymodels Downloading and converting the model, this will take a while... Converting model codegen-350M-multi with 1 GPUs Loading CodeGen model Downloading config.json: 100%|██████████| 996/996 [00:00<00:00, 1.25MB/s] Downloading pytorch_model.bin: 100%|██████████| 760M/760M [00:11<00:00, 68.3MB/s] Creating empty GPTJ model Converting... Conversion complete. Saving model to codegen-350M-multi-hf... =============== Argument =============== saved_dir: /models/codegen-350M-multi-1gpu/fastertransformer/1 in_file: codegen-350M-multi-hf trained_gpu_num: 1 infer_gpu_num: 1 processes: 4 weight_data_type: fp32 ======================================== transformer.wte.weight transformer.h.0.ln_1.weight [... more conversion output trimmed ...] transformer.ln_f.weight transformer.ln_f.bias lm_head.weight lm_head.bias Done! Now run ./launch.sh to start the FauxPilot server.

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
每日一博 | Lepton 无损压缩原理及性能分析
作者:vivo 互联网数据库团队- Li Shihai 本文主要介绍无损压缩图片的概要流程和原理,以及Lepton无损压缩在前期调研中发现的问题和解决方案。 一、从一个游戏开始 1.1 游戏找茬 请拿出你的秒表计时,在15秒时间内找出下面图片的差异。 时间到了,你发现两张图片的差异了吗? 二、智者的成长 在上面的游戏中,你可能你并没有发现两张图片间有任何差异,而实际上它们一张是3.7MB的jpg格式的原图,另外一张是大小为485KB的jpg格式压缩图片,只是大小不同。你可能会有些生气,愤愤不平到这是欺骗,然而聪明的你很快在大脑中产生了一连串的疑问,这些问号让你层层揭开游戏的面纱,不在为愚弄而悔恨,反而从新知中获得快乐。 2.1 苏格拉底助产术 上面图片为何变小了呢? 丢失了的信息去哪了呢? 为什么图片质量下降了,我却看不出来呢? 我还能将它变的更小吗? 我能将它还原成原来的大小吗? 为什么要压缩我的图片? 上面图片为何变小了?图片从3.7MB变成485KB是因为我使用了图片查看工具将原图另存成一张新的图片,在另存的过程中,有一个图片质量选择的参数,我选择了质量最低,保存后便生成了一张更...
- 下一篇
性能提升 12 倍,Meta 推出不限定 GPU 的 AI 框架
到目前为止,人工智能推理引擎在很大程度上被束缚在它们所设计的特定硬件上。这样的硬件锁定意味着开发人员将需要为不同的硬件构建特定的软件,并且很可能也会减缓行业整体创新的步伐。 Meta 日前开源了一套新的 Python 框架,名为 AITemplate(AIT)。它彻底改变了上述情况,使开发者可以在不牺牲速度和性能的前提下使用不同厂商的 GPU。 AITemplate 能够提供高速的推理服务,最初将同时支持 Nvidia TensorCore 和 AMD MatrixCore 推理硬件,并且以 Apache 2.0 许可协议开放了 AITemplate 的源代码。 Meta 工程总监 Ajit Mathews 表示:"当前版本的 AIT 主要是支持 Nvidia 和 AMD 的 GPU,但该平台是可扩展的,如果有需要的话,将来还可以支持 Intel 的 GPU。现在我们已经开放了 AIT 的源代码,我们欢迎任何有兴趣的芯片供应商能够为它做出贡献。” 与 PyTorch 中的 Eager 模式相比,Meta 使用 AIT 在 Nvidia A100 AI GPU 上实现了高达 12 倍的性...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8安装Docker,最新的服务器搭配容器使用
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- Hadoop3单机部署,实现最简伪集群
- CentOS7设置SWAP分区,小内存服务器的救世主