Stable Diffusion 数据集提供商开源类 ChatGPT 项目
这几天 AI 领域热度不减、新闻层出不穷 —— Google 公布了 Bard、微软将 AI 集成进必应搜索和 Edge 浏览器、百度也公布类 ChatGPT 项目文心一言,近日 LAION 也开源了一个类 ChatGPT 项目 —— Open Assistant。
LAION 是一个德国非营利组织,这个名字你可能不太熟悉,但 Stable Diffusion 和 Imagen 这两个知名的「文本转图像」模型所使用的训练数据集就来自于 LAION,而该组织的目标就是「向公众提供大规模机器学习模型、数据集和相关代码」。
LAION 开发的类 ChatGPT 项目名为 Open-Assistant,这是一个 AI 聊天机器人项目,能够理解自然语言问题,可以与第三方系统交互并动态检索相关信息。该项目代码是用 Python 编写的,并在 Apache 2.0 许可下发布。
官方在项目愿景中写道:
我们不会止步于复制 ChatGPT。我们希望建立未来的助手,不仅能够写电子邮件和求职信,而且能够做有意义的工作,使用 API、动态研究信息等,并能够由任何人进行个性化定制和扩展。我们希望以一种开放和可访问的方式做到这一点,这意味着我们不仅要建立一个伟大的 AI 助手,而且要使它足够小和高效,能够在消费者硬件上运行。
正如开源项目 Stable Diffusion 的诞生,催生出了一大批文本转图像工具,预计 Open-Assistant 也同样会影响内容生成和自然语言查询的发展。
Open-Assistant 目前还处于研发的初期阶段,将会使用一个公开的语言模型和大量的数据集进行训练(训练数据也会公开),并正在参照现有研究将 RLHF 应用在大型语言模型中。
在未来,为了提高系统的效率,避免必须存储数十亿的预定义参数,该项目将使用一个动态更新的知识库,能够通过搜索引擎检索所需的信息。该项目还将提供工具,允许不受限制地使用准备好的模型,根据自己的喜好进行开发,并在其基础上创建应用程序和服务。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Blender 将代码托管平台迁移到 Gitea
Blender 开发团队宣布已完成将代码托管平台从 Phabricator 迁移到 Gitea 的工作。 Blender 代码仓库地址:https://projects.blender.org/blender Phabricator 最初是 Facebook 内部使用的开发工具,核心开发者是 Evan Priestley,他在离开 Facebook 后,在名为 Phacility 的新公司继续 Phabricator 的开发。2021年5月29日,Phacility 宣布其将停止运营并不再继续维护 Phabricator。 在Phabricator 宣布停止开发后,Blender 团队便开始寻找替代方案,最后他们选择了 Gitea,任务是将 Blender 整整 20 年的开发历史迁移到这个新的基于 Git 的代码托管平台。 团队介绍道,projects.blender.org是集错误报告、任务管理和代码 review 一体的新平台: 错误报告和设计任务已迁移至 projects.blender.org,其中包括任务状态、优先级、标签和订阅者。 用户帐户已迁移至 Blender ID。...
- 下一篇
华为云MRS支持lakeformation能力,打造一站式湖仓,释放数据价值
摘要:对云端用户而言,业务价值发现是最重要的,华为MRS支持LakeFormation后,成功降低了数据应用的成本,帮助客户落地“存”与“算”的管理,加快推进了数智融合进程,更大程度地释放业务数据价值。 本文分享自华为云社区《华为云MRS支持lakeformation能力,打造一站式湖仓,释放数据价值》,作者:breakDawn。 1 背景 1.1 数仓和数据湖的概念 数据分析技术在2010~2019年间,以湖仓两层架构技术作为主流被各数据厂商所应用,即大数据数仓+数据湖的技术形式。 大数据数仓:出现最早,也最完备,从单机向分布式、智能化发展。例如 Hive、华为DWS等 数据湖:狭义上的湖主要是云厂商参与,以统一的对象存储底座结合云平台水平扩展的计算资源,让分析以数据为本、让业务快起来。 1.2 传统湖仓技术的挑战 以上技术在多年的实践中,逐步衍生出了以下的一些挑战: 随着数据和AI业务持续创新,跨集群、跨服务的数据分析成为普遍需求。然而各集群、各服务各自持有元数据,难共享,难维持一致,需要元数据ETL操作才能共享。 数据湖、数仓、AI数据化,导致数据虽然可以统一存储在OBS孤岛,但...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS7安装Docker,走上虚拟化容器引擎之路
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS7设置SWAP分区,小内存服务器的救世主
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Hadoop3单机部署,实现最简伪集群
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- SpringBoot2配置默认Tomcat设置,开启更多高级功能