开源公告|多模态内容理解算法框架 Lichee 开源
导语
Lichee是一个多模态内容理解算法框架项目,其中包含数据增强、预训练引擎、常见模型以及推理加速等模块。由腾讯看点内容算法研发中心研发。并于2021年在腾讯看点、腾讯视频、内容管线、QQ等业务场景均有落地,并平均减少标注样本量40%+。经过多次实践迭代,可以大幅缩短信息流内容理解需求的研发周期提升人效。此外,为QQ浏览器2021AI算法大赛-多模态视频相似度赛道提供baseline模型及代码。现将Lichee对外开源,为微服务开源社区贡献力量。
主要设计目标
1. 缩短信息流内容理解需求的研发周期
2. 集成AI领域的成熟解决方案
Lichee功能介绍以及适用场景
Lichee主框架采用分层的思想组织模型训练,通过配置文件组合 DATA、Parser、MODEL、Optimizer、Scheduler 等组件,构建具体的训练流程。此外,Lichee还提供了数据清理、推理加速等能力。
Lichee技术特点:
1. 性能优越的预训练引擎
提供了自研中文预训练模型,如LICHEE-NLG-ENGINE、LICHEE-RESNET-ENGINE等,免除训练中文预训练模型必须的大量资源和高质量语料库的限制。LICHEE/ShenZhou预训练模型先后于2021年1月8号和2021年9月19号登顶中文NLP权威榜单CLUE。相关技术创新在NLP顶会ACL 2021发表文章(https://arxiv.org/pdf/2108.00801.pdf)。
2. 基于配置化的模型训练
满足90%+业务场景仅通过配置即可完成模型训练任务。
3. 提供二次开发能力
提供了基于插件的二次开发能力,来满足更复杂的特殊业务场景。
4. 数据增强
为了进一步降低任务样本的数量,提供了数据增强插件,解决脏数据清洗和数据生成等方面的工作。
5. 能力插件
提供了更多的结构化能力插件,如词法分析工具LICHEE-LAC、句子相似度工具LICHEE-SIM、人脸识别工具LICHEE-Face等。
6. 推理加速
集成推理加速的能力,能够降低业务模型的实际部署成本。
Lichee项目规划
1. 扩充各领域的预训练模型
2. 扩充训练加速、推理加速能力
3. 兼容hugging face项目
4. 提升项目的易用性、开放性及效率
Lichee开源地址
https://github.com/Tencent/Lichee

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
.NET 分布式事件总线 Jaina v1.0.0 发布
Jaina .NET 事件总线,简化项目、类库、线程、服务等之间的通信,代码更少,质量更好。 安装 Package Manager Install-Package Jaina .NET CLI dotnet add package Jaina 快速入门 我们在主页上有不少例子,这是让您入门的第一个: 定义事件订阅者ToDoEventSubscriber: // 实现 IEventSubscriber 接口 public class ToDoEventSubscriber : IEventSubscriber { private readonly ILogger<ToDoEventSubscriber> _logger; public ToDoEventSubscriber(ILogger<ToDoEventSubscriber> logger) { _logger = logger; } // 标记 [EventSubscribe(事件 Id)] 特性 [EventSubscribe("ToDo:Create")] public...
- 下一篇
代码混淆保安全「GitHub 热点速览 v.21.43」
作者:HelloGitHub-小鱼干 虽然让代码难以阅读看似是件难以理解的事情,但是混淆后的代码起到了类似加密的作用,而且经过混淆的代码依旧能实现原代码的功能。javascript-obfuscator 是一个 JS 编写的代码混淆工具,能让你的代码在生产环境上更加安全。保证生产环境安全的,还有 Datree,是一个让你拟定配置执行策略,保证错误 K8s 配置不会进入生产环境的项目。 当然本周的项目除了有安全,还有便捷。SmsForwarder 就是一个非常便捷的项目让你不需要多个设备找寻验证码,配置好你的转发规则即可转发验证短信到别的手机或者软件上。还有超方便的下载 Spotify 音乐的 ZSpotify,代替 AWS 的 m3o。 以下内容摘录自微博@HelloGitHub 的 GitHub Trending 及 Hacker News 热帖(简称 HN 热帖),选项标准:新发布 | 实用 | 有趣,根据项目 release 时间分类,发布时间不超过 14 day 的项目会标注 New,无该标志则说明项目 release 超过半月。由于本文篇幅有限,还有部分项目未能在本文展示,望...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- SpringBoot2全家桶,快速入门学习开发网站教程
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- CentOS8编译安装MySQL8.0.19