专访|冯雷:走完“最后一公里”路,去无限接近“终极模型”
当你打开航旅纵横查看年度飞行报告,一年飞行足迹瞬间具象化,屏幕中往返城市相连,数字跃动,勾勒出喜怒哀乐。交织轨迹见证时光,也留存生活鲜活瞬间。
“超越全国用户数 99.99%”“飞行时长 174 小时 56 分钟”……这些数据背后,隐现人工智能时代痛点:如何让数据洪流落地场景又能守护隐私堤坝?
杭州拓数派科技发展有限公司创始人兼CEO冯雷以“平行空间”思维破题,对数据计算、垂类模型与智能体做出了全新的探索——
将原本数据计算系统中杂糅的存储与计算模块分离,打造数据与算力两大彼此独立的“平行空间”。用户初始数据一次进入数据计算系统即实现“隐身”,保证数据安全,“可用不可见,可信计算。”
冯雷以《哈利波特》的魔法列车为喻:“我们要做AI产业的霍格沃茨特快列车。用户数据进入站台的魔法空间后,外界只知道列车到达终点,却永远无法追踪行驶轨迹,这就是数据可用不可见的理念。”
成立于2021年,拓数派是中国极少数全人民币投资的出生即准独角兽企业。创始人冯雷毕业于美国人工智能专业多次排名第一的卡内基梅隆大学,是全球知名开源数据库Greenplum中国的创始人。
说起创业历程,冯雷指尖划过实验室墙上的世界地图,“人工智能当时是一个大有可为的行业,我想跳出既定模式,打造一款立足中国自身、可以比肩美国同行业的大模型数据计算系统。”
于是,一个集结了清华大学、北京大学乃至奥赛奖牌得主的硬核团队在萧山区落地扎根,展开了为期两年的“创作”。用冯雷的话来说,他们在“自废经脉重修内功”——推翻已有的、非常成熟的300万行代码,撰写一套全新的系统——πDataCS。
“之前数据和算力混在一起,无论是运算过程还是输出的结果都很混乱。”冯雷介绍,而拓数派一开始的目标就很明确,“要平行搭建数据空间和计算空间”,让数据一次入库便永不出户,只跑算力不跑数据。
冯雷打了个简单的比方,整个数据空间可以理解成一本加密图书,输入新数据会形成一个新的章节和对应的目录。类似“阅后即焚”的机制,计算空间依据指令接入数据空间后,才有权限访问并进行运算,输出结果后自动断开连接,不留下任何数据痕迹。
就像航旅纵横的年度飞行报告,计算引擎持“一次性密钥”访问用户数据后运算得出最终排行,πDataCS展现的就只有排名信息,而没有获取用户往返目的地、时间、次数等额外信息。
现下,工信部正联合拓数派起草可信数据空间的一系列标准。冯雷十分有信心:“拓数派是国内第一家打造数据+计算平行空间的企业。我们不是追赶者,而是定义者。”
2025年开年,开源大模型DeepSeek的上线不仅带来“智力大爆炸”的变革,也在科创行业投下了一记重磅炸弹。它向世界证明:用极低的成本就可以实现大模型的“平民化”。
一时之间,国内互联网领域BAT三巨头(百度、阿里、腾讯)、华为乃至字节跳动纷纷宣布接入DeepSeek,对大模型的热情高涨。
背后的底层逻辑其实是企业对私域大模型需求的激增。类似ChatGPT、通义千问、DeepSeek一类的模型都属于公域大模型,它们深度学习了现有公开的文本信息,是堪比百科全书的“超级大脑”。
据冯雷介绍,公域大模型的训练素材越多,它的参数会越多,给出的回答也会更全面。“像OpenAI GPT-3.5这个模型最早用到了1750亿个参数。”
如果说公域大模型可以完成80%的工作,剩余20%需要结合实际确定最终方案的部分,也不可或缺。冯雷补充说,“如果我们要求DeepSeek告诉我们东吴证券2024年度财务收支情况,因为缺乏具体数据,它一定无法准确回答。”
“公域大模型可以告诉你西湖醋鱼的做法。”冯雷指着显示器上不断跳动的数据流进一步解释,“但如果问到楼外楼的独家秘方,就得请饭店大厨,也就是私域大模型出马了。”
企业出于商业竞争、核心竞争力等方面的考量,通常不会大量披露内部数据。所以将大模型领进“家门”,赋予其访问内网的权限,是企业安全使用大模型较为稳妥的方法。
πDataCS大模型数据计算系统为企业接入大模型,打造专属的垂类模型和智能体提供了一站式、便捷式的服务。企业数据接入数据空间后,大模型依据指令可“阅读”数据进行深度学习,“而这才是让大模型能真正落地场景,打造企业专属模型的‘后训练’。”
“这个时候,无论是问东吴证券的专属大模型关于财务报表或是理财产品的问题,它都能凭借专业优势对答如流。”冯雷笑着解释。
“私域大模型让数据价值得到了前所未有的释放。”冯雷介绍说,美国的同行告诉他,私域大模型对数据的访问频次比原来大数据时代高了10倍有余。
赋能私域大模型只是拓数派故事的开始。“Data computing for new discoveries,数据计算,只为新发现。”冯雷目光很坚定,“现在的AI,还是有可为、能作为的产业。”
团队希望能找到一个终极元模型,在接入各厂商开源模型的基础上,打通企业内部数据和公域模型的协同链路,再对各大模型进行连续训练,让智能体管理智能体,制造“智能体的智能体”。
“终极理想可能永远到达不了,但我们可以无限接近。”冯雷坦言,自己和团队走上的是一条“难而正确”的道路。事实上,拓数派以“π”为名,也暗合了冯雷的科创理念。
3.1415926……π作为一个无理数,穷尽世界上所有的算力也无法计算到尽头。说起π,冯雷眼里的光愈发明亮,它的每一位都是可计算的,是真实存在的,“我们做的研发就像一场无限游戏,不过光是接近真理的过程就足够让人满足。”
因为团队对数理简单赤诚的热爱,3月14日被定为了拓数派一年一度的“π”节。成员们在这天召开科技论坛,讨论最新技术进展,进行奇思妙想的碰撞。“‘π’节也被同事们笑称为理工科男生笨拙又热忱的‘浪漫’。”冯雷笑称。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
故障定位系列-5-DB基本故障
准备出一系列故障定位的经验分享文章 一款体验故障定位的神器 故障定位系列-1-接口级故障 故障定位系列-2-共享连接池故障 故障定位系列-3-容器资源故障 故障定位系列-4-波动度故障 故障定位系列-5-DB基本故障 故障定位系列-6-DB调用次数故障 故障定位系列-7-网络延迟类故障 故障定位系列-8-根因接口类故障 1 故障场景 访问DB这个场景下到底有哪些故障呢?要想回答这个问题,我们必须研究下访问DB这个场景中各个环节,如下所示 主要有如下2个核心环节 从数据库连接池中获取连接 如果有空闲连接,直接返回该连接 创建新的连接,返回新的连接 超过连接限制,则锁等待空闲的连接,等待到则返回空闲连接 等待超时则抛出异常 连接池异步任务检查:对空闲连接进行有效性检查,如果不可用或者空闲时间过长则删除该连接 使用连接执行SQL命令 使用连接执行SQL命令 归还连接 从上述2个核心环节中,总结出常见的故障案,及其所需要数据支撑例如下所示 2 定位难点 主要有如下2个难点 完善的数据采集和关联 如何全面的覆盖上述故障案例 2.1 完善的数据采集和关联 比如案例场景:服务端mysql连接数增加限...
- 下一篇
上下文更长 ≠ 更好:为什么 RAG 仍然重要
作者:来自 ElasticJeffrey Rengifo及Eduard Martin Elasticsearch 与行业领先的 Gen AI 工具和提供商进行了原生集成。查看我们的网络研讨会,了解如何超越 RAG 基础知识,或构建生产就绪应用Elastic Vector Database。 要为您的用例构建最佳搜索解决方案,请立即开始免费试用云或在您的本地计算机上试用 Elastic。 拥有超过 100 万个代币的模型并不是什么新鲜事;1 年多前,谷歌宣布推出 Gemini 1.5,拥有 100万个上下文代币。100 万个令牌大约是 2000 个 A5 页面,在许多情况下,这比我们存储的所有数据还要多。 那么问题来了:“如果我只是在提示中发送所有内容怎么办? 在本文中,我们将RAG与仅将所有内容发送到长上下文模型并让 LLM 分析上下文并回答问题进行比较。 你可以在这里找到一个包含完整实验的笔记本。 最初的想法 在开始之前,我们可以做一些声明来测试: 方便:没有多少模型具有长上下文版本,因此我们的替代方案有限。 性能:LLM 处理 100 万 tokens 的速度应当比从 Elast...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- Windows10,CentOS7,CentOS8安装Nodejs环境
- CentOS8编译安装MySQL8.0.19
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- Hadoop3单机部署,实现最简伪集群
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- 2048小游戏-低调大师作品