月之暗面真的很强?我们来用一个问题评测这些 ChatGPT 平替
号称平替甚至超越 ChatGPT 的产品层出不穷,今天就来做一个横向评测。本次评测的对象有:
- ChatGPT 3.5
- ChatGPT 4
- Google Gemini
- Anthropic Claude 3 Sonnet
- Perplexity
- devv
- 月之暗面 Kimi Chat
评测方法很简单:
- 打开一个新会话
- 提问 What is Bytebase
挑这个问题的原是因为我们最了解这个主题,只有这样,才能通过细节判定高下。大家也可以根据自己的主题进行验证。好,下面进入正题。
ChatGPT 3.5

ChatGPT 4

- 没有抓住对象。应该点出针对 Developer 和 DBA。
- 出现了一个幻觉,Bytebase 并不支持 SQLite。也可能是被官网其他地方迷惑了,我们博客上还是有一些 SQLite 内容。

Google Gemini

Anthropic Claude 3 Sonnet

Perplexity

devv

Image月之暗面 Kimi Chat

首先 Kimi 和前面几家不同的,即时我用了英文提问,他还是用中文回答的,充分表明了自己的立场。整体总结的也比较好。没有出现幻觉,也能给出引用。但 Kimi 也有一个问题,就是它是根据 5 篇资料生成的。所以选的资料不同,回答的侧重点就完全不同了。下面我又试了一次,因为参考资料不同,就形成了差异不小的回答。
总结
通过交互的感受,把产品分成了两大侧重类型,归纳型和理解型。所谓归纳型,主要工作是聚合。所谓理解型,是在聚合基础上更多形成了自己的想法。当然归纳也需要理解,但程度不同。举个可能不太恰当的例子,就像周报的汇总,小组长可以提取组员的要点汇总上去(归纳型),也可以阅读完组员的后自己写一份新的(理解型)。
针对「What is Bytebase」这个问题,这次评测下来我个人觉得最好的是 Google Gemini,它做到几点:
- 没有废话,抓住了所有核心点。
- 没有出现幻觉。
- 给出了引用,给人信任感。
Devv 的表现也不错,额外期望的是加上类似 Gemini / Perplexity 这样的 inline 出处注解。Kimi 的表现中规中矩,中文加分。
这次只是一个简单的测试,所以结论肯定是片面的。理解型和归纳型的分类也不太严谨,可能理解型听上去更加高大上,但从效果上来说,理解型未必就比归纳型要好。理解型因为夹带了自己的私货,就容易出现幻觉,严重的像 Claude 3 Sonnet 这样有点胡说八道了。但这一年 AI 的发展之快是有目共睹的,之前让人惊艳的 ChatGPT 3.5 现在看已经落伍了。
AI 一天,人间一年。
💡 更多资讯,请关注 Bytebase 公号:Bytebase




