您现在的位置是:首页 > 文章详情

Grok-1.5 Vision 预览

日期:2024-04-13点击:44

xAI 宣布推出 Grok-1.5V —— 第一代多模式模型,用于连接数字世界和物理世界。

除了强大的文本功能之外,Grok 现在可以处理各种视觉信息,包括文档、图表、屏幕截图和照片,预计该版本很快就会向早期测试者和现有 Grok 用户推出。

公告指出,Grok-1.5V 在多个领域(从多学科推理到理解文档、科学图表、图表、屏幕截图和照片)与现有的前沿多模态模型相比都具有很强的竞争力。在 RealWorldQA 基准测试中的表现也要优于同类产品。

RealWorldQA 是由 xAI 新推出的一个基准测试,旨在评估多模态模型的基本真实世界空间理解能力。

RealWorldQA 的初始版本包含 700 多张图像,每张图像都有一个问题和易于验证的答案。除了其他真实世界的图像之外,该数据集还包含从车辆拍摄的匿名图像。后续还将随着多模式模型的改进而进行扩展,RealWorldQA 在CC BY-ND 4.0 下发布。现已可供下载 (677MB)

示例:看图写代码

用户:你能把它翻译成 Python 代码吗?

Grok:当然可以!您提供的流程图描述了一个简单的猜谜游戏:计算机生成一个随机数,用户必须猜出它。下面是表示流程图中逻辑的 Python 代码:

 import random def guess_number(): # Generate a random number between 1 and 10 target = random.randint(1, 10) while True: guess = int(input("Guess a number between 1 and 10: ")) if guess == target: print("You won!") break else: print("Wrong guess, try again!") if __name__ == "__main__": guess_number()

在接下来的几个月中,Grok 预计将在图像、音频和视频等各种模式中对这两种功能进行重大改进。与此同时,该公司还在进行招聘

原文链接:https://www.oschina.net/news/287499/grok-1-5v
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章