首页 > 中国高端品牌网 > 工具 > 内容页

实测8款开放大模型:生成朋友圈文案功能受欢迎,文心舔狗日记生成器引热议

2023-09-01 06:08:33 来源:搜狐科技

全民进入AI大模型时代!8月31日,首批8款通过备案的大模型产品正式面向公众提供服务,从内测开始走向全民应用,生成朋友圈、舔狗日记生成器等功能引发热议。

首批开放的大模型产品有6款来自企业,包括百度的文心一言、字节的豆包、商汤的商量、百川智能的百川大模型、智谱华章的智谱清言、MiniMax的ABAB大模型;另外两家来自科研机构,包括中国科学院自动化所的紫东·太初、上海人工智能实验室的书生大模型。


【资料图】

这是今年8月15日正式实施的《生成式人工智能服务管理暂行办法》提出生成式AI服务要进行备案规定后首批获得通过的产品。此外,还有消息称,腾讯、华为和科大讯飞的大模型产品也将在近日获得备案通过。

这也意味着,国内发酵半年多的AI大模型热潮终于迎来C端市场检验的时刻。它们可以在哪使用?有哪些特色功能?它们的能力表现如何?会像ChatGPT横空出世时那般令人惊艳吗?搜狐科技对此进行了实际体验和横向测评。

一半大模型参数超千亿,仅三个推出APP版本

首批8个大模型开放后,吸引不少用户使用。比如文心一言官网显示,当前使用人数太多,服务可能响应缓慢,APP版本开放下载12小时飙升苹果应用商店免费榜首。目前,文心一言运行在千亿参数规模的文心大模型3.5版本上,李彦宏此前称会在年底会迭代到4.0版本。

在官网界面上,除对话框,文心一言还有四大插件,这是和另外7个大模型产品独特之处,具体包括默认的百度搜索、说图解画、E言易图和览卷文档。早前发布的用于视频生成的一镜流影,因所需算力较高尚未开放。

此外,文心一言还提供了指令中心,涵盖人物对话、创意写作、编程辅助,以及招聘、求职、美食、旅行等18个细分场景。比如在人物对话中,可以模仿孔子、牛顿、鲁迅,甚至是长颈鹿等的口吻或语调进行对话。

文心一言APP页面主要有三大板块:对话、社区和发现,且支持文字和语音输入。在对话框左侧和发现的灵感中心还有提示词工具,包括常用的短视频脚本生成、PPT大纲、文本润色等,还包括特别受欢迎的生成朋友圈功能,其热度值超过30万,部分有趣的提示词,如舔狗日记生成器等也引发谈论。可以说,这些提示词一定程度上降低了普通用户使用的门槛。

字节的豆包则是基于云雀大模型开发的AI工具,具备聊天机器人、写作助手以及英语学习助手等功能,8月17日才开始对外测试。

目前豆包网页版的功能相较文心一言比较单一,主要包括聊天助手小宁、写作助手、英语学习助手和写作润色,同时可以选择中英文切换。APP版本和网页版功能差不多,但其默认用户用语音输入(也可文字输入),输出的文字也默认AI用语音回答,聊天属性更强。

商汤的商量则是今年4月发布的日日新大模型体系中的自研中文语言大模型,目前已是2.0版本,参数规模超千亿,能理解中文等语言的语义,并完成逻辑推理、规划建议、内容创作、文本摘要、情感分析等任务。该产品目前仅有网页版,且对话页面非常简洁。

王小川在今年4月创办的百川智能的对话大模型是百川大模型,其融合了意图理解、信息检索以及强化学习技术,在知识问答、文本创作领域表现突出。目前也仅有网页版,且界面也比较简洁,仅给出了一些提问的参考。

智谱清言是基于智谱AI的ChatGLM2模型开发,支持中英文,具备通用问答、多轮对话、创意写作、代码生成以及虚拟对话等能力,多模态能力还有待开放。它也提供了十多个细分场景的灵感大全,并同步在APP和微信小程序版本上,这两个版本也支持语音输入。

值得一提的是,智谱清言还有青少年模式,其版本对话内容由权威教辅数据训练生成,对话轮次和使用时间也有限制,单日可对话次数50次,每日晚22时至次日早6时无法开启对话,需输入密码启用。这是目前八个大模型产品唯一一个具有青少年模式的产品。

Minimax的ABAB是一款先进的通用大语言模型,在语言处理能力方面突出,能够理解和生成自然语言文本。今年3月,MiniMax 推出面向企业用户的API开放平台,如今在Minimax开放平台上已可以体验到基于abab5.5-chat的MM智能助理,其拥有对话、招聘等超过15个场景模板,并可以选择文本和语音两种模式。

Minimax是一家成立于2021年的公司,由商汤前副总裁闫俊杰成立,且颇受资本青睐,获得腾讯、高瓴、IDG等金浦投资。在今年6月Minimax完成A轮2.5亿美元融资后,估值超过12亿美元,如今是国内估值最高的大模型初创公司之一。

最后两个大模型产品则来自科研机构,中国科学院自动化所研发的多模态大模型紫东·太初参数达千亿级别,并基于全栈国产化基础软硬件平台建立。它将文本、视觉、语音各个模型协同,实现三模态的统一语义表达,能完成跨模态检测、视觉问答、语义描述等任务。今年6月,紫东·太初发布2.0版本,加入了视频、传感信号、3D点云等新的模态数据。

目前,紫东·太初尚没有单独的网页版或APP产品,其上线在华为AI社区昇思大模型平台上版本更多体现的是其多模态能力,比如以图生文、以文生图和视觉问答等三大功能。

最后一个则来自上海人工智能实验室的书生通用大模型,由该机构联合商汤、香港中文大学、上海交通大学联合研发。目前书生大模型体系参数已达千亿级别,包括书生・多模态、书生・浦语和书生・天际等三大基础模型。不过,目前在书生大模型官网上,尚未看到体验入口,在应用商店也并未搜到相关APP。

整体而言,从易用性来看,百度的文心一言、智谱AI的智谱清言和Minimax的ABAB的功能和场景相对丰富,提供了比较多的示例、灵感或提示词,这能够有效降低用户的使用门槛。

此外,文心一言、豆包和智谱清言同时具备网页端和移动端,且智谱清言还有小程序版本,这能够使得它们得到更多的应用渠道。通过向C端用户开放后,这些大模型产品也有望从人类反馈中得到训练,从而推动基础底座模型的优化。

商量整体表现较好,文心一言多模态能力突出

这些首批开放的大模型能力到底如何,搜狐科技通过官网对七个大模型产品(除书生大模型,紫东·太初主要测试多模态能力)从基本维度进行了横向测评。

首先是在实时消息和知识问答方面,对于“国内首批通过备案、面向公众提供服务的8个大模型有哪些?”的问题,商汤的商量全部答对,文心一言和MM智能助理都答对6个,其中MM智能助理还给出多个媒体报道的参考;百川大模型答对5个,提到了另外3个还没有通过备案的大模型;豆包只答对2个,智谱清言则完全回答错误。

从上到下(从左到右)依次为文心一言、豆包、商量、百川、智谱清言、MM智能助理的回答(下同)

对于“8款AI大模型产品面向公众提供服务会对AI行业产生什么影响”的回答,前述6个大模型给出不同的答案。文心一言、豆包、智谱清言、MM智能助理则给出全都是正面影响的回答,而商量、百川则相对比较全面,认为既有机遇也有挑战,其中智谱清言、MM智能助理不会在结尾作出总结。

在逻辑推理方面,则用“树上有9只鸟,用枪打跑1只,还剩下几只”的问题进行了测试。文心一言、豆包、MM智能助手全球都按正常的数学逻辑方法回答是8只,而商量、百川、智谱清言最后结论都是树上没有鸟,且都给出了比较具体的逻辑分析。

在数学能力方面,以今年全国高考甲卷(文科)难度较低的题目“某校文艺部有4名学生,其中高一、高二年级各2名。从这4名学生中随机选2名组织校文艺汇演,则这2名学生来自不同年级的概率为()”的评测显示,豆包、商量、智谱清言等都给出正确答案,而文心一言、百川在一通分析后给出错误答案,而MM智能助手则未作出响应。

在多模态能力方面,搜狐科技主要选取了具备此种能力的文心一言、基于商汤日日新模型的秒画、紫东·太初等进行了测评。以“穿着红色衣服的女孩正在登雪山,阳光从山顶挥洒下来,映着蓝蓝的天空”为描述生成的画面分别如下:

从最终生成的图片来看,文心一言和秒画的整体效果比紫东·太初好,对于文本的描述要素基本都有展现,且清晰度更好,而三张图片都明确标注出了AI作图等类似字样。此外,紫东·太初以文生图的文字描述还有着30个的字数限制,或会影响最终生效的效果。

此外,图像分析也是多模态重要的能力之一。以前述商汤秒画生成的图片为例,百度文心一言借助说图解画的插件分析出了图中女中的着装、神态,甚至是心理状态,而紫东·太初分析结果只有一句话且错误,误将女孩身后的阴影认为是滑雪板。

从前述相对简单的测评来看,在实时消息和知识问答方面,商汤的商量、文心一言、百川大模型表现相对较好;在逻辑推理和数学能力方面,商量和智谱清言表现更为突出。在多模态能力方面,目前仅有文心一言和紫东·太初开放相关能力,文心一言几乎是碾压性胜出。总体而言,目前还没有谁是全能选手。

目前,市面上也有很多评测推出大模型能力榜单,但每个榜单的结果也有明显出入,行业也缺乏统一权威的评测标准,但总体都还不及ChatGPT。随着首批大模型产品开放,它们将迎来更多市场用户的检验,这也将大概率决定着谁能最终脱颖而出。

责任编辑:

关键词:
x 广告
x 广告