互联网
阶跃星辰、吉利汽车联合开源两款大模型:一个参数最大、一个最懂中国话!
2025-02-18 14:10  来源:快科技

2月18日消息,阶跃星辰、吉利汽车集团联合宣布,双方合作的阶跃两款Step系列多模态大模型,正式向全球开发者开源,即日起可在跃问APP内体验。

其中,阶跃Step-Video-T2V是目前全球范围内参数量最大、性能最好的开源视频生成模型,阶跃Step-Audio则是行业内首款产品级的开源语音交互大模型,堪称最懂中国话。

阶跃星辰(StepFun)是吉利汽车集团的科技生态战略合作伙伴,公司成立于2023年4月,总部位于上海,由微软前全球副总裁姜大昕担任CEO,致力于实现AGI(通用人工智能),2024年下半年其多模态API的调用量增长超45倍。

阶跃Step-Video-T2V的参数量达到300亿,可以直接生成204帧、540p分辨率的高质量视频。

在复杂运动、美感人物、视觉想象力、基础文字生成、原生中英双语输入、镜头语言等方面,它都具备强大的生成能力,而且语义理解和指令遵循能力突出。

网页端体验链接:https://yuewen.cn/videos

同时,阶跃星辰还发布并开源了针对文生视频质量评测的新基准数据集Step-Video-T2V-eval,包含128条源于真实用户的中文评测问题,可评估生成视频在运动、风景、动物、组合概念、超现实、人物、3D动画、电影摄影等11个内容类别上质量。

评测结果显示,阶跃Step-Video-T2V的模型性能在指令遵循、运动平滑性、物理合理性、美感度等方面的表现,均显著超过市面上既有的效果最佳的开源视频模型。

阶跃Step-Audio能够根据不同的场景需求,生成情绪、方言、语种、歌声和个性化风格的表达,能够和用户自然地高质量对话。

模型生成的语音具有超自然、高情商等特征,同时也能实现高质量的音色复刻并进行角色扮演,满足影视娱乐、社交、游戏等行业场景下应用需求。

在LlaMA Question、Web Questions等五大主流公开测试集中,阶跃Step-Audio的行均超过了行业内同类型开源模型,位列第一。

尤其是在HSK-6(汉语水平考试六级)评测中的表现尤为突出,堪称最懂中国话的开源语音交互大模型。

阶跃星辰还自建并开源了多维度评估体系Stepeval-Audio-360基准测试,从角色扮演、逻辑推理、生成控制、文字游戏、创作能力、指令控制等9项基础能力的维度,对开源语音模型进行评测。

人工横评结果显示,阶跃Step-Audio的模型能力十分均衡,且在各个维度上均超过了此前市面上效果最佳的开源语音模型。

值得一提的是,Hugging Face联合创始人、CEO Clement Delangue也对阶跃星辰的大模型称赞不已,认为他将是下一个DeepSeek。

您可能感兴趣的...
高德地图 上线当天使用高德扫街榜用户超4000万人
2025苹果秋季新品发布会
美团筹备大学校园即时零售新项目
华为公司董事长梁华 2024年全年销售收入超过8600亿元
智慧乌镇点亮数字经济新未来
  • 智慧乌镇点亮数字经济新未来
  • 2024-11-21分享热度:735...
  • 以“拥抱以人为本、智能向善的数字未来——携手构建网络空间命运共同体”为主题的2024年世界互联网大会...
  • GoPro宣布计划裁员约15%
  • 2024-08-20分享热度:269...
  • 曝GoPro将裁员15% 该计划将在2024财年的预计支出基础上减少约5000万美元的运营支出。
发表评论
0评