4月23日,商汤科技SenseTime举办技术交流日活动,发布了商汤“日日新SenseNova5.0”。
自去年4月首次发布,商汤“日日新SenseNova”大模型体系已正式推出五个大版本迭代。基于超过10TB tokens训练、覆盖大量合成数据,“日日新SenseNova 5.0”采用混合专家架构(MoE),推理时上下文窗口可以有效到 200K 左右。
据悉,本次更新主要聚集增强了知识、数学、推理及代码能力,对标GPT-4 Turbo,主流客观评测上达到或超越GPT-4 Turbo。
4月24日开盘后,商汤股价大涨,一度涨超36%。上午11点15分,商汤科技公告临时停牌。截至停牌,公司股价为0.80港元/股,涨幅达31.15%,总市值达268亿港元。
商汤科技回应21世纪经济报道记者称,昨日日日新大模型5.0发布会广受好评,受到市场极大关注;依照上市规则及港交所建议,公司将进一步刊发相关公告。
下午,商汤发布公告表示,董事会注意到最近B类股份的交易价格及交易量发生不寻常波动,B类股份于4月24日上午11时15分起暂停买卖。公司已向联交所申请B类股份于4月25日上午9时正起恢复买卖。
突破数据瓶颈
如何完成日日新5.0的升级?商汤科技董事长兼CEO徐立在技术交流日点出了关键路径。
“商汤在尺度定律的指导下,会持续探索大模型能力的KRE三层架构,不断突破大模型能力边界。”徐立表示。
大模型的研发在行业当中有一条大家认知的基本法则,业内称之为“Scaling Law 尺度定律”。在尺度定律通常意义下,随着模型的参数变大、数据量变大、训练时长加长,则算法性能会越来越好。因此,要形成通用人工智能模型,对于算力的消耗就变成一种必然要求。
徐立表示,实际上还有两条隐藏的假设,第一,可预测性,在小尺度上做很多实验,跨越5-7个数量级尺度依然保持对性能的准确预测;第二,保序性,在小尺度上验证了性能优劣,在更大尺度上依然保持。
“尺度定律是资源配置的引导器,可以指导我们在有限的研发资源上找到最优的模型架构和数据配方,让模型能够更高效地完成学习的过程。”徐立表示。
基于实验结果,小模型在优化数据的情况下,性能可逼近甚至超越跨数据级的大模型。然而,数据一直是AI持续提升的瓶颈,也是日日新5.0最主要的提升之一。
在知识层面上,日日新5.0采用了超过10TB的Tokens,这确保了高质量数据的完备性,为模型提供了丰富的知识基础。
在推理层面上,日日新5.0通过合成构造思维链数据,这种数据构造方法有助于模型更好地理解和推理行业特定的逻辑和知识。
据介绍,在文科能力方面,“日日新5.0”的创意写作能力、推理能力及总结能力均有提升,相同的中文知识注入后,可获得更好的理解总结及问答,为教育、内容产业等垂直应用场景提供辅助。在理科能力方面,“日日新5.0”数理能力、代码能力及推理能力提高,为金融、数据分析等场景落地提供基础。
多模态能力上,支持高清长图的解析和理解以及文生图交互式生成,实现复杂的跨文档知识抽取及总结问答展示,以及具备丰富的多模态交互能力。
徐立表示,“日日新 5.0 大模型体系综合能力全面对标GPT-4 Turbo,技术领跑加速生成式AI向产业落地的全面跃迁。”
端云协同
过去的一年,云端的大模型在各个行业都是有了广泛的应用。但智能终端,如手机、PC、汽车,也是通用人工智能应用的一个非常广泛的载体和场景。
徐立表示,今年是大模型在端侧应用爆发的元年,“端侧能力的应用其实是大模型铺开最核心的关键。”
为了满足移动终端用户对大模型技术的应用需求,商汤此次也推出了1.8B参数规模的端侧大模型。据了解,其在中端平台实现18.3字/s的平均生成速度,旗舰平台达到78.3字/s。
另一方面,端侧大模型的也是弥补云端的不足。
首先是模型性能与成本平衡的挑战。商汤科技联合创始人、首席科学家王晓刚在日前接受21世纪经济报道记者采访时表示,如果几十亿个端侧设备都在不停地调用云端大模型,将需要消耗巨大算力;另一方面涉及数据的传输和延迟,某些特定的场景应用需要快速决策。王晓刚举例,在自动驾驶里,大模型的部署必须发生在端侧。
他进一步表示,不同的应用对于模型的准确率或体验的要求是不一样的,也就意味着,对于模型要求不是非常高的应用可以用端侧模型。
因此,端云协同解决方案应运而生,在端云结合的架构中,端侧设备上部署有较小的、针对特定任务优化的模型。这些模型可以快速响应用户的需求,处理一些不需要大量计算资源的任务。
云端则拥有更强大的计算资源和更大的模型,可以处理更复杂或需要大量数据的任务。云端模型通常具有更多的参数,能够提供更深层次的学习和推理能力。
端云结合的MoE架构可以通过智能化判断协同发挥端云各自优势,需要联网搜索或处理复杂场景时分流至云端处理,部分场景端侧处理占比超过80%,从而显著降低推理成本。
王晓刚向记者表示,通过智能地选择最合适的模型,端云结合可以提供更快的响应时间和更准确的结果,从而优化用户体验。
商汤表示,将端侧大模型应用的普及推广作为今年的战略重点。
此外,对于金融、代码、医疗、政务等重点行业边缘侧日益增长的AI应用需求,商汤还推出企业级大模型一体机。王晓刚认为,与垂直行业相结合是体现模型“差异化”的一个关键指标,“而模型的应用价值在哪、还能朝哪些方向优化,这些需要行业进行牵引。”
声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。
最新文章
- 除了车身加长,宝骏悦也Plus还有多项同级
- 广西能源:一季度多措并举显成效
- 爱克股份2023年实现营收10.67亿知难
- 湖北随县税务局开展“我在税务分局看‘枫’景
- 问界新M5将亮相北京车展:外观升级、多样化
- 沈阳:抢抓低空经济产业发展机遇制定三年行动
- 2023年山东省海洋生产总值达1.7万亿元
- 再推新品牌?奇瑞旗下新能源品牌“越己”曝光
- 上市首日跌了69亿!加盟商撑起茶百道,但开
- 非银支付机构将迎注册资本调整等监管细则
- 唐顿世家布局再拓疆,全国版图跃升至第五城—
- 国际橡塑展闪耀开幕 规模再创新高 尽显看
- 灵动座驾,悉心之选——品鉴纯电轿跑灵悉L潮
- 盖是茶:随遇而饮,尽享即泡即品的自然韵味
- 东风风行星海V9中大型豪华新能源MPV即将
- 首家开航!东航全新直飞航线“上海—马赛”7
- 校招陆续收官银行“吸粉”能力持续上升
- 郑州银行:赋能科创 构建生态 深度融入区域
- 通信铁军再出动! 永州联通圆满完成 央广
- 为文创青年加油第二届“文创上海”创新创业大
- 插混SUV新黑马,蓝电E5荣耀版上市,仅9
- 广视述评:以人为本安全度汛
- “理响中国·讲好‘中国式商量’故事”网络主
- ID.3保值回购再升级上汽大众ID.Car
- 山水比德2023年度业绩璀璨,创新引领景观
- 大模型落地元年,腾讯混元加快落地脚步
- 中国造了一辆廉价版威霆?中大型7座商务车,