MIT与英伟达协同合作,HART工具革新图像生成技术发展态势
近日,外媒报道了一则令人瞩目的科技成果:美国麻省理工学院与英伟达公司(NVIDIA)的研究人员成功研发出一种创新方法,巧妙融合了两种常见图像生成方式的优势,打造出一款名为 HART(混合自回归转换器的缩写)的混合图像生成工具。
HART:图像生成新利器
HART 运用自回归模型,能够迅速勾勒出图像的整体轮廓,随后借助小型扩散模型对图像细节进行精细优化。它生成的图像质量,与当前顶尖扩散模型所生成的不相上下,甚至更胜一筹,而生成速度却提升了九倍之多。更为突出的是,HART 在图像生成过程中,消耗的计算资源比典型扩散模型要少,这使得它可以在普通商用笔记本电脑或智能手机上本地运行。用户只需在 HART 界面输入自然语言提示,就能轻松获得生成的图像。其应用前景十分广阔,比如助力研究人员训练机器人执行复杂现实任务,帮助设计师为视频游戏构建更具吸引力的场景。
创新融合,突破传统局限
像 Stable Diffusion 和 DALL - E 这类流行的扩散模型,虽能生成细节丰富的图像,但生成过程较为繁琐。它们通过迭代,对每个像素预测随机噪声并减去,这一 “去噪” 过程可能需重复 30 步甚至更多,导致整体速度缓慢且计算成本高昂,不过多次修正机会保证了图像的高质量。自回归模型在文本预测中广泛应用,它通过依次预测图像块来生成图像,顺序预测过程比扩散模型快很多,但其采用自动编码器压缩原始图像像素为离散标记,在重建图像时,因压缩导致的信息丢失可能引发错误,且无法回溯修正。
HART 创新性地采用混合方法,先用自回归模型预测压缩的离散图像标记,再用小型扩散模型预测残差标记,以此弥补信息损失。由于扩散模型只需处理自回归模型完成后的剩余细节,仅需八步就能完成任务,而标准扩散模型通常需要 30 步以上。额外引入的扩散模型,在几乎不增加计算量的情况下,保留了自回归模型的速度优势,还极大提升了生成复杂图像细节的能力。
在研发 HART 时,研究人员克服了高效整合扩散模型以增强自回归模型的难题。他们发现,在自回归过程早期集成扩散模型会导致误差累积,所以最终设计仅在最后一步应用扩散模型预测剩余标记,显著提高了图像生成质量。研究人员结合了 7 亿参数的自回归转换器模型和 3700 万参数的轻量级扩散模型,生成图像质量与 20 亿参数扩散模型相当,速度却快九倍,计算量还少约 31%。
未来可期
HART 因采用自回归模型承担大量工作,更易于与新型统一视觉 - 语言生成式模型集成。未来,人们或许能与这类模型互动,比如让其展示组装家具的中间步骤。展望后续,研究人员计划基于 HART 架构打造视觉 - 语言模型,并凭借其扩展性和多模态通用性,尝试将其应用于视频生成和音频预测任务,持续拓展其应用边界。
声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。
最新文章
- Waymo在东京启动地图数据采集计划
- FigureAI新突破:Figure02机
- 传祺M6:全满冠实力,三月购车最高省3.6
- 悦达起亚连续五年助力,2025盐城马拉松盛
- 车企营销变革:多元创新触动年轻消费群体
- 经营数据亮眼、增持回购频现沪市上市公司释放
- 享界S9增程版首测:科技赋能,重塑豪华驾乘
- 中外大咖齐聚重庆,共探智能网联汽车安全新篇
- 多地加强国有控股上市公司市值管理
- V观财报|吉利汽车:一季度净利润预增220
- 助力全球能源转型米其林携手科研机构成立氢能
- 突然停牌!300022,筹划重大事项!
- 昊铂HL将于12日上市30万级SUV市场再
- 锦波生物获首张重组胶原蛋白医疗器械注册证
- 又有高校筹划校办企业改革!旗下两A股同时公
- 奇瑞混动之夜:发布全新技术并发布多款车型售
- 2025款风云A8焕新上市,现金一口价8.
- 广铁集团今起实施第二季度列车运行图
- 会展区|全球花卉盛会绽放上海,5万平方米展
- 广汽发布人形机器人核心部件,计划年内小批量
- 豪鹏科技业绩快报:2024年归母净利润同比
- 理肤泉50周年全球庆典启幕,共话皮肤健康新
- 四川:一季度办理退税额同比增长211.64
- 湖北竹山:春笋加工正当时机器助力产业忙
- 预售价21.59万起阿维塔06将于4月19
- 兰州七里河以实干“刻度”传递民生“温度”
- 探访天水强工业“新引力”:科技赋能创新驱动