当前位置:首页 > 新闻中心 > 媒体扫描

媒体扫描

玛雅1级会员:【CCTV-13】全球首个图文音三模态预训练模型成功构建

  • 发表日期:2021-07-12 【北京快乐8开奖总和 【打印】【关闭】
  • 本文地址:http://939.81sbvip.com/xwzx/mtsm/202107/t20210712_6130554.html
    文章摘要:玛雅1级会员,一阵阵毒气不断涌入他手里,好了菲律宾申博太阳城直属官网客户端下载登入官网。

      日前,玛雅1级会员:中科院自动化所提出了全球首个图文音(视觉-文本-语音)三模态预训练模型“紫东太初”,同时具备跨模态理解与跨模态生成能力,取得了预训练模型突破性进展。

      多模态预训练模型被广泛认为是从限定领域的弱人工智能迈向通用人工智能的路径探索,其具有在无监督情况下自动学习不同任务,并快速迁移到不同领域数据的强大能力。

      目前,已有的多模态预训练模型通常仅考虑两个模态(如图像和文本,或者视频和文本),忽视了周围环境中普遍存在的语音信息,并且模型极少兼具理解与生成能力,难以在生成任务与理解类任务中同时取得良好表现。针对这些问题,中科院自动化所此次提出的视觉-文本-语音三模态预训练模型分别采用基于词条级别、模态级别以及样本级别的多层次、多任务子监督学习框架,更关注图-文-音三模态数据之间的关联特性以及跨模态转换问题,对更广泛、更多样的下游任务提供模型基础支撑。

      该模型不仅可实现跨模态理解(比如图像识别、语音识别等任务),也能完成跨模态生成(比如从文本生成图像、从图像生成文本、语音生成图像等任务)。引入语音模态后的多模态预训练模型,可以突破性地直接实现三模态的统一表示,并首次实现了“以图生音”和“以音生图”。此外,科研团队首次提出了视觉-文本-语音三模态预训练模型,实现了三模态间相互转换和生成。

      中科院自动化所所长徐波介绍,三模态预训练模型的提出将改变当前单一模型对应单一任务的人工智能研发范式,三模态图文音的统一语义表达将大幅提升文本、语音、图像和视频等领域的基础任务性能,并在多模态内容的理解、搜索、推荐和问答,语音识别和合成,人机交互和无人驾驶等应用中具有重要意义。(总台央视记者 帅俊全)

     

    原文链接:http://www.dx4.3834533.com/2021/07/09/ARTIWybOOXcK70VE00HO02Pc210709.shtml

    北京快乐8开奖总和 京公网安备110108003079号
    地址:北京市海淀区中关村东路95号 邮编:100190 Email:casia@ia.ac.cn
    澳门皇马赌场认可 澳门海立方最可靠网投 申博太阳城VIP登入 菲律宾申博太阳城网投开户登入 永利盘口开户
    太阳申博赌场登入 太阳游戏注册邀请码 大嬴家网站开户 澳门云盈平台app 88赌城1级会员
    太阳城提现最快登入 海立方登入网址 滨海游戏诚招代理 必赢客服主管 巴黎人信誉良好
    十三张返水高达1.0% 鸿利1倍打码 宝马娱乐城11222 澳门太阳城信誉最好