多模态AI重新定义人机交互方式

来源:科技日报时间:2024-10-24 20:05:05
未来的人工智能(AI)什么样?想象一下,只需简单一个指令,它们便能领悟并执行复杂的任务;它们还能通过视觉捕捉用户的表情和动作,判断其情绪状态。这不再是好莱坞科幻电影中的场景,而是正逐步走进现实的“多模态AI”。

据美国《福布斯》网站近日报道,元宇宙平台公司、OpenAI以及谷歌公司等巨头,都推出了各自的多模态AI系统,正不遗余力地加大对此类系统的研发投资,力求提高各种模态内容输出的精确度,从而改善AI与用户的交互体验。

多模态AI标志着一种范式变革。它将深刻改变很多行业的面貌,并重塑数字世界的格局。

赋予AI“多重感官”功能

人类是如何了解世界的?我们依赖视觉、听觉和触觉等多种感官,从无数来源接收信息。人脑将这些纷繁复杂的数据模式融合,绘制出一幅生动的现实“画卷”。

IBM公司官网这样定义多模态AI:能集成和处理来自多种模态(数据类型)的机器学习模型,这些模态包括文本、图像、音频、视频等形式的输入。就像赋予AI一整套感官,使它能从多个角度感知并理解输入的信息。

这种跨越不同模态理解和创建信息的能力,超越此前侧重于集成和处理特定数据源的单模态AI,赢得了各大科技巨头的青睐。

在今年的移动通信大会上,高通公司将其开发的多模态大模型首次部署在安卓手机上。用户无论是输入照片,还是语音等信息,都能与AI助手顺畅交流。例如,用户可以拍一张美食照片向AI助手提问:这些食材都是什么?能做出什么菜?每道菜的热量是多少?AI助手能基于照片信息,给出详细的答案。

今年5月,OpenAI发布了多模态模型GPT-4o,其支持文本、音频和图像的任意组合输入和输出。随后,谷歌也于第二天推出了自己的最新多模态AI产品Gemini 1.5 Pro。

9月25日,元宇宙平台公司发布了其最新的开源大语言模型Llama 3.2。公司首席执行官马克·扎克伯格在主题演讲中表示,这是该公司首个开源多模态模型,可同时处理文本和视觉数据,标志着AI在理解更复杂应用场景方面取得了重大进展。

 悄然推动各领域变革

多模态AI正悄然改变着多个领域的面貌。

在医疗保健领域,IBM旗下“沃森健康”正对病人的影像学数据、病历文本和基因数据进行综合分析,帮助医生更准确地诊断疾病,有力支持医生为病人制订个性化治疗方案。

创意产业也正在经历一场变革。数字营销专家和电影制片人正借助这一技术打造定制内容。试想,只需一个简单的提示或概念,AI系统就能编撰出引人入胜的剧本,生成故事板(即一系列插图排列在一起组成的可视化故事)、创作配乐,甚至制作出初步场景剪辑。

教育和培训领域也在多模态AI助力下向个性化学习迈进。美国纽顿公司开发的自适应学习平台能利用多模态AI,深入分析学生的学习行为、表情和语音,实时调整教学内容和难度。实验数据显示,这种方法能将学生的学习效率提高40%。

客户服务也是多模态AI系统令人兴奋的应用之一。聊天机器人不仅能回应文本查询,还能理解客户的语调,分析客户的面部表情,并用适当的语言和可视化线索作出回应。这种更接近人类的交流有望彻底改变企业与客户的互动方式。

仍需克服技术伦理挑战

但多模态AI发展也面临诸多挑战。

AI咨询公司“隐空间”创始人亨瑞·艾德尔表示,多模态AI的强大之处在于能够整合多种数据类型。然而,如何有效整合这些数据仍是一个技术难题。

此外,多模态AI模型在运行过程中往往需要消耗大量算力资源,这无疑增加了其应用成本。

更值得注意的是,多模态数据包含更多个人信息。当多模态AI系统能轻松识别人脸、声音乃至情绪状态时,如何确保个人隐私得到尊重与保护?又该如何采取有效措施,防止其被用于创建“深度伪造”或其他误导性内容?这些都是值得深思的问题。

标签:

相关阅读

推荐阅读

中国经济样本观察·企业样本篇丨打通电子工业产业化“最后一公里”

中国经济样本观察·企业样本篇丨打通电子工业产业

中国电子院2009年并入国家开发投资公司,是一家拥有三十余项国家顶级资质的综合大型设计院。芯片企业的市场竞争力,往往并不在于能不能造出更多

2024-10-24 20:03:20
共绘数字新时代 2024中国程序员节即将开幕

共绘数字新时代 2024中国程序员节即将开幕

 在数字化浪潮中,程序员们以智慧和代码为基石,构建起了数字世界的大厦。自2021年起,由中国软件行业协会精心打造的中国程序员节,已更多

2024-10-24 19:59:29
新华网财经观察·企业行丨风口浪尖的竞逐——优必选人形机器人成长记

新华网财经观察·企业行丨风口浪尖的竞逐——优必

新华网北京10月23日电(朱家齐)在比亚迪工厂的一片喧嚣声中,一台与真人尺寸相仿的人形机器人精确穿梭于庞大的生产线之间。它能够轻松地提更多

2024-10-24 19:57:56
低空经济“飞”到百姓身边

低空经济“飞”到百姓身边

数据来源:交通运输部制图:张芳曼核心阅读鼓励开发低空驾驶、空中观光、航空展览等特色项目,打造更多商业场景;加速推广低空+物流、低空更多

2024-07-24 09:32:12
夏季达沃斯论坛|Vlog:夏季达沃斯会场上的人工智能

夏季达沃斯论坛|Vlog:夏季达沃斯会场上的人工智

正在大连举行的第十五届夏季达沃斯论坛上,人工智能话题备受关注。心跳签名共创艺术作品、新通话解决方案、仿生眼……记者实地探访夏季达沃更多

2024-06-28 10:32:40
在夏季达沃斯论坛科技创新展示区体验不一样的高科技

在夏季达沃斯论坛科技创新展示区体验不一样的高科

世界经济论坛第十五届新领军者年会(又称夏季达沃斯论坛)6月25日至27日在大连举行。3天,约200场会议,来自100多个国家和地区的约1700名各更多

2024-06-28 10:31:17
夏季达沃斯论坛|AI医疗仅仅是开始 未来有无限可能

夏季达沃斯论坛|AI医疗仅仅是开始 未来有无限可能

数字医生、影像AI、手术机器人……人工智能正日益融入医疗健康领域。6月27日,夏季达沃斯论坛举办一场加速推进数据分析在医疗行业中应用的更多

2024-06-28 10:29:08
新质生产力观察|向新求变 塑造新优势

新质生产力观察|向新求变 塑造新优势

加快发展新质生产力,必须坚持科技创新引领,实现人才强、科技强进而促进产业强、经济强,要加快实现高水平科技自立自强,支撑引领高质量发更多

2024-06-28 10:28:00
+ 点击查看更多精彩

精彩放送

浪莎回应郎朗吉娜代言一日游说了什么 浪莎代言人有哪些
    1月4日晚,浪莎股份公告称因合同相关条款发生变更,公司全资子公...
隋文静男友是谁颜值高吗 隋文静与韩聪走红是怎么回事
    提及隋文静这样的运动员,对关注体育的人来说,应该是不陌生的。...
驱逐出境是什么情况?吴亦凡确认被判13年案细节披露
    原创吴亦凡确认被判13年2022年11月25日上午,北京市朝阳区人民法...
印度电影最好看的叫什么名字?印度电影推荐榜单前十名!
    巴霍利王1、2在整理了和、、等10部精彩的印度电影后,依然被宝莱...
陈荣炼为什么愿意娶安以轩?陈荣炼安以轩怎么认识的?
    陈荣炼为什么愿意娶安以轩?一起跟着小编了解一下吧。1、陈荣炼娶...
电影明星李凤鸣、吴京惊艳亮相第十五届长春电影节
    第十五届长春电影节近日在长春净月潭国家森林隆重开幕,知名影星...
    今日推送