“
Artificial intelligence will be the ultimate tool to expand our creativity, allowing us to go beyond what we can imagine today.
”
近年来,随着人工智能技术的飞速发展,AI生成内容(AIGC)领域成为研究的热点之一。AIGC是指利用机器学习、深度学习等技术生成内容的一种方式,可以用于图像、视频、音频、自然语言处理等多种领域,具有极大的潜力。本报告将对AIGC领域的现状和前景进行分析,并以多模态内容创意生成为切入点,分析数字艺术家作为目标用户的使用需求和痛点,提出AI能够结合的可能方向和场景设计.
AIGC发展阶段及相关数据
AIGC的发展历史可以追溯到20世纪50年代,当时人工智能领域的先驱John McCarthy提出了“生成模型”(Generation Model)的概念,试图用机器来生成自然语言文本。随着计算机和机器学习技术的不断发展,AIGC的应用范围不断扩大,并逐渐成为人工智能领域的热点之一。
早期阶段
早期的AIGC主要集中在图像和音频领域
例如在20世纪90年代,Bell Labs就开发出了一款名为“Melodyne”的音频编辑软件,它可以自动检测和修复音频文件中的错误。此外,在20世纪90年代后期,人工智能技术开始应用于图像生成领域,例如在1997年,David Cope通过机器学习技术,让计算机生成了一首类似于巴赫的音乐。
中期阶段
应用范围不断扩大,涉及到图像、音频、视频、文本等多种领域
例如在2014年,Google通过利用深度学习技术,开发了一款名为“DeepDream”的软件,可以将一张图像转换为具有幻想色彩的艺术作品。此外,还有一些公司和机构开始研究利用人工智能技术生成视频和动画等内容。
当前阶段
当前,AIGC已经成为人工智能领域的重要应用之一。
AIGC的应用范围涵盖了多个领域,例如媒体、广告、游戏、艺术、教育等。其中,AIGC在数字营销领域的应用最为广泛,可以通过AIGC生成各种广告素材,如海报、视频、照片等,从而提高广告效果和转化率。同时,AIGC还被广泛应用于艺术创作领域,例如利用AIGC生成绘画、音乐、电影等艺术作品。
AIGC基本概念及技术
AIGC的核心技术包含深度学习技术、自然语言处理技术、计算机视觉技术等等. 这些技术的不断发展和提高,为AIGC带来了更加广阔的应用前景和更高的生成质量。
01
深度学习技术:深度学习技术是AIGC的基础,通过神经网络模拟人类大脑的工作原理,实现了对数据的自动化学习和特征提取。深度学习技术的主要算法包括卷积神经网络、循环神经网络、生成对抗网络等。
02
自然语言处理技术:自然语言处理技术是AIGC中生成文本内容的关键技术,主要包括文本分析、语义理解、机器翻译等技术。自然语言处理技术的目的是让机器能够理解和处理自然语言,从而能够生成符合语法和语义规则的文本。
03
计算机视觉技术:计算机视觉技术是AIGC中生成图像、视频等内容的核心技术,主要包括图像处理、目标识别、图像分割等技术。通过计算机视觉技术,AIGC能够自动生成符合人类视觉习惯的图像和视频内容。
04
多模态生成技术:多模态生成技术是AIGC的重要技术之一,能够将不同媒体类型的内容进行组合生成,例如图像和文本的组合、音频和视频的组合等。多模态生成技术能够使AIGC生成的内容更加丰富和生动。
05
强化学习技术:强化学习技术是一种通过试错方式不断优化模型的技术,它可以让AIGC不断学习和改进,提高生成内容的质量和多样性。强化学习技术的核心思想是通过不断尝试和反馈,让AIGC学会优化生成的内容。
AIGC应用领域
近年来,超级深度学习的快速发展带来了深度神经网络技术在大模型和多模态两个方向上的不断突破,并为AIGC技术能力的升级提供了强力的支撑和全新的可能性。随着技术能力的不断迭代升级,AIGC正在降低内容创作门槛、释放创作能力,未来将推动数实融合趋势下内容创作的范式转变。
AIGC前景
AIGC的技术前景非常广阔,随着技术的不断发展和应用场景的扩大,AIGC将会在多个领域发挥越来越重要的作用。
· 艺术和设计领域:通过多模态AIGC工具生成的艺术作品,可以为艺术家和设计师提供新的思路和灵感。这些作品不仅可以被用于装饰和展览,还可以为设计师提供创意和设计方向,推动数字艺术和设计的发展。
· 媒体和广告领域:通过多模态AIGC工具生成的图像、视频和文本,可以为媒体和广告行业提供更加多样化的内容和更加精准的推广方式。这些内容可以根据用户的兴趣和偏好进行个性化推送,提高广告效果和用户参与度。
· 教育和培训领域:通过多模态AIGC工具生成的图像、视频和文本,可以为教育和培训行业提供更加生动、直观和互动的学习资源。这些资源可以帮助学生更好地理解和掌握知识,提高学习效果和学习兴趣。
· 医疗和健康领域:通过多模态AIGC工具生成的图像和数据,可以为医疗和健康领域提供更加精准、快速和准确的诊断和治疗方案,帮助医生更好地诊断和治疗疾病,提高医疗质量和效率。
业界人士如何评价AIGC前景:
AIGC的发展极大依赖于技术的发展和更替,
其前景如何与技术发展前景息息相关.
根据市场研究机构Tractica的数据显示,全球AIGC市场规模从2018年的27亿美元增长,将在2025年到达83亿美元,年复合增长率为17.3%。时,各大科技公司也在AIGC领域进行大量投资,例如Google在2016年就以6.25亿美元收购了一家名为DeepMind的公司,旨在进一步发展AIGC技术。
市场数据及预测:
2018年,AIGC的软件部分占据AIGC市场的82.6%份额,预计到2025年将增长至84.2%份额。硬件部分则从2018年的17.4%份额增长至2025年的15.8%份额。
另外,据Grand View Research的数据显示,到2025年,数字广告和数字营销领域将是AIGC应用最广泛的领域,预计将占据AIGC市场的39.4%份额。其次是游戏开发和艺术创作领域,分别占据AIGC市场的19.1%和13.2%份额。
然而,AIGC的发展还面临着一些阻碍,主要包括以下几个方面:
数据技术瓶颈
目前AIGC的技术还处于发展初期,存在着很多技术瓶颈,如数据稀缺、算法不完善等问题。这些问题需要通过更多的研究和实践来解决。
隐私和安全
随着AIGC技术的不断发展,个人隐私和数据安全问题也越来越受到关注。如何保护用户的隐私和数据安全,是AIGC发展的一个重要问题。
算法偏见
AIGC的数据集和算法存在偏见,这会导致生成的内容存在歧视和偏见。如何解决这些偏见问题,是AIGC技术发展的一个重要方向。
人工智能监管
AIGC的应用涉及到很多敏感信息和数据,如何进行人工智能监管,避免AIGC技术的滥用和不良影响,是AIGC发展的一个重要问题。
个性化
生成应用
深度学习
神经网络技术
多模态
应用设计
特异性
场景设计
2018年
全球市场
27亿美元增长
年复合增长率
17.3%
2025年
全球市场预估
83亿美元增长
数字广告和
数字营销
艺术创作
游戏开发
其他
39.4%
19.1%
13.2%
AIGC多模态艺术设计应用
多模态内容创意生成是指利用多种模态(例如图像、视频、音频等)来生成内容的一种方式。这种方式可以帮助数字艺术家更好地利用各种模态,生成更多的艺术作品。在多模态内容创意生成的应用中. 在前沿技术驱动下,AIGC赋能内容创作的三大能力分别是智能数字内容孪生能力,智能数字内容编辑能力和智能数字内容创作能力。
应用案例
继Stable Diffusion开源后,AIGC行业内涌现了大量相关的模型和算法,涉及文本生成图像、模型性能优化、特定风格的文生图模型、prompt生成和优化、图像提取prompt、针对IP的模型训练和推理、文本生成视频等具体应用。
近期,Nolibox主打电脑端AI绘图的产品画宇宙上线,其产品最大特点是其蕴含了一个无限的创作空间,这个创作空间的底层可以支持文本、图片、动图、视频、音频等多模态内容。同时,所有的AI生成参数(包括prompt、seed等)都记录在每个节点的原生信息中,这使得用户可以在一个自由的空间内实现创意的生成、创作、参考、对比、延展、整理、融合、局部修补等操作。画宇宙已验证了电脑端使用场景下,用户对AIGC工具的使用涵盖了大量非线性的使用需求:因为在电脑端场景下,用户并不满足于“输入文字,得到图片”这样单线程的功能,而是需要多种AIGC技术叠加、组合、融合,才能得到最终满意的结果。
Nolibox 画宇宙: AI创作公共平台
AI艺术与传统绘画不同,尽管艺术家可以以自己喜欢的方式“训练”模型,但艺术家无法控制最终创作结果。因此,AI艺术家通常倾向于创作广义主题和抽象性主题的绘画. 但是,Robbie的《Saint Nazaire》则与众不同,Robbie创作这件作品是为了描绘他的个人情感和日常生活.
Robbie描述道:“使用AI时,我为GAN提供数据集规则,但是这取决于我,因为GAN不会完美地解读这些规则。否则,我们将获得完美的裸体画像。但是我们没有,因为GAN错误地解读了我提供的数据集所规定的规则。因此,我觉得自己对作品的控制力比传统生成艺术更少。既然GAN有智能,那么就有了解读的空间。"
Robbie Barrat : AI应用艺术创作
Directors: Nix Liu Xin, Liu Yang, Jiajian Min, Borou Yu, Candice Wu
DOG: Dream Of Galaxy patches together colorful, AI-generated moving images to tell a touching story of a dog cadet selected to travel to space. The turning point of this dog’s life is when an anonymous man asked the stray dog, “Do you want to dream a different dream?”
The main AI technologies used are Stable Diffusion, Midjourney, EbSynth, ChatGPT, etc.
以该电影为例的应用将多模态AIGC技术融入到了电影和视频制作的工作流程当中. 其中利用Stable Diffusion产出分镜和最终画面,利用数字文本内容创作能力撰写剧本和匹配字幕.
DOG: Dream Of Galaxy: AI生成电影
Mubert针对创业类或小型项目获得使用各类音频版权的问题推出了Mubert API。
其大概的工作流程是这样的: 音乐人谱曲后上传→AI进行风格分类→用户输入文本→AI用demo组曲→生成个性化音乐. 目前,音乐人们上传的超过150万个demo进入Mubert API的音乐库。使用Mubert API制作的音频不用担心版权的风险,并具有极高的原创性.
Mubert API : AI生成音频
AIGC与数字艺术家
用户(数字艺术家)访谈
本研究对AIGC领域相关数字艺术家和创作者进行了访谈,
收集了相关用户对该技术使用的经历、观点和期望
机械复制时代的文化生产模式不再像传统创作者一样从零开始,而且组合不同的工具创造独特流程,让机器快速给出很多个可能,创作者再进行挑选、curate、组合、挪用,以创造有意义的作品。AIGC确实解放了生产效率,但和很多人认为不同的是,还提高了创作门槛。当人人都可以创作出乍一看漂亮的图片时,创造什么图像、以什么方式创造、图像背后有什么意义则更考验创作者的思想和艺术素养。
Nix Xin Liu
New media artist, tech innovator
AIGC work:
DOG: Dream Of Galaxy
(AI-Generated Sci-Fi Short Film)
如果AI可以直接让我的想法直接呈现为作品,无需考虑技术门槛和学习成本,那这种技术的诱惑力是巨大的。但是截止目前,我对AI在插画领域的发展感到失望。它所产生的的作品,一部分用来填充工业流水线,另一部分直白的满足大众的欲望(而非个性化的审美)。总之,我期待它未来能为创作者服务,但目前为止,它的作用更类似于取代流程内的重复性工作和底层劳动。
Reraner
3D artist
AIGC work:
CAVE DANCE
Celestial Dance of Tang
(AI-powered immersive art)
AIGC可以是一个很好的辅助设计工具, 比如给几个frame 可以ai生成中间的frame然后形成动画. 或者给一段素材,把它变成另外一种风格,类似于加个滤镜.
Shawn Chen
Digital Designer, Architect
我觉得对于creator/designer来说,AIGC的问题有时候在于它其实没有生成新的东西,或者说是生成的东西太过于具体. 事实上这个很难成为一种inspiring的tool. 因为某种程度上它已经生成一个结果了(直接跳到了最后一步).
Panagiotis Michalatos
Senior Principal Research Engineer
at Autodesk
AIGC在我的创作当中多少起到了一些概括和提取的作用。因为实际上你人工是不太可能就不论你是什么身份,你设计师也好,什么其他的也好,你很难以一个人类的视角去对一系列图片去做出一些比较视觉化的概括. 但这些工作去交给就是AI去处理的话,他至少可以提取出一些比较普遍的视觉规律. 另外,我觉得可以当做是一种就是视觉的反向搜索的工具去使用。
Lie Lee
Digital Visuals Creator
AIGC work:
Who Creates these Designs
(Datapeotry)
我之前试图用AI帮我做根据时间线的一系列存在差异的图,去观察一个内容在历史上的图像变化,但是它事实上是做不到的。他可以说并不客观。比如说我之前,让他帮我做一张青蛙毛绒玩具,在1920年代的图片,然后他所反映出来的那种工艺是远超出。当时已有的工艺的,但是他只是在颜色上给我选择了一个他所理解的1920年代的样子,所以事实上是不够准确的。
Yuntang Huang
Graphic artist
作为处于视觉创作领域的广告公司来讲,在深入试用了一段时间后,我们也发现如何使用此类工具的能力,将会成为未来在行内是否能够占领先机的关键。这就对使用者本身的艺术素养、知识广度以至于生活积累都提出了更高的要求。 如果说以前PS等工具的出现,让很多没有美术基础的也可以走上视觉设计的工作,那么AIGC的技术出现,就相当于可以让更多的人走上创意总监、策略总监的岗位,甚至说一个人就可以是一个创意部。无疑是一个即残酷,又充满诱惑力的前景,大量基础工种将被迫下岗,但整体行业将得到升华。
Xinli Wang
Product Manager at TIDA
我对它们的“能量”感兴趣但它们毕竟是机器。设计/绘画多少都会体现个人情感,这种情感不是泛泛而言像所谓的“中国人怎么想美国人怎么看”那么简单粗暴。人不是机器。
我不以为它们能代替“个体的经验和情感”。我也不会用AI替我思考。在这个层面上我会“抵制”
Nan N.Frankford
Senior Designer and Graphic Artist
用户群体需求和痛点分析
根据对用户群体的观点访谈,作品分析,本研究提出该群体针对AIGC夸模态的需求,以及建立在需求之上,针对已有AIGC使用工具和场景产生的痛点
普遍需求
01
用户需要减少对重复性高、质量要求低的机械内容的投入以提高整体工作的效率,优化工作权重
02
用户需要工具辅助快速完成大规模的图像和文本爬虫工作以及大量信息初步归纳总结工作
03
用户在收集和归纳灵感阶段,需要获得足够多的可视化(可直接对比)的材料
04
用户需要最快地将自己思维中模糊的想法具像化,减少操作流程
针对现有AIGC的使用痛点
01
AIGC产出的作品、信息在质量上难以把控, 相比人工高质量产出, 可用性仍有所差距.
02
算法和模型偏差导致的AIGC产出信息不够客观,产出作品风格有偏见.
03
AIGC产出过于具体, 使艺术创作丧失了模糊迭代过程中的大量可能性. 使得作品创新性、深度都有所缺失.
04
AI无法取代人类情感和深度思考,同时无法完全参透艺术家的创作逻辑和风格,从而辅助创作能力有边界.
用户研究总结
以数字创作者、艺术家的角度来说, 该群体大部分人对AIGC于其创作的辅助能力持积极接纳和期待的态度. 而基于对该技术的了解和使用经历, 很多人提出AIGC的辅助作用仍然大多停留在取代机械化生产的阶段. 在具有高审美、高质量、思考深度的创作当中,AIGC的效力则要薄弱很多. 另一方面, 作为创作者、艺术家, 用户仍然想在创作过程中保留思考和构建的主导作用.
在各类使用场景当中, 许多用户提出AIGC可以以填充框架的方式融入到艺术创作生产的过程当中.即用户提供整个创作工作的框架, 如灵感方向、问题分析、制作流程、迭代标准和发展选择等等,在用户拟定的框架当中,AIGC可以迅速地填充信息内容. 如汇集图像信息并做视觉归纳以帮助艺术家填充情绪版,帮助艺术家分析进一步的创作方向;或者基于艺术家创作的脚本思路填充电影分镜,为艺术家快速提供各类画面的可能性;或帮助艺术家填补文字或图像的背景信息,完善创作. 在这一过程中,创作者起到了一个选择、辅导和监督的作用. 确保产出的有效性和高质量.
而正是这样的监督、辅助、选择关系, AIGC对使用者(创作者、艺术家)的个人素养提出了更高的要求, 也就是说,“ 判断力”在这一关系中超越了传统创作过程中的“行动力”的价值.
另一方面,这样的关系也对AIGC的发展提出了挑战,指引了方向. 该内容在下文论述.
提供创作框架
产出填充信息
做出判断选择
提供大量选项
监督内容产出
根据反馈迭代
艺术创作领域AIGC发展设想
方向与挑战
基于对用户需求、痛点以及其与AIGC合作、使用关系的分析, 本研究对AIGC在艺术创作领域未来的产品发展提出针对方向以及对应挑战.
方向
针对数字艺术家创作者的多模态AIGC产品发展方向, 可以指向完善辅助填充创作框架的功能, 构建完整的人机协作工作流.
为了形成更好的连续、闭环、双向的协作关系, AIGC产品可以构建针对艺术创作者的更为完整、开放的工作框架, 帮助创作者适应AI在创作过程中的功能,并让用户在过程中有更高的可控性和过程可视性.
挑战
技术挑战: 多模态AIGC的发展始终依赖于底层技术发展,只有能够训练出更好的理解和生成模型,才能满足创作者对于高质量填充内容的需求.
设计挑战: 对于多模态AIGC和用户的信任关系问题, 未来的产品设计需要更为开放、可视、可控的使用体验. 设计出人机关系更为流畅的使用体验是多模态AIGC未来产品的重要课题.
产品场景初设
区别于市场现有的大多数多模态AIGC产品所提供的具体应用功能, 本研究基于前文分析, 提出构建基于多模态AIGC技术的工作流框架产品. 意在帮助创作者、艺术家等用户群体合理规划和统协在创作过程中对AIGC技术的使用和控制,形成流畅的人机交互工作流程,建立可控的、信任的、双向的AI使用工作流.
产品框架规划
以影视创作为例, 设想产品的框架
用户提出大致创作信息: 电影主题、电影类型、电影预算、团队...
AI 辅助完成工作框架构建 (脚本-分镜-台词-拍摄-后期...)
用户基于AI生成框架进行选择和调整(如在框架中删去台词,增加人物设计)
AI基于确定框架提出可供AIGC发挥功能的多种可能性(如提供分镜、剧本...)
用户基于可能性做出AIGC使用决策(决定利用AI收集风格、制作分镜)
AI基于决策和反馈快速填充框架(多模态AIGC根据文本收集风格,制作分镜)
用户对AI生成的内容进行评估、判断和方向挑战, 监督计算生成(筛选分镜)
用户细化部分填充后的框架, 或调整框架 (如将分镜细化成多角度分镜)
用户进行核心内容的创作(如人物设计、深度剧情)
AI基于用户给出的核心内容和深度内容,调整填充内容(根据深度剧情调整分镜)
参考文献:
[1] Pros and cons of AI-generated content, By Amanda Hetler, Feature Writer Published: 02 Feb 2023,
https://www.techtarget.com/whatis/feature/Pros-and-cons-of-AI-generated-content
[2] 腾讯研究院:2023年AIGC发展趋势报告 https://www.fromgeek.com/report/1231-518871.html
[3] 2023中国AIGC市场研究报告之ChatGPT篇|甲子光年智库 https://baijiahao.baidu.com/s?id=1758708276530474702&wfr=spider&for=pc
[4] How AIGC realizes commercialization — NFT case https://foresightnews.pro/article/detail/20743
[5] When AI Meets the Art of Painting, By Xincheng and Chenguang, https://www.alibabacloud.com/blog/599498
[6] The State of AI Generated Art – A Report on Current Technologies: https://www.artnome.com/news/2018/8/17/state-of-ai-generated-art-august-2018