阿里大文娱CTO郑勇:1+6+N之后,决策周期变短了

阿里大文娱CTO郑勇:1+6+N之后,决策周期变短了
2023年08月20日 16:50 剁椒娱投

作者|尖椒

最近一个月,妙鸭相机凭借AI生成数字分身获得广泛关注,成为国内AIGC领域首个爆款APP,也让外界对阿里大文娱酝酿的科技业务充满好奇。

今天上午,娱乐资本论与阿里大文娱CTO郑勇进行了对话,了解妙鸭这个项目上线前后阿里团队面临的挑战,以及阿里大文娱后续在影视领域与AI应用方面的规划。

郑勇坦言,妙鸭项目上线初期,在合规与算力方面,他需要投入120%的精力解决问题。不过随着项目逐渐稳定,精力投入会逐渐减少。他表示,对妙鸭商业化的要求是“不要亏太多”,除了9.9元的订阅制,后续还会随着新功能的上线有所调整。

据了解,随着妙鸭相机在C端引起广泛关注,B端工作站也在近日上线,目前已邀请行业内的摄影师、设计师参与模板设计内测。

今年3月,阿里进行了“1+6+N”的组织改革,而妙鸭这个项目正体现出改革后的组织敏捷性,“现在我们有目标后可以很快达成。”

据悉,阿里大文娱于6月成立了神力视界(深圳)文化科技有限公司,注资1亿元,经营范围包含组织文化艺术交流活动、软件开发、人工智能应用软件开发;文艺创作;广播电视节目制作经营等,由阿里巴巴文化娱乐有限公司全资控股,法定代表人为阿里大文娱集团CTO郑勇。

郑勇证实,神力视界是阿里大文娱旗下科技业务的公司主体,妙鸭相机就是依托神力视界的技术能力孵化出来的,接下来为了便于管理,妙鸭相机的公司主体也将并入神力视界。“相比‘搬家’,更像是‘回家’。”郑勇说,妙鸭公司主体并入神力视界,也是希望产品能更聚焦在持续优化功能和用户体验上。

除了妙鸭,阿里大文娱还利用AI在影视工业化方面迭代更新,现在已经可以使用AI制作宣发物料。之前的云尚制片也做了迭代,新的功能叫云尚现场。郑勇透露,最快在今年底,阿里在影视方面的AI应用将会有明显的创新提升。

妙鸭火了:合规和算力曾是我们主要面对的问题

Q:阿里大文娱在妙鸭上线的前后,做了哪些事情,组织了哪些资源?你觉得这是偶然还是必然?外界说“1+6+N”之后阿里的组织更加敏捷灵活,这个项目里有具体的体现吗?

郑勇:基本上有两个关键点。去年12月整个团队开始研究AIGC这个事情。无论图片大模型,还是文字大模型,我们都在做研究。然后第二个时间点就是1+6+N,坦白讲我是觉得对妙鸭的帮助还是非常大的。因为在以前那个组织结构里面,我们如果扩展新的业务,整个流程还是挺复杂的。对于妙鸭,我们其实从三月份就开始研究这事,四月份开始这个项目,再到7月份正式对外发布。中间其实发展很快,团队人也很少,这是之前。

之后的话,一上来确实我们受到了很多的关注,其实被打击也挺多的。大家如果玩妙鸭的话就知道,一开始我们只有微信小程序。但是后面其实遇到一些合规上的问题,特别IOS那块,可能我们要面临下架,后来我们花了四天时间就上线了IOS。这种敏捷度其实以前不太具备。所以说组织敏捷性到底怎么提升,我觉得是会有关联的,现在我们有目标后可以很快的达成。

Q:刚才您提到合规,现在新的人工智能应用管理办法出来之后,比如说咱们这款产品,特别是C端的,为了合规去做了哪些事情?

郑勇:我们现在内部也在聊,会发现可能我们跟那个关联度不大。因为它那个主要核心是生成式的内容。所以我们现在还在研究到底是不是属于那一类,这还不确定。

Q:我们可以看到大家用妙鸭的时候,之前等待的时间非常长。在技术上怎么处理高并发,还有算力分配上的问题?

郑勇:我们和阿里云一直在做合作,除了模型效果优化上,我们也在模型调优,调参上最近这一个月也做了很多工作,至少是一倍起的优化效果,所以现在你会发现基本上不用排队,速度也很快,这方面技术一直在做推进。

Q:算力上增加一倍投入吗?

郑勇:不是算力上,阿里云的算力在财报里体现的不止一倍的投入,甚至好多倍,我们在算法调优上提升的效果,好比以前100片卡训练100个人,现在100片能训练300人,这是技术优化的方向。

Q:咱们前段时间上线了一个to b的工作站,和一些摄影师一起创作模板。目前在这一块有什么样的进展?

郑勇:现在我们已经邀请了一些设计师,因为我觉得不管我们团队再强,人再多,设计出来的模板丰富度或者质量一定没有行业真正头部的一些设计师设计得好。我们每天都有新的进展,应该很快就能看到有设计师设计的模板出来。

Q:妙鸭相机在支付宝小程序上线了,这是出于一个什么样的考虑?

郑勇:因为微信那边给我们的压力也比较大的。当时我们做决策是IOS 4天上线,支付宝三天上线,那时候相当于防守策略,但现在支付宝小程序的那个数据还挺好。

妙鸭相机将并入神力视界:不是“搬家”是“回家”

Q:不久前阿里成立了神力视界,想问一下成立这个公司的初衷和背景是怎样的?这个公司跟阿里其他业务板块的关系是怎样的?

郑勇:像影视工业化,AI相关的一些业务,都会放在神力视界,甚至妙鸭这块业务也是。神力视界七月份才注册,但其实我们组织调整在四月份就完成了。神力视界后面会承载我们科技相关的一些业务。

Q:咱们阿里大文娱整个的科技战略,在B端C端分别有哪些布局?

郑勇:相对来说我们主要还是在影视这一块,所以我们会围绕影视这一块做深度的B端上的一些研发投入。C端的话,其实像妙鸭这种,我们做的时候会发现有一些技术点可以To C,我们也会去做。

Q:C端先出来是因为C端用户对于技术上的包容度更高吗?

郑勇:它其实也不是一个包不包容的问题。为什么妙鸭能火?其实核心是它的效果好,那些写真照其实是让用户觉得超出他预期的。不管B端还是C端,我们对质量上的要求还是多一些。

Q:妙鸭它现在主要聚焦人像赛道,它跟咱们大文娱的主营的业务协同性是怎么样的?

郑勇:我们现在尽量让它独立发展,因为我们担心一旦协同,有时候可能是反作用力。对业务有帮助我们会用,但如果用不上也不强求,因为确实这个跟视频类不是一个赛道,我们会担心如果一定强制使用,会影响团队的整个工作。

Q:之前大家可能会认为妙鸭与阿里大文娱的核心业务协同性不是很大。挺好奇当初到底是哪些因素打动了你?除了你刚刚说的效果好之外,你当时看好的原因是什么?

郑勇:因为阿里大文娱还是鼓励创新。当时我们可能会觉得能做一块新的业务,我们就去做,而不是因为我们是做文娱的,只能做长视频,就只做长视频。

Q:你每天的工作中有多少精力放在妙鸭这个项目上?

郑勇:看日子。非常焦头烂额的那几天,可能有120%的精力在妙鸭上。比如刚才讲的一些合规问题,微信小程序用不了的时候,甚至屏蔽了几个小时,包括刚才讲的一些GPU不够,去协调阿里云,那些时候精力用得比较多。但最近已经走上正轨,我的很多精力会慢慢收回来。

Q:因为这种分身的相机很多都是一次性使用,如何去提高二次使用率?

一个是模板,如果只是几个模板,坦白讲确实很容易疲劳,所以后面模板丰富度一定会越来越多。另外我们还会上线一些比较好玩的东西,下个礼拜跟下个月都会有一些大家喜欢的功能出来。

Q:那如何可以复制下一个妙鸭呢?

郑勇:还是整个组织的土壤跟敏捷度,因为我们内部还是会以相对比较包容开放的态度去对待一些idea。

Q:对于妙鸭的商业化有没有什么要求?

郑勇:不要亏太多钱。

Q:下一步商业化要怎么办?

郑勇:我们确实上线相对比较仓促,所以定价就直接是9.9块,后面还会提供部分功能的付费,包括刚刚我们讲的新功能。

AI创业仍有门槛,人才短缺是关键

Q:大模型创业,算法、算力、人才要求非常高,应用层会觉得是平民化机会,作为已经走完一个小周期的应用,从您的感觉来看,应用层会不会更有机会?它对创业的门槛会不会还是挺高?

郑勇:坦白讲这个门槛确实还是存在,里面涉及到几个关键点,今天对AIGC基础的一些模型理解的人才,整个行业都是缺的,这部分补齐后,后面你会遇到像AR/VR一样,你的服务前期撑不住就会带来GPU不够,调参又是另外一波人才问题了,人才、资金都是制约创业团队往前走的问题。

我觉得它短期内会存在,一年左右基本上很多点都会解决,包括人才,机器都会解决。

Q:现在大文娱的技术创新目前是我们有独立研发的团队,还是说以后会更多依靠像阿里云达摩院等一些之前的资源?

郑勇:核心是自研。因为阿里云提供的基本是基础设施,达摩院会有通义千问,这些东西我们只会做交流,但是真正实际的研发我们还是会回到自研。

Q:您说自研,SD研发团队有超过100人,买大几千张卡,阿里云自己也就几千到一万的水平。您说的这一块,模型更聚焦于精调和产品化,不像底层的事情。

郑勇:不是,这个有认知上的问题,今天SD也好,还是说OpenAI也好,或者现在国内一些创业公司做大模型,我看到大部分都是通用型的,什么叫通用型?就是所有垂直赛道叠加起来就叫通用型,我们只切一个点,所以我们对卡的数量要求不是那么高。训练成本也不是一个量级。

Q:因为阿里云现在也是越来越独立。咱们和阿里云是走结算,算是他们的客户?

郑勇:对,可以这么理解,我们内部客户也是客户,正常的商业结算。

Q:那未来如果有一些其他的厂商,也有一些卡的资源,也会去考虑他们吗?

郑勇:会。

发力影视工业化:做为好内容全力以赴的科技公司

Q:传统的剧组拍摄流程和制作是怎样的?可以通过数字技术改变当中哪些环节?

郑勇:传统的话,最早是从剧本的筹备创作阶段,然后开始码盘。有了剧本之后,才是文字分镜,图片分镜,预演,再拍摄、后期。其实它是一个非常长的一个链条。AIGC在创意发散和素材收集上会帮助很大。图片包括服装照定型,以及整个艺术审美这块,现在提效也很大。另外我们其实也在做一些虚拟拍摄。

Q:现在国内影视工业化水平是什么样的?和好莱坞的差距在哪?影响行业发展的因素可能有哪些?

郑勇:其实中国的整个影视工业化与好莱坞差距还是挺大的。不是几年的差距,是以十年为单位。所以大家要解决什么问题呢?一个是内容质量问题,第二个就是生产成本和周期的问题。

差距的根本原因在哪里呢?我觉得主要是今天整个生态模式。国外还是制片中心制,国内相对来说,到底谁是中心,导演,制片人还是片方,每个剧组都不一样。所以说底层机制就不一样。

Q:关于AI的影视制作方面,好像国内和国外是两种态度,国外好莱坞编剧对AI的应用,导致影视制作延迟拍摄。国内对AI影视拍摄还是欢欣鼓舞的,这种差异性您怎么看?

郑勇:这个问题挺好的,刚才讲到美国的影视工业化很成熟,相对来说它成熟在整个生产的流程流水线化了,所以它每个工种在里面承担什么职责,能够分配什么样的利益已经很确定了,所以为什么会有编剧演员做一些罢工,因为AI的加入会影响他们的利益。

中国因为影视工业化现在没有一个很完整的体系,所以今天有一个AI来搅局,AI的加入带来影视工业化的建立,阶段是不一样的。

Q:技术在整个阿里云大文娱的重要性是怎样的?

郑勇:一句话来讲,我们现在叫为好内容全力以赴的科技公司,这句话可能就能解释你刚才的问题。

Q:AIGC落地到很多行业,会变成一个革新生产力的工具。我发现它对影视文娱的渗透和融入程度好像比别的行业更好。您觉得这是什么原因呢?

郑勇:因为今天AIGC大家能看到的,其实归根到底就两个方面的突破。一个是文字,一个是图片。今天的文娱行业,其实最终就是艺术表达,虽然很多是视觉呈现,但基础都是从文字和图片来的。所以为什么文娱这个行业会第一步先动?影视工业化整个链条的时候,好比如说我今天我做个剧本,或者写个小说。其实今天那个GPT它就能帮你在很多的一些创意或者效率上的提升。然后图片上的审美会帮你大大加速以前的生产力。

因为你不管是MJ也好,SD也好,最终生成的图片,其实跟使用这个人的审美关联度挺强的。因为我们内部在使用时候发现一个美术生去做一个图片,和一个理科生生成的图片,档次会差很多。审美会涉及很多细节,美术生的专业度还是有用的。所以我是觉得不用担心后面美术这个工种不存在。因为只要你的审美水平在线,你出来东西会比别人好。

Q:现在短剧也很火爆,会在短剧上有突破吗?

郑勇:坦白讲我们现在最主要还是围绕长剧。因为现在市场上一些短剧的质量也良莠不齐,我们现在核心还是先解决头部内容问题。

Q:你作为优酷的CTO,现在主要负责哪方面的技术业务?咱们这个团队的精力主要分摊在哪些部分?

郑勇:我现在的主要精力是在影视工业化和AIGC,其他的话其实是我们之前一直积累的,包括云尚制片,这个是以前技术上的投入,跟AIGC可能关联度不大。

Q:云尚制片现在有加入到这一次的AI功能吗?

郑勇:有,我们对云尚制片也做了一些迭代,那个功能叫云尚现场,现在很多剧本也开始使用了,拍摄数字化,里面关键细节点会加入AI的能力。

Q:我搜了一下云尚现场,目前的资料还是体现在实时回看,协同现场效率,您刚刚讲到有更多偏数字化尤其是虚拟。

A:因为只有使用了之后,云尚做现场数字化的延展。

Q:涉及到版权问题,咱们会不会把那些数字资产当作我们练模型的一个方向。

郑勇:不会,版权归剧组方,我们不会把这个数据拿过来去训练我们模型。

Q:有没有一个更好的分层机制和剧组做协调?比如影视模板。

郑勇:影视模板就不强求。比如妙鸭,其实它里面也会涉及到一些隐私版权问题。比如说你这个模板,男主的服装这个版权到底要不要买呢?其实一系列问题还挺多的。如果大家觉得可以做联动就去做联动,不会非得强调必须做这件事情。

Q:影视工业化,虚拟拍摄,本质是为了提效,降本,增质,这几个方面我们有没有具体数据增幅或者是案例?

郑勇:这个还在跑,相对来说比如说虚拟拍摄,在车戏,室内场景戏效率基本能够翻倍,成本基本能降低40%以上。虚拟拍摄分2D和3D两个方案。2D的话基本上大部分的剧组都在用。3D这一块相对来说其实案例还不太多。

Q:商业反馈上,我们用了工具真能评估出项目时间和成本节约吗?

郑勇:还挺多的,比如说动漫,因为它程序里面没有涉及到真人实拍这一块,从原画到设计,到建模,这里面特别图片这一块SD+MJ就能带来很大的提效。我们做宣发物料主要是图片,包括影业很多宣发物料已经是AI直接生成了,成本降低的比例还是非常高的。

Q:其实阿里影业在上海电影节的时候,就已经在宣传说可以用AI做海报。目前其他工作流上有哪一块用AI是你觉得比较靠前的?

郑勇:坦白讲还挺多的。但现在相对来说,有些可能要12月以后我们才方便透露。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部