视觉检测领先者
全国咨询热线:13812953225

绿地对谈武宇教授:推进每一毫米

发布时间:2023-07-28 20:52:45 人气: 来源:bob平台官网入口

  咱们今日约请到了武汉大学计算机学院的武宇教授。武教授从跨专业读博到取得 Google PhD Fellowship,仅仅用了两年时刻。从机械专业到 CV,他的挑选途径,或许是拥抱改动的典型例子。Enjoy

  武教授:我最近首要的研讨方向会集在生成类。之前的研讨作业更多会集在 Detection,Segmentation 的切割辨认类任务。跟着研讨的开展,咱们逐渐认识到生成类的方向好像更有远景,并且这一两年也确实呈现了较大打破。我首要研讨生成,也做多模态,比方 Vision Language,Audio V isual 这类跨模态的相关。

  绿地:Facebook 最近开放了 SAM、DINO,这些模型是否偏判别式?您的科研方向,是从判别式转向生成式么?

  武教授:SAM 和 DINO 是判别式的。12-13 年敞开的 AI 热潮首要在做“判别式”任务,用 AI 模型处理实践问题,比方人的检测、人的盯梢、人脸辨认等等,经过多年开展,运用和科研现已相对老练了。SAM 确实是计算机视觉(CV)中最出圈的作业,引发了一股热潮。不过和 ChatGPT 和其他 LLM 比较,SAM 的影响力显着缺乏。一开端许多人以为 SAM 的呈现将会是 CV 届的 ChatGPT 时刻,实操中发现,SAM 在处理切割和边际问题后,怎么实在处理实在国际的杂乱视觉任务,还有待进一步研讨。从咱们的研讨体会而言,SAM 不能处理 CV 中的悉数问题,仅仅一个比较好的辅佐常识模型。

  至于我做生成类任务的原因,是在于判别类在运用层现已相对老练,生成类更需求打破。生成类的 Demo 尽管都很冷艳,但到实践运用总是差一口气。比方 AI 画册或许 AI 画像,乍一看很实在,仔细调查细节,便会发现许多过错。别的,咱们也不能直接运用生成式东西完结生产力规划,因而咱们最近的研讨就偏重怎么在生成类任务上,将学术界的前沿研讨进一步往生产力东西上推进。

  绿地:您觉得学术界能够协助工业界完结哪些探究和打破?当时阶段,哪些研讨性质的作业是应该和工业界赶快结合落地的?哪些是学术界需求加速去处理的?

  武教授:这是最近咱们比较重视的问题。依据 LLM 的作业,很难界定学术界是否能主导做大模型,现在看来学术界也确实没有满意的资源,因而不管国内仍是海外,都是公司和工业界在推出大模型。工业界不可否认是这波大模型的主力军,但学术界仍然起着重要的作用,未来两界需求交融开展。工业界近期的作业,在底层算法上的立异比较少,假如不考虑练习的工程 Trick,能够说模型的立异性微乎其微。假如未来 AI 一向停留在堆参数的考虑形式,很快就会饱满,会变成 AI 泡沫,未来就没有新的开展方向了。学术界存在着重要的任务——怎么结合大模型,兢兢业业的做出上规模之后仍然能实在落地 的论文。这是对学术界的应战,更是学术界的职责地点。

  比方生成式范畴,Diffusion 是学术界提的,但实在发扬光大的或许是工业界的 Stable Diffusion。工业界做的模型杂乱度不高,经过许多数据和练习战略,就能够收成杰出的作用。但下一步往哪里走?若只靠堆参数数据,还会不会有下一个“Diffusion”类型的改造?这个“下一步”,就需求学术界的参加。比方最近咱们的一项作业,便是将彻底自在生成的 Stable Diffusion 转成可定制化的生成。已有的模型能够输入言语文本来生成图片,比方描绘“一个人在沙滩上晒太阳”,实践中人类在图片生成成果上通常是有详细方针的,并非随意的一个人躺在随意的一个沙滩上都能够。因而,定制化图画生成有着宽广空间。咱们最近做了一篇作业,依据工业界 Stable Diffusion 引进立异的做法——不需求额定练习,不需求微调的定制化生成。依据用户供给的恣意一张图画(例如人物、物体、logo),用言语引导,生成一起契合言语和视觉的图片。相当于学术界依据工业界大模型算力进行二次开发。

  武教授:有的。第一个是可控(定制化)生成。从 AIGC 的随机生成步入精细化生成。也有同行在做相似的作业,但需求微调。之前 CVPR2023 Best Paper Candidate 有个闻名的作业叫“Dreambooth”。与之比较,咱们作业的特点是视觉特征的保存程度比 Dreambooth 好,并且不需求微调,也不需求练习,速度也快。业界的全体研讨思路都是从全体生成变为更详细、更可控的生成。

  第二个子方向是图画修正。AIGC 是纯生成。实践运用是依据现已存在的图片,怎么进行修正,比方让人笑得更绚烂,去掉不相关的人,去掉暗影,替换物体等等。许多人也在往这个方向探究。

  第三个是生成图画检测。生成的图画会存在侵权和误导,怎么完结对生成图画或许篡改图画的检测,是有价值的子方向。

  以上的作业,不是用粗犷大模型就能够直接处理的,都需求在各个子范畴进行考虑。

  武教授:定制化生成有 2022 年推出的 Dreambooth,现已有 300 个引用了。检测方向最近有微软的 DIRE for Diffusion-Generated Image Detection,用于判别是实在图画仍是假图片,研讨思路上还值得商讨。图画修正作业就更杂乱了。

  绿地:您也关怀 Detection 范畴,是不是以为原创维护是个挺头痛的问题?

  武教授:咱们在这个方向的认识在逐渐增强。我之前做过音乐生成,版权是很大的问题。尽管仅仅学术研讨,但用了歌曲数据,没有版权,作业就无法发布。现在有一类研讨是专门看 AIGC 模型是否侵权的。

  武教授:一般来说,大方向的转化仍是有点费劲的。相对而言,改动都是在一个范畴稍作修正,逐渐迁移到改动较小的方向。我从 17 年开端做多模态,和 AIGC 也算一脉相承。由于一开端做多模态也是做图画描绘生成,只不过生成的不是图片,而是文本。Stable Diffusion 也是多模态生成,输入言语描绘,取得视觉表达图画。所以方向上改动并不大,改动比较大的是底层技能改动。几年前,咱们都在用 VAE,LSTM,GAN,最近都在用 Diffusion 和 Transformer。咱们从 21年就开端做 Diffusion了。这种改动并非断臂求生,而是逐渐发现更风趣的方向,然后进行偏移,直到新的技能呈现,花足时刻学习后,持续往下做。

  武教授:生成类的而言,一键生成电影应该比较快能落地。现已有一些研讨者也做了相似的作业。与其说是一部电影,或许说简略有剧情的视频更恰当。用 LLM 写剧本,用 AIGC 对每一帧每一幕生成后串起来。作用和实践中上亿本钱的电影必定存在距离,生成一段 Demo 视频是比较实践的。

  第二,音频、视频、图画完结归纳生成的方向,现在还没有相关作业。咱们在测验去做更一致更归纳的多模态生成。比较纯图画生成必定更具应战性,由于需求考虑其间各个模态的相关性。电影生成当时作用上不敢确保,比方每个场景切换是否滑润等等,都需求逐渐改善。将来能够做到给引导就能做出电影。一开端作用不会很抱负,但终究会到达近似的程度。学术界的同仁都执政这个方向尽力,估量三年之内应该能够落地。

  绿地:您觉得未来生成多模态内容,是一个模型能够直出,仍是需求几个模型相互协作?

  武教授:我片面感觉需求几个模型协作,每个模态模型各有所长,在经济上是更合理的。平等参数量下,严厉区别每个模型担任不同的模态,用中枢操控各个小模型,作用应该比较好。除非算力完结重大打破,才或许呈现一个满意大的模型自行完结作业内容。

  绿地:有许多传言说 GPT-4 是个 MOE,从工程视点而言,不像GPT-3 和GPT-3.5 便是一个模型,它其实不是“一个”,背面或许有 16 个小模型?

  武教授:仅靠堆模型参数完结相对 GPT-3 有量级不同的提高,关于 OpenAI 来说本钱也过高了。假如 GPT-3 本钱翻了几百倍,而作用提高甚微,当下看就没有商业价值。

  绿地:从上一波 AI 到这一波 AI,学术界和工业界的区别鸿沟越来越含糊。您也阅历过跨界,这次您会怎么挑选呢?

  武教授:两头都有优势。工业界有许多资源支撑你干事,从纯科研视点很有吸引力。但和学术界比较,工业界不可自在,不太简单坚持一个方向。比方最近大模型火爆,在工业界,假定之前我的范畴是视频了解,现在或许就要被逼去做 NLP 大模型。我终究挑选学术界,是想更自在地探究,去推进科研探究鸿沟的每一毫米。工业界终究落地的是产品的运用性、实用性和事务价值,而非模型算法和技能的打破。

  绿地:李飞飞提出的具身智能(Embodied AI)方向,您怎么看待呢?

  武教授:我在 18 年做过一段时刻 Embodied AI,最近感觉开展更详细了。一开端 Embodied AI 有点像吹概念,和实践运用特别远,只能做一点点智能。不过,Embodied AI 使用最近这波大模型做决议计划大脑,也算瓜熟蒂落。所以最近具身智能的开展向上走了一个台阶。我师兄浙江大学王文冠教师,就主攻具身智能,最近有许多出彩的新作业。但 Embodied AI 也相同面临转化事务场景需求时刻的问题。将来有实体 AI 遍及的前提下,具身智能会有更大开展。假如变成实在国际中的机器人,咱们会觉得是有落地价值的,比较智能 的方向。

  绿地:马斯克做了人形机器人之后,咱们的重视度很高,也存在许多争议。LLM 对机器人的提高度怎么?仍是在炒作概念?

  武教授:LLM 有协助,但不是决定性的。机器人需求先处理自身的问题,其次才是 AI 算法问题。由于机器人存在于实在国际,没有软件国际那么抱负化。纯软件场景比较简单可控,硬件就存在许多差错。比方传感器,在练习仿真机器人时,咱们一般会供给精准力学数据。但实在场景下,力学传感器存在差错,导致反馈系统有差错。问题不在软件算法,而是实在国际太杂乱,每个东西都有噪声,噪声累加,机器人就难以自在行走。

  武教授:招学生首要看学生的主意。尤其在面本科生时,并不是看他们做过什么,有什么阅历就下判别。一般我会抛出科研中遇到的波折难题,比方这个办法不可,你会怎么测验考虑和举动?这才是有价值的。假如类比 AI 算法,便是 Meta learning,Learning to learn——遇到新问题怎么进行反应和快速学习新常识,这也正是做研讨的中心才能。咱们也发现,有些同学或许过往论文很好,但进一步深化协作会发现做研讨的习气和形式并不太科学。调查对方在面临难题时的考虑形式,比已有的成果或许更为重要。

  武教授:有改动是功德,人要拥抱改动。我之前从机械方向退学转行,首要是觉得机械技能开展太老练,用的是几百年前的东西,不适合做研讨。相较而言,去做开展较快的方向也是我的喜好地点。大模型年代的目不暇接,意味着学科在快速开展,对学术界来说是应战,更是机会。回头来看,过往的转行还算顺畅,能快速习惯新的方向,在 AI 范畴感受到喜好和热心,更靠近自己的喜好和作业,心里感到很满意。

在线留言

看不清?点击更换看不清?