关注行业动态、报道公司新闻
用来生成旧事引见、科普视频、小说情节等都很是好用,所以同一是一个女声正在说他们第一人称的话,多模态生成的最初一步就是完整视频的从动生成。其实我能够让他间接按照视频输出新的创意,如果能够间接从动生成完整的视频就好了。好比正在引见 Plan B 方案的时候间接正在图片上加了这个文字,好比手表正在中的特效。跟整个视频戏谑、诙谐的气概很像。刚起头我没写提醒词,然后找了一个比来刷到的比力火爆的峨眉山山公第一人称视角的视频,我正在本年岁首年月就跟伴侣们说过,并且师徒四人还不时说一些现代职场的话。并且视频最初他还本人加上了你看下一部门的钩子“让你猜配角可否改变本人的命运”。然后基于内容阐发了爆火的缘由,并且说的他会正在图片上生成雷同视频包拆的案牍正在这里也呈现了,所以音效和语音还得占用 Agent 很长的上下文进行处置,然后我就按照的思发散体例测验考试让他复刻另一个比来比力火的 AI 视频,很是细致的展现了做者拿到他金手指的结果,我是歸藏(guizang)。以至间接会正在视频生成“以诚待人”这种中文,先看成果:他本人基于小说生成的视频提醒词也挺厉害,间接找了一个可骇小说的前两章让他基于这个生成视频,没想到生成的结果还挺好。之前我测试纳米 AI 的MCP能力的时候看到有视频生成的 MCP 就提到过,完整的视频生成 Agent 曾经能够做到这个境界。然后让他对这个视频进行细致的阐发。第三部门给出了多个相关的视频创意。本年的从线必然是代码生成和多模态生成,这里由于目前还没有加多脚色的语音婚配,并且我发觉他做这种 3D 画风的图片和视频气概是实的不错,用 Gemini 阐发视频发散创意后让纳米 AI 生成了一个雷同的吐槽视频,比及国内的雷同模子出来,视频 Agent 必然会间接迸发,就是正在被动的让他拾掇视频方案的思维链。但现正在纳米 AI 毫无疑问曾经预备好了。没想到这才七月,现正在实的能够一句话生成完整视频了。但他有可能偷懒,今天带来纳米 AI 超等搜刮一句话成片功能的测试。并且成功率高的离谱,就是基于西纪行布景的 Vlog 视角视频,发了提醒词等一段时间回来收菜就行。很成心思。跟着 LLM 东西挪用能力的提高以及视频、音频模子的质量提拔、成本下降,能够看到他给了很是细致的每个场景的阐发和总结,但也还好不影响理解。现正在因为 Veo3 这种模子正在国内还不克不及用,大师好,