feat: add 3d representation
视觉是人类获取信息的重要方式之一,计算机视觉是通往通用人工智能(AGI)的重要工具。HuggingVis项目将关注视觉生成任务(包括图片、三维、视频生成)。首先从视觉信息编码和压缩的基本原理切入,理解不同方法的基本逻辑;然后依次分析图片、三维和视频三个模态的生成和编辑实现方法;最后介绍视觉生成的社区和行业生态。
自GPT问世以来,自然语言大模型(LLM)已经逐渐深入人们日常生活和工作当中。同时,视觉大模型领域方向也在飞速发展,以Stable-Diffusion系列、DALL系列、Imagen系列的二维图片生成大模型在被大家广泛使用;随着NeRF、3DGS等三维基础表征技术的进步和更迭,越来越多三维生成的方法也随着雨后春笋一般涌现,并且表现出越来越逼真和管线友好的3D物体生成方式;短视频泛滥的当下为视频生成模型提供了大量的高质量数据饲料,使得视频生成大模型能朝着高一致性和高可控性方向上一路狂奔。 我们将借助该项目让更多人了解视觉生成原理并能更好使用相关技术方法,尤其是想帮助是对此感兴趣的同学入门视觉生成领域。
项目适合以下人员:
项目不适合以下人员:
本项目初稿在不断更新中,在线阅读: HuggingVis
第一部分 视觉生成方法
第二部分 视觉生成原理
第三部分 社区与发展
清华大学硕士
Data Scientist
西安电子科技大学本科
特别感谢 Sm1les对本项目的帮助与支持。 感谢Tango对2-2章节提供的帮助;感谢AnSuZeaT对6-1章节提供的帮助; 感谢Fantastic121380对1-1章节提供的帮助;感谢flawzhang、mxztflow、QJieWang对本项目提供的帮助。
扫描下方二维码关注公众号:Datawhale
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。
Hugging Vision, Hugging AGI.
项目简介
视觉是人类获取信息的重要方式之一,计算机视觉是通往通用人工智能(AGI)的重要工具。HuggingVis项目将关注视觉生成任务(包括图片、三维、视频生成)。首先从视觉信息编码和压缩的基本原理切入,理解不同方法的基本逻辑;然后依次分析图片、三维和视频三个模态的生成和编辑实现方法;最后介绍视觉生成的社区和行业生态。
立项理由
自GPT问世以来,自然语言大模型(LLM)已经逐渐深入人们日常生活和工作当中。同时,视觉大模型领域方向也在飞速发展,以Stable-Diffusion系列、DALL系列、Imagen系列的二维图片生成大模型在被大家广泛使用;随着NeRF、3DGS等三维基础表征技术的进步和更迭,越来越多三维生成的方法也随着雨后春笋一般涌现,并且表现出越来越逼真和管线友好的3D物体生成方式;短视频泛滥的当下为视频生成模型提供了大量的高质量数据饲料,使得视频生成大模型能朝着高一致性和高可控性方向上一路狂奔。 我们将借助该项目让更多人了解视觉生成原理并能更好使用相关技术方法,尤其是想帮助是对此感兴趣的同学入门视觉生成领域。
项目受众
项目适合以下人员:
项目不适合以下人员:
项目亮点
项目规划【内容持续更新中,欢迎关注~】
本项目初稿在不断更新中,在线阅读: HuggingVis
第一部分 视觉生成方法
第二部分 视觉生成原理
第三部分 社区与发展
主要贡献者
Xiaojie Li
清华大学硕士
Letian Zhang
清华大学硕士
joye
Data Scientist
Bote Huang
西安电子科技大学本科
致谢
特别感谢 Sm1les对本项目的帮助与支持。 感谢Tango对2-2章节提供的帮助;感谢AnSuZeaT对6-1章节提供的帮助; 感谢Fantastic121380对1-1章节提供的帮助;感谢flawzhang、mxztflow、QJieWang对本项目提供的帮助。
关注我们
扫描下方二维码关注公众号:Datawhale
LICENSE
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。