本数据集采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。
一个第三方的泠鸢yousa歌声数据集,本数据集内容收集于互联网。
一般来讲,泠鸢yousa官方(以下简称为“官方”)持有的所有素材(包括美术素材、发表的音视频、直播录像)均不会被授权进行任何的二次创作。
但另一方面,官方对所有相关的二次创作(包括AI创作)持鼓励态度,包括音视频素材的再剪辑/再编辑后发布,故本项目对互联网上存在的素材进行分发以及使用本项目进行再演绎是存在合法性的。
数据中包含本数据集的收集者对数据的标注文件,处理.ass文件时请使用Aegisub同时配合VoiceSpip install voices 谢谢喵
你可以注意到CC BY-NC-SA 4.0许可禁止了商业使用,但按照所谓圈内的一般习惯,使用本数据集进行创作后在平台获取平台收益(激励计划等),或者在一些场合(如漫展)通过售卖自行制作的宣传品获取收益也是允许的,最终解释权由官方与本数据集的收集者所有。
一般而言对官方形象的篡改也是不被允许的,但在实际的情况中这一条被执行的非常模糊,对于本数据集而言,你可能需要注意谨慎使用“声线融合”技术。
然而使用本数据集时,除了遵守CC BY-NC-SA 4.0许可外,您还需要注意以下几点
-
包括本项目在内和使用本项目素材制作的作品(包括音视频以及使用本数据集训练的AI模型),官方均有权力进行监管,官方随时有权禁止该数据集以及其他衍生项目成果(如AI模型)的分发,请在使用本数据集前三思。
-
你不可以将本数据集中的音频文件作为SVC技术(例如SoVits、DDSP-SVC、Diffusion-SVC、RVC)的输入源进行使用,且不建议作为SVC技术的训练数据进行使用。
-
再分发本数据集时,你最好直接使用本GtiHub仓库的链接进行分发。
-
This dataset is not intended for non Chinese users, so there are no English documents available.
此外…
-
本数据集的收集者并不对所有文件的质量进行保证,请根据你所进行的项目进行筛选后使用。
-
本数据集的音频部分进行了简单的降噪处理和响度匹配。
-
本数据集的收集者会持续更新Part B部分以提高数据的质量,也欢迎提供来源相同(来源自互联网)的其他数据进行补充,以及提供提高数据质量的方式,但不会理会任何关于数据质量的抱怨。
-
因为本数据集的数据量限制,你很难仅通过本数据集进行任何AI模型的训练。
Part A
链接:https://pan.baidu.com/s/1zRG9d_-cGnpgZTeyyBooAA?pwd=AAAA
Part B
本仓库release页面