搜索: "数据选择"

共找到 1 篇相关文章

上交大与阿里Qwen团队提出新型预训练数据选择方法OPUS

上交大与阿里Qwen团队提出新型预训练数据选择方法OPUS

在“大模型预训练”的领域中,普遍的信条是,如果想让模型性能更佳,就需要输入更多、更新且质量更高的数据。然而,最近一篇来自阿里巴巴、上海交通大学和威斯康星大学麦迪逊分校等机构的研究成果,在Hugging Face Daily Paper上取得了月度最佳的成绩,这直接挑战了上述共识,即从质量较低的数据中动态筛选样本,也能在与高质量数据优先的训练方案竞争中胜出。这一发现之所以在社区中引起了轰动,不仅因为

科技1 阅读