高质量数据价值凸显:OpenAI与Reddit宣布合作

2024-05-17 16:46:00 - 21世纪经济报道

21世纪经济报道记者董静怡上海报道

当地时间5月16日,Reddit与OpenAI宣布达成一项重要合作,这项合作将使OpenAI能够利用Reddit的海量用户生成内容来训练其先进的人工智能模型。这一消息一出,立即在科技界引起了广泛关注,Reddit的股价在盘后交易中一度上涨15%。

值得注意的是,OpenAI首席执行官SamAltman是该公司的最大股东之一,与Altman有关联的实体持有Reddit8.7%的流通股。

Reddit与OpenAI发布的声明显示,合作将以多种方式使Reddit和OpenAI用户社区受益。一是OpenAI将为ChatGPT和新产品带来增强的Reddit内容,帮助用户发现Reddit社区并与之互动。OpenAI将访问Reddit的数据API,该API提供来自Reddit的实时、结构化和独特的内容。

这将使OpenAI的人工智能工具能够更好地理解和展示Reddit内容,也意味着OpenAI能够实时获取Reddit上用户发表的帖子和评论,以及这些内容所获得的点赞、评论和其他互动数据。

Reddit被称为“美版贴吧”。作为全球最大的社区论坛之一,其拥有超过5200万的日活跃用户,每天产生数十亿次的互动。这些数据不仅数量庞大,而且种类繁多,涵盖了从日常生活到专业知识的各个方面。对于致力于开发更智能、更自然语言处理能力的OpenAI来说,Reddit无疑是一个理想的数据源。

有业内人士分析称,这项合作对于Reddit和OpenAI来说是双赢的。对于Reddit,它将能够利用OpenAI的技术提高用户体验,吸引更多的新用户。对于OpenAI,它将获得一个宝贵的数据源,有助于其大模型的发展。同时,这也标志着人工智能领域的一个重要趋势:越来越多的公司开始重视并利用社交媒体和在线社区中产生的大量数据。

“Reddit的用户群体非常广泛,涵盖了不同的年龄、文化、职业和兴趣,平台上内容多样,为AI模型提供了丰富的语言样本。同时,Reddit上的讨论往往是实时的,反映了当前的社会事件、流行文化和用户兴趣,这种实时性对于训练能够理解和生成时效性语言的AI模型非常重要。”有AI从业者向21世纪经济报道记者表示。

招股书显示,Reddit拥有超过10亿的帖子和160亿的评论。平台内不断增长的数据量和知识产权,或将成为未来大型语言模型训练的关键要素。

无独有偶,谷歌在今年二月份也与Reddit建立了类似的合作伙伴关系,据悉该合同每年价值约6000万美元。通过访问Reddit的API,谷歌能够在其搜索引擎中更好地理解和索引Reddit的内容。此外,双方还将在云业务和数据共享两大方面扩大合作,如GoogleCloud将通过旗下应用VertexAI提供人工智能驱动,帮助Reddit改进其搜索引擎和平台内其他功能。

由此可见,高质量数据的重要性在提升。SamAltman去年就表示,单纯增加大型机器学习模型的参数数量,并不是提高模型性能的最佳途径,获取和利用大规模的、高质量的数据,以及对数据进行高效的工程化处理,才是提升模型能力的关键因素。知名AI学者吴恩达也曾表示,AI发展正在从“以模型为中心”加速转向“以数据为中心”。

尤其随着垂类大模型的高速发展,训练大模型需要高质量、大规模、多样性的数据集,企业和研究机构正在投入更多的资源来构建、维护和优化数据集,以支持更智能、更准确的AI模型的开发。

而对于Reddit等高质量内容平台来说,则是又一可靠的收入来源。Reddit方曾表示:“我们相信,我们不断增长的平台数据将成为领先大型语言模型训练的关键要素,并成为Reddit的额外盈利渠道。”

Reddit在招股说明书中表示,其已通过与AI公司签订数据授权协议,实现2.03亿美元的收入,并预计该数字会随着时间的推移而增加。

过去,Reddit并未对其数据进行人工智能培训目的的访问限制。去年Reddit开始调整策略,对平台API接口收费,每1000次API调用收取0.24美元。

有分析认为,这种合作模式也预示着未来AI发展的一个重要方向:企业之间的数据共享与合作将成为推动技术进步的关键。通过结合不同来源和类型的数据,AI模型能够更全面地学习和适应,从而提供更加精准和个性化的服务。

今日热搜