韩媒:人工智能(AI)时代的稀缺资源"媒体报道"
韩国国内一位房地产专家向中国人工智能(AI)DeepSeek 提问说:"O O(自己的笔名)是谁?" 结果让他大为吃惊。他的主要活动和主张被一目了然地列举了出来,甚至说明了他为什么著名。信息的质量和深度超过了 OpenAI 的 ChatGPT。DeepSeek 怎么会知道这些信息 ?
▶  美国大科技公司在编写 ChatGPT 等 AI 模型时收集了世界上所有的信息,其核心是媒体积累了 100 多年的新闻报道。大科技公司对 AI 开发过程中收集数据最多的前 10 个网站进行了调查,其中 5 个是新闻社。在前 100 个网站中,媒体占据了 51 个。《纽约时报》知道 AI 免费盗取记者们用血汗制作的报道的事实后,以 OpenAI 为对象提起了侵犯著作权的诉讼,媒体开始限制免费使用数据。
▶ OpenAI 与美联社、《华尔街日报》等部分媒体签订了单独的合同,缴纳数据使用费,但很难向全世界媒体缴纳使用费。主要网站也开始对收集数据的 AI 机器人下达"禁止出入令"。新的数据收集变得困难后,埃隆·马斯克说:"训练 AI 所需的数据池正在枯竭"。DeepSeek 和 ChatGPT 对韩国房地产专家的 AI 信息能力的差异可能是出于这个原因。
▶ 大科技公司们希望在 AI 人为制造的“合成数据”中找到突破口。以特斯拉为例,它已经用完了全球的交通事故信息,不再有新数据,而是将"深夜在国道行驶时,在交加雷电的暴雨中,野猪冲进道路的情况"制作成合成数据,将其放入算法中。但如果加入大量合成数据,此前的错误和幻觉现象就会积累起来,导致 AI 模型的质量下降。
▶ 想打造更聪明的 AI,优质的数据是不可或缺的。比起在社交媒体(SNS)上流传的假新闻、粗鲁的措辞,经过事实确认后使用精炼措辞的媒体新闻是"高品质的稀缺资源"。这也是为什么大科技企业不得不追求与新闻社共赢模式的原因。
来源:朝鲜日报

声明:该文仅代表作者本人观点,欢迎在下方【顶/踩】按钮中亮出您的态度。