程序员最爱的问答网站,给ChatGPT当起了“奶妈”

jh 3周前 (05-07)

打不过,就加入。

Stack Overflow,一个类似知乎、Reddit的老牌网站,因专注于技术问答和社区运营,因此在全球程序员圈内备受欢迎。

然而自从ChatGPT问世以来,该网站的访问量和搜索量都在短时间里骤降,众多程序员开始放弃使用。

为了挽留住用户,Stack Overflow先是封杀ChatGPT,紧接着推出自研AIGC产品,但接二连三的“自救”依然止不住流量的大幅下降。

令人惊讶的是,Stack Overflow突然在本周一宣布与OpenAI签订协议,为其提供数据

有意思的是,Stack Overflow不仅与OpenAI合作,其丰富的数据也被谷歌的Gemini模型买走。

程序员最大的问答网站,挡不住AI

在程序员圈里,Stack Overflow地位有多高?

简单点说,作为一家老牌问答网站,Stack Overflow已经成立了16年、最高时每月都有2亿台主机访问。

无论一线大厂技术大佬,还是刚入门的计算机小白,只要提出了编程问题,总会有网友挺身而出,提供思路,甚至直接给出最优解的答案。

正是因为有着庞大的数据,Stack Overflow虽然名气比不上Reddit,但也算是圈内人的必备网站。

但事情在ChatGPT横空出世后,开始朝着衰落的方向发展。

在 ChatGPT上线后,迅速有网友发现其出色的代码生成能力,因此“ChatGPT可以取代Google、Stack Overflow”的言论吸引了大批程序员的目光。

然而令人没想到的是,仅仅上线5天后,Stack Overflow反手就把 ChatGPT 给封杀了。

原因是ChatGPT生成的代码错得过于离谱,因此Stack Overflow宣布这些生成垃圾答案的账号都会被封号。

有意思的是,Stack Overflow团队发现,很多用来训练AI模型的数据,其实就是来自Stack Overflow。

如果放任AI机器人生成垃圾回答,那不就等于搬起石头砸自己的脚吗?

虽然Stack Overflow的表态很明确,广大程序员们也能理解,但奈何ChatGPT的体验实在是真香

最终,面对AI的强势来袭,Stack Overflow的流量也是越来越差,到了2023年6月,浏览量几乎已经是腰斩。

为了止住颓势,Stack Overflow 开始是一系列措施。

先是在7月,技术团队利用自家5800万个问题和答案的数据库,做了一款名为「OverflowAI」的AI 工具,其功能主要围绕着编程,但没有掀起太大的水花。

到了10月,公司CEO宣布解雇了约28%的员工,通过缩减营销预算的方式,为 AI工具持续输血。

不过由于OverflowAI还处于初级测试阶段,面对实力强劲且不断进化的ChatGPT,OverflowAI能做的仅仅是拖延Stack Overflow衰落的速度。

卖数据,真香

在面对ChatGPT的威胁时,Stack Overflow一开始选择使用“防御”的姿态。

但殊不知,这些公开的互联网数据早已被OpenAI等科技公司用“爬虫”等手段进行搜刮,自己不仅要面临用户的流失,更要面临数据的流失。

不过毕竟日访问量摆在那里,Stack Overflow手握着大量优质的数据,倒也成为一笔可以交易的资源。

自《纽约时报》带头起诉OpenAI后,越来越多的新闻媒体和门户网站加入到讨伐OpenAI的队伍中。

在面对版权问题时,科技公司们只能乖乖掏钱为训练数据付费,并承诺不会使用私人数据

Reddit、Youtube、ShutterStock、Photobucket等网站都是数据交易的受益者,手握大把优质的训练材料,科技巨头们花起钱来也是毫不吝啬。

相比之下,Stack Overflow的数据同样出色,甚至比Reddit这样的综合性网站更加专业。

因此,Stack Overflow CEO也开始学会了向各大科技公司推销自家数据,其中就包括了Google的 Gemini 模型。

或许正是看到了科技公司对于优质数据的渴望,让高层选择来了一次360度的态度大转变,既然用户是回不来了,那至少把钱赚到口袋里

值得一提的是,Stack Overflow当时强调,该协议并不具有排他性,这就意味着任何科技公司都可以购买同样的数据,剩下就看哪家训练得更好。

据报道称,Stack Overflow 的技术内容将与 OpenAI 的 GPT-4 等模型相结合,通过OverflowAPI访问,未来开发者可以直接通过 OpenAI获得可靠且经过验证的数据,并帮助他们快速找到解决复杂问题的方法。

而Stack Overflow 也能从开发社区收集反馈,确保 AI 开发工具持续改进。

简单点就是说,Stack Overflow与 OpenAI来了一次技术和数据的互换,前者提高了AI能力,后者得到了可靠的数据,两者双赢。

据悉,此次合作将带来的第一组集成功能和能力,预计将于 2024 年上半年发布,这也说明双方的合作其实已经进行了很久。

隐私还是大问题?

目前,越来越多的社区网站开始加入到AI训练中,包括百度贴吧的“弱智吧”,在一次研究里显现出不俗的数据训练效果,一度冲上热搜。

对于访问量不断下降的传统内容网站们,优质的数据确实是一个可以长期进行的“副业”

另外,AI固然很香,但不是没有缺点。

自Stack Overflow开始转向开发AI能力后,开发者社区的一些成员对这一变化表示反对,他们对人工智能生成的信息的有效性、以及数据隐私表示担忧。

也有专家指出,AI会导致更多错误代码被推送到代码库中,甚至放大软件项目中现有的漏和安全问题。

但对于“饥渴”的AI公司们,不断膨胀的数据消耗问题已经足够头疼。

而网站的帮助,刚好可以为自己分担一些风险

最后,记得关注微信公众号:镁客网(im2maker),更多干货在等你!

镁客网


科技 | 人文 | 行业

微信ID:im2maker
长按识别二维码关注

硬科技产业媒体

关注技术驱动创新

分享到