当前位置: 首页 > 体育

为什么 DeepSeek 不再“聪明”?从语料贫瘠到思维贫乏!

  人工智能浪潮之下,大模型如雨后春笋般涌现,中文大模型领域也曾在春节前后一度热闹非凡,甚至曾把英伟达的市值从第一的位置拉下马,虽然英伟达在近日又创历史新高。

  作为国产AI的“潜力股”,DeepSeek 曾因其技术背景和宣传攻势,被寄予厚望。但现实是,越来越多用户在使用后表达出强烈失望:生成内容空洞重复、逻辑混乱、审查敏感过度,“答非所问”,甚至自编自导几乎成了常态。曾经有个知识博主分享了一个内容,DeepSeek在回答问题时所引用的三篇论文居然全部是杜撰的,基础是假的,当然答案也肯定是不可信的。

  而随着这种状况的加剧,曾轰动一时的DeepSeek也彻底走下了神坛,从一枝独秀到无人问津,用了半年的时间。

  

  它为什么“蠢”?是技术不行?还是有更深的结构性问题?

  答案可能要从“语料”和“思维”两个层面说起。

  一、中文AI的先天缺陷:语料贫瘠

  众所周知,大语言模型的能力高度依赖训练数据的质量与广度。GPT-4、Claude、Gemini 等英文模型之所以能“聪明”,是因为它们背靠海量、高质量、多样化的语料池。以OpenAI为例,训练数据涵盖了 Common Crawl(全球网络抓取)、维基百科、PubMed、arXiv、Reddit、新闻评论、技术文档、小说剧本等几乎所有人类语言的场景。

  而中文模型能抓取和使用的东西呢?

  根据公开研究数据,在全球前100万个网站中,中文网站仅占1.3%,而英文网站高达59.3%。中文用户如果只掌握中文,所能接触的信息本就只是信息世界的冰山一角。而这“冰山一角”还充满内容阉割、平台审查、表达受限等问题。

  不仅量少,而且质量差。

  这几年,中文互联网的原创内容正加速流失。知乎、豆瓣、小红书、微博等平台,算法驱动下变得越来越“重复性高、情绪化强、知识性弱”。优质内容不是404了,就是“由于相关法律法规,不予显示”,我们经常见到的优质文章消失就是这个道理。更雪上加霜的是,自媒体生态在搜索引擎上堆砌SEO、批量AI生成内容,使得网络语料进一步失真。

  简而言之,中文大模型要变“聪明”,它首先必须“见过世界”。但今天的中文语料,更多是“围墙里的缩影”,而不是“世界的地图”。

  而我们之所以刚见到DeepSeek还觉得行,是因为其是当初面世时的内容是从2023年10月份之前GPT的训练基础上汲取的,所以内容还比较真实,但随着这个窗口的关闭,其现在的内容很多事从百度这样的平台上吸取的(百度的文件质量有目共睹),所以其最终的质量就以自由落体的速度下降了。

  

  二、语言审查带来的二次污染

  DeepSeek 模型的训练也绕不开一个关键现实:我们的AI必须面对高强度的内容审查机制。这种机制不只是应用层的“输出审查”,更是训练层的“语料筛选”。

  根据网传不完全统计,我国的AI模型训练和部署过程中,过滤词条可能超过6.6万组。你能想到的热点社会话题、政治人物、历史事件、制度性争议,几乎都在模型眼中“不可触碰”,所以经常你问一个问题,DeepSeek说到一半就终止了,甚至一开始就可以规避掉,而这都是因为审查机制导致的。

  这意味着什么?

  意味着它不是“不会回答”,而是“必须回避”。

  在训练过程中,模型缺少对现实世界中“冲突性”“对抗性”“灰色地带”的表达与理解能力。于是我们看到,中文AI往往显得“太干净”“太小心”,一问深一点的问题,它就会用“我是AI助手,无法回答”来结束对话。

  它不是蠢,而是被训练成“不敢聪明”。

  三、模型思维的扁平化:会说话 ≠ 会思考

  即使不考虑语料与审查,我们AI的另一个痛点在于:它会“模仿”,但不太会“思考”。

  GPT 模型的本质,是通过大量文本的预训练,学习语言的统计规律,也就是“接下来最可能出现的词是什么”。它的“聪明”不是因为它理解了世界,而是因为它见过足够多的世界,并统计出其中的规律。

  而DeepSeek等中文模型,一方面语料有限,另一方面RLHF(基于人类反馈的强化学习)环节难以完成真实、多元、多层级的微调,最终导致模型虽然能“说人话”,但无法进行深度的思维模拟。

  举个简单的例子:

  你问它:“如何看待‘计划经济’和‘市场经济’的对比?”
它可能会答:“两者各有优劣,应结合国情灵活选择。”

  再比如,你问他“如何看待朝鲜这个国家的治理体系”

  

  他给你的回答永远模棱两可的,没有答案的问题,听起来好像没毛病,但其实什么都没说,而且有时候,更像是人民日报的话语。

  而同样的问题,GPT-4 可能会从历史沿革、理论基础、现实表现、国家案例等多维度展开,逻辑清晰、观点明确,即使你不认同它的答案,也会承认:它确实“想过”。

  中文模型的“平庸输出”背后,是训练过程中对“思维路径”的扁平化塑造。而这种扁平,归根结底,还是数据、机制和环境决定的,不是不会思考,而是不能思考。

  四、聪明的AI,需要更聪明的语境

  DeepSeek 的局限,并不是DeepSeek一家的问题,它是整个中文AI行业共同面对的困局。
• 缺乏优质开放语料
• 内容生态持续退化
• 审查制度挤压表达空间
• RLHF流程成本高、难以真实反馈

  这一切,最终让中文大模型“聪明地糊涂起来”。

  当一个AI所能学习的世界,被人为划定了边界、屏蔽了争议、消除了复杂性,它怎么可能成长为“有思维”的工具?它最多只能成为一个不会出错的复读机——但复读机不等于智能。

  不是DeepSeek不行,是我们太“安全”了

  要让中文AI变得真正强大,不是靠多加几层注意力机制、扩一倍参数规模就行的,而是要面对更本质的问题:我们是否愿意为一个真正“会思考”的AI,提供一个足够真实、足够复杂、足够自由的训练土壤?而这恐怕不是几个AI模型和企业就能解决的。

  否则,DeepSeek不会是第一个“聪明不起来”的模型,也不会是最后一个。

本文来源于网络,不代表青海新闻热线立场,转载请注明出处
转发到:
拓展阅读
  • 大巴黎领跑世俱杯夺冠赔率榜单北京时间7月2日,2025世俱杯8强全部诞生,相关机构更新了最新的夺冠赔率。大巴黎4-0完胜迈阿密热晋级后,以1赔3.25的赔率领跑,皇马1赔3.75紧随其后。切尔西1赔5跃升至第三,拜仁1赔7位列第四。世俱杯1[全文]
    2025-07-04 02:57
  • 人工智能浪潮之下,大模型如雨后春笋般涌现,中文大模型领域也曾在春节前后一度热闹非凡,甚至曾把英伟达的市值从第一的位置拉下马,虽然英伟达在近日又创历史新高。  作为国产AI的“潜力股”,DeepSeek 曾因其技术背景和宣传攻势,被寄予厚望。[全文]
    2025-07-04 01:11
  • 北京时间7月2日,温网女单首轮继续进行,俄罗斯18岁小将、赛会7号种子米拉-安德列娃直落两盘,2-0击败埃及选手马亚尔-谢里芙,顺利晋级次轮。本场比赛,米拉-安德列娃状态火热,连破带保直落两盘以两个6-3击败对手谢里芙,迎来温网开门红。女单[全文]
    2025-07-04 00:51
  • 随着NBA选秀结束,接下来进入到NBA夏季联赛时间,中国球员杨瀚森将会代表开拓者出征夏季联赛,林葳也可能通过经纪公司的运作获得出战夏季联赛的机会。只是对于另外一个长期留美的中国球员崔永熙来说,目前处于比较尴尬的局势,他本人透露,目前只恢复到[全文]
    2025-07-03 23:58
  • 中国男篮亚洲杯12人名单预测!郭士强或放弃7人,辽篮0人入选进入7月份后,中国男篮在国内的封闭集训即将暂时告一段落,按照计划,郭士强主帅将会带领男篮队伍开启奔赴欧洲拉练之旅,本周队伍就会登上启程的飞机。目前中国男篮集训队伍中还有19人,他们[全文]
    2025-07-04 00:40
  • 随着深圳队引进了前英超阿斯顿维拉射手韦斯利的情况下,很多球迷说,下半年开始,申花每个月都有苦战,如果都赢了就是冠军,如果赢不了就看天意, 如果输了,明年继续再战,记得武磊曾经在去年说过,这支申花未来会夺冠的,不知道武磊的话能不能灵验, 大家[全文]
    2025-07-04 00:44
阿里云服务器
腾讯云秒杀
Copyright 2003-2025 by 青海新闻热线 qh.csrib.cn All Right Reserved.   版权所有