为什么 DeepSeek 不再“聪明”？从语料贫瘠到思维贫乏！

时间： 2025-07-04 01:11

　　人工智能浪潮之下，大模型如雨后春笋般涌现，中文大模型领域也曾在春节前后一度热闹非凡，甚至曾把英伟达的市值从第一的位置拉下马，虽然英伟达在近日又创历史新高。

　　作为国产AI的“潜力股”，DeepSeek 曾因其技术背景和宣传攻势，被寄予厚望。但现实是，越来越多用户在使用后表达出强烈失望：生成内容空洞重复、逻辑混乱、审查敏感过度，“答非所问”，甚至自编自导几乎成了常态。曾经有个知识博主分享了一个内容，DeepSeek在回答问题时所引用的三篇论文居然全部是杜撰的，基础是假的，当然答案也肯定是不可信的。

　　而随着这种状况的加剧，曾轰动一时的DeepSeek也彻底走下了神坛，从一枝独秀到无人问津，用了半年的时间。

　　它为什么“蠢”？是技术不行？还是有更深的结构性问题？

　　答案可能要从“语料”和“思维”两个层面说起。

　　一、中文AI的先天缺陷：语料贫瘠

　　众所周知，大语言模型的能力高度依赖训练数据的质量与广度。GPT-4、Claude、Gemini 等英文模型之所以能“聪明”，是因为它们背靠海量、高质量、多样化的语料池。以OpenAI为例，训练数据涵盖了 Common Crawl（全球网络抓取）、维基百科、PubMed、arXiv、Reddit、新闻评论、技术文档、小说剧本等几乎所有人类语言的场景。

　　而中文模型能抓取和使用的东西呢？

　　根据公开研究数据，在全球前100万个网站中，中文网站仅占1.3%，而英文网站高达59.3%。中文用户如果只掌握中文，所能接触的信息本就只是信息世界的冰山一角。而这“冰山一角”还充满内容阉割、平台审查、表达受限等问题。

　　不仅量少，而且质量差。

　　这几年，中文互联网的原创内容正加速流失。知乎、豆瓣、小红书、微博等平台，算法驱动下变得越来越“重复性高、情绪化强、知识性弱”。优质内容不是404了，就是“由于相关法律法规，不予显示”，我们经常见到的优质文章消失就是这个道理。更雪上加霜的是，自媒体生态在搜索引擎上堆砌SEO、批量AI生成内容，使得网络语料进一步失真。

　　简而言之，中文大模型要变“聪明”，它首先必须“见过世界”。但今天的中文语料，更多是“围墙里的缩影”，而不是“世界的地图”。

　　而我们之所以刚见到DeepSeek还觉得行，是因为其是当初面世时的内容是从2023年10月份之前GPT的训练基础上汲取的，所以内容还比较真实，但随着这个窗口的关闭，其现在的内容很多事从百度这样的平台上吸取的（百度的文件质量有目共睹），所以其最终的质量就以自由落体的速度下降了。

　　二、语言审查带来的二次污染

　　DeepSeek 模型的训练也绕不开一个关键现实：我们的AI必须面对高强度的内容审查机制。这种机制不只是应用层的“输出审查”，更是训练层的“语料筛选”。

　　根据网传不完全统计，我国的AI模型训练和部署过程中，过滤词条可能超过6.6万组。你能想到的热点社会话题、政治人物、历史事件、制度性争议，几乎都在模型眼中“不可触碰”，所以经常你问一个问题，DeepSeek说到一半就终止了，甚至一开始就可以规避掉，而这都是因为审查机制导致的。

　　这意味着什么？

　　意味着它不是“不会回答”，而是“必须回避”。

　　在训练过程中，模型缺少对现实世界中“冲突性”“对抗性”“灰色地带”的表达与理解能力。于是我们看到，中文AI往往显得“太干净”“太小心”，一问深一点的问题，它就会用“我是AI助手，无法回答”来结束对话。

　　它不是蠢，而是被训练成“不敢聪明”。

　　三、模型思维的扁平化：会说话 ≠ 会思考

　　即使不考虑语料与审查，我们AI的另一个痛点在于：它会“模仿”，但不太会“思考”。

　　GPT 模型的本质，是通过大量文本的预训练，学习语言的统计规律，也就是“接下来最可能出现的词是什么”。它的“聪明”不是因为它理解了世界，而是因为它见过足够多的世界，并统计出其中的规律。

　　而DeepSeek等中文模型，一方面语料有限，另一方面RLHF（基于人类反馈的强化学习）环节难以完成真实、多元、多层级的微调，最终导致模型虽然能“说人话”，但无法进行深度的思维模拟。

　　举个简单的例子：

　　你问它：“如何看待‘计划经济’和‘市场经济’的对比？”
它可能会答：“两者各有优劣，应结合国情灵活选择。”

　　再比如，你问他“如何看待朝鲜这个国家的治理体系”

　　他给你的回答永远模棱两可的，没有答案的问题，听起来好像没毛病，但其实什么都没说，而且有时候，更像是人民日报的话语。

　　而同样的问题，GPT-4 可能会从历史沿革、理论基础、现实表现、国家案例等多维度展开，逻辑清晰、观点明确，即使你不认同它的答案，也会承认：它确实“想过”。

　　中文模型的“平庸输出”背后，是训练过程中对“思维路径”的扁平化塑造。而这种扁平，归根结底，还是数据、机制和环境决定的，不是不会思考，而是不能思考。

　　四、聪明的AI，需要更聪明的语境

　　DeepSeek 的局限，并不是DeepSeek一家的问题，它是整个中文AI行业共同面对的困局。
• 缺乏优质开放语料
• 内容生态持续退化
• 审查制度挤压表达空间
• RLHF流程成本高、难以真实反馈

　　这一切，最终让中文大模型“聪明地糊涂起来”。

　　当一个AI所能学习的世界，被人为划定了边界、屏蔽了争议、消除了复杂性，它怎么可能成长为“有思维”的工具？它最多只能成为一个不会出错的复读机——但复读机不等于智能。

　　不是DeepSeek不行，是我们太“安全”了

　　要让中文AI变得真正强大，不是靠多加几层注意力机制、扩一倍参数规模就行的，而是要面对更本质的问题：我们是否愿意为一个真正“会思考”的AI，提供一个足够真实、足够复杂、足够自由的训练土壤？而这恐怕不是几个AI模型和企业就能解决的。

　　否则，DeepSeek不会是第一个“聪明不起来”的模型，也不会是最后一个。

本文来源于网络，不代表青海新闻热线立场，转载请注明出处

上一篇 连破带保状态火热，米拉-安德列娃直落两盘闯过温网首轮关

下一篇 世俱杯夺冠赔率：大巴黎压皇马欧洲球队揽前4

转发到:

拓展阅读

世俱杯夺冠赔率：大巴黎压皇马欧洲球队揽前4

大巴黎领跑世俱杯夺冠赔率榜单北京时间7月2日，2025世俱杯8强全部诞生，相关机构更新了最新的夺冠赔率。大巴黎4-0完胜迈阿密热晋级后，以1赔3.25的赔率领跑，皇马1赔3.75紧随其后。切尔西1赔5跃升至第三，拜仁1赔7位列第四。世俱杯1[全文]

2025-07-04 02:57
为什么 DeepSeek 不再“聪明”？从语料贫瘠到思维贫乏！

人工智能浪潮之下，大模型如雨后春笋般涌现，中文大模型领域也曾在春节前后一度热闹非凡，甚至曾把英伟达的市值从第一的位置拉下马，虽然英伟达在近日又创历史新高。　　作为国产AI的“潜力股”，DeepSeek 曾因其技术背景和宣传攻势，被寄予厚望。[全文]

2025-07-04 01:11
连破带保状态火热，米拉-安德列娃直落两盘闯过温网首轮关

北京时间7月2日，温网女单首轮继续进行，俄罗斯18岁小将、赛会7号种子米拉-安德列娃直落两盘，2-0击败埃及选手马亚尔-谢里芙，顺利晋级次轮。本场比赛，米拉-安德列娃状态火热，连破带保直落两盘以两个6-3击败对手谢里芙，迎来温网开门红。女单[全文]

2025-07-04 00:51
崔永熙观察｜留美希望仅剩理论可能，他在CBA最大下家是谁？

随着NBA选秀结束，接下来进入到NBA夏季联赛时间，中国球员杨瀚森将会代表开拓者出征夏季联赛，林葳也可能通过经纪公司的运作获得出战夏季联赛的机会。只是对于另外一个长期留美的中国球员崔永熙来说，目前处于比较尴尬的局势，他本人透露，目前只恢复到[全文]

2025-07-03 23:58
中国男篮亚洲杯12人名单预测！郭士强或放弃7人，辽篮0人入选

中国男篮亚洲杯12人名单预测！郭士强或放弃7人，辽篮0人入选进入7月份后，中国男篮在国内的封闭集训即将暂时告一段落，按照计划，郭士强主帅将会带领男篮队伍开启奔赴欧洲拉练之旅，本周队伍就会登上启程的飞机。目前中国男篮集训队伍中还有19人，他们[全文]

2025-07-04 00:40
每月有苦战！前俄罗斯国家队主帅能破申花30年无联赛冠军魔咒吗

随着深圳队引进了前英超阿斯顿维拉射手韦斯利的情况下，很多球迷说，下半年开始，申花每个月都有苦战，如果都赢了就是冠军，如果赢不了就看天意，如果输了，明年继续再战，记得武磊曾经在去年说过，这支申花未来会夺冠的，不知道武磊的话能不能灵验，大家[全文]

2025-07-04 00:44

信息排行