
人工智能浪潮之下,大模型如雨后春笋般涌现,中文大模型领域也曾在春节前后一度热闹非凡,甚至曾把英伟达的市值从第一的位置拉下马,虽然英伟达在近日又创历史新高。
作为国产AI的“潜力股”,DeepSeek 曾因其技术背景和宣传攻势,被寄予厚望。但现实是,越来越多用户在使用后表达出强烈失望:生成内容空洞重复、逻辑混乱、审查敏感过度,“答非所问”,甚至自编自导几乎成了常态。曾经有个知识博主分享了一个内容,DeepSeek在回答问题时所引用的三篇论文居然全部是杜撰的,基础是假的,当然答案也肯定是不可信的。
而随着这种状况的加剧,曾轰动一时的DeepSeek也彻底走下了神坛,从一枝独秀到无人问津,用了半年的时间。
它为什么“蠢”?是技术不行?还是有更深的结构性问题?
答案可能要从“语料”和“思维”两个层面说起。
一、中文AI的先天缺陷:语料贫瘠
众所周知,大语言模型的能力高度依赖训练数据的质量与广度。GPT-4、Claude、Gemini 等英文模型之所以能“聪明”,是因为它们背靠海量、高质量、多样化的语料池。以OpenAI为例,训练数据涵盖了 Common Crawl(全球网络抓取)、维基百科、PubMed、arXiv、Reddit、新闻评论、技术文档、小说剧本等几乎所有人类语言的场景。
而中文模型能抓取和使用的东西呢?
根据公开研究数据,在全球前100万个网站中,中文网站仅占1.3%,而英文网站高达59.3%。中文用户如果只掌握中文,所能接触的信息本就只是信息世界的冰山一角。而这“冰山一角”还充满内容阉割、平台审查、表达受限等问题。
不仅量少,而且质量差。
这几年,中文互联网的原创内容正加速流失。知乎、豆瓣、小红书、微博等平台,算法驱动下变得越来越“重复性高、情绪化强、知识性弱”。优质内容不是404了,就是“由于相关法律法规,不予显示”,我们经常见到的优质文章消失就是这个道理。更雪上加霜的是,自媒体生态在搜索引擎上堆砌SEO、批量AI生成内容,使得网络语料进一步失真。
简而言之,中文大模型要变“聪明”,它首先必须“见过世界”。但今天的中文语料,更多是“围墙里的缩影”,而不是“世界的地图”。
而我们之所以刚见到DeepSeek还觉得行,是因为其是当初面世时的内容是从2023年10月份之前GPT的训练基础上汲取的,所以内容还比较真实,但随着这个窗口的关闭,其现在的内容很多事从百度这样的平台上吸取的(百度的文件质量有目共睹),所以其最终的质量就以自由落体的速度下降了。
二、语言审查带来的二次污染
DeepSeek 模型的训练也绕不开一个关键现实:我们的AI必须面对高强度的内容审查机制。这种机制不只是应用层的“输出审查”,更是训练层的“语料筛选”。
根据网传不完全统计,我国的AI模型训练和部署过程中,过滤词条可能超过6.6万组。你能想到的热点社会话题、政治人物、历史事件、制度性争议,几乎都在模型眼中“不可触碰”,所以经常你问一个问题,DeepSeek说到一半就终止了,甚至一开始就可以规避掉,而这都是因为审查机制导致的。
这意味着什么?
意味着它不是“不会回答”,而是“必须回避”。
在训练过程中,模型缺少对现实世界中“冲突性”“对抗性”“灰色地带”的表达与理解能力。于是我们看到,中文AI往往显得“太干净”“太小心”,一问深一点的问题,它就会用“我是AI助手,无法回答”来结束对话。
它不是蠢,而是被训练成“不敢聪明”。
三、模型思维的扁平化:会说话 ≠ 会思考
即使不考虑语料与审查,我们AI的另一个痛点在于:它会“模仿”,但不太会“思考”。
GPT 模型的本质,是通过大量文本的预训练,学习语言的统计规律,也就是“接下来最可能出现的词是什么”。它的“聪明”不是因为它理解了世界,而是因为它见过足够多的世界,并统计出其中的规律。
而DeepSeek等中文模型,一方面语料有限,另一方面RLHF(基于人类反馈的强化学习)环节难以完成真实、多元、多层级的微调,最终导致模型虽然能“说人话”,但无法进行深度的思维模拟。
举个简单的例子:
你问它:“如何看待‘计划经济’和‘市场经济’的对比?”
它可能会答:“两者各有优劣,应结合国情灵活选择。”
再比如,你问他“如何看待朝鲜这个国家的治理体系”
他给你的回答永远模棱两可的,没有答案的问题,听起来好像没毛病,但其实什么都没说,而且有时候,更像是人民日报的话语。
而同样的问题,GPT-4 可能会从历史沿革、理论基础、现实表现、国家案例等多维度展开,逻辑清晰、观点明确,即使你不认同它的答案,也会承认:它确实“想过”。
中文模型的“平庸输出”背后,是训练过程中对“思维路径”的扁平化塑造。而这种扁平,归根结底,还是数据、机制和环境决定的,不是不会思考,而是不能思考。
四、聪明的AI,需要更聪明的语境
DeepSeek 的局限,并不是DeepSeek一家的问题,它是整个中文AI行业共同面对的困局。
• 缺乏优质开放语料
• 内容生态持续退化
• 审查制度挤压表达空间
• RLHF流程成本高、难以真实反馈
这一切,最终让中文大模型“聪明地糊涂起来”。
当一个AI所能学习的世界,被人为划定了边界、屏蔽了争议、消除了复杂性,它怎么可能成长为“有思维”的工具?它最多只能成为一个不会出错的复读机——但复读机不等于智能。
不是DeepSeek不行,是我们太“安全”了
要让中文AI变得真正强大,不是靠多加几层注意力机制、扩一倍参数规模就行的,而是要面对更本质的问题:我们是否愿意为一个真正“会思考”的AI,提供一个足够真实、足够复杂、足够自由的训练土壤?而这恐怕不是几个AI模型和企业就能解决的。
否则,DeepSeek不会是第一个“聪明不起来”的模型,也不会是最后一个。