放弃通用模型自研“数学GPT”,好未来一着险棋?|教育观察

放弃通用模型自研“数学GPT”,好未来一着险棋?|教育观察

 

要放弃现有LLM,学而思自研MathGPT能否成立,又能否超越不断进化的通用LLM?

       国内教育企业“GPT竞赛”仍处进行时。在网易有道披露国内首个教育场景下类ChatGPT模型“子曰”研发计划后,好未来(NYSE: TAL)近日宣布,学而思正在进行数学大模型——MathGPT的研发,将于年内推出基于该自研大模型的产品级应用。

  若如期推出,这将是国内首个专攻数学领域的类ChatGPT产品。据悉,学而思已将MathGPT作为公司核心项目,由CTO田密负责。项目团队建设、数据、算力准备和技术研发在今年春节前已启动。

  值得注意的是,学而思明确,将“不基于现有LLM(大型语言模型)做微调和接口调用、不做通用LLM,而是自研基于专业领域的数学大模型MathGPT”。

  为何放弃现有大预言模型?学而思解释,LLM大模型来自对海量语言文本的训练,因此最擅长语言处理。行业内偏向基于LLM大模型做阅读、写作类应用,但如果想要在数学能力上有突破,就需要研发新的大模型。当前通用语言模型更像一个“文科生”:解答数学问题经常出错,或一些数学问题虽然能解决,但方法更偏成年人,难以适配学生的知识结构和认知水平。

  “自研数学GPT”在国内颇具开创意义,但挑战艰巨:如今,GPT-4在数学任务上已比此前的3.5版本性能更好;学而思自研MathGPT能否成立,又能否超越不断进化的通用LLM?

  在学而思之前,国外已有一批教企携手GPT-4,尝试让通用LLM“更懂数学”。今年3月14日,可汗学院推出了由GPT-4驱动的AI学习平台Khanmigo,其DEMO便展示了“辅导数学”的过程:在一道数学题中,Khanmigo不仅能检测出学生的答案是对是错,还能检测出他们在推理过程中可能走错的地方,表现已颇为“循循善诱”。

  更重要的是,相比分散的模型开发方式,“接口统一大模型”将显著缩短具体应用的开发周期,减少所需人力投入。GPT-4允许在特定领域的知识上对模型进行微调,或通过API“引导”语言模型,为特定应用设置语言模型的基调。例如,只要在API参数中,要求GPT-4扮演不能直接回答答案的数学辅导老师,则不论学生如何提问、或试图以特定指令“越狱”,也难以直接得到答案。

  相较之下,“自研”在数据采集和处理、训练资源和时间、算法和模型架构、模型评估和调优上,都需要企业投入大量的时间和资源。

  不过,“弯道超车”并非没有可能——“准确性”仍然是现有LLM的一大痛点。IEEE人工智能标准委员会主席佟佳睿在一篇Khanmigo评测文章中提及,Khanmigo非常善于通过提出问题、激发批判思维、表达数学公式和解题思路来辅导学生,但还存在一个致命问题——答案不值得信赖。“即使是小学数学,我也遇到过不正确的答案。对于需要更多计算的进阶数学或物理问题,Khanmigo就更糟糕了。”

  事实上,尽管LLMs已经可以将一种自然语言翻译成另一种语言,但从数学到代码的翻译是更难的挑战;同时,要想AI不仅正确回答一个数学问题,还能检查它所遵循的步骤是否可靠,则不但需要有效结合LLM和强化学习,还取决于具体的实现方式和数据质量。

  “数据”,或许是学而思敢于走更大投入、更高风险“另一条路”的核心原因。学而思称,其“以数学起家”,积累了庞大的数学相关数据,这些数据是进行MathGPT训练的必备物料。而“题目要解对”和“解题步骤要稳定、清晰”,正是MathGPT希望弥补和攻克大语言模型的两个首要问题。

  从技术积累上看,学而思在2017年已创立AI lab人工智能实验室,并在NeurlPS 2020、EMNLP 2020等机器学习和自然语言处理顶会上获奖。不过,考虑到学而思AI lab此前更多着力图像分类、物体检测、人脸识别、人体分析等计算机视觉相关创新,其自研MathGPT上的“技术力”仍待考验。

  “招兵买马”因此也成当务之急:学而思宣布,启动在美国硅谷的团队建设,计划成立一支海外算法和工程团队,在全球范围内招募人工智能专家。

  对国内一众教育科技企业而言,能否尽快搭上“大模型技术”这辆车,或将成为影响其未来发展前景的重要分野。网易有道(NYSE: DAO)CEO周枫在个人公众号中评述,与之前众多的自然语言处理技术相比,大语言模型至少具有三项根本性新能力,包括涌现能力、作为基座模型支持多元应用的能力、支持对话作为统一入口的能力。“这些大模型技术的特点已经改变了我们对业务和产品规划的思考方式,也会改变很多产品的经济模型。”他说,“这正是一个令人兴奋的时代。”

  在学而思公布MathGPT研发计划的同一天,网易有道官方发布了基于类ChatGPT模型“子曰”开发的AI口语老师剧透视频。次日,科大讯飞( 002230.SZ )在合肥向公众展示其大模型产品“星火认知大模型”,明确将通用AI大模型的能力推向学习机、录音转写工具“讯飞听见”等产品。这场AI 2.0时代的教育“军备竞赛”的烽火正滚滚而来。

 

本文转自于   财新网

以上内容(如有图片或视频亦包括在内)为自媒体平台“才汇云网”用户上传并发布,本平台仅提供信息存储服务。
0条评论
评论