记者裁剪会被AI取代？莫得“万能选手”， “幻觉”问题渊博

　　每经记者王嘉琦实习记者宋欣悦每经裁剪兰素英

　　2024年11月14日，“2024智媒体50东谈主成王人会议暨每经20周年财经媒体峰会”在成王人举行。会上，《逐日经济新闻大模子年度评测申诉》发扬发布。

　　6月25日，《逐日经济新闻大模子评测申诉》第一期发布，对15款市面主流大模子在“财经新闻标题创作”“微博新闻写稿”“著作谬误校对”“财务数据打算与分析”四个新闻采编诳骗场景的能力进行了评测。

主理方供图

　　9月6日，《逐日经济新闻大模子评测申诉》第二期发布，重心查考大模子在“金融数学打算”“商务文本翻译”“财经新闻阅读”三个新闻采编诳骗场景的能力。

　　与前两期评测雷同，《逐日经济新闻大模子年度评测申诉》络续以大模子在新闻采编场景的诳骗能力为评测方向，为了更精确对接采编东谈主员的实验需求，本次评测以“采写编审和短视频创作的新闻出产全历程”为场景，包括大模子联想采访提纲、撰写新闻稿件、校对稿件谬误、索要稿件标题和改写短视频文本五个细分场景。通过大模子在新闻出产全历程的介入，评测出“谁是新闻出产全历程的最优秀大模子”，用直不雅的评测拆伙，对采编东谈主员在使命中选择相宜的大模子器具提供实战参考。

　　12款国内大模子参与评测各家模子展现出不同上风

　　本次评测开拓的五个细分诳骗场景具体为：1．联想采访提纲：旨在查考大模子能否匡助记者拟定采访提纲，扶助记者采访使命；2．撰写新闻稿件：旨在查考大模子围绕既定的多份材料，能否创作一篇新闻稿件；3．校对稿件谬误：旨在查考大模子能否查验出新闻稿件中的错别字，语法、数字、标点美艳等谬误；4．索要稿件标题：旨在查考大模子能否凭据稿件内容，索要新闻标题，至极是制作相宜在微信等新媒体平台传播的新媒身形度标题；5．改写短视频文本：旨在查考大模子能否凭据一篇翰墨新闻稿件，改写成相宜短视频发布的案牍。

　　每经大模子评测小组为五个细分场景制定了对应的评价维度和评分目标。逐日经济新闻10余名首席、高等、资深记者裁剪凭据评价维度和评分目标，对各款大模子在五个细分场景中的阐明进行评分，汇总各场景得分，最终得到参评大模子总分。

　　需要指出的是，本期评测是通过各款大模子的API端口，并在默许温度下完成。与公众用户使用的大模子C端对话器具存在互异。评测拆伙对用户在具体场景中选拔合适的大模子器具，依然具有迫切参考价值。

　　本期评测均在“雨燕智宣AI创作+”测试台上进行，一共有12款国内大模子参与。评测工夫为2024年10月18日，因此参评大模子均为拆伙10月18日的最新版块。

　　评测拆伙线路，腾讯混元hunyuan-turbo以379.53的总分位居榜首，紧随后来的是智谱GLM-4-Plus取得368.6分，字节跳动 doubao- pro- 32k（240828版块）取得363分。

　　在五个细分场景方面，各家模子展现出不同的上风。

　　在联想采访提纲场景中，腾讯混元hunyuan-turbo与昆仑万维（维权）天工SkyChat-3.0两款模子均取得了93.33分的佳绩，并排第一。在撰写新闻稿件场景中，智谱GLM-4-Plus以98分的高分拔得头筹。在校对稿件谬误场景中，智谱GLM-4-Plus以60分的得益位居首位。在索要稿件标题方面，深度求索DeepSeekV2.5模子以55.2分的得益当先其他模子。在改写短视频文本场景中，腾讯混元hunyuan-turbo再次展现其强劲实力，以95分的得益位列第一。

　　寰球上还莫得“AI记者” 需完善审核与内容把关

　　论断一：暂无一款大模子能高质地完成采编全历程使命

　　拆伙现时，逐日经济新闻一共推出3期大模子评测申诉，覆盖12项新闻采编诳骗场景，从拆伙来看，莫得一款大模子能在所有场景中均排行前哨。

　　正如东谈主类雷同，各款大模子的所长与短板各不交流。比如，有的大模子擅长财务数据打算，但在新闻标题索要中却排行末尾；有的大模子擅长英译汉，却在汉译英方面能力平平。

　　在新闻出产的要津顺序，如本期评测中的“撰写新闻稿件”“校对稿件谬误”“索要新闻标题”、第一期评测中的“财务数据打算与分析”和第二期评测中的“金融数学打算”等诳骗场景，多数大模子生成拆伙谬误频出，要保证新闻稿件高质地、无谬误，还必须由东谈主工审核、把关。

　　现时市面上还莫得一款大模子好像高质地、全历程完成新闻采编场景的所有使命，换句话说，寰球上还莫得“AI记者”。

　　论断二：大模子“幻觉”未解，不实更掩盖

　　尽管各款大模子也曾屡次迭代升级，但依然处治不了“一册郑重地瞎掰八谈”的幻觉问题。

　　最初的大模子“幻觉”问题比较彰着。跟着家具不停迭代，大模子生成文实质地逐步升迁，但文本中的不实也越发掩盖。比如，在“撰写新闻稿件”场景中，大模子会在不起眼处调动东谈主物的职位或诬捏事件发生的工夫。举例在本期评测中，部分大模子将9月24日“星巴克咖啡公司告示曲折其中国区教唆层结构”的工夫，误写成9月30日。再比如在第二期评测“金融数学打算”场景中，即等于得分第一的大模子也会在个别题目中给出正确的打算公式，却依然得出不实的谜底。

　　关于一篇高质地新闻稿件来说，上述问题王人可能是“致命”的谬误。现时，AI生成内容也曾大限度出当今互联网中。这就条款新闻媒体要进一步完善新闻内容信得过性审核机制，更需要加强内容把关。

　　现时仍需东谈主工介入和打磨部分场景可终了采编AI化

　　论断三：“冷面”的大模子难判断新闻价值

　　阅读一篇稿件，挖掘出最迫切的新闻点，然后索要和制作标题，在这方面，大模子与告戒丰富的裁剪比拟差距不小。

　　在本期评测的“索要稿件标题”场景中，大模子得分宽广偏低。其生成的标题多显得中规中矩。举例大模子索要的《“星巴克中国新篇章：80后刘文娟接任CEO，引颈咖啡巨头迎挑战”》《“星巴克中国换帅：80后刘文娟接棒CEO，直面市集挑战与变革”》等标题。

　　另外，评测中发现，大模子索要的新闻标题，时时充斥着一些“魁岸上”的空洞主见词汇，无法挖掘著作中最迫切的新闻点和有价值的信息，翰墨空泛，很难勾引读者的眼球。

　　此外，在“撰写新闻稿件”场景中，大模子生成的文本较为生硬，“机器印迹”较彰着，缺少情感和个性化抒发。

　　从现阶段来看，大模子在阅读著作方面，难以具备对一篇稿件新闻点的准确和深眉目把捏，容易停留在浅眉目通晓。因此，新闻点和新闻价值的判断，包括采写有温度、有故事、多情面味的寂静稿件，仍然离不开记者、裁剪的东谈主工介入和经心打磨。

　　论断四：不同采编场景选拔最相宜的大模子

　　这三期大模子评测的场景基本不错分为扶助性场景（如财经新闻阅读、文本翻译、联想采访提纲等）和要津性场景（如撰写新闻稿件、校对稿件谬误、索要新闻标题等）。

　　三期评测拆伙标明，绝大部分大模子在联想采访提纲、改写短视频案牍、英汉翻译、著作阅读以及微博新闻写稿等扶助性场景中宽广阐明邃密。举例，“改写短视频案牍”场景中，所有参与评测的12款大模子均取得向上80分的得益；“联想采访提纲”场景中，有8款大模子的得分高于80分。在第二期评测的“商务本文翻译”场景中，13款大模子得分王人高于80分，在“财经新闻阅读”场景中，13款大模子得分高于70分。

　　而在撰写新闻稿件、校对稿件谬误、索要新闻标题等新闻出产要津性场景的能力则彰着不及。比如，在“校对稿件谬误”场景中，仅一款大模子得分达到60分。在“索要新闻标题”场景中，莫得一款大模子得分达到60分。

　　因此，记者、裁剪不错凭据采编使命的不同顺序、不同场景，选拔最相宜的大模子，让部分场景终了采编使命AI化，升迁使命效果。

　　络续探索大模子无穷可能针织邀请您加入评测情势

　　论断五：新闻媒体主导，打造垂直边界的“AI记者”

　　对比这三期大模子评测拆伙不难发现，国内大模子通过连接迭代，能力稳步升迁。同期，各家大模子之间的差距也在安详减弱，每个模子王人展现出独有的上风。这些大模子王人属于通用大模子，并非为新闻媒体、采编使命量身定制。

　　形成大模子“幻觉”问题严重的一大原因，在于训导文本和数据质地不高，其中包含不少信息不实。而新闻使命瞄准确性条款极高。这一短板平直限制了大模子在新闻边界的诳骗。但是，新闻媒体在恒久的新闻报谈中也曾积聚的大王人高质地新闻稿件和数据，正巧为研发相宜新闻采编使命的大模子器具提供了先天不足的上风。

　　因此，自主训导和主导研发大模子器具变得尤为迫切，借此，新闻媒体不仅好像最大贬抑地确保大模子训导数据的质地和生成逻辑的准确性，还能保证大模子生成内容的可控性，使其更好方单合媒体本人的属性和性情。

　　在研发顺序上，不错将采编全历程拆分红数十个顺序，如采访、翻译、稿件写稿、索要概要和校对谬误等。凭据各顺序的具体使命方向、顺序和条款，对大模子进行专项训导，以形成一系列单任务或垂类AI器具。最终，将这些单任务AI器具打包集合，则不错打造出一整套新闻采编AI器具。

　　接下来，“逐日经济新闻大模子评测小组”将络续长远探索大模子的无穷可能，从实验诳骗场景登程，对各个大模子进行全地方评测，并依期推出专科申诉，带来最前沿的瞻念察和发现。

　　在此，咱们针织地邀请您加入评测情势。若是您是研发企业，思要展示自家大模子的实力，与其他大模子进行比拼，请将参评大模子的凝视信息发送至咱们的邮箱：damoxing@nbd.com.cn。若是您是大模子的使用者，请告诉咱们您但愿在哪些场景中使用大模子，或者但愿咱们测试大模子的哪些能力。请大开逐日经济新闻App，在“个东谈主中心”——“意见响应”栏中留住您的思法和需求。

海量资讯、精确解读，尽在新浪财经APP

职守裁剪：何松琳

让建站和SEO变得简单