正在查看 17 个帖子:1-17 (共 17 个帖子)
  • 作者
    帖子
  • @80383 回复 ⚑举报 

    wd369
    游客

    半天前询问一个问题,回答是这样。杜撰了一段《庄子.逍遥游》。我点了个差评。

    066

    现在再试,发现答案还变了。这是把”灵光“理解成”灵公“啦,但也是前言不搭后语,还在继续忽悠。看来还是对中文的支持不够好。
    067

    @80393 回复 ⚑举报 

    稀饭加点醋
    游客

    编一段还能翻译还挺厉害的

    @80398 回复 ⚑举报 

    任行
    游客

    感觉上面这段产出,已经跟百度搜索的80%差不多,一般人都觉得可以用了

    @80420 回复 ⚑举报 

    以正
    游客

    这个东西对中文的支持度不是很好,本来人家也没想给中国人用,不过相信以后会进化的。

    @80459 回复 ⚑举报 

    苏崇鹂
    游客

    原版没用到,只是在微信上用了一些接口。

    我前几天测试了以下一段文字,人类一看就知道这些信息有什么错乱,我要求它对此分类和整理(我的设想是自动排版,划分出《》、。号)但他只是傻傻的帮我翻译,虽然翻译得还可以。

    从原理上看,如果喂的数据够多、训练足够,它本来可以非常完美的对书籍、标点、格式进行排版分类,节省人力,但目前没做到。可能是我用的低配版、指令不对,更有可能是目前还太烂。

    现在互联网比较封闭,将来这东西有没有好的中文库去训练,个人表示怀疑、不抱希望。就算是连通全世界,海外中文世界那点零碎也远达不到内网14亿人的产出,但目前内网也没有好的中文库......除非将来确实有利可图为了配合“数据喂养”进一步打造“可识别、可抓取”的共享生态(目前来看各大公司很难达成共识,稍微多点人话、收录知识性信息的知网那也不愿意)。如果再把OCR识别技术进一步完善,可以将所有古籍数据化,这种中文库才可称为惊人可观,我想那样时候才具备“训练条件”。

    个人陋见~或许思路不对

     

    古名犬
    《汲冡书·汤四方献令》,伊尹请正南以短狗为献,孔氏注短狗狗之善者
    《周书》西旅献獒
    《周书》王防成王时渠捜国献鼩【一作防】犬,鼩犬者露犬也,能飞,食虎豹
    《穆天子》狗名重工彻止雚猳来白龙狗天子东征以行流沙天子之豪牛豪马尨狗豪羊注尨尨茸谓猛狗或曰尨亦狗名
    广雅殷虞晋?楚犷韩卢宋鹊皆犬属
    义训良犬韩有卢宋有鹊卢黒色鹊黒白色
    説?荆王得茹黄之狗宛路之矰以畋云梦
    西京杂记杨万年有猎狗名青骹直百金又茂陵少年李亨好驰逐鹰犬皆有佳名狗则有修毫??白望青曹之号
    周处风土记犬则有青鹯白雀飞龙虎子猲獢五鱼狼牙锯齿驯良防警难狎易使
    御览陶?景云裴眞君好养白犬名曰白灵学道之士或居山林此可以辟邪
    捜神记孙权时李信纯襄阳纪南人也家养一犬字曰黒龙
    述异记陆机有犬曰黄耳机至洛中久无家问因以筒盛书系犬颈犬出南走逹家得答书驰还后犬死葬机村南村人呼黄耳冡
    冯元城集华亭黄耳寺以犬得名相兽经犬白身而黄耳者能知人家吉凶事是犬为陆机传信三千里亦异犬也
    幽明録晋防兴二年吴人华隆好弋猎畜一犬号曰的尾每将自随隆后至江边?一大蛇围身犬遂咋蛇死焉广古今五行记晋嘉兴张林有狗名阿永
    事物绀珠飞燕张平子犬
    南史张彪败其将沈防申进皆叛彪唯常所养一犬名黄苍在彪前后未曾舍离
    三国典略齐高纬以波斯狗为赤虎仪同逍遥郡君饲以粱肉食县邑常于马上设蹬褥以抱之
    五代史齐后主时犬为开府仪同雌者有夫人郡国之号
    南部新书鄱阳人张朝为猛兽所?噬其家犬名小狸救之?免韩元吉桐阴旧话韦善俊唐武后朝京兆人长斋奉道法尝擕黒犬名乌龙世俗谓为药王云
    续仙?韦善俊犬号乌龙后化为龙乗之飞升而去
    捜神记防稽勾章氏张然养一狗甚快名乌龙
    词林海错杜光庭有犬名吠云可行万里
    博异记南阳张遵言涂次商山山舘中夜晦黒东墙下一物凝白耀人视之乃一白犬犬如猫须?爪牙皆如玊色毛彩清润悦泽可爱遵言爱之目为防飞
    清异録耒阳廖习之家有一黄犬识人喜怒頥指可使名曰黄奴习之常作歌云吾家黄奴?黄耳
    三水小牍僖宗朝宰相王铎所爱卑脚犬曰花鸭有刺客匿于梁上为犬所觉而免捧砚者裴至徳家僮也生一岁时有卑脚犬曰青花忽来齧儿阴食之至徳有良药封之愈
    偃曝谈余赵泽民为山西亷使时畜一犬名桃花善猎有客至即呼名嗾之语家人先具酒果良久桃花必致一物如麞鹿雉之?无虚徃
    泊宅编虞经臣防元祐时为给事中初入台値都城开渠忽有黒犬自渠中出直入其家家人軰爱之名曰渠来但无事惟喜睡至或乱据?帏窗牖之?则经臣必有迁改锡赉之庆
    合璧事?苏子瞻来儋耳得吠狗名乌喙甚猛而驯过合浦迈泅而济路人皆惊异犬
    山海经天门山有赤犬曰天犬见则有兵乃天狗星光飞流注而生行如风声如雷光如电
    山海经阴山有兽其状如貍白首素牙名曰天狗
    楮记室至治元年玊案山产小赤犬占曰天狗堕地为赤犬其下有大军覆境
    尸子地中有犬名曰地狼
    夏鼎志掘地得犬名曰贾
    捜神记晋元康中吴郡娄县懐瑶家忽闻地中有犬子声掘视之得犬子雌雄各一目犹未开形大于常犬也哺之而食左右咸徃观焉长老或曰此名犀犬得之者令家富昌
    晋五行志大兴四年庐江灊县何旭家忽闻地中有犬子声掘之得一母犬青厘色状甚羸痩走入草中不知所在视其处有二犬一雄一雌哺而养之雌死雄活及长为犬善噬野兽
    三水小牍汝南临汝县南十八里广城陂之西有小山崆峒其顚洞穴如盎将有大风雨则白犬自穴出田夫以为候
    东园客谈唐伯刚云北方凡皁雕作巢所在官司必令人穷巢探卵多寡若三枚必设?以守之及其出一乃狗也取而饲养之长则献于朝廷与常狗无异但耳上多羽毛耳田猎之际雕则上飞狗则陆行所逐同至名曰鹰背狗
    西使记皁雕一产三卵内一卵生犬?色而毛短随母影而走所逐禽无不?者
    雷民传尝有雷民畜畋犬其耳十二每将猎必笞犬以耳动为?数
    山海经蜪犬如犬青色食人从首始

    @80469 回复 ⚑举报 

    wd369
    游客

    我的猜想,ChatGPT的能力是可以达到对现有资料文字进行词义级别的分拆组合,有一定程度的定性定量再处理,还能归纳出一些运用规则。所以适用于资料的整理,再创作。比如编个报告,甚至唐诗创作等等。如果给出明确指示,编出的程序也可以大体正确。但它的这些能力对于文献查询和考据方面的辅助方面,就远远不够了。像例子中这样两次回答都在杜撰材料的做法就不可取了。我想它这方面能力不够的原因可能是,一个是对资料正确性没法判断,二是做法局部观,因为是字词级别的运作,这样就容易只见树木不见森林,甚至没区分树木是否属不同森林。   而搜索引擎就没这种问题,只是根据搜索要求返回相关资料,让浏览者自己去判断。

    @80471 回复 ⚑举报 

    wd369
    游客

    @苏崇鹂 #80459

    国外中文资料也是不少,像谷歌已经数字化同时识别生成了海量中文资料,比如可以在“谷歌图书”中可以直接文字搜索。国外各大搜索引擎也在定时搜集整理中文网站。这些用于AI模型训练也已经足够,可能训练出的水平高低可能基于对资料的深度运用。国内公司可能独有一些网络中文资源,比如百度贴吧等等,但这些社交网络中的中文表达多简略和口语形式,用于AI训练上有特色但也会有些弊端。

    @80474 回复 ⚑举报 

    Chat
    游客

    @wd369 #80469

    这根本不是问题。我曾经调教过,任何人也可以尝试这样去测试他的能力。

    比如,问题:请介绍XXX。

    回答:一大堆,但是重新组合。

    问题:请学习以下资料“”(这里直接复制粘贴权威性的描述资料。)在我下次问你XXX的时候,请一个字不要改动,把上面这段资料粘贴给我,注意一个字不能改动。

    后续再去问,他就会依照你的指令,一字原封不动粘贴过来。

    所以一字不动引用文字,或者是将来直接引用图片,古籍原图,技术上根本不是难事。

    与其去质疑AI的能力问题,不如去想想,自己将来如何面对AI古文专家的挑战吧。

    @80476 回复 ⚑举报 

    wd369
    游客

    @苏崇鹂 #80459

    我在ChatGPT中提交你这个问题,全部内容的结果出不来,就选了其中几句,结果如下:

    请把下面文字自动排版,加上标点符号,比如划分出“《》、。”等符号。

    博异记南阳张遵言涂次商山山舘中夜晦黒东墙下一物凝白耀人视之乃一白犬犬如猫须?爪牙皆如玊色毛彩清润悦泽可爱遵言爱之目为防飞
    清异録耒阳廖习之家有一黄犬识人喜怒頥指可使名曰黄奴习之常作歌云吾家黄奴?黄耳
    三水小牍僖宗朝宰相王铎所爱卑脚犬曰花鸭有刺客匿于梁上为犬所觉而免捧砚者裴至徳家僮也生一岁时有卑脚犬曰青花忽来齧儿阴食之至徳有良药封之愈
    捜神记晋元康中吴郡娄县懐瑶家忽闻地中有犬子声掘视之得犬子雌雄各一目犹未开形大于常犬也哺之而食左右咸徃观焉长老或曰此名犀犬得之者令家富昌
    晋五行志大兴四年庐江灊县何旭家忽闻地中有犬子声掘之得一母犬青厘色状甚羸痩走入草中不知所在视其处有二犬一雄一雌哺而养之雌死雄活及长为犬善噬野兽
    三水小牍汝南临汝县南十八里广城陂之西有小山崆峒其顚洞穴如盎将有大风雨则白犬自穴出田夫以为候
    东园客谈唐伯刚云北方凡皁雕作巢所在官司必令人穷巢探卵多寡若三枚必设?以守之及其出一乃狗也取而饲养之长则献于朝廷与常狗无异但耳上多羽毛耳田猎之际雕则上飞狗则陆行所逐同至名曰鹰背狗

     

    《博异记》:南阳张遵言涂次商山山舘中,夜晦黒,东墙下,一物凝白耀人视之,乃一白犬。犬如猫须、爪牙皆如玊色,毛彩清润悦泽,可爱。遵言爱之。目为防飞。

    《清异録》:耒阳廖习之家有一黄犬,识人喜怒,頥指可使。名曰黄奴。习之常作歌云:“吾家黄奴,黄耳。”

    《三水小牍》:僖宗朝宰相王铎所爱卑脚犬曰花鸭,有刺客匿于梁上,为犬所觉而免。捧砚者裴至徳家僮也,生一岁时有卑脚犬曰青花,忽来齧儿阴,食之。至徳有良药封之,愈。

    《捜神记》:晋元康中,吴郡娄县懐瑶家,忽闻地中有犬子声,掘视之,得犬子雌雄各一目,犹未开,形大于常犬也。哺之而食,左右咸徃观焉。长老或曰:“此名犀犬,得之者令家富昌。”

    《晋五行志》:大兴四年,庐江灊县何旭家,忽闻地中有犬子声,掘之得一母犬,青厘色,状甚羸痩,走入草中不知所在。视其处,有二犬,一雄一雌,哺而养之。雌死,雄活,及长为犬,善噬野兽。

    《东园客谈》:唐伯刚云:“北方凡皁雕作巢所在,官司必令人穷巢探卵,多寡若三枚必设?以守之。及其出,一乃狗也。取而饲养之,长则献于朝廷。与常狗无异,但耳上多羽毛。耳田猎之际,雕则上飞,狗则陆行。所逐同至。名曰鹰背狗。”

     

    @80478 回复 ⚑举报 

    wd369
    游客

    @Chat #80474

    AI的能力也是背后的技术人员在调教。如果不去质疑AI的能力问题,进而提醒背后的技术升级,那它怎么能提高呢?

    @80484 回复 ⚑举报 

    Chat
    游客

    @wd369 #80476

    我不清楚,他的句逗做的怎样。但是,在古文句读方面,可以试下这个。

    gj.cool/

    old.gj.cool/gjcool/index

    不知道他们的水平发展怎样了。

    总之,其实AI做句逗的准确性,是与多方面因素相关的。比如:学习的数据的量的大小,学习的数据的质量高低,模型等等。最后会呈现出一个结果来。

    我的意思是指,AI做句逗,或古方方面事情,或者像是古文OCR,这些事情,现在其实已经显示出了巨大的能力。而目前的AI水平,可以讲才刚刚是婴儿阶段。

    要看到,AI只要再进一步学习更大量的数据,并且进一步升级下去的结果。

    当然,这个过程需要自己去摸索探索。才会对AI的能力有比较直观和认识。

    这是很好的。

    因为AI的到来,就好比,从远处已经呼啸而来一场巨大的风暴。很多人根本没有意识到这个巨大的风暴即将到来,并且不知道这个风暴的力量有多大。

    而现在就能够发现ChatGPT并且多了解的话,就提前能够知道,不久的将来,一定会出现一场巨大的风暴,就可以提前转型了。

    否则将来这场风暴到来的时候,连自己怎么失业的都不知道。

    @80703 回复 ⚑举报 

    苏崇鹂
    游客

    外网确实有时代技术之优势,内网限于意识、资金、政策、人才、市场化等等方面,好的中文库没有建设起来。如果是抓取那些营销号上的垃圾话,完全没办法运作。现在国内有的库,什么四库全书几亿字全文,唐诗宋词库之类的,对于机器的刷题速度来说,数量远远不够。

    但说到底,原始的、稀奇古怪的古籍文献还是国内最多,中文口语潮流还是内网在引领。如果深入到“小学”一门,例如音韵、简牍、古文字,外网中文世界的人才就完全跟不上了,所谓“学阀垄断”。如果这批人不开口,好的中文库是很难打造的。

    第二,互联网垄断企业不能通力合作,也难。

    第三,例如敏感词汇,太机械,也训练不出来。机器人也要有国界,我们的AI要帮我们说话,怎么去调试,全是问题,现在连治理个水军都没什么头绪,将来出个AI被训练成帮别人说话,那就闹笑话了。这些烂事怎么解决,我也只是看客,大概二三十年再看吧。对于当前是谨慎乐观,大度原谅,仅表敬意。


    关于机器取代工作一事,其实好几年前就已经完成第一轮职业淘汰了,已经下岗了很多人,但是失业率是一个重要指标,真要发了狠去换,也不切实际。第二,当前人类技术的进展也是极其缓慢的没有想象的那么快。很多年前,我听那些教授谈这个,就提出一个暴论:一切有逻辑的东西,机器都将取代。还说读书选职业,一定要做那些跟人打交道的事,淘汰得慢点。

    这次我看网上又起了这风,又想起了这些话,说AI是个小助手是个秘书,但是目前AI怎么会取代女秘书呢?一笑~

    @80741 回复 ⚑举报 

    Chat
    游客

    哈哈。一笑了之。

    @87059 回复 ⚑举报 

    cc
    游客

    中文仅占gpt训练数据的0.1%,并且这里绝大部分是繁中。

    我们的中文互联网不足以提供高质量的训练数据。什么是高质量的数据?比如维基百科、高质量的活跃论坛、专业新闻、学术论文、高质量代码、图书。 我们看看GPT–3的训练数据是什么。权重最大的数据集是OpenWebText(开源版本),数据是从Reddit论坛上收集的URL,再把内容抓取下来。Common Crawl是一个开放的互联网数据存档(英文占一半,中文大概5%)。其他一些代表性的数据包括Wikipedia维基百科,Books开放图书,Stack Exchange 技术问答社区,Github 代码,ArXiv论文,RealNews 新闻存档,PubMed 医疗数据。可以看到,由中文互联网产生的数据,比例低到可以忽略。这也是困扰很多试图训练中文大模型的问题,但实际上,ChatGPT的用中文沟通的能力,已经远超那些专门的中文大语言模型了,背后原因是GPT隐式学到的翻译能力。 没有好的中文数据,我们就只能搭全球互联网的数据顺风车。上面这些优质数据的产生,需要开放的社区,我们似乎无解。

    @87163 回复 ⚑举报 

    gg
    游客

    玩一玩,图个乐呵

    @87262 回复 ⚑举报 

    wd369
    游客

    我发此帖谈这个主题,主要是说下自己的感想,即对ChatGPT 这类AI不能太依赖,在使用上还是要认识(或警觉)它的不足之处。原因是我当时感觉ChatGPT的系统内设定较前有些变化,结果变得不太靠谱了。之前向它询问一些问题时,它会承认自己只是个聊天机器人,不了解也就不能回答这些问题。但在新版本中却改为在同类情况下却强行回答,甚至胡编乱凑些相关解答。

    ChatGPT 能够表现突出震惊世人,或许它真在技术有所突破。可能训练数据足够,是可以给出更合理高效的帮助。在知乎看到一篇文章,供感兴趣的朋友参考。
    万字长文,探讨关于ChatGPT的五个最核心问题:  zhuanlan.zhihu.com/p/612028498

    @87263 回复 ⚑举报 

    wd369
    游客

    看到相关新闻和技术热点都还在讨论如何开发和利用ChatGPT 相关的技术。我突然冒出个想法,如果ChatGPT 真是打破了以往人工智能技术的大瓶颈。那下来是否很快就进入类似科幻中那样的机器人时代了。

正在查看 17 个帖子:1-17 (共 17 个帖子)
正在查看 17 个帖子:1-17 (共 17 个帖子)

上传图片

拖拽或点击选择图片(最多五张)

回复至:试了试ChatGPT的中文, 感觉它的回答是在忽悠人啊。
您的信息:



发帖/回帖前,请了解相关版规

0,邮箱地址尽量真实有效,随意填写的可能会被系统误判为垃圾内容。
1,不要开书单。单个帖子尽量发布一种书籍需求。
2,在搜索不到相关主题的情况下,尽量发新帖(发帖标题最好带上书名)。不要在他人帖子中回复某种书籍需要。
3,发帖提问标题尽量简单明了。发帖内容不要太过简略,请对书籍内容、版本或作者作简要说明。
4,出版于1973年以后的资源需求或分享将会被清理删除。