<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>AI | Jinming Hu</title><link>/founder/tags/ai/</link><atom:link href="/founder/tags/ai/index.xml" rel="self" type="application/rss+xml"/><description>AI</description><generator>Source Themes Academic (https://sourcethemes.com/academic/)</generator><language>zh-Hans</language><lastBuildDate>Tue, 24 Mar 2026 12:00:00 +0800</lastBuildDate><image><url>img/map[gravatar:%!s(bool=false) shape:square]</url><title>AI</title><link>/founder/tags/ai/</link></image><item><title>写在读博旅程之后：我与我的博导Qizhen Zhang之间的冲突</title><link>/founder/post/after_phd_journey/</link><pubDate>Tue, 24 Mar 2026 12:00:00 +0800</pubDate><guid>/founder/post/after_phd_journey/</guid><description>&lt;p&gt;读博申请时，我拿到了德国和瑞士最顶尖的几个数据库组的 offer，以及多伦多大学 Qizhen Zhang 的 offer，最终我选择加入了多伦多大学做数据库的研究。在这之后，我的签证一直被加拿大卡着，至今没有通过。于是我 9 月份开始远程做科研，虽然还没正式入学，但也勉强算是开始了读博旅程。之前写了一篇《写在读博旅程之前》那篇文章，正是写在那时候。&lt;/p&gt;
&lt;p&gt;但写那篇文章的时候，我怎么也没想到，我的读博旅程会结束得这么快。不到 3 个月的时间，我就选择了退学，而我现在的内心，竟然还十分感激能如此迅速地退学。&lt;/p&gt;
&lt;p&gt;事情是这个样子的：最开始我做的第一个研究是联邦学习与数据库的结合，也就是联邦学习与各种数据库交叉的内容。选择这个方向，主要是因为 Qizhen 应该有一个重要的基金与联邦学习有关，所以他比较希望我做这个。我本人对联邦学习的兴趣一般，但我想做一些机器学习与数据库方向的结合，就接受了他的建议。&lt;/p&gt;
&lt;p&gt;我们的第一个课题，是研究噪声对联邦学习的影响。这篇文章其实主要是做了一些实验，发现联邦学习相比于传统的机器学习，对噪声更加敏感。推进的大部分时间里，其实我们很像无头苍蝇，因为组里除了我之外，并没有比较懂机器学习的人。所以基本上都是我在努力写代码、做实验，以及思考实验现象背后的原因。这篇论文在 10 月中旬写完，提交到了 SIGMOD 2026 上，并在 1 月初左右收到了 revision 的通知，最终修改通过，在 2 月底收到了录取通知。&lt;/p&gt;
&lt;p&gt;除此以外，在做这个研究的过程中，因为发现联邦学习对数据的质量和噪声比较敏感，我就想解决这个问题。同时我也发现，之前有研究表明重复数据对机器学习（尤其是大语言模型）的训练没啥帮助，反而增加了训练时间；而大模型的训练数据是从互联网上爬取的，有极多的数据重复，其实很需要做数据去重。以前的数据去重算法比较中心化，我就提出，我们可以做一个分布式的、去中心化的、联邦的、保护数据隐私的去重算法，使得用户的隐私数据不需要被收集到中心节点。这个想法大概是 9 月中旬产生的，我大概花了一天时间就设计出了一个比较高效的算法，并且花了两天时间就写出了一个比较高效的实现，最终提交到了 10 月初的 WWW 2026 上。&lt;/p&gt;
&lt;p&gt;在 10 月提交了这两篇论文之后，Qizhen 又开始督促我继续做联邦学习的研究，主要是训练框架和 data pipeline 执行的优化。其实这时候我已经有点不太想做联邦学习了。我当然可以做得很好，但我觉得这不是眼下最重要的任务。诚然，长远来看保护数据隐私是很重要，但眼下最重要的，还是提升大模型训练和推理的智能和效率。&lt;/p&gt;
&lt;p&gt;但是 Qizhen 很希望我继续做联邦学习，他还和我说：“读博期间，重要的是在一个方向上深度耕耘，分心做别的方向对做研究是有害处的。我知道你以后的目的是走教职，多伦多每年都会拒绝大批的教职候选人，只因为他们读博期间的研究方向不够集中；你联邦学习做得很好，我希望你能做得更好，做出自己的品牌。”我当时其实有些纳闷，我真正开始做博士的研究也就一两个月时间。诚然，我投了两篇顶会论文出去，而且后面中了 SIGMOD 2026（数据库最好的会议），但也不至于这一两个月的工夫就让我定型了自己的研究方向吧？我就不能做自己更感兴趣的方向吗？但我后来大概意识到了，可能主要还是他的基金有这方面的需求吧。&lt;/p&gt;
&lt;p&gt;当时虽然觉得不太舒服，但我还是继续做着联邦学习的研究。12 月下旬，我和好友去香港见了老朋友，回来深有感触，还写了几篇文章。结果从香港回来之后，事情突然发生了变化：我的一位至亲身患重病，需要长年陪同治疗。在得知这个消息的时候我是错愕的，但我瞬间就下定了决心：我不出国读博了，我要退学陪亲人治疗。&lt;/p&gt;
&lt;p&gt;随即我就把这个消息告诉了 Qizhen。他也很错愕，但他和我说：“你别急，你马上就够 3 篇顶会了，也许我可以帮你联系学院，提前让你一年就毕业。你甚至不用怎么来多伦多，来办个手续也许就可以了。当然我不能保证这个能成功，我只能说去试试看。”这听上去当然不错，如果能够不出国并且一年就收获一个博士学位，那还可以继续我的教职梦，那当然是很好了。我没想到 Qizhen 愿意为我做到这个程度，当时惊喜又感动，还和不少朋友说了这件事情。但我也下定了决心，无论如何，我的重心必须放在亲人这边。&lt;/p&gt;
&lt;p&gt;那么，退学之后我做什么呢？我不想看着亲人受这么多年的痛苦折磨，我想帮助攻克这个麻烦的疾病，这是我眼下最想做的事情，毫无疑问。但我不懂医学啊，怎么办呢？我突然想到，现在人工智能、大模型很强，非常强。我作为程序员和计算机科学的研究人员，可能比大多数人都能更真切地感受到 AI 的潜力和强大。我是不懂医学，也无法亲自攻克这些疾病，但如果我能推动 AI 的进步，甚至帮助做出一个前所未有强大的 AI，让 AI 来辅助人类攻克疾病，这是不是就有希望了呢？想到这里，我决定：我要创业做 AI。这也就是后来我选择 AI 创业的原因。我的一位好友得知之后非常支持我，并决定加入我们的创业团队，成为了团队的核心创始人。&lt;/p&gt;
&lt;p&gt;很好笑的是，我们团队因为本身自带流量，虽然我们前期尽量想保持低调，但工商信息的变更还是暴露了我们创业的事情。结果引来了不少自媒体和营销号的报道与介绍，而这些报道与介绍很多应该都是用 AI 写的，编造了不少谣言。比如什么我是杭电毕业的啦，让我们深感无奈。创业到现在，其实我们几乎没在公众平台发过任何声音，也没花钱买过国内大流量营销号的文章，去发什么“学霸带队创业！中国团队剑指 AGI！”这样的通稿。而且，我们之前极少数发的一些关于创业进度的声音，也受到了很多质疑，尤其是小红书这样的平台上，几乎所有人都认为我们在造假，令人深感无奈。但也算幸运吧，这段时间也有很多投资人试图接触我们、投资我们。不过我们都拒绝了，眼下我们只想专心做事。&lt;/p&gt;
&lt;p&gt;1 月份的时候，SIGMOD 的 revision 通知下来了。Qizhen 开始 push 我搞修改。我花了点时间写完了实验所需要的全部代码，并且根据我们的硬件资源设计了实验，确保截稿时间之前能全部跑完。不过他还是很担忧，经常催我。即使我每天因为忙于创业和照顾家人，可能要晚上 11 点多才到家，他也还是催我搞实验，有时候甚至要和我开视频会议盯着我干活。至于之前帮我去申请毕业的事情，他再也没有提过。但出于责任心等原因，我还是按照时间节点搞定了所有实验。最终，SIGMOD 2026 结果出来，我们这篇论文被正式录取了！苦心没有白费！&lt;/p&gt;
&lt;p&gt;戏剧性的转折来了。我登录 Slack 准备恭喜 Qizhen，结果发现他在实验室群里发的论文作者列表中，我竟然被排到了第二位！我顿时感到一阵无语。同时我发现，在 Qizhen 的个人网站上，这篇论文的作者列表里我也被排到了第二位，而第一作者，是一个在整个实验项目中写了 0 行代码、0 行论文的本科生(Jiahao Gu)！这不就是明目张胆地抢我一作吗？！我立刻发 Slack 质问 Qizhen，我说你要改作者顺序，最最起码，也应该先征求一下我的同意吧？结果，Qizhen 随后直接将我从所有实验室的群组、包括 GitHub 群组中踢了出去。&lt;/p&gt;
&lt;p&gt;我和同学吐槽了这事儿，还发了朋友圈和知乎。感慨我以前经常听 B 站“皮总”那些劝退读博的歌，里面经常唱到什么被抢一作，没想到这种事居然真的发生在我身上了，无奈地笑。其实我倒不觉得有什么可气的，说穿了就是一篇 SIGMOD 而已，我能在一个多月中一篇，以后自然也不会缺这么一篇。但我只是觉得很好笑，之前 Qizhen 和我交流的时候明明非常平易近人，还信誓旦旦地和我说要帮我申请一年毕业，原来到最后终于露出了狐狸尾巴，笑。&lt;/p&gt;
&lt;p&gt;过了一会儿，听说是他们组的本科生看到了我发的知乎并截图给了他看，Qizhen 决定写邮件回应我。颇具讽刺意味的是，这封邮件的上一封还是：“I am very anxious that we may not be able to submit the revision. Please contact me as soon as possible. We should meet to decide what to do”（我非常焦虑，我们可能无法按时提交论文。请你看到邮件后立刻联系我，我们应该马上视频来采取下一步动向）。那是在离截稿还有一周多的时候，他焦虑地催我赶紧搬砖，确保实验能够按时搞定。我当时也很无奈，实验都在 GPU 上跑着，催我能有什么用。&lt;/p&gt;
&lt;p&gt;Qizhen 在最新的这封回应邮件里说：我提交论文的时候就和你说了，你和那个本科生是共同一作，而他的名字按字母序排在你前面，所以我把他放在了前面。我觉得很可笑：写了 100% 代码的我和写了 0% 代码的他，做了全部理论分析的我、写了绝大部分论文的我，和写了 0 行论文的他，凭什么算作共同一作？&lt;/p&gt;
&lt;p&gt;我当即意识到我需要立刻捍卫自己论文的主权。于是我马上给 SIGMOD 的主席写了邮件询问这件事情。SIGMOD 主席回复说，系统里并没有什么共同一作，你就是 primary author，而且没有任何人能在不经过你同意的情况下改变任何作者顺序。我懂了，原来这全是 Qizhen 的一厢情愿。也许他只是在“报复”我选择退学，并且在 revision 阶段让他感到焦虑了吧（笑）。回过头来想，所谓的快速毕业应该也只是一块画好的大饼，诱饵罢了，只为了吊着我帮他把所有的论文都做完而已。没准做完之后，一作也照样不是我呢（笑）。而且后来我才得知，他组里的第一个 PhD 学长也是 master out 跑路了。而在那个学长决定退出之后，也同样和我一样被火速从实验室主页“除名”了，并且那位学长曾经的一作 VLDB 论文，在 revision 之后也光荣地变成了“N 作”（笑）。于是我立刻将我一作的论文放到我
&lt;a href="https://sea-land.ai/founder#publications" target="_blank" rel="noopener"&gt;个人主页上&lt;/a&gt;，并将代码开源在了
&lt;a href="https://github.com/conanhujinming/fl_data_quality" target="_blank" rel="noopener"&gt;GitHub上&lt;/a&gt;，否则我真不知道会不会我以后会变成“100 作”（笑）。&lt;/p&gt;
&lt;p&gt;回过头来想想，人生就是这样充满了随机性。你永远不知道下一段时间会发生什么样的事情，也许有些之前看似很好的人突然就会在背后捅你一刀，也许平静的生活就会突发横祸。但是人能控制的，只有自己的心态，和自己的应对方式。所谓塞翁失马焉知非福，我退学看似很可惜，也许断了我的教职梦，但创业也许也能实现我最喜欢做的事情：帮助他人成长；同时这还变相帮助我避开了一个大坑，否则真不知道以后会被坑成什么样呢（笑）。也许这就是人生吧。我们能做的，就是继续努力，继续笑对命运，继续永不低头，继续抬头仰望星空，低头脚踏实地。&lt;/p&gt;</description></item></channel></rss>