
据UNC官网报道,当大卫·万(David Wan)于2020年在北卡罗来纳大学教堂山分校(UNC-Chapel Hill)开始攻读计算机博士学位时,他很难向非专业的亲友解释自己的研究内容。
“但现在大家都知道ChatGPT了,我只需要说我研究像ChatGPT这样的程序,”他笑着说。
万是计算机科学博士四年级学生,导师是约翰·R·帕克和路易丝·S·帕克计算机科学杰出教授莫希特·班萨尔(Mohit Bansal)。
出于对语言的热爱,万专注于自然语言处理(NLP)领域的研究——他称其为“计算机科学与语言学的完美结合”。这位“塔希尔”(Tar Heel,即UNC学生或校友昵称)出生于德国斯图加特附近,后移居中国上海,目前会说五种语言:英语、德语、中文、日语以及“一点点”法语。
在自然语言处理的广阔领域中,万聚焦于如何让生成式AI更具事实性与可靠性。他主要研究“幻觉”(hallucinations)和“虚构”(confabulations)现象,即AI聊天机器人凭空捏造信息并以事实形式呈现的情况。
“这些AI模型确实很强大,但它们仍会犯错、提供错误信息,”万指出。
这些错误可能源于训练数据的缺陷,或模型本身的局限,而代价可能非常高昂。
2022年,加拿大航空的一款AI客服聊天机器人向一位因奔丧出行的乘客承诺可以获得丧葬票价优惠,并引用了公司的政策——但结果是机器人把政策搞错了。2024年法院裁定加拿大航空败诉,公司需承担赔偿与诉讼费用,还遭受了信誉损失。
万的研究目标就是防止类似错误及其连锁反应。
“这项研究总是充满新意,”他说,“这个领域发展得非常快,几乎每周或每月都有新模型出现。”
凭借在AI事实性改进方面的研究成果,2024年他获得了谷歌颁发的自然语言处理博士奖学金(Google Ph.D. Fellowship)。这一享有盛誉的奖项不仅覆盖他剩余的博士学业,还为他配对了一位谷歌研究导师。
“这是非常好的消息,”万说。他是全美仅有的四位自然语言处理奖学金获得者之一,全球该领域也仅有12位得奖者。谷歌此次在全球13个研究领域共选出85名获奖者,美国有26人入选。
“David在提升AI模型的真实性、准确性和事实基础方面做出了深入工作,”导师班萨尔评价道。“他正致力于我们这个领域的核心挑战之一:打造可靠可信的AI。我很期待这个奖学金能推动他开创性的研究更进一步。”
作为UNC多模态语言理解、推理与生成实验室(MURGe-Lab)的一员,万与不同AI子领域的研究者合作,探索生成式AI的更深层逻辑。他表示,能在教堂山从事这样的跨学科合作,正是他选择这所大学的重要原因之一。
“有时候,即便是其他领域最基础的概念,也能在你的研究中发挥巨大作用,”他说。
万与研究多模态AI(可同时处理文本、图像、图表和视频等多种类型数据)模型的同事合作,也引起了产业界的关注。
谈到未来,他对生成式AI不断演进的趋势感到兴奋,并希望能以创新方式将其整合进产品中。
被问及是否在日常生活中使用ChatGPT这类AI工具时,他几乎不假思索地答道:“每天都用。”
