随着人工智能技术的飞速发展,大模型已成为推动科技进步的关键力量。在这一背景下,肖仰华教授受上海科学智能研究院邀请,开展了一场主题为“开启大模型‘牛顿’时代的数据科学”的讲座。肖教授首先强调了数据在大模型发展中的核心地位,指出数据不仅是大模型知识与能力的根源,也是大模型工程实践的本质。肖教授提出,高质量训练数据、优质指令集和评测集在大模型的研制与应用中扮演着至关重要的角色。接着,肖教授深入探讨了建立面向大模型的数据科学的重要性。他认为,这是揭开大模型神秘面纱的关键,也是引领大模型从“只知其然”的前“牛顿”时代走向“知其所以然”的“牛顿”时代的关键。他提出,大模型的数据科学研究应包括语料采集、标注、清洗、合成,以及建立数据分布、质量与模型性能的内在关系。肖教授的讲座还特别强调了大模型数据科学的跨学科特性。他提出,为了更好地理解和优化大模型,我们需要从人文社科领域,如教育学、社会学、认知心理学中寻求理论指引。这种跨学科的视角为大模型的研究提供了新的维度和深度。肖仰华教授的精彩讲座引发了在场师生的热烈讨论,问答环节大家畅所欲言,激发了大家对于生成式人工智能所带来的社会问题的强烈兴趣和深入思考。这次讲座的成功举办,不仅展示了复旦大学在数据科学和人工智能领域的领先地位,也为学术界和工业界提供了一个交流和合作的平台。我们期待未来能有更多这样的学术活动,共同推动数据科学和人工智能领域的发展。
更多讲座详情请关注上海市数据科学重点实验室官方公众号“数据科学重点实验室”。