话题发现 (Topic Detection),又称话题检测,是指将新闻专线和新闻报道等来源的数据流中的信息归入不同的话题,并在必要时建新话题的技术。它来源于TDT(Topic Detection and Tracking)任务,包括首次报道检测,在线话题检测,最新事件检测,事件回顾检测和层次话题检测等子任务。
20世纪90年代末,由美国国防高等研究计划署(Defense Advanced ResearchProjects Agency,DARPA)发起,马萨诸塞大学阿莫斯特分校(University of Massachusetts at Amherst),卡耐基-梅隆大学(Carnegie Mellon University,CMU),Dragon Systems等研究机构共同参与制定和设计了话题检测与跟踪任务及评测体系(Topic Detection and Tracking,TDT)。
TDT面向新闻信息流,以无结构信息流的话题结构检测,跨媒体、跨语言的未知话题识别和已知话题信息的跟踪为主线,1996 以来先后开发了TDT-Pilot,TDT-2至TDT-5的五期语料。这些语料由大量英语、汉语和阿拉伯语的新闻报道构成,例如1996年的TDT-Pilot语料库是来自路透社新闻专线和CNN新闻广播的16000篇新闻报道。而除2004年开发的TDT-5是纯文本语料库以外,其它各语料库均包含文本和广播两类新闻报道。