余弦定理是一个揭示三角形边角关系的重要数学定理,使用余弦定理,就可以仅凭三角形两个边的向量,计算出这两个边的夹角。科学家为了让计算机能处理人类的语言,要先把新闻里的文字变成一组可以计算的数字,再设计一个算法,这样就能让计算机通过余弦定理,来算出任意两篇新闻的相似性,从而确定新闻的分类。
新闻里的词分为实词和虚词,“之乎者也的”这种虚词对判断新闻分类无益,就不考虑,而“股票”“利息”这种实词,对判断新闻分类很有帮助,是我们关注的重点,我们就要用这些实词计算出一则新闻的特征向量。只要给每一则新闻都计算出其独特的特征向量,再根据每一类新闻经常出现的词的特征,就可以判断出任意一条新闻的分类。
