新国大-教授观点 -段锦泉：机器学习视角下的金融市场舆情分析（干货精华）

来源：在职研究生招生信息网时间：2021-12-15 13:47:11

　　导读

　　各位大家好，我是新加坡国立大学的段锦泉，亚洲数码金融研究所的负责人，也是商学院的金融教授。这是新加坡国立大学EMBA的公开课，希望今天的讲演，能够帮同学对机器学习，尤其是自然语言处理，在金融市场上的应用提高观念层次上的了解程度。

　　我认为学习最重要的不是记住许多细节，而是学习一个方向和整体观念。因为随着年岁的成长，你我对很多事务都会逐渐淡忘，但是方向跟架构通常还能深留脑海。所以我希望透过今天的学习，在听完了演讲之后，你会对机器学习的使用，以特定、具体的实践场景，达到更深的领悟。铺垫一个对自然语言的学习和应用的基础，让你可以在将来自己补强。

段锦泉教授

　　今天要讲的纲要基本上包含三项：

　　第一，我要说明如何建立舆情分析的框架，就是你该具备的思维方式。有了框架，可以帮助萃取舆情上更好的运作。

　　第二是一项具体的应用：舆情因子在企业的违约跟并购中的补强功能。我强调补强这个词，是因为它没有办法替代传统的因子，只能够补强。了解了这一点，我们就不会对结果有不合理的期待。

　　在从观念上了解后，最后我要讲自然语言处理的要素，也就是Natural language processing（NLP）技术工具本身有些什么要素。有了大概的了解后，你以后也就可以与别人沟通了，今天讲演的具体目标也就达到了。

　　【舆情分析的目的】

　　首先，我们要了解做舆情分析的目的是什么？它是作为目标变量，还是一个解释变量？我今天要讲的应用是把它作为解释变量的用法。比如在进行金融分析（如预测）时，不能认为舆情是唯一的决定要素。舆情之外尚有好多其它的解释变量，不是吗？所以舆情在这里起到的是一个补强的功能。

　　【舆情分析三要素】

　　第二点，你要了解金融市场舆情分析，其实是一个三维的问题。

　　第一个要素是主题。比如说我们要研究企业违约，这是个主题，需要分析在违约方面舆情是如何被讨论的。

　　第二个要素是主体。在金融问题上很难不触及主体，例如在分析企业违约时，要说明舆情是针对哪一个企业，比如说对星展银行（DBS）有兴趣，星展银行就是舆情分析的主体。但不能忘掉，在建模和应用的差别，建模的时候需要有很多、很多主体。一旦有了模型，使用时候，只需要针对关心的主体就可以了。

　　拿放贷为例，比如你是一家银行，当有企业向你申请贷款时候，你就会去征信机构（Credit Bureau）进行查证，这是针对一个主体而已。但是征信单位需要收集好多企业的信息才能够提出针对这家企业的信用状况。所以，主体是一个很重要的考虑因素。

　　第三个要素是态度。一篇文章或者报道，一定会表达了一个态度：赞成、反对或中性，或是强烈的赞成反对。所以，你可能会听到情感分析，基本上是三维的问题，就是一篇文本谈论哪一个主题，提及了哪些主体，对不同主体表达了什么态度。例如，我们谈论柯达的照相机品质的好坏。那照相机就是主题，柯达是主体，觉得好或坏就是态度。

　　【细节讨论】

　　现在稍微谈一下关于主题比较细节的东西。我刚才提到照相机，照相机是一个非常明确的观念，只要讲照相机就不太需要再进一步沟通什么叫照相机。

　　但是在商业分析上许多主题是不能够这样简单化描述的，比如说，信用风险是一个非常笼统的观念了，不是一两个词能讲得明白的，这类的主题具有挑战性。你经常会看到很多文本分析的主题，属于非常简单的类别，容易用简单的词描述，而难的是那种很通泛的主题。比如说，我们现在常常讲“环境永续经营”，这种环境因素是很难描述的。

　　你今天产生了很多碳足迹，并不表示你环境因素很差，还有其它如水啊之类的因素需要考虑。所以要从文本里面准确地抓出来这类通泛的主题，是一个很大的技术挑战。但是，我们一定要考虑主题，因为没有主题我们就没办法分析具体的金融问题了。

　　还有一些关于金融市场中主体的细节需要关注。主体大概可以分三类：一类是人物、自然人；一类是企业，也就是法人；还有另外的一类，就是国家（经济体）。大概就是这三类，有时候行业也是一类关心的主体。

　　主体是不是应该属于主题的一部分？这个问题是很重要，因为有时让主体变成主题的一部分是必须的。比如说我们分析川普的行为，川普是主体，同时也是我的主题的关键。

　　但是我们分析信用风险时，主体绝对不应该成为信用风险的一部分。例如我刚才提到星展银行的信用，或者我关心的是中石化的信用。“星展银行”或“中石化”这些主体所对应的公司名，和“信用风险”这个主题本身是无关的，不应该被纳为主题的一部分。这是很重要的认知，因为在制造或者抓取主题的时候，必须把主体都给拿掉，否则包含主体的主题就不够通泛，不能适用于其他主体。但在研究媒体对具体主体的态度时，需要再把主体加回来作为区分。

　　另一个很重要的考虑是媒体采用的语言。比如中文和英文是非常不一样的文字体系，等一下我会介绍中文跟英文最不一样的地方。我不是学语言的专业，但以前和大家一样觉得中文英文差别很大。从学习自然语言的方法中，我发现中文和英文基本是一样的，其实只差一个关键地方，今天我的一个重要任务就是说服你达到这种认知。

　　同时，我们必须了解媒体的类型和分析的目的。因为不是所有的媒体类型都适合你的分析目的。正式的媒体，例如新华社和华尔街日报的新闻，因为写作人的专业水平较高，加上有编辑审核的过程，文本的品质往往比自媒体的内容高。我今天讨论的舆情分析主要针对的是正式媒体，因为研究的是商业、金融的问题，更需要依赖专业的文本。

　　【可以预期的现象】

　　我们可以预期到什么呢？首先，大部分的文章和研究的焦点问题（主题）可能是无关的。因为媒体并不是为我们的研究问题而报道的，而是去选择有新闻性的事件进行报道的，也就是说媒体是会有选择偏差的，那是媒体的本质。也因此，媒体并不能全面性的覆盖我们关心的主题或主体。比如我选择大华银行（UOB），但可能一个星期也没有任何相关的报道。这并不代表大华银行出了什么问题，反而是越正常越不会被报导。新闻倾向于负面性的报道，有新闻价值，大家就越想读。比如赵薇的事件，是很负面的，大家愿意去追，媒体更愿意报导。

　　有了这些基本了解后，自然可预期到在进行舆情分析时候，会面临到的基本的问题和挑战。舆情分析只能当补强的工具，不可能取代传统结构化的金融数据。传统金融数据的价值是很高的，因为一家正常营运的公司，它的财报就会反映这些信息，但在媒体上很可能找不到任何相关的报道，因为它太正常了。

　　也因此，我在做公司信用分析时候，就会面临着大量的公司是不被频繁报道的，导致了有很多缺失数据（missingdata），为我的建模带来了挑战，不过这属于一个需要解决，也能克服的技术问题。

　　另外，做企业分析时候，我们可能也想对国家或行业的舆情有所了解，这种舆情属于一种共享的情绪、态度，比如说中国的经济环境如何了？美国的金融市场又怎么样了？在金融分析上归纳为系统性的因素，也就是个别公司会受到大环境的影响。

　　我的团队今天已经做到了公司和国家的层面，过程中克服了很多技术挑战。但当我们的方向非常明确的时候，就能判断这是做得到或是做不到，做得到的话需要花多少时间和努力，因为等于说我们已经有了一个地图了。

　　【技术1：主题】

　　在主题、主体和态度的三维问题上，我们怎么处理主题的抓取呢？

　　比如说我要讲的是信用风险和绿色金融，这是两个不同的主题，而且都是比较笼统的概念，不是几个字可以描述的。我们用的是一个叫做Source-LDA的技术。Source的意思就是有一个和主题相关的资料来源。我们需要根据资料产生一个不同词汇出现频率分布来描述一个主题，然后让机器根据文章中文字的描述把主题抓出来。

　　LDA是一种统计方法，是Latent Dirichlet Allocation的缩写（潜在迪利克雷分布），可以用于对海量的文本进行主题分类。假设所有的文本中共有5个主题，那LDA就让一篇一篇的文章分成5类。

　　但你会马上面临两个问题：

　　#01

　　第一个是，你阅读一篇文章，它可能好像讲第一个主题，又在讲第二个主题，甚至还有点第三个主题的内容，那该把这篇文章分到哪个主题下呢？针对这个问题，我们可以采用概率加权的方法，比如这篇文章里70%是讲第一个主题，20%讲第二个主题，10%是第三个主题。

　　#02

　　第二个问题是，到底该把文本分成几个主题？产生这个问题，其实是反映了观念上的谬误，但“所有文本应该被分为几个主题”本身就是一个很模糊的事情，是3个，5个？也有可能是20个！但当我们走向用概率法则来思考问题，也就开始自由了。

　　因为我可以将所有文本看成2个主题的组成，一个是我们关心的主题，另一个就是其它主题。比如，我关心的是信用风险主题，那我只需要知道一篇文章在多少程度是在讲信用风险就可以了，比如，75%说明比较相关，5%说明几乎不相关；至于其它的主题是在讲什么，是和我的分析没关系的。但我们不能让文本自然呈现出2个主题（文本直接进行2分类），因为自然呈现的结果往往并不会产生我们关心的主题。因此，需要利用Source主导LDA模型把我们想要的主题区分出来。

emba

　　在处理海量本文上有大量的技术细节要考虑，比如，如何识别出公司名？你可能觉得可以用列表的形式（直接进行字符串匹配），但如果出现新公司怎么办呢？而且一家公司名可能有很多的变体，例如International Business Machine（美国国际商用机器公司）通常以IBM的形式被报道，United Overseas Bank和UOB都是指大华银行，等等，全球无数大大小小的公司，各种情况，不胜枚举。

　　但因为我们研究的是公司的舆情分析，做主题提取时，如前述，必须要把公司名剔除掉，所以必须要实现识别公司名，这里没有完美的解决方法，但我们可以选择效果更好的，效率更高的方法。

　　因此，自然语言处理这个工作，很大一部分是基础建设的问题，你需要依赖别人努力做出的成果，在其基础上应用、改进。

　　比如你要开一家工厂，前面需要建一条路通到最近的公路上，那公路就是基础建设。我们采用了“命名实体识别“（NER）的方法，其实是利用了别人的研究成果，也就是说利用python调用别人的包来实现的。但由于我们对金融数据有足够多的了解，在实际应用中发现了很多的不足，比如，一些小公司或者带有特殊后缀的公司名，会识别不出来之类的。

　　现在，我们也正在进行进一步的优化，训练我们自己的NER模型，可以更准确的识别出公司名。不过在得到我们自己训练的NER模型之前，我们先选择了已有的NER技术，因为现实的问题是，如果你对所有的既有结果都不满意，你是无法前进的。我只是要强调，别人的包你当然可以用，只是不要盲目的相信这些包所产生的效果。

　　【技术2：态度】

　　下面探讨关于态度的技术问题。态度可能是正面、负面或是中性的，选择3分法、5分法或者7分法，你自己要决定。5分法就比如把正面的态度进一步拆分为比较正面和非常正面，负面的态度拆分为比较负面和非常负面。但需要注意，分到太细就没有意义了，因为文章的表述的粒度也是有限的，我个人是比较推荐5分法。

要如何实现这个态度分类呢？我们采用了一种现在最进步的TABSA-BERT的方法。其中，BERT是谷歌开发出来的语言表征模型（language representation），也就是学会如何把词/句转化为对应的词/句向量（word/sentence embedding），是个已经预先训练过了模型（pre-trained）。

taifu

　　我们在这预训练模型的基础上，针对具体的任务对参数做进一步的微调（fine-tune）。那BERT的优势是什么呢？主要是BERT模型在将文句转化为向量的过程中，不仅考虑了语义的环境，还让文字之间的含义在数学的运算上有了具体的含义。

　　举两个例子来具体说明，

　　第一个是，“我喜欢吃苹果”和“苹果公司又推出了新产品”。这两句话中的“苹果”虽然在文字上是完全一样的，但我们知道真实的含义是不一样的，一个是水果、一个是公司。BERT学到的两个“苹果”对应的词向量也是不一样的，因为BERT不仅会去学“苹果”这个词本身，还会考虑其处在的上下文语义。

　　另一个例子是，可以找到“国王”、“皇后”，”男人”、“女人”这四个词对应的词向量之间的关系，这个关系几乎等于：“国王”-”男人”+“女人”=“皇后”，这是挺神奇的吧。因为谷歌的这个BERT模型很大，如果你想从头就自己做，不仅需要专业知识，而且还要花很多时间、用很强的电脑硬件。就像政府建的高速公路网一样，你不会也没能力自己去建个一样的公路网，谷歌提供的BERT预训练语言模型就相当于是项基础设施。

　　TABSA全称是Target Aspect-basedSentiment Analysis，这里其实就包含了我刚才讲的三个维度了。

　　#Target（目标的意思），在我们企业违约的分析中，企业就是我们的目标；

　　#Aspect（方面），相当于我们的主题；

　　#SentimentAnalysis，代表了态度维度。

　　只不过，在我们的分析中的主题必须被分的粒度为更细，也就是要用刚才提到的Source-LDA方法单独处理了。

　　另外需要注意的事项是，分析主题时候，应以文章为单位的，判定一篇文章在多大程度上与信用主题相关；但在我们分析态度时候，需以句子为单位。因为一篇文章可能只有某些核心的句子提到了某家企业，并表达了态度，而其它的句子或者是与这家企业无关的，或者是一些铺垫而没有表达态度的内容。

　　另外，个别句子对企业的态度可能非常明确，但一篇文章却不一定。

　　综上，我们在进行态度分析时，必须以句子为单位。在我们得到了每句话对企业的态度后，再整合成文章整体对企业表达的态度。

　　【架构图】

　　现在，我把刚才讨论的思路用一个架构图来表示，提供一个整体的观念。

　　首先，收集媒体报道的资源，储存到资料库，我们通常用mongoDB这种非关系型数据库来处理，因为它更适合存储文本。

　　然后，从文章层面，对每一篇文本探索它与所关心的主题的相关度，这里需要对文章进行删除实体名、分词、词性还原、去掉停用词、情感词、数字、标点符号等等一系列文字处理。

　　分词，又称标识化（Tokenization），是将文本分割成一小块一小块，每一个小块叫一个token。分词是最能体现出中文和英文的本质上的差异：英文是以字为单位，一个字就可以表达完整的含义，中间已用空格或者标点符号隔开；而中文则以词为单位，且词之间没有间隔。

　　比如说，天气这个词，英文是weather，一个字，而中文，需要“天”和“气”两个字组成，因为单独的“天”和“气”都可能有其它的含义。中文和英文文本一旦得到准确的分词，后面的处理都极为类似，都是把token数字化的过程。

　　你可能会说，中文和英文的文法结构也不一样啊。我以前也认为文法的区别是很重要的，但我现在明白了，机器根本不需要提前知道不同语言的文法，因为这些都可以在训练中学习到。就像小孩子学语言，是不会管具体文法的，小孩子只是在不同情境下，简单的重复、模仿，文法就会自然呈现了。

　　所以，请大家记住，在自然语言处理中，中文和英文的核心差别只有分词的差别。对于英文，我们很容易得到正确的分词结果，中文没有天然的分隔符号，是一个字连着一个字的，我们如何得到分词的结果呢？这个是比较麻烦的，但已经有人做过这样的工作了，我们可以借助现成的工具（包）让我们的任务变得简单。

　　词性还原（Lemmatization）主要是针对英文，需要把名词单复数、动词的过去式、进行式的时态还原成一般现在式等；

　　去掉停用词（stopwords）主要是把文章中没有实际含义，却广泛地出现在每篇文章中的词拿掉，英文中例如the, of, it等等，中文里也有如“的”，“是”，“个”之类的词，这些词如果保留会大大的增加机器学习的时间，却不能对文章主题分类有实际的贡献，这些停用词库可以直接在网上下载下来。

　　去掉情感词（sentimentwords）是因为我们不希望让一篇文章表述的情感影响主题的分类。其余的包括去掉标点和数字等环节也是在进行主题分类时候的一些必要的基本操作。

　　分析媒体文本对实体所表达的态度，我们以句子为单位（请注意这部分是一定需要包含实体名的。为什么以句子为单位请参考上文）。然后我们将整合到文章层面上表达的态度，与文章与主题的相关度加权汇总起来，得到了文章基于主题对特定企业的舆情。再进一步根据媒体、日期进行整合，最后利用移动平均得到关于企业在该主题上平滑的舆情因子的时间序列。之所以进行移动平均，是因为考虑一篇媒体的报道可能对未来一段时间都有一定程度的影响力。而移动平均的时间窗口，则需要按照你的数据、研究问题的不同而进行相应调整。

　　比如说，我们在研究企业违约预测时，设定了2星期的移动平均窗口；但在研究绿色金融时，设置的则是4个星期的窗口。

数据库

　　【文本数据库】

　　目前，我们的资料库里已经有200万篇英文文章了，中文也有60多万篇，而这些数字还不断的在增加中，明显的，对海量文本的分析不靠机器学习是不现实的。

　　【被解释变量Y】

　　现在来讨论企业违约建模的具体考量。讨论企业违约的本质问题，首先要明确两个观念，一个是“企业违约概率”(probability of default，PD)；一个是“其它退出事件发生概率”(probability of other exit，POE)，例如被收购、上市公司私有化（退市）之类的。分析公司的违约概率，不能忽略发生其它事件的概率，因为如果一家上市公司被收购了，不再存在，还何谈违约呢？

　　因此，一家企业未来是否发生违约，什么时候可能违约，和它存活多久的概率有关，又与其它退出事件发生概率有关。比如从银行放贷的角度看待其企业客户，如果一家企业客户转向其它银行申请贷款，那对于原来的银行来说，就是一种企业退出事件的发生。因此，当我们研究企业违约时候，也就是我们的Y变量，至少需分为3个状态，分别是0-存续，1-违约、2-其它退出事件。

　　【解释变量X和维度】

现在讲一讲X变量的数据维度。假设样本有1万家上市公司（实际上是全球有8万家左右），如果有三个重要的共同风险因子（Common risk drivers），比如说利率、油价、CPI，每一家公司又有杠杆率、流动性等等5个个体因素（Individual attributes），影响公司违约概率。那么这X变量有多少维呢？1万家公司，每一家都有5维的个体因素，就是5万维了，再加上3维大家共用的风险因子，也就是50,003维，这是个正常的理解。

　　但以机器学习的角度，通常把它想象成8维，为什么？因为所有公司的某一个个体因素，都是作为同一个X变量输入到模型里去的，使用同一个模型参数。

　　但是如果要对个体公司做压力测试，就不能忘记这原来是50,003维的问题，因为你公司的杠杆跟我公司杠杆不是同样的东西，两个都是动态的时间序列，并具备相关性，是不是？其实这个问题本质是50,003维，只不过机器学习在建模时候当作8维。我们不能忘了这个数据本身的维数就是非常高的，而我们在金融问题上面临的就是这样的数据，补充舆情分析的因子就是增加数据的维数，增加X变量。

　　我们面对的数据是一个非常不完整的面板数据，每个公司都是一条多维时间序列。但在某个时间点，可能有些公司还没有出现，有些公司已经倒闭或被并购了，因此，这个面板数据肯定是很不完整的。面对这样的数据，这样的Y和X，我们要探索它们之间的函数关系，以及判断增加舆情因子是否有补强的效果。

企业债务

　　【违约概率预测函数】

　　这个违约概率预测函数本身是很复杂的，因为需要考虑的因素非常的多。比如说，违约或上市概率一定会有期限结构，我们关心的可能是1个月之内的违约也可能是3年之内的违约。靠虑是否加入舆情因子，并不会影响函数的形式只会改变X变量维度。

　　【违约预测背景交代】

　　新国大的信用研究行动计划（NUS Credit Research Initiative, CRI）已经进行了12年了，我们提供关于全球超过8万家上市公司不同期限的违约概率预测数据，大家都可以从公开的平台下载（如CRI官网：http://nuscri.org）。很多金融机构，像国际货币基金组织(IMF)、商业银行等都在用CRI产出的数据。

　　【舆情的补强功能】

　　因为结构化的金融数据，已经为企业违约预测提供了非常丰富的信息，我们只能期待，舆情因子起到补强的功能。

　　【舆情分析背景交代】

　　其实早在2014年，CRI研究团队就已经开始探索，舆情对于企业违约预测的作用，当时，我们采用的是RavenPack舆情指数。研究发现，当只采用舆情单因子进行违约预测时，舆情起到一定作用；但当我们把它纳入到既有预测模型时，也就是和其它金融结构化数据一起预测企业违约的时候，舆情因子并不能产生额外贡献。

　　经过了一年的努力，我们不得不遗憾宣告失败。那时候的我们，目标是十分明确的，但回头仔细思考，发现采用的方法还是不成熟的，因为RavenPack的舆情是一般性的舆情，并没有考虑主题相关性问题。

　　2019年7月，CRI重启了舆情分析计划，开始自己生成主题明确的舆情因子。经过不断的探索，我很高兴的告诉大家，这次我们得到了正面的成果，舆情对违约预测是有价值的，可以提供丰富的结构化数据之外更多的信息。

　　我现在十分有信心，是因为我们无论在方向上还是方法上，都有了很大程度上的掌控。同时，我们也相信、希望舆情因子可以更有效地用在为还没上市的中小企业，提供更多的信息，这也是我们重启这个计划的初衷。因为中小企业的财报没有严格的审计、市场监管，很可能是不够准确的。同时，它们通常没有上市，没有那么多的结构化数据提供信息，所以舆情至少在观念上，可能会补充更多有用的信息。

数据库

　　【语料库】

　　目前，我们收集的包括全球主流英文媒体金融时报、华尔街日报和路透社的报道，中文收集了新浪财经和财新网的报道。另外，我们还收集了东南亚本地媒体的报道（英文）。近期，我们也开始建立其它语言的舆情，比如印尼语。在了解了中英文在分词上的本质差异后，我们自然对处理其它语言时充满信心。

数据库

　　【样本描述】

　　英文文本方面，我们先以美国和加拿大交易所上市的17,816家公司为例进行验证。考虑文本历史覆盖时间后，我们最终采用的是从1998年6月到2020年12月，共近148万条月度样本，其中，有1,681个违约事件，15,597条属于其它退出事件。不难发现，像被收购、退市之类的其它退出事件是违约事件的将近10倍。

　　但中国的样本具有不同的特征，CRI关于中国大陆交易所的4,294家上市公司所对应的样本中，有1,747个违约事件，但其它退出事件只有544个。这是因为，中国上市公司的壳资源很有价值钱，再不济也可以通过借壳避免退市（目前，中国的退市机制也在不断的完善中）。

数据库

　　【变量描述】

　　那前面提到我们的舆情因子采用的是五分法，从-2到+2。其中，0代表中性的态度。对于舆情缺失的时间点，就是在当月没有媒体报道一家公司时，我们也放入0。但要注意，此0非彼0（态度中性的0和填充缺失值的0）。

　　所以我们增加一个哑变量（dummy），用来区分两个0代表着不同含义。这个是统计上的处理方法，当一家公司在某月有媒体报道时，无论报道的态度是如何，哑变量都设置为1，但当在那时间点上没有媒体报道时，则设为0。可以想象，大部分公司在大部分时间点都不会被媒体报道，哑变量都为0。另一方面，哑变量也有经济的含义，也就是某家公司是否被媒体关注，代表着被关注本身也可能具有意义。

　　【统计结果】

　　现在，我们采用逻辑回归（logistic regression）的方法来展示最终的效果。这个方法虽然不是CRI系统采用的较为复杂、高质量的统计模型，但逻辑回归非常直观、简单，便于非信用风险专业人士的理解。

　　图表中对应的Y为1和2，分别代表企业一年内发生违约或者其它退出事件的逻辑回归结果。其中，dummy就是我们刚才提到的哑变量，predictedlabel就是舆情因子。标X的是其它解释变量。

　　可以看到，无论是我们用美国和加拿大的英文舆情因子（P21），还是中国大陆的中文舆情因子（P23），在对违约事件的逻辑回归中，统计上都是非常显著的，而且对应的系数为负，方向也是符合经济常识，即舆情因子越正面，企业的违约风险越小。

　　而在其他退出事件的逻辑回归中（P22，P24），可以看到，相比舆情因子，哑变量在两组样本的逻辑回归中在统计上更显著，说明一家公司被报道这件事本身更有助于预测其他退出事件的发生。你可能会质疑，统计上的显著在经济层面上不一定有实际用途。比如，统计上我验证了两块钱跟三块钱有很大的差别，但是我对两、三块钱之间的差异根本不在乎。

　　【PD变化】

　　接下来，我们看看加入舆情因子，违约概率实际上发生了多大的变化。这里都是以基点（即万分点，bps）为单位的。因为违约本来就属偶发事件，所以哪怕是10个基点，其实已经是很大的违约率了。比如统计显示，一家信用评级为BBB的企业，一年内违约的概率大概是15个基点，所以5个基点的变化都不能被轻视的。所以，根据两组违约概率差异分布图，可以看到舆情因子的影响还是很大的。

统计和经济意义

　　【PD衍生评级变化】

　　我们可以进一步将预测违约概率的差异具象到信用评级层次上。

　　首先要了解，信用越好的公司，只要它的违约概率发生了些微的变化，对应的信用评级就会变化很大。以标准普尔（S&P）的划分方法将PD对应到信用评级上，可以看到，美国和加拿大的57,175个有舆情的数据点中，6,400个数据点的信用评级都发生了变化，其中，包含5,417个数据点的信用评级都下降了一级（notch），比如BBB就会变成BBB-。

　　中国大陆上市公司的资料，有14,367个包含舆情的数据点，其中5,929个数据点都因为舆情的加入而改变了原来的信用评级，甚至有2、3级上的变化。这验证了舆情因子不仅在统计显著上，在使用层面也会带来明显的价值。

统计和经济意义

　　【POE变化】

　　对于其它退出事件（比如被并购、私有化）的发生概率上，橘色和蓝色分别代表考虑舆情因子前后，其它退出事件概率的分布图。可以看出，加入舆情因子后，其它退出事件的概率比之前大了很多（中文同理）。如果说，违约的预测有助于进行风险管理，那么并购标的的预测则对投资非常重要，因为被收购的公司往往可以获得高额的溢价，股票会大涨。

　　根据上述的描述可确认，主题、主体明确的舆情分析，在中英文本上都已经发生了明显的效果，也达到甚至超出了我们的目标，即利用另类数据构建的因子，有望补强原有的预测模型的准确度，其补强效果显著。

　　当然，我们不能期待舆情因子可以在每一家公司上发挥作用，因为媒体不会对所有公司都进行报道，但一家公司只要被报道，舆情就可能带着有用的信息。

　　案例分析

　　GameStop(游戏驿站)-违约概率

　　现在检视一个今年年初闹得沸沸扬扬的案例GameStop（游戏驿站），反映了一场社交媒体和正式媒体的大战。在图中可以看到（灰色的条），正式媒体的报道都是表达了负面的态度，但是我们知道，社交媒体对GameStop的评价是非常正面的。在那段时间，股价完全反映了社交媒体的意见。

　　但我们也知道，GameStop已经是没有前途的公司，它的违约风险也应该不低，而它疯狂暴涨的股价完全没有客观地反映该公司的基本面。根据我们的逻辑回归模型，股价的大涨会相应地降低违约概率的预测值。

　　我之所以选这个案例，是想看看正式媒体表达的客观、负面的态度评论，能否扭转社交媒体正面评价所带来的影响。但我们也可以看到，扭转的效果还是不够的，因为股价的效果实在很强，也就是说，传统金融资料对模型的解释力是极强的。不过，GameStop目前也还没有违约或倒闭，所以我们只是从模型的角度来看看在极端情况下的一种预测。

　　案例分析

　　天齐锂业-违约概率

　　我们再看一家已经发生违约的中国上市公司，天齐锂业。

　　图中可以看到，蓝色的加入舆情因子后的违约概率比原来模型预测的显著增加。所以，无论是从整体还是案例层面，舆情因子都是非常有用的。

案例分析

　　案例分析

　　Solar City(太阳城)-并购概率

　　我们再来检视并购的例子。美国的案例是SolarCity（太阳城），这是家被Tesla在2016年以高溢价收购的公司，但在今年年初又惹出了法律问题，打了官司。图中显示，在原来模型加入舆情后，被并购的概率就上升了，而且数据告诉我们，媒体报道态度的方向是不重要的，只要被媒体报道，被收购的概率就会增大。

　　仔细想想，应该会觉得这是很合理的结果：因为媒体报道的态度对违约预测，应该是有方向性的，越负面，违约概率越大。但在收购预测层面，信用越差，越可能成为被收购的目标；信用特别好，也可能成为被并购的目标。因为收购方既可以去低价买入烂公司，也可能高溢价收购好公司，所以这个结果是很合理的。

案例分析

　　尾声

　　获得这些成果，我其实是很惊喜的。因为我曾经设想，舆情可能就像牛反刍一样，看了财报、其它金融信息，然后表达了相应的意见，而我们的模型已经包含了财报、股价等等信息。但科学分析的结果告诉我们，舆情是有补强价值的。一旦我们掌握了问题的关键，解决问题的方向和方法，我们就可以得到更科学的答案。

　　问答环节

　　目前有部分的金融企业舆情分析存在着数据来源单一、覆盖率不足、数据挖掘的程度不深等问题，这会导致舆情分析判断不够准确吗？可以请段老师给我们一些建议吗？

　　答：舆情分析的数据是永远不会够的，我认为最重要的问题不是这个媒体来源，媒体来源一定是有限制的。你要做个判断：是不是要离开正式媒体（转而选择社交媒体或者其他数据），剩下的就是技术问题。所以，你首先要了解我讲的三维问题，把三维问题想清楚后，再做舆情分析才会比较有效。很多人分析的结果不成功是因为观念上的问题，导致即使做出技术上正确的分析，也不一定会有结果。

　　另一方面，如果选择的媒体本身品质不高，我们技术上分析得好也可能没有额外信息。所以我认为做了一定程度的努力再做判断是比较好的方法。我今天在讲座里面讲了很多观念问题，但如果从纯粹的技术层次说，高手跟普通人确实是有差别的。同样的东西，比如你看了一本秘籍，你就体会跟另外一个人体会不一样。

　　所以基本功还是个挺重要的事情，我希望今天参与我这个讲座的同学能收获到正确的思维方式，这样也可以和专业人士进行比较具体的沟通。

　　我觉得就能达到今天讲座的目的，但是要变成专家，还是很长的路程，就必须要做很多努力。

　　面对突发的金融事件，如何快速的进行舆情风险分析呢？

　　答：我现在讲的舆情分析是根据我们做出来的系统，来分析企业的每日舆情动态，系统是天天产生新的东西，所以我讲座中谈到，要关注“主题”。

　　现在我关心的两个主题：一个是信用的问题，一个是绿色金融的问题。我们的系统中每天都会产生针对这两个非常明确的主题的新的舆情结果。所以突发金融事件发生时，我们的系统都可以及时捕捉到。

　　因此，你要先想的是舆情分析的目的是什么：做研究或者做报告是一个目的，update（更新）是另一个目的，因此我们要目标明确，应对突发事件只要媒体报道，我们就可以知道结果了。

　　段老师，如果我们的模型越来越完善，可以越来越准确的预测，那这个模型会不会被反向利用？发布对公司有用的信息，最后又不准了，就这个问题，段老师您怎么看？

　　答：你提到的模型在所谓的社会科学里面有一个基本的辩论，我们对社会，对行为的越发了解，会反过来改变行为。

　　但是我现在讲的这个事情不会发生，因为我今天用的是正式媒体，是有一套系统跟管控的。比如，华尔街日报不会做虚假报道，尤其是为了让某个模式产生效果的虚假报道。所以，你说的情况在正式媒体上的发生的几率是非常小的，模型反映的是现实。

　　因此，我个人认为在正式媒体上，没必要担心文章的出现会影响事件本身。

　　老师还提到您做的舆情因子是针对上市公司的，也可以更好的补充对中小微企业的信息补充。但会不会媒体更倾向于报道大型公司，比如苹果、特斯拉、贵州茅台，而对中小微企业的报道很少的。老师是否有这方面的衡量呢？

　　答：媒体是会有这样的倾向的。因为你不能指望华尔街日报去报道印尼的一家小公司。我们对此也有所考量。所以，我们除了国际上大型的新闻媒体之外，还收集了不同国家的地方媒体资料（尤其是东南亚AEAN国家的），甚至包括地方语言（比如印尼语）的资料。

　　目前市面上不少利用各种另类数据，比如电信账单、支付记录之类的来做中小微企业的舆情，段老师有这种打算吗？

　　答：除了传统数据，新闻报道是另类资料的一种，你刚提到的电信账单、支付记录之类数据也是另类资料的一种。另类资料是无处不在、无穷无尽的，如果任何数据都拿来用，那我们就被另类数据绑住了。

　　因此，我们首先要明确，另类资料在我们的研究问题中（预测）不是来取代传统资料，而是用于补强的。因为传统的金融数据已经包含了十分丰富的信息，这是我们的核心研究。

　　在其基础上，我们如今验证了，媒体的报道确实对企业违约预测具有显著地补强作用。所以，对于另类数据，我们一直是基于这个补强作用来考量。至于将来，我们会采用何种另类数据进一步探索，主要还是根据我们的研究问题，重要程度、数据的可获得性等等多个层面来决定的。

　　老师对于舆情因子在企业违约预测中的作用进行了细致的讲解，让我们受益匪浅。同时，老师还提到的在绿色金融中的应用，可以稍微再展开一些吗？另外，老师对于舆情因子在我们投资中的应用方式，有什么建议吗？因为老师一直在强调的“主题”好像比较少在投资领域听到。

　　答：我先讲投资领域的应用。刚刚在我们分析的结果时，你可以看到舆情因子已经能够帮助预测企业并购/收购的发生，这在投资上就很有用。因为我们都知道如果一家企业变成被并购/收购的目标，股价往往会涨得很厉害（溢价收购）。所以如果能增加准确度，这就是一个很好的投资的方式。

　　另外，对于绿色金融也好，其他应用也好，还是我一直强调的，要明确做这项技术的目的。我们要区分，想产生的是Y变量还是X变量。我在讲座里也谈到的，Y变量是预测的结果，X变量是用于预测的变量。例如，我根据企业在信用主题上的舆情，来预测公司发生违约的几率。那舆情因子就是我们的X变量。关于绿色金融的舆情因子，那么就需要明确我们要利用绿色金融来做什么？我的目标是做企业在绿色金融的舆情分析，了解企业在绿色金融上的贡献，也就是产生Y变量，而不是产生X变量用于帮助解释其他。

　　图文/新加坡国立大学EMBA官方微信

上一篇：新加坡国立大学 | 疫情下的新机遇：混合学习+国际合作助力优质教育

下一篇：思想碰撞下的思辨火花 | 国大中文EMBA3月学段新加坡课堂报道

报考资格评估

请提供以下信息，招生老师会尽快与您联系。符合报考条件者为您提供正式的报名表，我们承诺对您的个人信息严格保密。

请选择当前学历

大专以下
大专
本科有学位
本科无学位
硕士
博士