做投行、行研、咨询等金融岗位,找数据技巧!

做投行、行研、咨询等金融岗位,找数据技巧!
2018年03月17日 07:54 麻雀忘了飞

做投行、行研、咨询等金融岗位,有没有什么好用的找数据技巧呢?1如何找官方的数据来源找到了数据,却没法找到来源,而数据不能使用的时候?数据说法不一,而没有一个官方的来源,无法抉择的时候?这两个问题有些类似,我们都是需要找到一个权威的官方来源。股票基本面财务数据:当然最正统的来源是上市公司的年报:美股:SEC.gov | Home港股:http://www.hkex.com.hk/chi/index_c.htm上交所:上海证券交易所深交所:深圳证券交易所更方便获取年报的网站应该是巨潮资讯网,当然单间公司也可以到公司的官网去下载。一般上市公司网站都有相关栏目。一般叫“投资者关系”。官方经济数据:美联储:Board of Governors of the Federal Reserve System统计局:中华人民共和国国家统计局石油OPEC:OPEC : Home(OPEC每月都会发布月度报告,这也是很多新闻的来源)伦敦贵金属交易所:London Metal Exchange: Home(伦敦金等)外汇国家外汇管理局:http://www.safe.gov.cn/这类数据来源有很多,大同小异,就不再花时间堆链接了。关键词:方法其 实就是从财经新闻中寻找那些关键字,然后在搜索引擎上寻找它的网站。除去一些伪相关等无意义的财经新闻外,一些新闻是由专业的财经记者写的,一些是引用一 些业内著名人士的分析的,还有一些则是翻译外国的一些文件或新闻。在这些新闻内容中,多多少少会有一些机构组织名称(通常是英文名)是容易被我们忽视的, 而这些恰恰是关键信息来源,甚至比你看的新闻更加客观。这是一个很久以前的可能不起眼的新闻,以它为例子:2014年全球十大黄金生产商排名

文中列出了十大黄金矿商的产量(这里暂且不论新闻的真实性,如果需要验证的话,可以到相应国家的股市上看或在Google上查询一下,再严格点可以深入各个公司的年报细看),这里提供了大量的信息:1. 十大黄金矿商的名称;2. 数据来源(左下角GFMS)。Then,搜索一下GFMS。

于是,我们得知了它是全球领先的会金属咨询公司,如果还不放心数据的真实性(毕竟这是二手数据了),我们可以直接搜索公司的名称,年报是最标准不过的了。比如搜索Goldcorp,进入其官网下载年报打开,所有的信息一目了然。

在这几百页的PDF里,你看到的就不仅是产量这么简单了。包括维持成本(All-in sustaining costs)等等。你也可以对它们进行整合得出数据:

如果对大宗商品感兴趣,从这方面入手也是一个切入点,也可以看看外国企业开采黄金的成本等等。可以作出一些调研分析。对于行研有一定的帮助。如果你对看到的新闻追根溯源,能够发现很多对分析有用的东西,比如美国能源署EIA2015展望(现在已经2016了)

有很多有意思的东西可以去被挖掘。有些数据的确是找不到的,这时候就需要自己预测了。最常用的方法就是利用计量经济学的方法建立经济模型,根据已知的因素进行线性回归分析,进一步去预测某些数据。之 前见过一个人,在投行工作期间研究高速公路上市公司,需要未来几年计划铺设的公里数,有些政府网站会提供相关数据,但是有些政府网站并没有提供,网上也没 有任何相关数据。最终他根据几个已知的数据,比如历史铺设的公里数、GDP增长率等等自己建立了一个经济模型进行预测,结果据说还挺准确的。比较常用的统计软件就是Eviews、SPSS这些了吧。涉及到的具体问题比较复杂,也需要根据具体问题来分析。现有的数据库往往太贵,一般人承受不起。所以当一些数据可以从网页上获取得到,却没有相应的接口时,就需要用爬虫了。ExcelExcel可以选择复制粘贴的方式,但效率较低,且无法更新。所以在Excel中调用数据是更为明智的做法。具体做法是:在网上找到想要的表格数据复制网站,打开Excel,选择数据-自网站

在弹出框的地址栏中输入网址,进去后,在需要的表格左上方会有黄色的框黑色的箭头,点击便是选中表格。

选中后点击导入就可以了。爬虫+数据库(构建自己的数据库)上面的Excel算个“小爬虫”了。但真正高效的还是得用程序编写。例如Python+MongoDB,当然使用其它的组合也可以。尽管效率比较高,但需要学习编程知识,同时可能面临反爬虫问题。例子:想 要求出A股所有上市公司的资本回报率(Returnof Invested Capital ,ROIC),但它不是一个会计科目,也不是常用的财务指标,没发现有网站提供这个信息(提供了其实也得用爬虫,寻找的时间成本也高),所以需要自己计 算。而完整的财务报表也没有免费的API提供,只有一些网页提供了。所以最终爬虫爬了约5000个网站,搜集了约100000条的财务数据才把它算出来 了。具体做法是:(1)写出爬虫,将信息爬取下来。具体对应的库:网页操作:urllib:https://pypi.python.org/pypi/urllib3requests:Requests: HTTP for Humans爬虫及爬虫框架:BeautifulSoup:Beautiful Soup Documentationlxml:The lxml.etree Tutorialscrapy:Scrapy入门教程pyspider:pyspider(2)将数据写入数据库中(调用方便快捷,可重复利用)。数据库:pymongo:PyMongo 3.2.2 Documentationsqlite3:11.13. sqlite3 — DB-API 2.0interface for SQLite databasesMySQLdb:GitHub - farcepest/MySQLdb1: MySQL databaseconnector for Python (legacy version)(3)从数据库调出并作计算。科学计算:numpy:NumPy — Numpypandas:Python Data Analysis Libraryscipy:SciPy.org — SciPy.org(4)数据可视化。画图:matplotlib:http://www.labri.fr/perso/nrougier/teaching/matplotlib/同时pandas也能够画图(有时二三步也可调换,先计算好后将计算结果写入数据库。)通过该种方法,就可以在各个网站上将需要的数据(可获取的或不可获取的)放进自己的数据库,下次需要调用的时候就可以轻易调用了。对于一次性的数据,甚至不用写入数据库,调用一遍并进行计算就可以得到想要的数据了。对于研究相关领域有很大用处。

——————

申明:感谢作者的辛勤原创!

本平台旨在丰富大家专业知识、资讯,提升同仁业务水平。转载文章如遇版权问题,请与管理员联系,管理员将及时更正文章作者或进行删除。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部