当前位置:首页 > 教程 > 同花顺总结(汇总6篇)

同花顺总结(汇总6篇)

  • 总结
  • 2024-03-06 08:09:39
  • 167

同花顺总结 第1篇

图 8 右侧是一个具体的例子,一般来说上市公司的诉讼对金融投资有重要的风险提示作用。我们需要从诉讼公告中抽取执行情况、违规案例说明、对公司影响等信息。绿色的部分是违规案例说明,还需要进一步从违规案例说明里抽取诉讼详情,包括原告、被告、诉讼请求、违约金等信息。

对此我们尝试了不同的模型(图 8 表格),常规深度模型 word2vec F1 值为 ,我们还尝试了 MacBERT、澜舟的xxxMengzi等模型,在优化增强(比如数据增强和 loss 优化)的条件下,澜舟xxxMengzi 的 F1 值可以达到 。

我们有一个舆情系统叫“同花顺企洞察”,ToC 版本叫“快查”,用户范围比较广,公司、个人、监管机构等都会用来做参考,如政府会用于招商引资和精准营销。

舆情系统的一个重要的环节是“机构名称的识别”,抽象出来是“长文本NER任务”(如上图所示),机构名称抽取的难点是除了标准名称还有很多简称、别名或者其他叫法,一开始我们用 LSTM+ CRF 的效果不佳,F1 不到 70%,之后结合知识图谱+大模型,目前 F1 可以达到 ,符合上线要求。

舆情监控业务中还有新闻资讯风险识别场景,新闻资讯正面还是负面可能会影响股价,如何第一时间告诉投资人新闻的正面/负面是比较大的课题。

业内一般做法是人工识别、打标签,这样的效率比较低,而新闻资讯的时效性比较高,我们的做法是机器先打标签,然后人工识别校验一次。这里的较难的关键点是除了正负面标签之外,还需要对负面信息进一步分析,提示风险在哪里。

比如图 10 的例子,判断为负面后,我们需要做风险归类,“法人变更”到底是管理风险还是政策风险导致的法人变更,这就需要进一步判断。之前我们用常规模型来做的时候准确率最多到 59%,目前使用大模型,考虑到本文较长且性能要求较高,因此使用参数较少的 tinyBERT, 准确率是 ,后续还需要做更多优化工作。

大量研究表明通过调整预训练任务、使用更多训练数据、使用领域语料等方式,可以对原始的大规模预训练模型做进一步优化,达到更好的效果。比如通过增加训练语料、延长训练时间、移除“next sentence”任务、动态 mask 等优化方法,可以获得比 BERT 效果更好的模型;在 BERT 基础上,通过使用领域数据(DAPT)或任务数据(TAPT)进行第二阶段预训练,可以使模型在下游任务上表现得比 BERT更好。

同花顺总结 第2篇

所以从前两年开始我们采用深度学习模型来做通用语义识别。图 4 有一个通用语义识别的小例子,输入问句是:“董事长持股大于 50 万”,解析时主干识别需要识别出“持有”和“大于”,并且要识别出“大于”这个语义是包含“持有”的,即“(大于(持有))”,语义角色需要识别出“持股”语义主体是“董事长”,“大于”的“客体”是“50 万”。

目前通用语义识别方面大模型的效果已经慢慢显现了。前两年我们采用的是常规深度学习模型 TextCNN 准确率为 88%,后来和澜舟合作使用了xxxMengzi 轻量化预训练模型,从图 4 左下角表格看,效果有显著的提升。考虑到线上耗时问题,我们使用的是参数较少的模型来做,比如xxxBERT-base准确率可以达到 ,Electra-small 模型提升了 4% 是因为做了数据迭代,加了更多数据,进一步提升了效果,后续xxxBERT模型再迭代数据也会有更多提升。

同花顺总结 第3篇

这也是为什么我长期持有东方财富的原因,万一哪一天东财有这样的战略并购收购的话,那么股价就要飞起了,而且我相信迟早会有,就看对方是哪家公司,哪个时间点发生了!

我关注东方财富很多年了,今年也一直在聊,可以说是贯穿全年了,文章也写过很多篇,对于东财我的理解不一定是对的,但如果你也对这家企业感兴趣的,我们可以一起探讨,在我的公众号界面有东方财富的专栏,新朋友还没看过的可以去阅读一下。

对于券商总结一下,我认为券商未来的发展空间比较有限,他们未来的业务发展方向都是可以想得到的,没有太大的想象空间,而且券商具有周期性,可以说是看行情吃饭的,对于这种周期性的行业,可以反复做波段,但不能做长线价值投资,因为他们不具备那种成长潜力。

未来的操作上,投机可以选择次新券商,弹性更好,但前提是必须要有大行情的配合;波段投资可以选择头部券商,确定性更高。就目前的操作上,港股的中资券商性价比更高,有能力开通港股通的朋友,可以去关注破净的头部券商。

最后再讲一句,我觉得券商还有最后一跌,不要急着买,至于什么时候跌我不知道,等最后的恐慌盘砸到券商板块了,那么大盘就可能有大级别的反弹了。

..............

同花顺总结 第4篇

我们大部分的服务其实本质是一个免费的流量型服务,为其他的业务导流,所以对资源的使用要求做到轻量化,提高性能、减少耗时。大模型的参数增加会带来效果的提升,但是在实际应用的经济角度考虑,宁可损失一些效果,尽量减少对资源的占用,所以我们投入了很大的精力做“模型轻量化”工作。

图 12 中有两个实际业务的例子,我们对模型预测耗时有非常严格的要求,因为响应时间太慢会导致用户体验变差,一般来说会要求不能超过 100ms,有部分模型甚至要求耗时在 20ms~50ms。所以我们用了知识蒸馏、剪枝、量化等常见的轻量化技术。比如“用户问句相似问生成”这个任务,我们用到了知识蒸馏技术,将 10 层以上的大模型蒸馏成 3 层的小模型,性能上会有很大的提升,同时保证准确率不会有大幅下降的情况,GPT2-chinese-12 层单样本 CPU 生成耗时约为 1s,蒸馏为 3 层之后,耗时降为 100ms。

同花顺总结 第5篇

这是在快捷选股上的升级版,可以自定义形态,也可以采用同花顺软件自带的形态,个人建议自绘形态,要不然直接选择快捷选股就OK了。

自绘形态,可以自绘出软件没有,而市场成功率很高的相关形态,如:夹板突破,强势调整,超跌反弹等。

还有一种功能,在个股日K线中,近期这段形态,是自己喜欢类形,你可以用鼠标框选下行,单击右键直接进行形态选股,或者形态保存,直接会保存上面列表的实际形态中。

同花顺总结 第6篇

信息抽取应用场景主要是知识图谱构建和金融数据库构建两个方面。

我们业务中几乎所有数据组织形式都是以图谱为基础,金融知识图谱在风控、投研、投顾、银行理赔等等场景都非常重要,业务往往需要通过图谱梳理一些关系,比如用户询问公司与法人关系以判断一些关联风险,然后做推理决策。所以金融知识图谱对我们来说是非常大的课题,目前我们已经做了宏观经济图谱、A股大盘图谱、A 股个股事件图谱等。