舆情识别需求（最好是成品）

您的位置：首页 > 任务详情

招标模式舆情识别需求（最好是成品）

雇主：mike
发布时间：2023-04-23
分类：程序开发

¥ 10000-50000 元

免责声明该外包需求信息来源于站外平台，本站仅提供公开信息部分字段展示与订阅服务，更多请查看免责声明。

任务详情

对指定的新闻文章的内容进行智能判断，提取出文章描述关键字和态度。新闻文章来源爬虫爬取的各新闻网站、微信公众号的。关键字是某单位主体的名称、简称，高校居多。如北京大学、北大，清华大学、清华。文章的态度即是文本的情感态度，分为以下三种情况：正面：文章对单位主体的认可赞美的。中立：文章对单位主体进行客观真实的介绍，不包含个人立场。负面：文章对单位主体不认可，进行批评指责甚至是恶意抹黑。判断标准要能接近人工识别的标准，至少是让人看上去是相关的。在关键字提取时，像这些都是正文含有北京大学，情绪偏负面的。但是主体内容和北京大学无关的内容，是不需要的。要想办法过滤掉。这样用户一眼看过去相关度就高了。也就容易接受使用了。解决舆情系统误报问题，最终让舆情系统的检测更准确。举例来说：正文里面含有北京大学，但是整体文章和“北京大学”无关。造成误报。根本需求就是提高相关性，降低误报。根据识别是否正确，分为正样本（可以正确判断的样本）和负样本（会识别错误的样本）。以下样本能够正确识别含有北京大学、或者北大的匹配的样本。https://dy.163.com/article/HP3596OB0553THOL.htmlhttps://3g.163.com/dy/article/HH4N4H660536LOE0.htmlhttps://dy.163.com/article/HNE5U0TC0552UVEN.htmlhttps://www.cn-healthcare.com/article/20200619/content-538308.html负样本主要有三类第一类的可能是分词造成的。比如下面的含有“北大”，但是不是我们需要的北京大学的“北大”。https://news.sina.com.cn/s/2022-12-19/doc-imxxeieh3862464.shtmlhttp://www.zhuzhouwang.com/2020/1229/394854.shtmlhttps://www.sznews.com/news/content/2022-12/19/content_25525650.htm第二类，含有“北京大学”，但是这个新闻和北京大学没关系。https://news.hangzhou.com.cn/shxw/content/2022-12/19/content_8429260.htmhttp://www.jiaodong.net/news/system/2022/12/17/014530967.shtmlhttps://www.ztnews.net/article/show-393527.htmlhttp://news.66wz.com/system/2022/12/17/105529619.shtmlhttps://hb.ifeng.com/c/8LlaffrCHQj第三类，含有“北京大学”，内容也匹配。但是情感分析不准确。对于已标记的数据，我们目前的训练结果准确度能达到90%多，但是对于未标记的数据，还是会有误判的情况。希望合作方能给出更好的解决方案。最终输出：合作者最好有过舆情开发经验，能提供以前的项目进行对比查看。如果是全新开发需能提供初步测试的demo进行在线测试。确定可行，提供整体的解决方案，架构设计，程序源码。

任务附件 (0)