社交网络隐私主动泄露现象分析:以百度贴吧和微博为例

2024-06-23 06:04:58发布    浏览44次    信息编号:76278

友情提醒:凡是以各种理由向你收取费用,均有骗子嫌疑,请提高警惕,不要轻易支付。

社交网络隐私主动泄露现象分析:以百度贴吧微博为例

OP:我有死侍2的资源,想要的话请留下邮箱!

我一个旁观者:祝福发帖者一生平安~,谢谢。

无聊的人:网站:

本文主要以百度贴吧、微博为例,对社交网络上主动隐私泄露的现象进行分析和探讨。

1. 主要思想

如果是针对个人用户,比如已知的个人信息,并且这些信息能够和社交网络中的某个账号形成一键式关系,那么就可以直接使用百度的站点语法,利用信息X构造来搜索目标SNS。

此时不一定能获取足够的数据,因为不知道单个目标是否曾泄露过隐私,其SNS使用深度也未知。因此我们使用敏感信息通配符进行搜索,先获取用户集合,再获取发言情况。具体流程如下:

2. 单个用户的工具实现

由于代码水平太差就不贴了,emmmm其实就是一个简单的爬虫,具体架构如下:

部分核心函数代码及注释如下:

效果就是当你输入某条信息的时候,它会返回给你指定社交网络中与之相关的用户,你确认用户名,它就会继续爬取该用户的所有语音记录,以后再也不用自己慢慢找了~

另外,因为我比较懒,所以我只用贴吧和微博两个SNS。

3. 理念推广,即获取大量数据的方法

听起来麻烦,其实就是简单的替换,不再局限于看某个人,不过嗯嗯,留了邮箱地址的都来找我,最后如上图所示,我得到了23MB的文本。

由于常规操作较多,爬虫运行速度很慢,云上跑了7000多个用户,用了四五天时间,我加了多线程好像没什么改善?

4. 文本语料处理 4.1 语料预处理及后续操作

此时我们有大量主动泄露个人隐私的用户评论,当然需要对其进行分析。分析之前我们先对语料进行清洗,然后进行分词和向量化。具体主要步骤如下:

去掉停用词和正则表达式很有用,具体的停用词库是几所高校收集的,向量化直接用,其实SNS演讲包含大量短语和短对话,可能用文本向量会更好,但作者技术有限,又懒,就直接用词向量分词了。

4.2 对照组的选择

对照组的选取其实挺麻烦的,正常情况下,这时候你拿到的都是主动泄露隐私的不安全用户的言论,你应该选择一个安全的用户来对比。但定义一个安全的用户太难了,就是我发现你发表的言论中,有个人隐私的,你就是不安全的,但只有你所有的言论都正确,你才是安全的。这里我偷工减料,用的是2012年CCF的微博分析文本,长这样:

4.3 可视化结果

其实在向量化过程中,初始向量是 3M+ 300 维的向量,如果降维到二维,我的笔记本跑不起来。所以我根据分词阶段的权重做了筛选,降维了几个比较有代表性的向量。如下图所示,这是前三次:

我们可以看到,在蓝色对照组中,出现了小规模聚类的情况。这是因为对照组中的文本本身就具有相当强的主题性。

当权重为时,比较如下:

与前面三个实验不同的是,随着考虑范围的扩大,对照组的小规模聚类逐渐消失,两组向量的分布范围接近,没有明显差异。这证明了SNS隐私悖论导致的隐私泄露用户在言语上与一般用户没有明显差异,没有出现明显的言语聚类现象。换言之,仅凭言语来判断用户是否存在安全风险是不可行的。

基于以上结论,做出如下推论:如果SNS用户有特定需求,包括但不限于分享需求,则记录为触发条件,隐私悖论引发的隐私泄露为偶然事件,那么遭遇该事件的用户随时可以在正常活动与隐私泄露之间切换。当触发条件满足时,用户牺牲个人隐私来换取需求的满足;而需求满足后,则继续正常的社交活动。因此,该类用户属于普通用户的子集,可能不是真正的子集。

5.建议解决方案SNS服务器安全策略

1)创建资源共享的专门域,用于资源的共享和分发,完成站内资源的交换,避免SNS之间出现交叉链接,可能导致用户的SNS之间的关系被攻击者连接起来。

2)以用户关系的深度作为信任程度。

3)资源共享区域信息对于低信任度用户不可见,过滤掉了一些不活跃的SNS攻击者和攻击账号,增加了攻击成本。

4)进入资源共享区需要SNS通讯损耗(包括但不限于论坛币),进一步增加了攻击成本,避免大规模批量攻击。

通过隔离SNS中用户分享需求和表达需求实现的区域,将隐私信息分离保护起来。并通过设置权限、收费获取信息等方式,在不影响用户使用的前提下,增加信息获取难度。增加了攻击者对SNS进行自动化攻击的成本,使攻击者进行社会工程攻击的难度加大,从而保护了用户信息安全。

搜索引擎使用限制

1)建立SNS网站列表,收集列表中的信息,提供通用的搜索服务。不提供或者限制使用site、inurl等语法。

2)分析搜索语句,如果发现包含敏感信息并使用高级语法,则拒绝服务。

3)使用IP白名单策略,仅对指定教育或科研机构IP段提供高级语法服务

4)关闭高级语法

以上四个选项可行性依次降低,安全性依次提高,百度网盘可以过滤,那么过滤自己的贴吧是不是有点过分了?

最后,请观看《死侍2》。

*本文作者:仙三仙三仙三,本文属于原创悬赏计划,未经允许禁止转载。

提醒:请联系我时一定说明是从奢侈品修复培训上看到的!