业界动态
抖音数据采集Frida进阶:脱壳、自动化、高频问题
2024-11-04 08:00

https://blog.51cto.com/u_15101562/2622410

抖音数据采集Frida进阶:脱壳、自动化、高频问题

安全工程师在拿到应用评测的任务之后,第一件事情是抓到他的收包发包,第二件事情应该就是拿到它的apk,打开看看里面是什么内容,如果不幸它加了壳,可能打开就是这样的场景,见下图,什么内容都看不到,这时候就要首先对它进行脱壳。

壳的种类非常多,根据其种类不同,使用的技术也不同,这里稍微简单分个类

一代整体型壳:采用Dex整体加密,动态加载运行的机制

二代函数抽取型壳:粒度更细,将方法单独抽取出来,加密保存,解密执行

三代VMP、Dex2C壳:独立虚拟机解释执行、语义等价语法迁移,强度最高。

先说最难的Dex2C目前是没有办法还原的,只能跟踪进行分析;VMP虚拟机解释执行保护的是映射表,只要心思细、功夫深,是可以将映射表还原的;二代壳函数抽取目前是可以从根本上进行还原的,dump出所有的运行时的方法体,填充到dump下来的dex中去的,这也是fart的核心原理;最后也就是目前我们推荐的几个内存中搜索和dump出dex的Frida工具,在一些场景中可以满足大家的需求。

1.1 文件头搜dex

地址是:https://github.com/r0ysue/frida_dump

其核心逻辑原理就是下面一句话magic.indexOf("dex") == 0,只要文件头中含有魔数dex,就把它dump下来。

1.2 DexClassLoader:objection

安卓只能使用继承自baseDexClassLoader的两种ClassLoader,一种是PathClassLoader,用于加载系统中已经安装的apk;一种就是DexClassLoader,加载未安装的jar包或apk。

可以用objcetion直接在堆上暴力搜索所有的dalvik.system.DexClassLoader实例,效果见下图

连热补丁都被搜出来了,在某些一代壳上效果不错。

1.3 暴力搜内存:DEXDump

地址:https://github.com/hluwa/FRIDA-DEXDump

对于完整的dex,采用暴力搜索dex035即可找到。

而对于抹头的dex,通过匹配一些特征来找到,然后自动修复文件头。

效果非常好

打开dump下来的dex,非常完整,可以用jadx直接解析。用010打开可以看到完整的文件头——dexn035,其实现代码也是简单粗暴,直接搜索:64 65 78 0a 30 33 35 00

还有一部分想要特征匹配的功能还在实现中

1.4 暴力搜内存:objection

既然直接使用Frida的API可以暴力搜索内存,那么别忘了我们上面介绍过的objection也可以暴力搜内存。

搜出来的offset是:0x79efc00000,大小是c4 41 83 00,也就是0x8341c4,转化成十进制就是8602052,最后dump下来的内容与FRIDA-DEXDump脱下来的一模一样,拖到jdax里可以直接解析。

在Frida出现之前,没有任何一款工具,可以在语言级别支持直接在电脑上调用app中的方法。像Xposed是纯Java,根本就没有电脑上运行的版本;各种Native框架也是一样,都是由C/C++/asm实现,根本与电脑毫无关系。

而Frida主要是一款在电脑上操作的工具,其本身就决定了其“高并发”、“多联通”、“自动化”等特性

“高并发”:同时操作多台手机,同时调用多个手机上的多个app中的算法

“多联通”:电脑与手机互联互通,手机上处理不了的在电脑上处理、反之亦然

“自动化”:手机电脑互相协同,实现横跨桌面、移动平台协同自动化利器。

2.1 连接多台设备

Frida用于自动化的场景中,必然是不可能在终端敲frida-tools里的那些命令行工具的,有人说可以将这些命令按顺序写成脚本,那为啥不直接写成python脚本呢?枉费大胡子叔叔(Frida的作者oleavr的头像)为我们写好了Python bindings,我们只需要直接调用即可享受。

Python bindings在安装好frida-tools的时候已经默认安装在我们的电脑上了,可以直接使用。

连接多台设备非常简单,如果是USB口直接连接的,只要确保adb已经连接上,如果是网络调试的,也要用adb connect连接上,并且都开启frida server,键入adb devices或者frida-ls-devices命令时多台设备的id都会出现,最终可以使用frida.get_device(id)的API来选择设备,如下图所示。

2.2 互联互通

互联互通是指把app中捕获的内容传输到电脑上,电脑上处理结束后再发回给app继续处理。看似很简单的一个功能,目前却仅有Frida可以实现。

比如说我们有这样一个app,其中最核心的地方在于判断用户是否为admin,如果是,则直接返回错误,禁止登陆。如果不是,则把用户和密码上传到服务器上进行验证登录操作,其核心代码逻辑如下

运行起来的效果如下图

我们的目标就是在电脑上“得到”输入框输入的内容,并且修改其输入的内容,并且“传输”给安卓机器,使其通过验证。也就是说,我们的目标是哪怕输入admin的账户名和密码,也可以绕过本地校验,进行服务器验证登陆的操作。

所以最终我们的hook代码的逻辑就是,截取输入,传输给电脑,暂停执行,得到电脑传回的数据之后,继续执行,用js来写就这么写

在电脑上的处理流程是,将接受到的JSON数据解析,提取出其中的密码部分保持不变,然后将用户名替换成admin,这样就实现了将admin和password发送给服务器的结果。我们的代码如下

同样很多手机上无法处理的数据,也可以编码后发送到电脑上进行处理,比如处理GBK编码的中文字符集数据,再比如对dump下来的内存或so进行二次解析还原等,这些在js几乎是无法处理的(或难度非常大,但是到了电脑上就易如反掌,用python导入几个库就可以。

在一些(网络)接口的模糊测试的场景中,一些字典和畸形数据的构造也会在电脑上完成,app端最多作为执行端接受和发送这些数据,这时候也需要使用到Frida互联互通动态修改的功能。

2.3 远程调用(RPC

在脚本里定义一个导出函数,并用rpc.exports的字典进行声明

在电脑上就可以直接在py代码里调用这个方法

最终效果就是按一下2,function callSecretFun()就会被执行一次,并且结果会显示在电脑上的py脚本里,以供后续继续处理,非常方便。

笔者有一位朋友甚至将该接口使用python的flask框架暴露出去,让网络里的每个人都可以调用该方法,给自己的发包进行签名,可用说是一个需求非常庞大的场景。

最后收集和整理一下大家在学习Frida的过程中可能会遇到的几个高频问题,以餮读者。

3.1 必须上版本管理

Frida从面世到现在已经有四五年了,大概17~18年那会儿开始火爆起来,大量的脚本和工具代码都是那段时间写出来的,而Frida又升级特别快,新的Frida对老的脚本兼容性不是很好,见下图最新的Frida运行老的脚本,日志格式已经乱掉了,而老版本(12.4.8)就没问题,见图2-18。如果要运行一些两三年历史的代码,必然需要安装两三年前左右的版本,这样才能跑起来,并且不出错。

版本管理用pyenv即可,熟练使用pyenv可以基本上满足同时安装几十个Frida版本的需求。

3.2 反调试基本思路

几个最基本的思路,首先frida-server的文件名改掉,类似于frida-server-12.8.9-android-arm64这样的文件名,我一般改成fs1289amd64,当然读者可以想改成啥就改成啥。

有些反调试还会检查端口,比如frida-server的默认端口是27042,这个端口一般不会有人用,如果27042端口打开并且正在监听,反调试就会工作,可以把端口改成非标准端口,方法下一小节就讲。

最后还有一种通过Frida内存特征对maps中elf文件进行扫描匹配特征的反调试方法,支持frida-gadget和frida-server,项目地址在这里。

其核心代码如下

想过这种反调试,得找到反调试在哪个so的哪里,nop掉创建check_loop线程的地方,或者nop掉kill自己进程的地方,都可以。也可以直接kill掉反调试进程,笔者就曾经遇到过这种情况,frida命令注入后,app调不起来,这时候用ps -e命令查看多一个反调试进程,直接kill掉那个进程后,app就起来了,这个app是使用的一个大厂的加固服务,这个进程就是壳的一部分。

3.3 非标准端口连接

比如将frida-server启动在6666端口

效果如图所示

图 连接非标准端口

在python bindings中连接的话,会稍微复杂一点点,因为python bindings只认adb,所以要通过adb命令将手机的6666端口映射到电脑的27042端口

这样python bindings也可以正常使用了。

3.4 打印byte[]``[B

ByteString.of是用来把byte[]数组转成hex字符串的函数, 安卓系统自带ByteString,app里面没有也没关系,可以去系统里面拿,这里给个小案例

3.5 hook管理子进程

经常有人会问,像那种com.xxx.xxx:push、com.xxx.xxx:service、com.xxx.xxx:notification、com.xxx.xxx:search这样的进程如何hook,或者说如何在其创建伊始进行hook,因为这样的进程一般都是由主进程fork()出来的。

这种的就要用到Frida最新的Child gating机制,可以参考我的过往的文章,官方的完整代码在这里。可以在进程创建之初对该进程进行控制和hook,已经很多人用了,效果很好,达成目标。

3.6 hook混淆方法名

有些方法名上了很强的混淆,如何处理?其实很简单,可以看上面ZenTracer的源码,hook类的所有子类,hook类的所有方法,并且hook方法的所有重载。

3.7 中文参数问题

hook某些方法的时候,发现传进来的参数竟然是中文的,如何打印出来?如果是utf8还好,Frida的CLI也是直接支持utf8的,如果是GBK字符集的,目前没有找到在js里进行打印的方法,可以send()到电脑上进行打印。

3.8 hook主动注册

使用Frida来hook JNI的一些函数,打印出主动调用的执行路径。下面是hook Google play Market的例子

源码地址:https://github.com/lasting-yang/frida_hook_libart

3.9 追踪JNI API

地址:https://github.com/chame1eon/jnitrace

3.10 延迟hook

很多时候在带壳hook的时候,善用两个frida提供的延时hook机制

frida --no-pause是进程直接执行,有时候会hook不到,如果把--no-pause拿掉,进入CLI之后延迟几秒再使用%resume恢复执行,就会hook到

js中的setTimeout(func, delay[, ...parameters])函数,会延时delay毫秒来调用func,有时候不加延时会hook不到,加个几百到几千毫秒的延时就会hook到。

关注我获取更多知识或者投稿

    以上就是本篇文章【抖音数据采集Frida进阶:脱壳、自动化、高频问题】的全部内容了,欢迎阅览 ! 文章地址:http://lanlanwork.gawce.com/news/9314.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 阁恬下移动站 http://lanlanwork.gawce.com/mobile/ , 查看更多   
最新新闻
福州百度推广价格,透明与策略的平衡
在当今数字化的商业时代,百度推广已成为众多企业在福州拓展市场的重要手段之一,对于许多企业主来说,福州百度推广价格往往是一
百度营销平台手机版 v7.6.4 安卓版
百度营销app是由百度推出的数据营销助手。使用百度营销,可以实时跟踪账户下多条产品线数据实时监控,搜索查看推广宣传内容,调
在百度推广自己的产品赚钱,知乎视角的深入分析与实践指南
在当今数字化的商业时代,百度推广已成为众多企业和个人推广产品、获取收益的重要手段之一,究竟怎样在百度推广自己的产品并赚钱
百度死了吗
(图片来源:全景视觉)陈永伟/文 1月22日晚间,自媒体人方可成在微信公众号“新闻实验室”发布了一篇题为《搜索引擎百度已死》
百度竞价推广落地页怎么设计?设计原则+技巧,看这一篇就够了
9月12日(下周二)【竞价公开课】点击免费预约!百度竞价推广落地页怎么设计,才能最大限度地促成转化呢?作为促成转化(购买)的最
百度地图商家入驻费用
2024年01月14日吴经理100地图标注 , 地图定位 , 导航地图标记网络技术服务;信息技术咨询服务;技术服务、技术开发、技术咨询、
发布需求的平台★容易收录-欢迎发文合作,发帖百度可以收录的内容
尊敬的客户,您好!我们是北京一家专注互联网技术服务公司,可以提供收录效果好,文章排名好的网站进行发文,发得多,各种关键词
百度推广要多少费用?是如何收费的?
~ 随着网络的广泛普及,用户对搜索引擎的依赖和信任度不断上升。百度作为互联网的主要入口,拥有庞大的流量,成为网民获取信息的
百度百科词条创建入口地址
很多人都想自己创建百度百科,但是不知道从哪儿创建。百度百科是大家都可以创建的,但是又不是都能创建成功的,需要有丰富的经验
百度怎么创建词条 创建流程和常见问题
在信息爆炸的时代,百度百科作为全球最大的中文网络百科全书,不仅是知识分享的重要平台,也是个人、企业品牌建立权威形象的有效