学习总结

爬虫方面

前一段时间尝试爬取起点中文网的原创风云榜,虽然没成功,只能总结一下失败原因。
问题:刚开始可以爬取到完整的网页信息,爬取几次后网页无法完整爬取,只显示最后部分的代码。
问题简单分析:
1、bs4 库的 find 和 find_all 应用不熟练,考虑使用 css 选择器,但使用时发现网页源代码已经显示不完整。
2、显示不完整可能是 IP 被封?目前学习构建 IP 池再尝试 。

Pandas 库

1、正在分别 append 和 concatenate 方法使用的区别:
append 感觉是无脑叠加,向 DataFrame 添加 row 时,能否使用 concatenate,目前我只知道 append 方法可以添加。
2、看 pandas 的高级用法,找些实例练习下。

MySQL

刚刚接触,遇到些安装问题,正在解决。