8资源分享论坛 - 资源分享,资源共享|www.8ziyuan.com

标题: 百度文库下载工具---2019-3-6 更新到0.95,PPT下载部分支持 [打印本页]

作者: 唐章小小    时间: 2019-4-25 12:20
标题: 百度文库下载工具---2019-3-6 更新到0.95,PPT下载部分支持
2019-3-6日更新:
更新到版本0.95
主要更新内容:
1:支持ppt下载,不过百度返回的ppt是图片,不是源文件,PPT下载后只是图片格式,不是源文件,这个真的没办法。不过如果只是把PPT下载下来播放,不需要太多修改的,用这个也就够了。
2:大家提出意见希望可以支持选择文件下载路径,一起修改上去了。


下载链接: https://pan.baidu.com/s/1TKLLq9f4P93wCsoIx6iqJQ 提取码: rg7t



2019-2-15 日更新:
更新版本到0.9:
主要更新内容:
1:可以支持图片下载,我看过,word里面直接粘贴图片的,基本上都可以正确裁剪并且下载,可能插入位置有的时候会要大家手动去搞个换行....但是大部分都是正确的。
2:下载后缀名为docx,解决老版本word不能打开问题。


遗留问题:
1:如果在word里面用线段绘制的图形不能下载。
2:  50页逻辑不能下载
3:ppt不能下载
4:界面还是难以置信的丑。。。



最近这两天孩子放寒假,没办法,有点空都在陪他们,实在抽不出时间,不好意思啊。


下载链接:
0.9版本:
链接: https://pan.baidu.com/s/1V77iTXR3N-av_pHjLvEmCA 提取码: 6uvu

2018---12---30日:

记录两个问题:
1:有兄弟反馈下载不全,看了一下,百度超过50页的有另外一个逻辑,需要再破解一下。这部分容我再想想。在此记录一下


临时解决方案:
原来百度文库超过50页的,是有其他逻辑的,这个要容我再看看。临时解决方案,先直接下载一次。文件改名。 然后用链接
https://wenku.baidu.com/view/xxx ... x.html?from=search&pn=51 下载第二次。
https://wenku.baidu.com/view/xxx ... x.html?from=search&pn=101 下载第三次
把三个doc拼在一起即可。
请记得改名,因为三个文档名称相同,会覆盖的。
2:word 老版本打开乱码的,请把后缀改成docx试试看。因为老版本的word是不能直接识别docx格式,需要从后缀名判断。下个版本我直接保存成docx后缀。

2018---12---28日:


今日得宽裕,更新一版 到0.02:
1:应该支持32位windows了,我是照着教程上做的,但是本地没环境,那个兄弟有环境测试过,私信给我一下,多谢。我就不为这事装一个32位windows了。。。
2:pdf 百度有两种格式,一种是图片拍照上去的,一种是文字版本的,文字版本pdf的现在可以支持了。
3:有兄弟反馈文件名每次都是test太丑,修改为下载的文件名,这个已经改好。

遗留问题和大家反馈的问题:
1:图片问题还不能下载,其实基本已经搞定,但是测试中发现有些图片无法下载下来,感觉很奇怪,可能问题出在PIL库里面,需要再多一点时间调试一下。国庆后的那个月中旬可以给大家一个版本,不过插入位置可能会有点小问题。
2:ppt格式现在不能下载。
3:界面太丑。。。。我也知道。捂脸。。。
pdf文字版本下载后,图片示例如下:左边是百度文库的pdf预览,右边是下载后的格式


0.02版本下载链接 请移步到此楼底部,谢谢




2018---12----25 回复一下大家的几个问题:
1:32位windows用不了, 这个是pyinstall在windows 64位上打包的问题。这个应该属于可以解决的问题,不过容我把它放到图片下载之后解决吧。
2:MS Word打开不了是乱码, 我本机没有按照word,用的是wps,用wps一定是可以的。我用的是python的docx包转存的,这个问题我可能搞不定。记录一下,回头有空安装个word看看。
3:收费的为啥不能下全部。 目前确确实实只能下载可以预览的部分,如果收费的部分不能预览,就无法下载,这部分没有计划去做,因为有点越线了,偶不太想去做,所以抱歉。
4:到底这个下载的和其他下载有啥不同,其实主要就一句话,大部分的文字格式 ,段落,颜色都是可以保留的,都是和在百度文库上看到的差不多。
5:excel的格式和word有很大不同,分析起来要费很大劲了,不过pdf格式倒是可以先支持起来。

开发计划:
1:支持PDF
2:支持PIC下载
3: 32位 windows支持
4: 看一下word会有乱码问题。


帖子太长了,有着急的问题私信我把,我争取两天就把整个楼爬一边。




原文 =====================================================================

最近用百度文库里面的word文档,每个都要下载券,搞得火大。到网上搜索,可以下载原格式的,都是需要千方百计的要付费,反正不是要付给百度,就是要付给淘宝或者微信。


唯一几个不需要付费的,下载下来格式惨不忍睹,几乎都不能用,只是单纯的txt文本,还没有什么换行。

明确几点:
1:不能下载付费文档。 也就是需要付人民币的,都不行。
2:其实说白了,就是把可以预览的word部分给整理出来,变成doc格式。
3:如果word里面都是图片的。已经遇到过这种情况了,现在还不能支持。是不是图片,用鼠标在百度文库页面划拉一下就知道了,不能被选中的就是图片。(其实也是可以整出来的,但是偶有点懒。。。现在没动力)

其实我的诉求很简单 ,就是把word文件下载下来,不要求格式完全正确,但是要八九不离十。


为啥不用冰点文库?

主要是因为冰点是先导出pdf,然后扫描出txt,文字识别有可能会错误,还有就是用word打开txt文档还是有字体,颜色等丢失,pdf本身编辑又不方便。还有就是总是要设置我的首页。。。。。

特意做了这样的一个小工具,共享给大家。有很多地方还可以继续优化,可是做的非常累,给大家看看有没有人喜欢,有人喜欢的话,偶就继续再做做。

偶本身不是做界面出身的,因为要给大家使用,还强行去学了一个界面,搞得丑的自己都不想要,大家克服一下吧。

界面逻辑,就一个按钮(实在是不会写界面),空白框里面输入百度文库地址,点击提交。

文档下载到当前目录下的download文件夹里面,无论啥文件,下载号以后都叫test.doc,自己注意重命名,不然会覆盖。 (下个版本加上自动命名吧)

还有就是偶用python做的,不知道为啥python3.7打包出来文件好大好大,要37.6MB,我也很崩溃呀,如果是我自己看到这样的大小,我也以为是病毒呀,可是确实就是这么大,这里面没有任何广告,后门 。。。。。

界面后面故意留了个command窗口,是因为不会做进度条,下载时有信息都是直接输出到command窗口的。大家要是不希望回头我去学怎么做个进度条出来。。。。
   

当前可以做到的是:

1:仅仅支持DOC格式,虽然pdf,txt格式不难,但是还没有时间去做。


2:这个工具可以做到的就是doc文件格式文本下载,字体,颜色,段落基本上都是正确的。


3:目前只能撷取doc文章中的文字部分,图片部分当前还没有完成,已经有思路了,技术上是可行的,回头我再想想怎么整合到代码里面去。


当前实现功能

1:doc格式可以下载,可以识别部分:

1.1:硬回车换行,基本可以正常识别。

1.2:表格中偶尔有硬回车,基本可以识别。

1.3:软回车,基本可以识别

2:文字应该不会有错别字,因为不是用pdf扫描识别做的。


界面如下,很土很土

代码用的是python。

[size=0.83em]baidu2.png (45.46 KB, 下载次数: 3)
下载附件  [url=]保存到相册[/url]
[color=rgb(153, 153, 153) !important]2018-12-25 11:04 上传






最后放地址:
版本0.01, 64位only
链接: https://pan.baidu.com/s/197YJMV1v6RCIE_8kkXpZ0w 提取码: 9zm2
版本0.02, 64/32位
链接: https://pan.baidu.com/s/1m1UjgoaieK13-6NnwplzgQ 提取码: gwf7
下载链接:
0.9版本,64/32位
链接: https://pan.baidu.com/s/1V77iTXR3N-av_pHjLvEmCA 提取码: 6uvu
0.95版本:64/32位


链接: https://pan.baidu.com/s/1TKLLq9f4P93wCsoIx6iqJQ 提取码: rg7t



作者: 温入骨    时间: 2019-4-25 12:24
找了好久终于找到了
作者: 伴凯终老    时间: 2019-4-26 00:16
多谢分享
作者: 我瞎不见光i    时间: 2019-4-26 23:25
多谢,谢谢楼主。
作者: 随他吧    时间: 2019-4-28 03:41
谢谢楼主分享
作者: 烟久    时间: 2019-4-28 14:50
感谢分享啊:aixin:
作者: 偏执的温柔    时间: 2019-4-29 01:33
找了好久终于找到了
作者: 让痛无所    时间: 2019-4-29 14:05
资源可用!谢谢分享!
作者: 泪点是你    时间: 2019-4-30 12:44
感谢分享
作者: 黯然魂销.    时间: 2019-5-1 00:27
多谢,谢谢楼主。
作者: 請把小熊还给我    时间: 2019-5-1 12:41
<<百度文库下载工具---2019-3-6 更新到0.95,PPT下载部分支持>>
作者: 活著就是折騰    时间: 2019-5-2 00:26
<<百度文库下载工具---2019-3-6 更新到0.95,PPT下载部分支持>>
作者: ﹊zんí筆抒情﹏    时间: 2019-5-2 12:12
十分感谢
作者: 木兮木    时间: 2019-5-3 00:09
十分感谢
作者: 呼吸    时间: 2019-5-3 13:27
感谢分享
作者: Penniless    时间: 2019-5-4 02:30
找了好久终于找到了
作者: 泪不肯走    时间: 2019-5-4 15:43
前排支持 感谢分享
作者: 可原    时间: 2019-5-5 05:23
太赞了!!!LZ!!!!
作者: 二次元的妹子    时间: 2019-5-5 18:39
感谢你的分享,论坛有你更加的精彩
作者: 灵魂—堕落者    时间: 2019-5-6 09:26
感谢你的分享,论坛有你更加的精彩
作者: 相许    时间: 2019-5-8 08:20
多谢,谢谢楼主。
作者: 为爱搁浅心脏    时间: 2019-5-8 23:40
<<百度文库下载工具---2019-3-6 更新到0.95,PPT下载部分支持>>
作者: 仦精灵    时间: 2019-5-9 13:28
多谢,谢谢楼主。
作者: 爱⌒轻易说出口    时间: 2019-5-10 03:35
谢谢楼主的分享~~收藏了~~!
作者: wolfzsy    时间: 2019-7-3 13:18
没什么能描述我现在的心情,感谢感激。




欢迎光临 8资源分享论坛 - 资源分享,资源共享|www.8ziyuan.com (https://www.8ziyuan.com/) Powered by Discuz! X3.4