我在抓网站的时候发现个BUG,获取a标签只要是javascript:xxx的情况下 都是""的 需要修改下正则: (<a[^<>]_href=)[\"']([^"'<>]*)[\"'] -> (<a[^<>]_href=)[\"']([^"'<>javascript]*)[\"']