python中http请求demo是如何，返回数据结果如何解析？_Python

4条回答

2楼 · 2020-05-21 20:47

以下代码调试通过：
import pandas as pd
import json

demo = '{"programmers": [{"firstName": "Brett","lastName": "McLaughlin","email": "aaaa"}, { "firstName": "Jason","lastName": "Hunter","email": "bbbb"}, {"firstName":"Elliotte","lastName": "Harold","email": "cccc"}],"authors": [{"firstName": "Isaac","lastName": "Asimov","genre": "sciencefiction"}, {"firstName": "Tad","lastName": "Williams","genre": "fantasy"}, {"firstName": "Frank","lastName": "Peretti","genre": "christianfiction"}],"musicians": [{"firstName": "Eric", "lastName": "Clapton","instrument": "guitar"}, {"firstName": "Sergei","lastName": "Rachmaninoff","instrument": "piano"}]}'
demojs = json.loads(demo)
print('\n', 'demojs: ', demojs)
Aurdata = pd.DataFrame(demojs['authors'])
print('\n', 'Aurdata:\n', Aurdata)

爱梦 - 拿来吧你

3楼 · 2021-10-26 09:32

#! /usr/bin/env python
  # -*- coding:gbk -*-
 
  import os
  import sys
  import json
  import urllib
  import urllib2
 
  if __name__ == "__main__":
    query_file = sys.argv[1]
    query_index = 0
    with open(query_file, 'r') as fp:
      for line in fp:
        query = line.rstrip()
        query_index = query_index + 1
        query_gbk = query
        query = query.decode('gbk', 'ignore').encode('utf8', 'ignore')
        url = 'http://10.42.141.12:8089/adrender?query=%s&ad_num=3&srcid=101'\\
           '&ip=172.22.182.55&baiduid=61ABB404320C72436EB6B8352DFBB388:FG=1' % (query)
        req = urllib2.urlopen(url)
        page = req.read()
        ddict = json.loads(page)
        expid = ddict['expid']
        sid = ddict['sid']
        ad_num = ddict['response_adnum']
        for i in range(0, ad_num):
          output_html = '%s-%d.html' % (query_gbk, i)
          output = open(output_html, 'w')
          ad = ddict['response_ads'][i].encode('utf8', 'ignore')
          output.write('\')
          output.write('\  \\')
          output.write("%s" % (ad))
          output.write('\\')
          output.close()

超甜的布丁

4楼 · 2021-10-26 11:17

您可能需要签出^{}，因为它似乎可以执行更多您想要的操作：Parses an XML section into an element tree incrementally, and reports what’s going on to the user. source is a filename or file object containing XML data. events is a list of events to report back. If omitted, only “end” events are reported. parser is an optional parser instance. If not given, the standard XMLParser parser is used. Returns an iterator providing (event, elem) pairs.

然后，您可以编写一个生成器，使用迭代器，执行您想要的操作，并生成所需的值。

例如：def find_spam(xml):

for event, element in xml.etree.ElementTree.iterparse(xml):

if element.tag == "spam":

print("We found a spam!")

# Potentially do something

yield element

区别主要在于你想要什么。ElementTree的迭代器方法更多的是收集数据，而SAX方法更多的是对数据进行操作。

慢半拍

5楼 · 2021-10-27 14:57

解析请求报文

核心代码

 /* 解析请求行 */
 int parse_start_line(int sockfd, char *recv_buf, req_pack *rp)
 {  char *p = recv_buf;  
 char *ch = p;  
 int i = 0;  
 enum parts { method, url, ver } req_part = method;  
 char *method_str;  
 char *url_str;  
 char *ver_str;  
 int k = 0;  
 if (*ch < 'A' || *ch > 'Z') {   
 return -1;
  }  
 while (*ch != CR) {   
 if (*ch != BLANK) {    
 k++;
   } else if (req_part == method) {
    method_str = (char *)malloc(k * sizeof(char *));    
 memset(method_str, 0, sizeof(char *));    
 strncpy(method_str, recv_buf, k);
    k = 0;
    req_part = url;
   } else if (req_part == url) {
    url_str = (char *)malloc(k * sizeof(char *));    
 memset(url_str, 0, sizeof(char *));    
 strncpy(url_str, recv_buf + strlen(method_str) + 1, k);
    k = 0;
    req_part = ver;
   }
   ch++;
   i++;
  }  if (req_part == url) {   
 if (k != 0) {
    url_str = (char *)malloc(k * sizeof(char));    
 memset(url_str, 0, sizeof(char));    
 strncpy(url_str, recv_buf + strlen(method_str) + 1, k);
    k = 0;
   } else {    
 return -1;
   }
  }  if (k == 0) {
   ver_str = (char *)malloc(8 * sizeof(char));   
 memset(ver_str, 0, sizeof(char));   
 strcpy(ver_str, "HTTP/1.1");
  } else {
   ver_str = (char *)malloc(k * sizeof(char));   
 memset(ver_str, 0, sizeof(char));   
 strncpy(ver_str,     
 recv_buf + strlen(method_str) + strlen(url_str) + 2, k);
  }

  rp->method = method_str;
  rp->url = url_str;
  rp->version = ver_str;  
 return (i + 2);
 } /* 解析首部字段 */
 int parse_header(int sockfd, char *recv_buf, header headers[])
 {  char *p = recv_buf;  
 char *ch = p;  
 int i = 0;  
 int k = 0;  
 int v = 0;  
 int h_i = 0;  
 bool is_newline = false;  
 char *key_str;  
 char *value_str;
  header *tmp_header = (header *)malloc(sizeof(header *));  
 memset(tmp_header, 0, sizeof(header));  
 while (1) {   
 if (*ch == CR && *(ch + 1) == LF) {    
 break;
   }   
 while (*ch != COLON) {
    ch++;
    i++;
    k++;
   }   
 if (*ch == COLON) {
    key_str = (char *)malloc(k * sizeof(char *));    
 memset(key_str, 0, sizeof(char *));    
 strncpy(key_str, recv_buf + i - k, k);
    k = 0;
    ch++;
    i++;
   }   
 while (*ch != CR) {
    ch++;
    i++;
    v++;
   }   
 if (*ch == CR) {
    value_str = (char *)malloc(v * sizeof(char *));    
 memset(value_str, 0, sizeof(char *));    
 strncpy(value_str, recv_buf + i - v, v);
    v = 0;
    i++;
    ch++;
   }
   i++;
   ch++;
   headers[h_i].key = key_str;
   headers[h_i].value = value_str;
   h_i++;
  }  return (i + 2);
 }

解析思想

遍历recv接受到的请求字符串，检查是否遇到回车符\r判断一行数据。

对于起始行，检查是否遇到空格分隔不同的字段；对于首部，检查是否遇到冒号分隔键值对的字段值；对于实体的主体部分，则先判断是否遇到CRLF字符串，然后将剩余内容全部作为实体的主体部分。

返回值是告知程序下一次遍历的起始位置。

如果遇到非法请求行则返回400的响应。