解决网爬工具爬取页面信息出现乱码的问题
点击次数:27 次 发布日期:2008-11-26 11:27:44 作者:源代码网
|
源代码网推荐 网爬工具中自动搜集页面信息时,有的页面出现了出现乱码现象 源代码网推荐 原因: 源代码网推荐 读取页面信息是使用了错误的编码类型。C#.NET从现在的类中获取得来的编码信息有时是错误的,本人认为对不是ASP.NET的应用程序,它读过来的编码信息都是错误的。 源代码网推荐 解决: 源代码网推荐 思路:必须先在运行时获取得该页面的编码,再去读取页面的内容,这样得来的页面内容才不会出现乱码现象。 源代码网推荐 方法: 源代码网推荐 1:使用ASCII编码去读取页面内容。 源代码网推荐 2:使用正则表达式从读取的页面内容中筛选出页面的编码信息。上个步骤获取的页面信息可能会有乱码。但HTML标志是正确的,所有可以从HTML标志中得到编码的信息。 源代码网推荐 3.用正确的编码类型去读取页面信息。 源代码网推荐 如果哪位有更好的方法,请多赐教啊! 源代码网推荐 源代码网推荐 源代码网推荐 下面附上代码: 源代码网推荐 源代码网推荐 代码演示 源代码网推荐 using System; 源代码网推荐 using System.Collections.Generic; 源代码网推荐 using System.Text; 源代码网推荐 using System.Net; 源代码网推荐 using System.Web; 源代码网推荐 using System.IO; 源代码网推荐 using System.Text.RegularExpressions; 源代码网推荐 namespace charset 源代码网推荐 { 源代码网推荐 class Program 源代码网推荐 { 源代码网推荐 源代码网推荐 static void Main(string[] args) 源代码网推荐 { 源代码网推荐 string url = "http://www.gdqy.edu.cn"; 源代码网推荐 GetCharset1(url); 源代码网推荐 GetChartset2(url); 源代码网推荐 源代码网推荐 Console.Read(); 源代码网推荐 } 源代码网推荐 // 通过HttpWebResponse直接获取页面编码 源代码网推荐 static void GetCharset1(string url) 源代码网推荐 { 源代码网推荐 try 源代码网推荐 { 源代码网推荐 WebRequest webRequest = WebRequest.Create(url); 源代码网推荐 HttpWebResponse webResponse = (HttpWebResponse)webRequest.GetResponse(); 源代码网推荐 源代码网推荐 string charset = webResponse.CharacterSet; 源代码网推荐 string contentEncoding = webResponse.ContentEncoding; 源代码网推荐 string contentType = webResponse.ContentType; 源代码网推荐 源代码网推荐 Console.WriteLine("context type:{0}", contentType); 源代码网推荐 源代码网推荐 Console.WriteLine("charset:{0}", charset); 源代码网推荐 源代码网推荐 Console.WriteLine("content encoding:{0}", contentEncoding); 源代码网推荐 //测试或取页面是否出现乱码 源代码网推荐 //Console.WriteLine(getHTML(url,charset)); 源代码网推荐 源代码网推荐 } 源代码网推荐 catch (UriFormatException ex) 源代码网推荐 { 源代码网推荐 源代码网推荐 Console.WriteLine(ex.Message); 源代码网推荐 } 源代码网推荐 catch(WebException ex) 源代码网推荐 { 源代码网推荐 源代码网推荐 Console.WriteLine(ex.Message); 源代码网推荐 } 源代码网推荐 源代码网推荐 源代码网推荐 源代码网推荐 源代码网推荐 } 源代码网推荐 //使用正则表达式获取页面编码 源代码网推荐 static void GetChartset2(string url) 源代码网推荐 { 源代码网推荐 源代码网推荐 try 源代码网推荐 { 源代码网推荐 string html = getHTML(url,Encoding.ASCII.EncodingName); 源代码网推荐 Regex reg_charset = new Regex(@"charsets*=s*(?<charset>[^""]*)"); 源代码网推荐 string enconding = null; 源代码网推荐 if (reg_charset.IsMatch(html)) 源代码网推荐 { 源代码网推荐 enconding = reg_charset.Match(html).Groups["charset"].Value; 源代码网推荐 Console.WriteLine("charset:{0}",enconding); 源代码网推荐 } 源代码网推荐 else 源代码网推荐 { 源代码网推荐 enconding = Encoding.Default.EncodingName; 源代码网推荐 } 源代码网推荐 //测试或取页面是否出现乱码 源代码网推荐 //Console.WriteLine(getHTML(url,enconding)); 源代码网推荐 } 源代码网推荐 catch (UriFormatException ex) 源代码网推荐 { 源代码网推荐 源代码网推荐 Console.WriteLine(ex.Message); 源代码网推荐 } 源代码网推荐 catch(WebException ex) 源代码网推荐 { 源代码网推荐 源代码网推荐 Console.WriteLine(ex.Message); 源代码网推荐 } 源代码网推荐 源代码网推荐 } 源代码网推荐 //读取页面内容方法 源代码网推荐 static string getHTML(string url,string encodingName) 源代码网推荐 { 源代码网推荐 源代码网推荐 try 源代码网推荐 { 源代码网推荐 WebRequest webRequest = WebRequest.Create(url); 源代码网推荐 WebResponse webResponse = webRequest.GetResponse(); 源代码网推荐 Stream stream = webResponse.GetResponseStream(); 源代码网推荐 StreamReader sr = new StreamReader(stream, Encoding.GetEncoding(encodingName)); 源代码网推荐 string html = sr.ReadToEnd(); 源代码网推荐 return html; 源代码网推荐 } 源代码网推荐 catch (UriFormatException ex) 源代码网推荐 { 源代码网推荐 源代码网推荐 Console.WriteLine(ex.Message); 源代码网推荐 return null; 源代码网推荐 } 源代码网推荐 catch (WebException ex) 源代码网推荐 { 源代码网推荐 源代码网推荐 Console.WriteLine(ex.Message); 源代码网推荐 return null; 源代码网推荐 } 源代码网推荐 } 源代码网推荐 源代码网推荐 } 源代码网推荐 } 源代码网推荐 源代码网推荐 http://www.gdqy.edu.cn页面的使用的编码格式是:gb2312 源代码网推荐 第一个方法显示的内容是: 源代码网推荐 context type:text/html 源代码网推荐 charset:ISO-8859-1 源代码网推荐 content encoding: 源代码网推荐 第二个方法显示的内容是: 源代码网推荐 charset:gb2312 源代码网推荐 源代码网推荐 所以第一个方法获取的信息是错误的,第二个方法是对的。 源代码网推荐 为什么第一个方法获取的的编码格式是:ISO-8859-1呢? 源代码网推荐 我用Reflector反射工具获取了CharacterSet属性的源代码,从中不难看出其原因。如果能获取出ContentType属性的源代码就不以看出其出错的原因了,但是搞了许久都没找出,如果那位那补上,那就太感谢了。 源代码网推荐 下面我附上Reflector反射工具获取了CharacterSet属性的源代码,有兴趣的朋友看一看。 源代码网推荐 源代码网推荐 CharacterSet源码 源代码网推荐 public string CharacterSet 源代码网推荐 { 源代码网推荐 get 源代码网推荐 { 源代码网推荐 this.CheckDisposed(); 源代码网推荐 string text1 = this.m_HttpResponseHeaders.ContentType; 源代码网推荐 if ((this.m_CharacterSet == null) && !ValidationHelper.IsBlankString(text1)) 源代码网推荐 { 源代码网推荐 this.m_CharacterSet = string.Empty; 源代码网推荐 string text2 = text1.ToLower(CultureInfo.InvariantCulture); 源代码网推荐 if (text2.Trim().StartsWith("text/")) 源代码网推荐 { 源代码网推荐 this.m_CharacterSet = "ISO-8859-1"; 源代码网推荐 } 源代码网推荐 int num1 = text2.IndexOf(";"); 源代码网推荐 if (num1 > 0) 源代码网推荐 { 源代码网推荐 while ((num1 = text2.IndexOf("charset", num1)) >= 0) 源代码网推荐 { 源代码网推荐 num1 += 7; 源代码网推荐 if ((text2[num1 - 8] == ";") || (text2[num1 - 8] == " ")) 源代码网推荐 { 源代码网推荐 while ((num1 < text2.Length) && (text2[num1] == " ")) 源代码网推荐 { 源代码网推荐 num1++; 源代码网推荐 } 源代码网推荐 if ((num1 < (text2.Length - 1)) && (text2[num1] == "=")) 源代码网推荐 { 源代码网推荐 num1++; 源代码网推荐 int num2 = text2.IndexOf(";", num1); 源代码网推荐 if (num2 > num1) 源代码网推荐 { 源代码网推荐 this.m_CharacterSet = text1.Substring(num1, num2).Trim(); 源代码网推荐 break; 源代码网推荐 } 源代码网推荐 this.m_CharacterSet = text1.Substring(num1).Trim(); 源代码网推荐 break; 源代码网推荐 } 源代码网推荐 } 源代码网推荐 } 源代码网推荐 } 源代码网推荐 } 源代码网推荐 return this.m_CharacterSet; 源代码网推荐 } 源代码网推荐 源代码网推荐 http://www.cnblogs.com/xuanfeng/archive/2007/01/21/626296.html 源代码网推荐 源代码网推荐 做人要厚道,请注明转自酷网动力(www.ASPCOOL.COM)。 源代码网推荐 源代码网供稿. |
