HTML→XML/C#

まだ余分な属性がたくさん付くけど、かなりボロボロなHTMLでもXML化できる(かな?)
要:参照追加 Microsoft.mshtml

IHTMLElementのまま処理すれば属性増加しないが、IHTMLElementには属性コレクションを取得する方法が・・・
he.outerHtmlから属性部分を抽出し、attrNameが含まれるか判断すれば、ある程度まで何とかなる。
属性部分のループがボトルネックで遅いので、LINQ使わないとダメかも。

METAタグの属性、SCRIPTタグの属性と中身などの取得はできていない。
属性値URLをそのまま欲しい場合は、he.getAttribute(attrName, 3)。

ともかくもう少しうまくやる必要がある。

トラックバック(0)

トラックバックURL: http://blog.fne.jp/mt/mt-tb.cgi/103

コメントしちゃいなよ

サイトカウンタ

Total: 211,632 Hits, (Recent24Hours: 0 Hits)
~ Since 2010/01 ~

埋め込みツイッター

取得失敗;;
Now: 2024/07/27 8:50:48 JST

このアーカイブについて

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。

月別 アーカイブ

2024年5月

 日   月   火   水   木   金   土 
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31  

埋め込みQRコード