HTML→XML/C#

まだ余分な属性がたくさん付くけど、かなりボロボロなHTMLでもXML化できる(かな?)
要:参照追加 Microsoft.mshtml

IHTMLElementのまま処理すれば属性増加しないが、IHTMLElementには属性コレクションを取得する方法が・・・
he.outerHtmlから属性部分を抽出し、attrNameが含まれるか判断すれば、ある程度まで何とかなる。
属性部分のループがボトルネックで遅いので、LINQ使わないとダメかも。

METAタグの属性、SCRIPTタグの属性と中身などの取得はできていない。
属性値URLをそのまま欲しい場合は、he.getAttribute(attrName, 3)。

ともかくもう少しうまくやる必要がある。

トラックバック(0)

トラックバックURL: http://blog.fne.jp/mt/mt-tb.cgi/103

コメントしちゃいなよ

サイトカウンタ

Total: 203,439 Hits, (Recent24Hours: 34 Hits)
~ Since 2010/01 ~

埋め込みツイッター

取得失敗;;
Now: 2017/10/17 14:48:03 JST

このアーカイブについて

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。

2017年8月

 日   月   火   水   木   金   土 
    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31    

埋め込みQRコード