HTML→XML/C#

まだ余分な属性がたくさん付くけど、かなりボロボロなHTMLでもXML化できる(かな?)
要:参照追加 Microsoft.mshtml

IHTMLElementのまま処理すれば属性増加しないが、IHTMLElementには属性コレクションを取得する方法が・・・
he.outerHtmlから属性部分を抽出し、attrNameが含まれるか判断すれば、ある程度まで何とかなる。
属性部分のループがボトルネックで遅いので、LINQ使わないとダメかも。

METAタグの属性、SCRIPTタグの属性と中身などの取得はできていない。
属性値URLをそのまま欲しい場合は、he.getAttribute(attrName, 3)。

ともかくもう少しうまくやる必要がある。

トラックバック(0)

トラックバックURL: http://blog.fne.jp/mt/mt-tb.cgi/103

コメントしちゃいなよ

サイトカウンタ

Total: 211,632 Hits, (Recent24Hours: 0 Hits)
~ Since 2010/01 ~

埋め込みツイッター

取得失敗;;
Now: 2024/03/19 12:00:45 JST

このアーカイブについて

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。

月別 アーカイブ

2024年2月

 日   月   火   水   木   金   土 
        1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29    

埋め込みQRコード