Стало тут открытием, что строка вида
будет выбирать "<jhg>>>>><html>", а не "<jhg>". Труднообъяснимое поведение, но в целом логичное. Зависит еще от "жадности" регекспа, но побороть в sed мне эту жадность не удалось.
Напоролся еще полгода назад, когда парсил какой-то погодный xml. Соответственно, чтобы выбирать нормально теги, надо искать без закрывающейся скобки, т.е. вроде
т.е. не любой символ, а любой, кроме "^"