gifts2017

Конкурс "Вопрос-Решение". "Найти символьные вхождения в строке".

Опубликовал Александр Шишкин (Шёпот теней) в раздел Программирование - Практика программирования

В конкурсе "Вопрос-Решение" была задана задача": "Найти символьные вхождения в строке". Вот моё решение.

Условия конкурса. 

 

решение данной задачи относительно несложное. вот что получилось.

с Уважением Шёпот теней, в миру Александр Шишкин.

буду рад критики, поддержке конкурса, советам ...

 

... вот ... 

Скачать файлы

Наименование Файл Версия Размер Кол. Скачив.
ПоискВхождений_00.epf
.epf 9,57Kb
05.04.13
13
.epf 9,57Kb 13 Скачать

См. также

Подписаться Добавить вознаграждение

Комментарии

1. Сергей (ildarovich) 08.04.13 12:56
Под конструктивной критикой можно понимать лучшее решение. В этом смысле моя критика будет неконструктивной.
1. Пример текста к задаче был бы гораздо интереснее и привлек бы больше внимания, если бы являлся кодом программы на языке 1С. Поиск повторов в тексте программ – для многих здесь более актуальная задача, чем анализ стихотворного текста.
2. Относительно небольшое решение должно публиковаться в тексте статьи, а текст обработки прилагаться для проверки. Комментировать решения, методы и алгоритмы удобнее, имея их перед глазами.
3. В обработке по сути, два отдельных метода: предварительная обработка строки (фильтрация и замена символов) и собственно, поиск повторов.
4. Фильтрация и замена символов сделана «с многочисленными огрехами»:
4.1. Сам по себе принцип «наращивания» результирующей строки приведет к тому, что на реальных данных производительность метода быстро деградирует (см. статью «Опять двойка!»). То есть здесь ГОРАЗДО быстрее будет работать цикл из функций «СтрЗаменить».
4.2. В такой простой задаче используется три разных механизма фильтрации и замены: структура для замены (???), поиск в строке алфавита для фильтрации и приведение к нужному регистру. Все преобразования можно выполнить через одно соответствие.
4.3. Структуру для замены использовать неправильно – она для этого не предназначена (хотя и работает, но логарифмической линейкой тоже гвозди забивали) – см. комментарии к статье «Эфективная обработка данных за счет использования коллекции соответствие».
4.4. Зачем заменять на пустышку мягкие и твердые знаки? – Их лучше исключить из алфавита.
4.5. Какой смысл в плавающих отступах?
5. Никаких алгоритмических находок нет. Это решение задачи «в лоб». Время решения пропорционально длине строки в кубе! Тогда как применение суффиксного массива и алгоритма Касаи дает линейное время (не вполне уверен именно в линейности, но точно меньше квадрата). Но даже просто кодирование поиска повторов также не может быть образцом:
5.1. Лишние присваивания исходной строки.
5.2. Лишние вычисления длины строки (в ограничении цикла Для функции вычисляются единственный раз, поэтому нет нужды вычислять длины заранее).
5.3. Вместо ограничения диапазона внутреннего цикла делается проверка длины вырезки, а ведь длина строки долго (пропорционально длине строки) вычисляется.
5.4. Для уже отстатистированной подстроки опять считается число вхождений! (зачем закомментирована проверка?).
5.5. Если подстрока уже не найдена более одного раза, зачем искать еще раз искать более длинные подстроки? Результат будет тем же.
В общем, задача актуальная и интересная, а решение еще улучшать и улучшать.
agrustny; Шёпот теней; +2 Ответить 2
2. Александр Шишкин (Шёпот теней) 08.04.13 13:25
(1) ... вот бы ещё и посмотреть ...
3. Алекс Ю (AlexO) 08.04.13 13:29
(1) ildarovich,
Поиск повторов в тексте программ

это как изволите анализировать? :)
Точнее, как собираетесь анализировать эти самые повторы?
Про невозможность в принципе "увидеть" код типовых - не говорю уже.
И никакая 8.3 тут не поможет, пока 1С не сделает компиляцию отдельно от платформы.
4. Сергей (ildarovich) 08.04.13 14:00
(2)
... вот бы ещё и посмотреть ...
- уточните, пожалуйста, что имели ввиду.
5. Александр Шишкин (Шёпот теней) 08.04.13 14:07
(4) посмотреть - готовое решние со всеми вашими замечаниями! ... впрочем, я не провоцирую - я согласен с вами ...

... вот ...
6. Алекс Ю (AlexO) 08.04.13 14:07
(4) ildarovich,
"мы не ищем легких путей.."
и простых вопросов :)
7. Сергей (ildarovich) 08.04.13 15:16
(5) Провести рефакторинг Вашего решения - тут нет проблем, это не долго (но не интересно), а вот реализовать правильный алгоритм - пока не решил - стоит ли этим заниматься. Вообще не уверен, что на 1С следует решать сложные задачи обработки строк не как учебные. Это не та сфера применения, где платформа 1С эффективна. Для таких случаев разработчики заложили в платформу технологию внешних компонент и нужно использовать их.
8. Александр Шишкин (Шёпот теней) 08.04.13 15:31
(7) ...нууу, так не интересно ... подобно можно ответить на любой вопрос ...

как МЫ знаем - нет универсальных языков програмирования ... каждый под что-то заточен ...

мы не говорим про эффективность программной среды, мы говорим о выполнении задачи языком 1С ...

в остальном же это дело вкуса, желания, возможности, умения, навыков и пр. ...

... вот ...

п.с. все люди делятся на две категории:
1. одни ищут слова, чтобы отказаться от дела
2. вторые ищут дела, чтобы выполнить свои слова

...
9. Алекс Ю (AlexO) 08.04.13 16:15
(8) Шёпот теней,
1. одни ищут слова, чтобы отказаться от дела
2. вторые ищут дела, чтобы выполнить свои слова

Ильдарович ищет знаков, чтобы найти "заточенность" 1С :)
10. Александр Шишкин (Шёпот теней) 08.04.13 16:26
(9) ... лаТно ужжж Вам ... ))) ...

Сергей Ильдарович - не поленился: скачал, заглянул, увидел, структурировал - высказался !!! за, что ему спАсибо ...

п.с.0. ну, не любит он язык 1С ...
п.с.1. зато любит язык запросов !!!

... вот ...
11. анд гру (agrustny) 29.04.14 14:59
(10) Профессор Эльдорадович в отношении данной публикации сделал все правильно. Я так считаю.
12. Александр Шишкин (Шёпот теней) 05.05.14 09:38
(11) agrustny, правильно? не правильно? :

правильно это когда 3+3+3 = 9 а иное - не правильно !!! а вот когда 3*3=9 это тоже правильно ... остальное это споры о "вкусах" ...

... вот моЁ мнение ...
13. анд гру (agrustny) 05.05.14 16:30
14. Сергей (ildarovich) 30.07.14 12:27
(8) Шёпот теней, все же не давала мне покоя эта задача и я постарался ее решить. Решение приведено в статье КопиПастаМер. Правда, в самой статье акцент сделан на практическое применение - поиск повторяющихся фрагментов кода в типовых конфигурациях.

Получились очень интересные результаты (повторов кода в типовых - до фига и больше).

Решение описано штрих-пунктирно, но, если заинтересуетесь, могу дать пояснения. В целом, оказалось, что применив алгоритм Мандера-Майерса и Касаи, можно НА ЧИСТОМ 1С за 15 минут найти ВСЕ повторяющиеся фрагменты в строке из 3,5 миллиона символов.

До этого то же самое сделал на языке запросов, но получилось слишком громоздко и есть одно тонкое место - пока не стал доводить до ума, хотя осталось чуть-чуть.
15. Александр Шишкин (Шёпот теней) 30.07.14 13:30
(14) ildarovich,
Спасибо! вернее ОЧЕНЬ тебе БЛАГОДАРЕН за все твои решения и великие умения !!!

"В целом, оказалось, что применив алгоритм Мандера-Майерса и Касаи, можно НА ЧИСТОМ 1С за 15 минут найти ВСЕ повторяющиеся фрагменты в строке из 3,5 миллиона символов. "
- вот ведь !!!

если же смотреть на "Повторяемость кода в 1С" - то надо задать и другой вопрос - "А?!, где он не повторяется?" ... сложность написания программы коллективом сложнее чем представляется с т.з. "просто кода" т.к. не "код" определяет работу программы.

...вот...
16. Владимир Зленко (ZLENKO) 29.04.15 16:09
(15) Шёпот теней, "Спасибо! вернее ОЧЕНЬ тебе БЛАГОДАРЕН за все твои решения и великие умения !!!"

Уже скоро год (судя по дате последнего поста в форуме) как Шёпот теней покинул ИС ?
17. Алекс Ю (AlexO) 30.04.15 09:22
(16) ZLENKO, да, увы, путный народ разбегается, "среда обитания" вынуждает...
18. Александр Шишкин (Шёпот теней) 30.04.15 14:32
(16), (17) ... уффф ...

"равнение на среднего приводит к обнулению" это то самое исключение которое не подтверждает правило "перехода количества в качество" ...

... вот ...
Для написания сообщения необходимо авторизоваться
Прикрепить файл
Дополнительные параметры ответа