Episode 05 - NERC Lessons Learned Podcast

June 29, 2020, midnight by Chris Sakr
Last modified June 29, 2020, 3:27 p.m.

Breaker Failure Due to Multiple Reclose Events

Below is the full transcript for this episode. If you'd like to review or follow along with the original .pdf version of this NERC Lesson Learned, click here.


Chris Sakr: Autonomous vehicles, or self-driving cars. Some say their hype is overblown. Others that they should be rushed to the streets. But one thing is clear from the data. They're already much more effective at keeping roads safe than human drivers. 

Greg Park: Humans by nature are really into routines, and we do these things so often and over and over again. And our nature is that through muscle memory and repetitive action, we don't really have to think about what we're doing. 

Chris Sakr: That's a familiar voice. Power Pool's own Greg Park. And he's right about human nature. We're creatures of habit with a unique ability to create efficient systems to maximize repetitive tasks. Chopping vegetables, assembling furniture, building cars, or driving them from place to place. 

Greg Park: Turn signals. If you've ever gone to a country where you drive on the wrong side of the road, the left side of the road, you can tell everybody that's not local there because they have their windshield wipers running, because they keep hitting their windshield wiper lever instead of their turn signal lever. I did that in New Zealand quite a bit. 

Chris Sakr: We've all experienced it. Throw our habits into an altered scenario and try to keep up, but sometimes we don't need to be extracted from routine for problems to pop up. Quite often, the routine itself is missing some crucial step to avoid the unforeseen. And until that worst-case scenario strikes, there's really no way to see the holes in our systems. 

In 2019, there were nearly 39,000 automotive fatalities. While there are an infinite number of reasons for vehicular accidents, and innovations, stringent laws, and traffic regulations have helped incrementally decrease these numbers year over year, the question remains. If all cars on the road were autonomous, could we almost eradicate car accidents and drop general accidents in the U.S. from the third most common cause of death to maybe the number five or six spot? Of course, there's no way to know now, but we do know human error or oversight is behind the majority of these incidents. Sometimes these errors arise from negligence, but many happen when drivers go about business as usual, just at the wrong time. 

On this episode of the NERC Lessons Learned podcast, we're going to look at how humans working on the power system affect processes, which in turn affect minute details that are invisible until things go upside down. This is "Breaker Failure Due to Multiple Reclose Attempts, Primary Interest Groups, Transmission and Generation Owners, and Operators." 

So we all know NERC Lessons Learned can be bland. They can be boring and dry and make you wonder, "Why am I reading this?" So wouldn't it be great to have someone break them down while you read them? Someone to tell you why you're reading it? Maybe even someone to, dare I say, make them a little more interesting? Welcome to source.training's NERC Lessons Learned, brought to you the Northwest Power Pool. In this show, we update you on NERC's most recent lessons learned, breaking them into digestible parts that apply directly to you and the vital work you do with some expert help from the pros, who definitely aren't me. I'm Chris Sakr, And I'll just be your host. 

NERC Lessons Learned are anonymous. This one's no exception, with one caveat. It's been presented as a case study across multiple forms and is publicly known to have occurred at Bonneville Power Association, which makes you a very lucky insider. 

Kelly McFarlane: I'm Kelly MacFarlane. I'm an electrical engineer at Bonneville Power Administration, and I do a lot of event analysis. As a disturbance analysis engineer at BPA, I have to analyze all the disturbances that happen on the power grid, and this one was a big one. 

Chris Sakr: That's right. We have ourselves an insider expert. I sat down with Kelly to mine her experience on this significant event. An event that ended up having a interesting connection to Northwest Power Pool I honestly didn't expect. 

Kelly McFarlane: I think actually for this event, both myself and Greg Park lost power, so kind of interesting. 

Greg Park: 41,601 customers were out of power. I was the one. It would have only been 41,600 if it wasn't for me. So I was sitting at home, and if it's a local fault that's a tree in a distribution system, you just see maybe a flicker or maybe the lights go out completely, but then they come back on. This one was lights maybe were flickering a little bit, but then they just went black. 

Chris Sakr: The human behavioral philosopher himself, our own Greg Park, was one of many BPA customers who lost power during this event. So what happened that left Greg and nearly 42,000 people in the dark? Here's the problem statement. 

"During 115-kV permanent line failure, a line breaker malfunctioned and reclosed into the fault eight times before failing internally, resulting in a bus differential lockout clearing all breakers on the 115-kV bus. After working with the manufacturer, it was determined that the issue was caused by maintenance being done on the breaker incorrectly." 

And before we dive into the why, let's get a better understanding of the what. How exactly did this play out? Now, I can just read you the details section from this document, follow my routine, but instead, let's see what happens when we step back from business as usual and have Kelly do a better job. 

Kelly McFarlane: So on January 5th, there was a big storm in the Portland/Vancouver area, and a tree fell into our Ross-Sifton 115-kV line. When the tree fell, it broke the C-phase conductor, and the conductor fell and got pinned to the ground and transmission tower, creating a permanent fault. When that happened, the breakers on both ends of the line properly tripped to clear the fault and attempted a single reclose and tripped back open again, as they should. 

However, at our Ross substation, the breaker malfunctioned and reclosed in the defaulted line seven more times, evenly spaced by about seven and a half seconds each. And after the final reclose attempt in the defaulted line, the breaker failed to interrupt the fault current and faulted internally on C phase. On C phase of the breaker, the rupture disk blew due to extremely high heat and pressure, and the breaker ran out of SF6 gas. So in this exact moment in time, we have all this fault current flowing into the fault and C phase of the breaker, which is now completely inoperable. This internal fault on the C-phase breaker caused the main bus differential relay to properly trip the main bus lockout relay, and that caused all the breakers at Ross substation on the 115-kV bus to open. 

Chris Sakr: Events like this happen. Trees fall or lightning strikes, and more often than not, relays and breakers do their jobs. Now, if you don't have a great understanding of how breakers do that work, I recommend looking back at our episodes titled "Breaker Failure Due to Trip Coil Polarity and Preparing Circuit Breakers for Cold Weather," also with Greg. And when you're done listening to this, take a look at the Lesson Learned document as well. The corrective actions give us a detailed snapshot of how and why this breaker went rogue, because no matter your job on the system, understanding the mechanisms behind this technology is crucial. 

Greg Park: There's mechanical devices there that may not allow that breaker to perform its function perfectly. The system will eventually protect itself. That's a known. We're going to eventually clear a bus like we did here, and we're going to de-energize things and make things safely with other backup protection schemes. But it is important to realize that that equipment will be damaged, and when you start damaging high-voltage equipment, you have a potential of having safety of the public impaired, safety of personnel impaired. This happened after hours. It didn't happen during the day, but when protective devices fail to operate as expected, it can have a safety risk that operators should be aware of. 

Chris Sakr: Snapshots like the one in this document deliver some very important technical information to keep in your back pocket. They're also visual, which means now's yet another good time to break from routine again. And instead of me trying to read you pictures, Kelly should explain how both BPA and the breaker manufacturer, ABB, discovered the problem's route. 

Kelly McFarlane: After the fact the breaker was removed from the substation for further investigation to figure out why it was self-initiating recloses, BPA and ABB figured out that the issue was with the close latch and the close coil assembly. There was an insufficient gap between the top of the close coil plunger and the close lever. And this information was actually in the instruction book for the breaker. It called for a gap of two to four millimeters with the close lever lifted to touch the release finger. And this breaker had a gap of zero millimeters. So the analogy that was floating around BPA was imagine a Ferris wheel, and you want it to stop after a full circle. And it just continues going and going and going. So it's hard to picture, but it was a mechanical issue in the close latch assembly. 

Chris Sakr: As we learned from the problem statement, incorrect maintenance, specifically an assembly issue, a two to four millimeter gap that should have been but wasn't, a two to four millimeter difference between correct and catastrophic, is an incredibly small margin for error, which makes an oversight that much more understandable, except proper directions were in ABB's manual. 

Kelly McFarlane: BPA has a huge transmission system, and we have all sorts of pieces of equipment. For each piece of equipment, it comes with this large instruction book, but the books aren't really used. BPA basically creates an adaptation of... It's just like a couple sheets of instructions on how you're supposed to do your maintenance. And basically what happened is no one at BPA went through the book thoroughly and followed the manufacturer recommendations for maintenance. And so, as a result, during a previous maintenance cycle, some of the parts were swapped out, and this gap was not put in place. So, essentially, our maintenance guides didn't properly capture the necessary steps laid out in the breaker instruction book. 

Greg Park: And I would argue probably most of our organizations do the same thing. Every document is not written in BPAE, so they got to translate it so it's done in their language so they don't have to relearn how to read every different manufacturer's equipment manual. So that doesn't surprise me. That would be expected, is that everything's translated into how they do things. 

Chris Sakr: Lost in translation. As Greg said, most organizations, if not all, translate manufacturers' massive guides into company-specific instructions, but how could such a significant step have been missed through reviews and revisions? Maybe two to four millimeters seemed insignificant. Maybe it was skipped entirely. Just like there's no way to know the autonomous vehicle future from where we sit now, we'll never know how this crucial installation step became a catastrophic oversight. 

Kelly McFarlane: So after BPA figured out what was wrong with this breaker, we needed to see if we had this problem elsewhere. So we sent out a maintenance alert to all of our districts, asking them to inspect all of our ABB 72PM, 121PM, and 145PM breakers equipped with this FSA-2 mechanism. Just to give you a glimpse of the scope of work, BPA has approximately 400 of these breakers across our transmission system, so quite a few. We actually identified 80 other breakers that had this adjustment issue. 

Chris Sakr: So what began as an aberration revealed 80 catastrophes waiting to happen. No one took a closer look. Business as usual. Autopilot. At any point, way more than 42,000 people could have been left in the dark, but they weren't. Until some were. 

Greg Park: Until something fails catastrophically, there's usually not a lot of after-action review to figure out why something tripped if something just trips and doesn't have a large impact. If this would have been a different breaker and it just affected one circuit, Bonneville's after-action review and real troubleshooting of why this happened may have happened, but it wouldn't have been with as much vigor probably as when you have a complete bus clearing and you have 50,000 customers out of power. 

Kelly McFarlane: For the self-reclose initiation, you need a permanent fault. And a lot of the faults on the power system are transient and momentary, so we hadn't actually seen this happen before and result in a catastrophic failure until this event. Because we found this issue in such a catastrophic means, 42,000 people losing power and stuff like that, it really forced us to look at the rest of our system, and we did find lots of other problems out there. 

Chris Sakr: At the top of the episode, you might have been saddened to hear of the nearly 39,000 auto deaths in 2019. It's 39,000 too many. But, as I said, until the worst-case scenario hits, it can be impossible to spot holes in systems. It's not just our systems' efficiency that makes us unique. Our ability to identify their shortcomings and improve when things go wrong, that can make us thrive. 

Kelly McFarlane: The main takeaway, I'd say, is that BPA just needed to do a better job of following manufacturer instructions. Prior to this event, our maintenance guides were cookie cutter and weren't equipment specific and didn't look at minute details that were in instruction books. And so a lot of these things were overlooked. One of the things that BPA is trying to work on now is how to accurately capture everything that's in the maintenance equipment book in our maintenance procedures. All of our maintenance guides and checklists were thoroughly updated to include the step to check for this gap, which previously was not in our maintenance guides. 

Chris Sakr: It took something severe, but BPA looked closely at the error in all its complexity, at the routine, and they rectified it. Their system's now less likely to have another catastrophic event that puts 41,600 customers and Greg in the dark. The most minute details, sometimes the mechanism within the mechanism, need looking at. We just don't always know where to look. Because sometimes the car has a problem, but at the end of the day, at least for now, it still has a human being at the wheel. 

Greg Park: To me, that's just a function of our human nature, of when we learn how to do something, we take a lot of time to learn how to do it, and we get into the manuals and understand how everything works. But after we've been doing something for 10 times, 20 times, 30 times, we stop going back and referencing maybe the source material. We are routine by nature animals. This lesson learned really highlights that if you do something quite routinely, maybe you should take five minutes at the start of a shift and review why you're doing something that day that you've done for the previous 20 days or the previous 200 days or the previous 400 days. And you might find some errors that have been occurring in your daily operation that you didn't even know existed because you really haven't looked at how something is supposed to be operated or the task that you're actually doing. 

Chris Sakr: Now I said something else at the top of the episode that you may have missed. I said innovation, stringent laws, and traffic regulations have helped incrementally decrease these numbers year over year. In 1968, the first federal legislation was passed requiring all cars be fitted with seatbelts. A few years later, most states began cracking down on driving under the influence. And here's where today's malfunction is only as bad as yesterday's oversight. In 1972 at the peak of car accidents in the U.S., the number of traffic-related fatalities was 54,589, almost 30% higher than today. 

So will autonomous cars take human error out of driving? Whoever knows that will become very famous and very rich, but even without that next innovation, there's a bright reminder here. We overlook things. We miss things. Our systems sometimes backfire. But when we take an honest look at the details and our own oversights, we fix broken things. Traffic accidents have gone down almost every year since 1972, and hopefully that's as much a part of human nature as the systems we build.